Tìm Hiểu và Ứng Dụng Học Máy Trong Phân Tích Trạng Thái Đơn Hàng Của Chuỗi Logistics Quốc Tế

Tài liệu nghiên cứu Tìm hiểu và ứng dụng học máy trong phân tích trạng thái đơn hàng của chuỗi logistics quốc tế, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về

Trường đại học

Trường Đại Học Kinh Tế Quốc Dân

Chuyên ngành

Học Máy

Người đăng

Ẩn danh

Thể loại

Đồ Án Tốt Nghiệp

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu mô hình kinh doanh

1.2. Đặt vấn đề

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Học máy LSTM

2.1.1. Kiến trúc RNN (Recurrent Neural Network)

2.1.2. Biểu diễn từ trong mô hình (Word representation)

2.1.3. Mô hình LSTM (Long-short term memory)

2.1.4. Giới thiệu về BERT

2.1.5. Kiến trúc Transformer

3. CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

3.1. Phân tích bài toán thu thập và hạ tầng

3.2. Đề xuất giải pháp công nghệ

3.3. Thiết kế hệ thống

3.3.1. Biểu đồ use case tổng quan

3.3.2. Biểu đồ use case phân rã “quản lý tài khoản Grafana”

3.3.3. Biểu đồ use case phân rã “xem biểu đồ trên Grafana”

3.3.4. Biểu đồ use case phân rã “tạo biểu đồ trên Grafana”

3.3.5. Dữ liệu use case “xem biểu đồ trên Grafana”

3.3.6. Dữ liệu use case “tạo biểu đồ trên Grafana”

3.3.7. Biểu đồ tuần tự “xem biểu đồ trên Grafana”

3.3.8. Kiến trúc và các thành phần của hệ thống

4. CHƯƠNG 4: XÂY DỰNG MÔ HÌNH HỌC MÁY

4.1. Thu thập dữ liệu để huấn luyện

4.2. Đánh giá dữ liệu đầu vào

4.3. Mô hình LSTM để trích xuất trạng thái đơn hàng

4.3.1. Tiền xử lý dữ liệu

4.3.2. Biểu diễn câu (word embedding)

4.3.3. Mô hình huấn luyện

4.3.4. Kết quả huấn luyện mô hình

4.4. Mô hình BERT để trích xuất trạng thái đơn hàng

4.4.1. Tiền xử lý dữ liệu (preprocessing data)

4.4.2. Biểu diễn câu

4.4.3. Mô hình huấn luyện

4.4.4. Kết quả huấn luyện mô hình

4.5. Mô hình LSTM để kiểm tra các log đơn hàng có sắp xếp sai thứ tự

5. CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ VÀ TỔNG KẾT

5.1. Đánh giá độ chính xác của các mô hình trên tập dữ liệu Test

5.2. Vận hành hệ thống

5.2.1. Hệ thống thực tế

5.2.2. Hệ thống mô phỏng

5.2.3. Định hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Học Máy Trong Logistics Tổng Quan Phân Tích Đơn Hàng

Trong bối cảnh thương mại điện tử toàn cầu phát triển mạnh mẽ, việc quản lý và theo dõi đơn hàng trở thành yếu tố sống còn, quyết định sự hài lòng của khách hàng và hiệu quả vận hành của doanh nghiệp. Chuỗi logistics quốc tế, với sự phức tạp vốn có, đối mặt với vô số thách thức trong việc duy trì tính minh bạch và chính xác. Học máy cho logistics nổi lên như một giải pháp đột phá, mang lại khả năng tự động hóa và thông minh hóa quy trình. Thay vì dựa vào các phương pháp thủ công hay các quy tắc cứng nhắc, machine learning trong chuỗi cung ứng cho phép hệ thống tự học từ dữ liệu lịch sử để nhận diện các mẫu, dự báo kết quả và đưa ra quyết định chính xác. Nghiên cứu của Vũ Chiến Thắng (2022) tại Học viện Công nghệ Bưu chính Viễn thông đã chứng minh tiềm năng to lớn của việc ứng dụng học máy để trích xuất và phân loại trạng thái đơn hàng từ các bản ghi (log) vận chuyển. Các mô hình này không chỉ xử lý được khối lượng big data trong logistics quốc tế mà còn hiểu được ngữ nghĩa ẩn sau các thông điệp log, kể cả khi chúng được viết bằng nhiều ngôn ngữ khác nhau. Việc phân tích dữ liệu vận tải bằng công nghệ này giúp doanh nghiệp chuyển đổi từ mô hình phản ứng (reactive) sang chủ động (proactive), có thể dự đoán và ngăn chặn các sự cố trước khi chúng xảy ra, qua đó nâng cao chất lượng dịch vụ và tối ưu hóa chi phí vận hành.

1.1. Vai trò cốt lõi của việc phân tích dữ liệu logistics

Phân tích dữ liệu là nền tảng của quản lý chuỗi cung ứng 4.0. Dữ liệu từ mỗi đơn hàng, từ khi được tạo cho đến khi giao thành công, chứa đựng thông tin vô giá. Việc khai thác hiệu quả nguồn dữ liệu này giúp doanh nghiệp nắm bắt được hiệu suất của từng chặng trong chuỗi cung ứng, xác định các điểm nghẽn và các khu vực cần cải thiện. Phân tích dữ liệu logistics không chỉ dừng lại ở việc thống kê mô tả, mà còn tiến tới phân tích dự báo và phân tích đề xuất. Ví dụ, thông qua việc phân tích log, hệ thống có thể xác định các nhà vận chuyển nào thường xuyên gặp sự cố, các tuyến đường nào có rủi ro cao, hoặc thời điểm nào trong năm có tỷ lệ trả hàng tăng đột biến. Những hiểu biết này cho phép các nhà quản lý đưa ra quyết định chiến lược, từ việc lựa chọn đối tác vận chuyển đến việc tối ưu hóa quy trình kho bãi và giao nhận.

1.2. Giới thiệu về machine learning trong chuỗi cung ứng

Machine learning là một nhánh của trí tuệ nhân tạo trong logistics, tập trung vào việc phát triển các thuật toán học máy cho logistics có khả năng học hỏi từ dữ liệu mà không cần được lập trình một cách rõ ràng. Trong chuỗi cung ứng, các ứng dụng phổ biến bao gồm dự báo thời gian giao hàng (ETA prediction), tối ưu hóa lộ trình, quản lý tồn kho và đặc biệt là phân tích trạng thái đơn hàng. Các mô hình học máy, chẳng hạn như LSTM và BERT được đề cập trong nghiên cứu, có khả năng xử lý dữ liệu tuần tự và dữ liệu văn bản phi cấu trúc một cách hiệu quả. Chúng giúp giải quyết bài toán trích xuất thông tin từ các log vận đơn – vốn thường không đồng nhất, được nhập thủ công và chứa nhiều ngôn ngữ. Điều này tạo ra một bước nhảy vọt so với các hệ thống dựa trên quy tắc (rule-based) truyền thống, vốn rất mong manh và khó bảo trì khi có sự thay đổi về định dạng dữ liệu.

II. Thách Thức Của Logistics Quốc Tế Khi Phân Tích Đơn Hàng

Việc theo dõi đơn hàng thời gian thực trong chuỗi logistics quốc tế là một bài toán cực kỳ phức tạp. Dữ liệu không chỉ đến từ một nguồn duy nhất mà là tập hợp thông tin từ nhiều nhà cung cấp, đơn vị vận chuyển, và cơ quan hải quan ở các quốc gia khác nhau. Điều này tạo ra một môi trường dữ liệu rời rạc, thiếu chuẩn hóa và đầy thách thức. Nghiên cứu gốc đã chỉ ra bốn vấn đề cốt lõi mà các hệ thống truyền thống, sử dụng phương pháp so khớp chuỗi (string pattern matching), không thể giải quyết triệt để. Thứ nhất là sự xuất hiện liên tục của các loại dữ liệu mới; mỗi khi có một định dạng log mới, hệ thống lại phải cập nhật thủ công. Thứ hai là việc bỏ qua bối cảnh của chuỗi sự kiện, khi chỉ phân tích log mới nhất mà không xem xét toàn bộ lịch sử đơn hàng. Thứ ba là lỗi trình tự thời gian, khi các sự kiện được ghi nhận không theo thứ tự thực tế. Cuối cùng là rào cản ngôn ngữ, đặc biệt với các log tiếng Trung từ nhà cung cấp. Những yếu điểm này làm giảm độ chính xác của việc xác định trạng thái đơn hàng, dẫn đến phản ứng chậm trễ trước các sự cố và ảnh hưởng tiêu cực đến trải nghiệm khách hàng.

2.1. Vấn đề từ dữ liệu log đa dạng và thiếu cấu trúc

Log vận đơn thường là các đoạn văn bản ngắn do con người nhập liệu. Do đó, chúng không tuân theo một cấu trúc cố định nào. Cùng một sự kiện, ví dụ 'hàng đã đến kho', có thể được diễn tả bằng nhiều cách khác nhau: 'Arrived at facility', 'Reached sorting center', hoặc thậm chí là một đoạn mã nội bộ. Hơn nữa, với các đơn hàng quốc tế, log có thể được ghi bằng tiếng Anh, tiếng Trung hoặc các ngôn ngữ khác. Các hệ thống cũ dựa vào việc lưu trữ các mẫu câu cố định sẽ thất bại ngay khi gặp một biến thể mới, đòi hỏi phải liên tục bảo trì và cập nhật cơ sở dữ liệu mẫu, một công việc tốn kém và không hiệu quả. Đây là lúc khả năng xử lý ngôn ngữ tự nhiên (NLP) trong logistics của học máy phát huy tác dụng.

2.2. Khó khăn trong việc duy trì supply chain visibility

Supply chain visibility (tính minh bạch của chuỗi cung ứng) là khả năng theo dõi chính xác và toàn diện vị trí cũng như trạng thái của hàng hóa ở mọi thời điểm. Sự thiếu chuẩn hóa dữ liệu log là một trong những rào cản lớn nhất để đạt được điều này. Khi các hệ thống không thể tự động diễn giải chính xác ý nghĩa của một bản cập nhật log, thông tin hiển thị cho khách hàng và nhà quản lý sẽ bị sai lệch hoặc chậm trễ. Điều này không chỉ gây hoang mang cho người mua mà còn khiến doanh nghiệp mất đi cơ hội can thiệp kịp thời khi có rủi ro xảy ra, chẳng hạn như thất lạc hàng hóa hay chậm trễ thủ tục hải quan. Việc xây dựng một mô hình dự đoán rủi ro logistics hiệu quả đòi hỏi dữ liệu đầu vào phải sạch và chính xác.

2.3. Rủi ro từ việc sai lệch trình tự thời gian sự kiện

Một thách thức nghiêm trọng khác là các sự kiện của đơn hàng có thể bị sắp xếp sai thứ tự thời gian. Tài liệu nghiên cứu đã chỉ ra trường hợp 'khi đơn hàng tới Mỹ, bên Mỹ nhập thông tin trước bên Trung Quốc khiến cho thứ tự sự kiện bị sai'. Điều này có thể khiến hệ thống diễn giải sai trạng thái hiện tại của đơn hàng. Ví dụ, hệ thống có thể nhầm lẫn rằng đơn hàng đã quay trở lại Trung Quốc sau khi đã đến Mỹ. Các mô hình học máy tuần tự như LSTM có khả năng học các phụ thuộc theo thời gian, giúp phát hiện bất thường trong vận đơn (anomaly detection in logistics) như các trình tự log vô lý, từ đó cảnh báo cho nhà quản lý hoặc tự động sửa lỗi, đảm bảo tính toàn vẹn của dữ liệu.

III. Phương Pháp Dùng LSTM Để Dự Báo Trạng Thái Đơn Hàng

Để giải quyết các vấn đề về dữ liệu tuần tự, mô hình Mạng nơ-ron hồi quy bộ nhớ dài-ngắn (Long Short-Term Memory - LSTM) là một lựa chọn hiệu quả. LSTM là một kiến trúc cải tiến của RNN, được thiết kế đặc biệt để ghi nhớ các thông tin quan trọng trong một chuỗi dài, khắc phục được vấn đề suy giảm gradient. Trong bài toán phân tích trạng thái đơn hàng, toàn bộ lịch sử log của một đơn hàng được xem như một chuỗi văn bản. Mô hình LSTM học cách nhận diện các mẫu tuần tự và mối liên hệ giữa các sự kiện để đưa ra dự đoán về trạng thái cuối cùng. Quy trình xây dựng mô hình bao gồm các bước cốt lõi: tiền xử lý dữ liệu để làm sạch và chuẩn hóa văn bản, mã hóa từ (word embedding) để biến các từ thành vector số học, và cuối cùng là huấn luyện mạng LSTM trên tập dữ liệu đã được gán nhãn. Theo nghiên cứu, mô hình này không chỉ giúp phân loại trạng thái mà còn được ứng dụng để xây dựng một mô hình riêng biệt nhằm kiểm tra xem các log của đơn hàng có bị sắp xếp sai thứ tự hay không, một ứng dụng quan trọng cho việc đảm bảo chất lượng dữ liệu.

3.1. Tiền xử lý và biểu diễn dữ liệu log cho mô hình

Chất lượng của mô hình học máy phụ thuộc rất lớn vào giai đoạn tiền xử lý. Dữ liệu log thô từ các nhà vận chuyển được làm sạch qua nhiều bước: chuyển về chữ thường, loại bỏ ký tự đặc biệt, thay thế dấu câu bằng thẻ '<EOS>' (End of Sentence), và chuẩn hóa từ (Lemmatization). Sau đó, mỗi log được mã hóa thành một chuỗi các con số thông qua bộ từ điển. Bước tiếp theo là biểu diễn câu (word embedding), một kỹ thuật quan trọng trong khoa học dữ liệu cho chuỗi cung ứng. Thay vì dùng one-hot encoding, nghiên cứu sử dụng GloVe để biểu diễn mỗi từ bằng một vector 100 chiều, giúp nắm bắt được mối quan hệ ngữ nghĩa giữa các từ. Ma trận embedding này sau đó được đưa vào tầng đầu tiên của mô hình LSTM, cung cấp một biểu diễn dữ liệu giàu thông tin cho quá trình học.

3.2. Xây dựng và huấn luyện mô hình LSTM phân loại chuỗi

Kiến trúc mô hình LSTM được xây dựng tuần tự. Sau tầng Embedding là các tầng Conv1D và MaxPooling1D để trích xuất các đặc trưng cục bộ quan trọng từ chuỗi log. Tiếp theo là tầng LSTM chính, có nhiệm vụ học các phụ thuộc dài hạn trong chuỗi sự kiện. Cuối cùng, một tầng Dense với hàm kích hoạt softmax được sử dụng để phân loại đơn hàng vào một trong sáu trạng thái (ví dụ: COMPLETED, IN_US, RETURN_TO_SENDER). Nghiên cứu đã áp dụng kỹ thuật Early Stopping để ngăn chặn việc mô hình bị quá khớp (overfitting), tự động dừng quá trình huấn luyện khi hiệu suất trên tập validation không còn cải thiện. Kết quả huấn luyện cho thấy hàm mất mát (loss) giảm dần đều, chứng tỏ mô hình đã học được các mẫu trong dữ liệu một cách hiệu quả.

IV. Cách Tối Ưu Phân Tích Trạng Thái Bằng Mô Hình BERT

Trong khi LSTM hiệu quả với dữ liệu tuần tự, BERT (Bidirectional Encoder Representations from Transformers) đại diện cho một bước tiến vượt bậc trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) trong logistics. BERT là một mô hình 'deeply bidirectional', nghĩa là nó xem xét ngữ cảnh của một từ từ cả hai phía (trái và phải) cùng một lúc, giúp hiểu ý nghĩa của từ một cách sâu sắc hơn. Đối với bài toán phân tích log, điều này cực kỳ hữu ích vì ý nghĩa của một sự kiện thường phụ thuộc vào cả những sự kiện diễn ra trước và sau nó. Thay vì xây dựng từ đầu, nghiên cứu tận dụng sức mạnh của các mô hình đã được huấn luyện trước (pre-trained model) như 'bert-base-uncased'. Mô hình này đã được huấn luyện trên một kho dữ liệu văn bản khổng lồ (Wikipedia và kho sách), do đó nó có một sự 'am hiểu' sẵn có về ngôn ngữ. Quá trình triển khai chỉ cần tinh chỉnh (fine-tuning) mô hình này trên tập dữ liệu log cụ thể của ngành logistics, giúp tiết kiệm đáng kể thời gian và tài nguyên tính toán trong khi vẫn đạt được độ chính xác vượt trội. Đây là một phương pháp tối ưu hóa logistics dựa trên công nghệ tiên tiến nhất.

4.1. Giới thiệu BERT Mô hình ngôn ngữ cho độ chính xác cao

BERT dựa trên kiến trúc Transformer, vốn loại bỏ hoàn toàn cấu trúc hồi quy của RNN/LSTM và thay bằng cơ chế chú ý (attention mechanism). Cơ chế self-attention cho phép mô hình cân nhắc tầm quan trọng của tất cả các từ khác trong câu khi mã hóa một từ cụ thể. Nhờ đó, BERT có thể nắm bắt các mối quan hệ phức tạp và xa trong văn bản. Không giống như Word2Vec hay GloVe tạo ra một vector duy nhất cho mỗi từ, BERT là mô hình 'contextual', tức là vector biểu diễn của một từ sẽ thay đổi tùy thuộc vào câu chứa nó. Ví dụ, từ 'facility' trong 'departed from facility' và 'arrived at facility' sẽ có các biểu diễn khác nhau, phản ánh đúng ngữ cảnh của chúng, mang lại sự chính xác cao hơn cho bài toán phân loại.

4.2. Ứng dụng mô hình BERT base cho phân loại trạng thái

Quy trình ứng dụng BERT bắt đầu bằng việc sử dụng bộ mã hóa (tokenizer) chuyên dụng của nó để chuẩn bị dữ liệu. Mỗi chuỗi log được thêm các token đặc biệt như [CLS] (biểu thị bắt đầu chuỗi cho tác vụ phân loại) và [SEP] (tách các câu). Dữ liệu sau đó được đưa vào mô hình BertForSequenceClassification đã được tải về. Tài liệu gốc nhấn mạnh rằng do mô hình đã được huấn luyện trước, chỉ cần huấn luyện thêm từ 1 đến 4 epoch trên dữ liệu mới là đủ. Quá trình huấn luyện này giúp mô hình 'thích ứng' với các thuật ngữ và cấu trúc đặc thù của log logistics. Kết quả cho thấy phương pháp này không chỉ đơn giản hơn trong triển khai mà còn mang lại độ chính xác cao hơn so với mô hình LSTM được xây dựng từ đầu.

V. Kết Quả Nghiên Cứu Ứng Dụng Học Máy Vào Thực Tiễn

Việc đánh giá hiệu quả của các mô hình học máy là bước cuối cùng và quan trọng nhất để xác thực giải pháp. Nghiên cứu đã tiến hành đánh giá trên một tập dữ liệu thử nghiệm (test set) riêng biệt với khoảng 2.305 logs. Kết quả cho thấy sự vượt trội rõ rệt của các phương pháp đề xuất so với hệ thống cũ. Cụ thể, mô hình LSTM để trích xuất trạng thái đạt độ chính xác 98.915%, một con số rất ấn tượng. Tuy nhiên, mô hình BERT còn xuất sắc hơn khi đạt độ chính xác lên tới 99.523%. Sự chênh lệch này khẳng định sức mạnh của kiến trúc Transformer và lợi ích của việc sử dụng các mô hình ngôn ngữ lớn đã được huấn luyện trước. Bên cạnh đó, mô hình LSTM phụ trách phát hiện bất thường trong vận đơn (cụ thể là sai thứ tự log) cũng đạt độ chính xác 99.566%. Những con số này chứng minh rằng việc ứng dụng học máy trong phân tích trạng thái đơn hàng không chỉ là lý thuyết mà hoàn toàn khả thi và mang lại hiệu quả cao trong thực tế. Hệ thống này giúp doanh nghiệp tự động hóa một tác vụ phức tạp, giảm thiểu sai sót của con người và cải thiện supply chain visibility một cách đáng kể.

5.1. Phân tích ma trận nhầm lẫn và hiệu suất của mô hình

Ma trận nhầm lẫn (Confusion Matrix) được sử dụng để phân tích sâu hơn về hiệu suất của từng mô hình. Kết quả cho thấy cả LSTM và BERT đều hoạt động rất tốt trong việc nhận diện các trạng thái phổ biến như 'COMPLETED' hay 'IN_US'. Mô hình BERT tỏ ra ưu thế hơn trong việc phân biệt các trạng thái dễ gây nhầm lẫn. Ví dụ, trong ma trận của LSTM, có 7 trường hợp 'IN_US' bị dự đoán sai, trong khi con số này ở BERT chỉ là 3. Điều này cho thấy khả năng hiểu ngữ cảnh vượt trội của BERT. Việc phân tích này giúp xác định điểm mạnh, điểm yếu của từng thuật toán và cung cấp cơ sở để lựa chọn mô hình phù hợp nhất cho việc triển khai vào hệ thống sản xuất.

5.2. Case study Vận hành hệ thống phân tích trong thực tế

Khi triển khai vào hệ thống thực tế, tiếp nhận khoảng 3.500 log mỗi ngày, độ chính xác của mô hình đạt khoảng 85%. Sự sụt giảm này, theo tác giả, chủ yếu xuất phát từ việc gán nhãn dữ liệu ban đầu chưa hoàn toàn chính xác cho một số trường hợp log phức tạp. Đây là một bài học quan trọng: chất lượng dữ liệu huấn luyện là yếu tố quyết định. Dù vậy, hệ thống vẫn chứng tỏ được giá trị vượt trội so với giải pháp cũ. Thời gian xử lý trung bình cho mỗi log là khoảng 1-2 giây. Hệ thống mô phỏng với kiến trúc Kafka, Elasticsearch, và Grafana đã vận hành thành công, cho phép ghi log mới và nhận kết quả dự đoán gần như ngay lập tức, trực quan hóa trên các biểu đồ giám sát. Điều này mở ra khả năng theo dõi đơn hàng thời gian thực một cách hiệu quả và tự động.

VI. Tương Lai Của Trí Tuệ Nhân Tạo Trong Logistics 4

Nghiên cứu về ứng dụng học máy trong phân tích trạng thái đơn hàng đã mở ra một hướng đi đầy hứa hẹn cho ngành logistics. Giải pháp này không chỉ giải quyết các thách thức cố hữu của chuỗi cung ứng quốc tế mà còn đặt nền móng cho một hệ thống vận hành thông minh và tự động hơn. Lợi ích chính là việc chuyển đổi dữ liệu log từ dạng văn bản phi cấu trúc, khó khai thác thành một nguồn thông tin có giá trị, cho phép dự báo thời gian giao hàng, phát hiện rủi ro và tối ưu hóa logistics một cách chủ động. Trí tuệ nhân tạo trong logistics không còn là một khái niệm xa vời mà đã trở thành một công cụ mạnh mẽ, giúp doanh nghiệp nâng cao năng lực cạnh tranh, giảm chi phí và mang lại trải nghiệm vượt trội cho khách hàng. Tương lai của ngành này sẽ chứng kiến sự tích hợp ngày càng sâu rộng của AI và Machine Learning vào mọi khía cạnh của chuỗi cung ứng, từ kho bãi thông minh đến giao hàng bằng phương tiện tự hành. Việc liên tục cải tiến và phát triển các mô hình như trong nghiên cứu này là chìa khóa để hiện thực hóa tầm nhìn về một chuỗi quản lý chuỗi cung ứng 4.0 thực thụ.

6.1. Tóm tắt các lợi ích chính của việc ứng dụng học máy

Việc tích hợp học máy vào quy trình phân tích đơn hàng mang lại bốn lợi ích cốt lõi. Một là, tăng độ chính xác trong việc xác định trạng thái đơn hàng, vượt xa các phương pháp thủ công. Hai là, khả năng xử lý đa ngôn ngữ và các định dạng log ngẫu nhiên, giúp hệ thống có tính linh hoạt và khả năng mở rộng cao. Ba là, cho phép phát hiện bất thường trong vận đơn và các rủi ro tiềm ẩn, giúp doanh nghiệp chuyển từ bị động sang chủ động trong quản lý sự cố. Bốn là, nâng cao supply chain visibility, cung cấp thông tin minh bạch và kịp thời cho cả nội bộ và khách hàng, từ đó gia tăng sự tin tưởng và hài lòng.

6.2. Định hướng phát triển và tối ưu hóa hệ thống trong tương lai

Dựa trên kết quả đạt được, nghiên cứu đề xuất một số định hướng phát triển quan trọng. Trước hết, cần tối ưu hóa để giảm thời gian phản hồi của API, hiện đang ở mức khoảng 2 giây, nhằm đáp ứng yêu cầu xử lý thời gian thực tốt hơn. Thứ hai, cần xây dựng một quy trình giám sát và huấn luyện lại mô hình một cách liên tục (Continuous Training). Khi có các log mới hoặc các trường hợp ngoại lệ phát sinh trong thực tế, chúng sẽ được thu thập, gán nhãn và đưa vào để tái huấn luyện, giúp mô hình ngày càng thông minh và thích ứng tốt hơn với sự biến đổi của dữ liệu. Cuối cùng, khi cơ sở dữ liệu đủ lớn, cần nghiên cứu các phương pháp tối ưu hóa luồng xử lý dữ liệu để đảm bảo hiệu suất cao và sự ổn định của toàn bộ hệ thống.

10/07/2025

Bạn đang xem trước tài liệu:

Tìm hiểu và ứng dụng học máy trong phân tích trạng thái đơn hàng của chuỗi logistics quốc tế

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Gidi thiệu dé tài Vũ Chiến Thăng — E17CNI 9 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết CHUONG 2. CO SO LY THUYET 2.1 Hoc may LSTM 2.1 Kiến trúc RNN (Recurrent Neural Network) RNN - Recurrent neural network (mạng nơ-ron hôi quy), là một lớp của mạng nơ- ron, cho phép các đầu ra trước đó được dùng như đầu cho các tầng ân kế tiếp của mô hình.

Kiến trúc RNN được minh hoạ như sau: <1 S2 ys? ysttl> t t a<t-1> a t qSt> [|] t qŠt†1> si -_ 5- ` — — sài t t t t zS<l> x<%> ast? Hình 2.1 Kién triic RNN ¢ Ham lan truyén xudi (forward propagation): Sau mỗi bước t, giá trị kích hoạt a < va dau ra y<> “°° tinh như sau: a<t> = g1(Waaa<t-1> + Waxx<t> + ba) Y<t> = g2(Wyaa<t> + by) Trong đó: - xếP là giá trị đầu vào - g1 va g2 la cac ham kich hoat - Waa, Wax, Way, ba và by la cac siéu bién (hyper parameters) Hình 2.2 Chỉ tiết trong 6 nhoé (memory cell) « Ham mat mat (loss function): Ham mat mat L cua ca qua trinh được tính dựa trên sự mất mát tại mỗi thời điểm Hàm mất mát tại thời điểm t: LY, y) = — ys log log (ys) — (1 — y<'*) log log (1 — ys) Vii Chién Thang — E17CN1 10 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Ham mat mat cua cả quá trình: Ty es y)= » ¡(0*, y<t>) t=0 Trong đó: - Ty là độ đài của chuỗi đầu ra ¢ Ham lan truyền ngược (back propagation): Tại mỗi thời điểm T, đạo hàm của hàm mất mát L với ma trận trọng số W được tính như sau: 8LŒ) T 8LŒ) ——0W=} _— 0W |() t=1 Các mô hình của kiên trúc RNN: I. Many-to-many (nhiêu nhiêu) Với Tx= Ty: độ dài của chuôi đâu vào băng với độ dài của chuôi đâu ra. Mô hình được dùng đề giải quyết bài toán Named-entity recognition (nhận dạng tên thực thể) 01 ge? | ộ „1ˆ te „<0> |.

i - 5 † Za t eA: „<2> gels Hình 2.3 M6 hinh many-to-many 2. Many-to-one (nhiều một) Với Tx>l1, Ty= I1: độ dài của chuỗi đầu vào băng lớn hơn I, độ dài của chuỗi đầu ra băng 1. Mô hình được dùng để giải quyết bài toán Sentiment classification (phân loại cảm xúc) Hình 2.4 Mô hình many-to-one 3. One-to-many (một một) Vii Chién Thang — E17CN1 11 Đồ án tốt nghiệp đại học Chương 2.

Cơ sở lý thuyết Với Tx =1, Ty> I: độ dài của chuôi đâu vào băng I1, độ dài của chuôi đâu ra lớn hơn 1. Mô hình được dùng để giải quyết bài toán Music generation (tạo âm nhạc) bench 0^'*x 9 ^2<2> nT yy > Hinh 2.5 Mo hinh one-to-many 4. One-to-one (mot nhiéu) Với Tx= Ty= I: độ dài của chuỗi đầu vào băng độ dài của chuỗi đâu ra và băng 1. Mô hình được dùng đề giải quyết bài toán Binary classification (phan loai nhi phan) Hình 2.6 Mô hình one-to-one 5.

Many-to-many (nhiêu nhiêu) Với Tx # Ty: độ dài của chuôi đầu vào khác với độ dài của chuối đâu ra. Mô hình duoc ding dé gidi quyét bai toan Machine translation (dich may) go? 0*1x> Ị Ị S%Á7-4<-¬-.7 Mo hinh many-to-many 2.2 Biéu dién tir trong m6 hinh (Word representation) Biểu diễn từ trong xử lý ngôn ngữ tự nhiên (NLP) là một phần cơ bản trong việc xây dựng các khối (block) trong mô hình. Việc này có ảnh hưởng đáng kề tới hiệu năng của mô hình học sâu. Y tưởng của đê xuât này là sẽ biêu diễn môi từ trong đoạn văn bản Vii Chién Thang — E17CN1 12 Đồ án tốt nghiệp đại học Chương 2.

Cơ sở lý thuyết đầu vào thành một vector, các vector này có độ dài bằng nhau. Sau đây là các phương pháp cụ thể: 2. One-hot encoding Ý tưởng chính của phương pháp này là tạo một vector bao gồm các giá trị 0 và duy nhất một gia tril. Cụ thể, đối với một từ khi được biểu diễn bằng vector, chỉ cột tương ứng với chỉ số của từ đó trong từ điền có giá trị bằng 1, còn lại là bằng 0.

Khi đó, vector có kích cỡ là Ix(N+T1), trong đó N là kích cỡ của vector và thêm giá trị 1 là cho những từ nằm ngoài từ điển. Hãy xem ví dụ sau: Ta có bộ từ điền tiếng Anh sau: V =[a, aaron, ., zulu, <UNK>] , |V| = 10000 Trong do: - <UNK>: unknown word (tit khéng co trong ttr dién) - IVỊ: độ dài của từ điển Str dung tir dién V dé biéu dién cac tir sau: Man, Woman, King, Queen, Apple, Orange thành các vector. Thu được kết quả như sau: Man Woman King Queen Apple Orange (5391) (9853) (4914) (7157) (456) (6257)| 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 0 0 _ 0.8 Vi du cho One-hot encoding Các vector có kích cỡ là [VỊ + 1 = 10001. Ví dụ vector biểu diễ từ Man có duy nhất một có gái trị một, vị trí của cột này là vị trí của từ Man trong từ điển V là 5391.

Nhược điểm có thê thấy của phương pháp này là vector của từ không có các đặc trưng về ngữ nghĩa đề phân biệt với các từ khác và đề đạt hiệu quả yêu cầu từ điển phải có kích cỡ lớn dẫn đến đòi hỏi bộ nhớ lớn dé tính toán. Word embedding Ý tưởng chính của phương pháp này là biểu diễn các từ dưới dạng các vector đặc trưng. Mỗi thành phân trong vector là một đặc trưng được ân bên trong nghĩa của từ. Chúng có thể tiết lộ ngữ nghĩa hoặc ngữ nghĩa của từ.

Trong ví dụ đưới đây là vector đặc trưng của các từ: Vii Chién Thang — E17CN1 13 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Man Woman King Queen Apple Orange (5391) (9853) (4914) (7157) (456) (6257) Gender -1 1 -0.9 Vi du cho Word embedding Cac tr Man, Woman, King, Queen, Apple, Orange duoc biéu dién thành các vector có các đặc trưng: Gender (giới tính), Royal (hoàng tộc), Age (tuổi) và Food (thực phẩm). Quan sát có thê thấy đặc trưng Royal của từ King và Queen có giá trị gần nhau, trong khi đó đặc trưng Food của hai từ Apple và Orange có giá trị gần nhau. Rõ rang van đề ngữ nghĩa của từ được giải quyết với phương pháp Word embedding hiểu quả hơn hăn với phương pháp One-hot encoding 2.

Bai todn King Queen Man Woman Bài toán này chứng minh sự khác biệt giữa từ King với Queen tương đồng với sự khác biệt giữa từ Man với Woman trong không gian vector. Có thể biêu diễn bằng công thức sau: €king ~ €queen ~ C€man ~ €woman Trong đó: e là vector biêu diễn từ ^ Male-Female Hình 2.10 Biểu diễn trong không gian vector Trong không gian vector, công thức cô-sin dùng đề so sánh sự tương đồng giữa hai vector (Cosine similarity): Vii Chién Thang — E17CN1 14 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết d »v Hình 2.11 Biểu diễn hai vector u và v trong không gian vector * Uv sin sin(u.v) = ———— (= cos (®)) [|u| ]* Iv] | Với giá trị hàm cô-sin càng lớn chứng tỏ hai vector càng tương đồng. Word2Vec Word2Vec là thư viện được sử dụng rộng rãi cho việc biêu diễn từ, có thể kề đến mô hình Skip-Gram trong thư viện này.

Word2Vec được tạo bởi đội ngũ được dẫn dắt bởi Tomas Mikolov tại Google. Chúng ta có thê huấn luyện Word2Vec trên tập dữ liệu của mình hoặc tải bộ vector đã được huấn luyện rôi. Hiện nay, Google đã công khai bộ vector này trên Google News dataset. Bộ này bao gồm khoảng 3 triệu từ và cụm từ được biểu diễn thành các vector 300 chiềuNgoài ra, còn có thư viện GloVe cũng được dùng phố biến hiện nay.3 M6 hinh LSTM (Long-short term memory) Mô hình LSTM kế thừa từ kiến trúc RNN, nhưng có cải tiến về câu trúc trong các 6 nhé (memory cell), giúp cho việc ghi nhớ giữa các từ ở khoảng cách xa trong văn bản tốt hơn băng việc bồ sung thêm forget gate, update gate.

Hình vẽ dưới đây minh hoạ cho điều này: <t> y a<t> † cSt-1> >@ &: c | awt-1> | Hình 2.12 Ô nhớ (memory cell) trong LSTM Vii Chién Thang — E17CN1 15 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Trong đó: KT” =5 taánh (W,[a!?,x'?] + bạ) r= oO (M„[aS!~1>,x1?| + bụ) ry Ơ (W;[aS“~1*,xS>] + br) I, = 0 (W,[as!7, x5] + bo) <t> <t-1> = Ty * cS? + Tp & | C as? = I, * tanh (c<!*) Trong đó: laham sigmoid: s(x)= 4 _ =0 1+ e-x ° - Ty Tp Po lần lượt là dau ra cua update gate, forget gate va output gate Mô hình LSTM tổng quát như sau: <1> c<0> —†+»+@—>+>øœ i-—> col? PO I | peer | x1? “trrrl^ “trrrj<= x<2> x<3> Hình 2.13 Mô hình LSTM 2.2 Hoc may BERT 2.1 Giới thiệu về BERT BERT dugc coi la state-of-the-art framework cho xử lý ngôn ngữ tự nhiên (NLP). BERT là viết tắt của Bidirectional Encoder Representations from Transformers (biểu diễn bộ mã hoá hai chiều từ kiến trúc Transformer). BERT đã được thiết kế huấn luyện trước trên các văn bản chưa được gán nhãn, bằng cách kết hợp ngữ cảnh từ hai bên trái và phải trong quá trình huấn luyện.

Cụ thé, BERT da được huấn luyện trước trên một tap dữ liêu lớn chưa được gắn nhãn bao gồm toàn bộ dữ liệu trên Wikipedia (khoảng 2500 triệu từ) và kho bản từ sách (khoảng 800 triệu từ). Kết quả là, mô hình pre-trained BERT (đã được huấn luyện) chỉ cần tinh chỉnh thêm một tầng đầu ra đề giải quyết các yêu cầu của bài toán NLP. BERT dựa trên kiến trúc Transformers, kiến trúc này được trình bày ở phân sau. BERT là một mô hình “deeply bidirectional”, điều này nghĩa là mô hình học những thông tin từ hai bên trái và phải của ngữ cảnh trong văn bản trong giai đoạn huấn luyện.

Tính hai chiều của mô hình rất trọng cho việc hiểu được sâu sắc ý nghĩa từ. Cùng xem ví dụ minh hoạ dưới đây, hai câu cùng chứa từ “bank” nhưng ý nghĩa lại hoàn toàn khác nhau: Vii Chién Thang — E17CN1 16 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Context J | \ We went fo the niver an, T need to go to bank to make a deposi.14 Vi du minh hoa cho bidirectional Nếu chỉ dùng một bên ngữ cảnh trái hoặc phải trong câu để dự đoán nghĩa của từ “bank” thì không chính xác. Trong câu thứ nhất, từ “bank” có nghĩa là bờ sông, ở câu thứ hai, từ bank có nghĩa là ngân hàng.

Ý nghĩa của từ “bank” phụ thuộc vào các từ xung quang nó, cả bên trái và phải. Và đó chính xác là những gì BERT đã làm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

công nghệ trí tuệ nhân tạo

logistics thông minh