Tổng quan nghiên cứu
Trong bối cảnh số lượng dữ liệu tài liệu ngày càng gia tăng, việc tự động hóa quá trình định vị và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc như hóa đơn trở thành một nhu cầu cấp thiết. Theo ước tính, các tài liệu bán cấu trúc chứa thông tin rải rác, không cố định vị trí, gây khó khăn lớn cho các phương pháp truyền thống trong việc xử lý và quản lý dữ liệu. Bài toán rút trích thông tin từ ảnh, đặc biệt là hai bài toán chính gồm xác định vị trí và trích xuất thông tin quan trọng (Key Information Localization and Extraction - KILE) và nhận dạng các mục dòng (Line Item Recognition - LIR), đóng vai trò then chốt trong việc nâng cao hiệu quả quản lý thông tin. Mục tiêu nghiên cứu của luận văn là đề xuất một mô hình kết hợp giữa RoBERTa - một mô hình ngôn ngữ tiên tiến, và LION - bộ tối ưu hóa mới, nhằm cải thiện độ chính xác và hiệu suất cho hai bài toán KILE và LIR trên tập dữ liệu DocILE. Phạm vi nghiên cứu tập trung vào dữ liệu hóa đơn tiếng Việt, với các thử nghiệm thực hiện trong năm 2023 tại Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác trích xuất thông tin, giảm thiểu sai sót và tăng tốc độ xử lý tài liệu, góp phần thúc đẩy tự động hóa trong quản lý dữ liệu doanh nghiệp và tổ chức.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính. Thứ nhất là mô hình ngôn ngữ RoBERTa, một phiên bản cải tiến của BERT, nổi bật với khả năng hiểu ngữ cảnh và biểu diễn ngôn ngữ tự nhiên hiệu quả hơn nhờ các mục tiêu tiền huấn luyện mở rộng. RoBERTa được sử dụng để phân loại và nhận dạng các đoạn văn bản trong tài liệu, giúp xác định chính xác loại thông tin cần trích xuất. Thứ hai là bộ tối ưu hóa LION (EvoLved Sign Momentum), được phát triển bởi Google, có ưu điểm vượt trội so với các bộ tối ưu hóa truyền thống như AdamW và Adafactor về tốc độ đào tạo và hiệu quả sử dụng bộ nhớ. LION giúp tăng tốc quá trình huấn luyện mô hình học sâu, đồng thời cải thiện độ chính xác trong các tác vụ xử lý ngôn ngữ tự nhiên. Ngoài ra, luận văn còn sử dụng các khái niệm chuyên ngành như Key Information Extraction (KIE), Key Information Localization and Extraction (KILE), Line Item Recognition (LIR), và các kỹ thuật tiền xử lý, hậu xử lý dữ liệu dựa trên vị trí và nhóm các hộp giới hạn (bounding box) để tối ưu hóa kết quả trích xuất.
Phương pháp nghiên cứu
Nguồn dữ liệu chính được sử dụng là tập dữ liệu DocILE, bao gồm các hình ảnh hóa đơn tiếng Việt với các trường thông tin được gán nhãn chi tiết. Tập dữ liệu này được chia thành ba tập con với tổng số khoảng 6.000 ảnh, cung cấp nền tảng thực nghiệm đa dạng và thực tế cho nghiên cứu. Phương pháp phân tích bao gồm bốn giai đoạn chính: phát hiện và nhận diện văn bản sử dụng DBNet và CRNN để xác định vị trí và chuyển đổi ký tự từ ảnh sang dạng văn bản; tiền xử lý nhằm loại bỏ nhiễu và gom nhóm các đoạn văn bản theo dòng; phân loại văn bản bằng mô hình RoBERTa kết hợp bộ tối ưu hóa LION để xác định lớp thông tin; cuối cùng là hậu xử lý dựa trên vị trí và nhóm các hộp giới hạn để tổ chức và trích xuất thông tin chính xác. Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm đến cuối năm 2023, với các bước thử nghiệm, đánh giá và tối ưu hóa mô hình liên tục nhằm đạt hiệu quả cao nhất.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Phương pháp kết hợp RoBERTa và LION đã cải thiện đáng kể độ chính xác bài toán KILE, với mức tăng 7,24% so với baseline, từ 56,6% lên 61,8% trên tập dữ liệu DocILE. Đây là bước tiến quan trọng trong việc định vị và trích xuất thông tin quan trọng từ các tài liệu bán cấu trúc.
Đối với bài toán LIR, mô hình đề xuất cũng nâng cao khả năng nhận diện chính xác các mục dòng, giúp phân loại và trích xuất thông tin chi tiết trong các bảng hóa đơn với độ chính xác tăng khoảng 5% so với các phương pháp truyền thống.
Việc áp dụng kỹ thuật hậu xử lý dựa trên sự gần nhau của các hộp giới hạn cùng loại trường đã giúp giảm thiểu sai sót trong việc gom nhóm thông tin, tăng tính nhất quán và độ tin cậy của kết quả trích xuất.
So sánh với các bộ tối ưu hóa khác như AdamW và Adafactor, LION thể hiện ưu thế vượt trội về tốc độ huấn luyện, giảm thời gian đào tạo từ 2-15% đồng thời tiết kiệm bộ nhớ, góp phần nâng cao hiệu quả tổng thể của mô hình.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện này là do RoBERTa tận dụng tốt hơn ngữ cảnh và cấu trúc ngôn ngữ trong văn bản, trong khi LION tối ưu hóa quá trình huấn luyện giúp mô hình hội tụ nhanh và chính xác hơn. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu, đồng thời mở rộng ứng dụng hiệu quả cho bài toán trích xuất thông tin từ ảnh tài liệu bán cấu trúc. Việc sử dụng kỹ thuật hậu xử lý dựa trên vị trí và nhóm các hộp giới hạn cũng góp phần quan trọng trong việc xử lý các trường hợp thông tin phân tán và không cố định vị trí, một thách thức lớn trong các tài liệu hóa đơn thực tế. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình và bảng thống kê thời gian huấn luyện, giúp minh họa rõ ràng hiệu quả của phương pháp đề xuất.
Đề xuất và khuyến nghị
Triển khai mô hình RoBERTa kết hợp LION trong hệ thống tự động hóa xử lý hóa đơn nhằm nâng cao độ chính xác trích xuất thông tin, giảm thiểu sai sót nhập liệu, với mục tiêu tăng độ chính xác KILE lên trên 65% trong vòng 12 tháng, do các phòng công nghệ thông tin và phát triển phần mềm thực hiện.
Phát triển module hậu xử lý dựa trên vị trí và nhóm hộp giới hạn để tối ưu hóa việc gom nhóm thông tin, giảm thiểu lỗi phân loại, áp dụng trong vòng 6 tháng, do nhóm nghiên cứu và phát triển AI đảm nhiệm.
Tăng cường đào tạo và cập nhật kiến thức cho nhân viên vận hành hệ thống về các công nghệ học sâu và xử lý ngôn ngữ tự nhiên, nhằm nâng cao hiệu quả sử dụng công cụ tự động, thực hiện định kỳ hàng quý, do bộ phận nhân sự phối hợp với phòng đào tạo.
Mở rộng nghiên cứu và thử nghiệm trên các tập dữ liệu đa dạng hơn như hóa đơn quốc tế hoặc các loại tài liệu bán cấu trúc khác để đánh giá tính tổng quát của mô hình, với kế hoạch thực hiện trong 18 tháng tới, do nhóm nghiên cứu chính phụ trách.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về mô hình ngôn ngữ và tối ưu hóa trong bài toán trích xuất thông tin từ ảnh, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển phần mềm và kỹ sư dữ liệu: Áp dụng các phương pháp và kỹ thuật được đề xuất để xây dựng hệ thống tự động hóa xử lý tài liệu, nâng cao hiệu quả và độ chính xác trong doanh nghiệp.
Các tổ chức và doanh nghiệp quản lý lượng lớn tài liệu hóa đơn, biên lai: Tận dụng mô hình để giảm thiểu sai sót nhập liệu thủ công, tiết kiệm thời gian và chi phí vận hành.
Nhà quản lý và hoạch định chính sách trong lĩnh vực công nghệ thông tin: Tham khảo để định hướng phát triển các giải pháp công nghệ hỗ trợ tự động hóa và chuyển đổi số trong quản lý dữ liệu doanh nghiệp.
Câu hỏi thường gặp
Mô hình RoBERTa là gì và tại sao được chọn trong nghiên cứu này?
RoBERTa là một mô hình ngôn ngữ dựa trên kiến trúc Transformer, cải tiến từ BERT với các mục tiêu tiền huấn luyện mở rộng giúp hiểu ngữ cảnh tốt hơn. Nó được chọn vì khả năng xử lý ngôn ngữ tự nhiên hiệu quả, phù hợp với bài toán phân loại và nhận dạng văn bản trong tài liệu.Bộ tối ưu hóa LION có ưu điểm gì so với AdamW?
LION giúp giảm thời gian đào tạo từ 2-15% và tiết kiệm bộ nhớ so với AdamW, đồng thời cải thiện hiệu suất mô hình trong các tác vụ xử lý ngôn ngữ tự nhiên, giúp mô hình hội tụ nhanh và chính xác hơn.Tập dữ liệu DocILE có đặc điểm gì nổi bật?
DocILE là tập dữ liệu hóa đơn tiếng Việt với các trường thông tin được gán nhãn chi tiết, đa dạng về bố cục và chất lượng ảnh, tạo điều kiện thử nghiệm thực tế cho các mô hình trích xuất thông tin từ ảnh.Phương pháp hậu xử lý dựa trên vị trí hộp giới hạn hoạt động như thế nào?
Phương pháp này gom nhóm các hộp giới hạn có cùng loại trường dựa trên khoảng cách và vị trí tương đối, giúp tăng tính nhất quán trong việc xác định và trích xuất thông tin, giảm sai sót do phân tán dữ liệu.Ứng dụng thực tế của mô hình này trong doanh nghiệp là gì?
Mô hình giúp tự động hóa quy trình nhập liệu hóa đơn, giảm sai sót do con người, tăng tốc độ xử lý tài liệu, tiết kiệm chi phí và nâng cao hiệu quả quản lý thông tin trong các doanh nghiệp và tổ chức.
Kết luận
- Đã đề xuất thành công mô hình kết hợp RoBERTa và bộ tối ưu hóa LION, cải thiện độ chính xác bài toán KILE lên 61,8%, tăng 7,24% so với baseline.
- Phương pháp hậu xử lý dựa trên vị trí và nhóm hộp giới hạn giúp nâng cao hiệu quả trích xuất thông tin và nhận dạng mục dòng (LIR).
- Kết quả thử nghiệm trên tập dữ liệu DocILE chứng minh tính khả thi và hiệu quả của mô hình trong thực tế.
- Nghiên cứu mở ra hướng phát triển mới cho tự động hóa xử lý tài liệu bán cấu trúc, đặc biệt là hóa đơn tiếng Việt.
- Đề xuất các bước tiếp theo gồm triển khai ứng dụng thực tế, mở rộng thử nghiệm trên dữ liệu đa dạng và đào tạo nhân lực vận hành hệ thống.
Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các giải pháp dựa trên mô hình này để nâng cao hiệu quả quản lý thông tin trong kỷ nguyên số.