Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo và thị giác máy tính, bài toán trích xuất thông tin tự động từ văn bản tiếng Việt, đặc biệt là từ các hóa đơn thanh toán, đang trở thành một lĩnh vực nghiên cứu cấp thiết. Theo ước tính, việc xử lý thủ công các hóa đơn tiêu tốn nhiều thời gian và nhân lực, gây ra sự chậm trễ và sai sót trong quản lý tài chính doanh nghiệp. Luận văn thạc sĩ này tập trung nghiên cứu phát triển thuật toán nhận dạng và trích xuất thông tin trong văn bản tiếng Việt, với phạm vi áp dụng trên hóa đơn thanh toán bao gồm cả chữ in và chữ viết tay. Dữ liệu nghiên cứu gồm 384 ảnh hóa đơn, trong đó có 240 ảnh chữ in và 144 ảnh chữ viết tay, thu thập từ nhiều nguồn khác nhau và đa dạng về mẫu mã, người viết.
Mục tiêu chính của nghiên cứu là xây dựng một hệ thống hoàn chỉnh từ bước phát hiện chữ viết trong ảnh scan hoặc ảnh chụp đến nhận dạng ký tự và trích xuất các trường thông tin quan trọng như mã hóa đơn, ngày tháng, thông tin bên bán, bên mua, tổng tiền và thuế. Nghiên cứu ứng dụng các mô hình deep learning hiện đại như Faster R-CNN, Cascade R-CNN, YoLov4 cho phát hiện chữ viết; AttentionOCR và TransformerOCR cho nhận dạng ký tự; Graph Convolutional Network (GCN) cho trích xuất thông tin. Kết quả thử nghiệm cho thấy độ chính xác đạt khoảng 92% với hóa đơn chữ in và 78% với hóa đơn chữ viết tay, thể hiện tiềm năng ứng dụng thực tiễn trong tự động hóa quy trình xử lý hóa đơn tại các doanh nghiệp và cơ quan kế toán.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên ba khung lý thuyết chính tương ứng với ba bài toán nhỏ trong hệ thống:
Phát hiện chữ viết (Object Detection): Sử dụng các mô hình deep learning trong thị giác máy tính như Faster R-CNN, Cascade R-CNN và YoLov4 để xác định vị trí các dòng chữ trong ảnh hóa đơn. Các thuật toán này dựa trên kiến trúc mạng nơ-ron tích chập (CNN) và các kỹ thuật như Region Proposal Network (RPN), ROI pooling, và anchor boxes để phát hiện chính xác các vùng chứa chữ viết.
Nhận dạng ký tự quang học (Optical Character Recognition - OCR): Áp dụng mô hình AttentionOCR và TransformerOCR, kết hợp CNN và cơ chế attention trong mạng LSTM hoặc Transformer, nhằm chuyển đổi hình ảnh các dòng chữ thành chuỗi ký tự văn bản. Các mô hình này giúp xử lý đặc thù của tiếng Việt với dấu và các ký tự phức tạp.
Trích xuất thông tin (Information Extraction): Sử dụng Graph Convolutional Network (GCN) để phân loại và trích xuất các trường thông tin quan trọng từ các đoạn văn bản đã nhận dạng. GCN khai thác cấu trúc liên kết giữa các textbox trong hóa đơn, giúp mô hình hiểu được mối quan hệ ngữ cảnh giữa các phần thông tin.
Các khái niệm chuyên ngành quan trọng bao gồm Intersection over Union (IoU) để đánh giá độ chính xác phát hiện vùng chữ, Non-Maximal Suppression (NMS) để loại bỏ các vùng trùng lặp, và embedding vector để biểu diễn văn bản dưới dạng số phục vụ cho GCN.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là 384 ảnh hóa đơn thanh toán tiếng Việt, gồm 240 ảnh chữ in và 144 ảnh chữ viết tay, thu thập từ internet và tự tạo thêm với sự tham gia của 20 người viết khác nhau. Dữ liệu được gán nhãn thủ công bằng phần mềm chuyên dụng để xác định vị trí và nội dung các dòng chữ.
Phương pháp phân tích gồm ba bước:
Phát hiện chữ viết: Thử nghiệm và so sánh ba mô hình Faster R-CNN, Cascade R-CNN và YoLov4 trên bộ dữ liệu đã chuẩn bị. Các tham số huấn luyện được thiết lập phù hợp với từng mô hình, sử dụng thư viện PyTorch để triển khai.
Nhận dạng ký tự: Áp dụng hai mô hình AttentionOCR và TransformerOCR để nhận dạng ký tự từ các vùng chữ đã phát hiện. Dữ liệu được xử lý để phù hợp với yêu cầu đầu vào của từng mô hình, đồng thời đánh giá hiệu suất qua các chỉ số như độ chính xác và tỉ lệ lỗi.
Trích xuất thông tin: Xây dựng mô hình GCN để phân loại các đoạn văn bản thành các trường thông tin đã định nghĩa trước. Dữ liệu đầu vào là các vector embedding của các textbox, mô hình được huấn luyện và kiểm thử trên tập dữ liệu đã gán nhãn.
Quá trình nghiên cứu kéo dài trong năm 2022, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và đánh giá kết quả. Hệ thống cuối cùng được triển khai dưới dạng một trang web đơn giản để người dùng có thể thử nghiệm trực tiếp.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả phát hiện chữ viết: Mô hình Cascade R-CNN đạt kết quả tốt nhất với chỉ số mAP (mean Average Precision) khoảng 85% trên bộ dữ liệu hóa đơn chữ in, vượt trội hơn Faster R-CNN và YoLov4. Đối với hóa đơn chữ viết tay, YoLov4 cho kết quả khả quan với độ chính xác khoảng 75%, thể hiện khả năng xử lý tốt các mẫu chữ khó nhận dạng.
Nhận dạng ký tự: TransformerOCR cho độ chính xác nhận dạng ký tự lên đến 90% trên dữ liệu chữ in, cao hơn so với AttentionOCR (khoảng 85%). Tuy nhiên, với chữ viết tay, cả hai mô hình đều giảm hiệu suất, đạt khoảng 78% do đặc thù khó khăn của chữ viết tay tiếng Việt.
Trích xuất thông tin: Mô hình GCN phân loại chính xác các trường thông tin trong hóa đơn với độ chính xác trung bình 88% trên dữ liệu chữ in và 75% trên chữ viết tay. Việc sử dụng cấu trúc đồ thị giúp mô hình hiểu được mối quan hệ giữa các textbox, cải thiện đáng kể so với các phương pháp phân loại truyền thống.
Hệ thống tổng thể: Khi tích hợp ba bước trên, hệ thống đạt độ chính xác tổng thể 92% với hóa đơn chữ in và 78% với hóa đơn chữ viết tay. Thời gian xử lý trung bình cho một hóa đơn khoảng vài giây, phù hợp với ứng dụng thực tế.
Thảo luận kết quả
Kết quả cho thấy việc áp dụng các mô hình deep learning hiện đại trong từng bước xử lý văn bản tiếng Việt là khả thi và hiệu quả. Cascade R-CNN vượt trội trong phát hiện chữ viết nhờ cơ chế hồi quy phân tầng giúp tăng độ chính xác vùng phát hiện, phù hợp với đặc điểm đa dạng của hóa đơn. TransformerOCR thể hiện ưu thế trong nhận dạng ký tự nhờ khả năng chú ý và xử lý chuỗi tốt, đặc biệt với văn bản rõ ràng.
Mô hình GCN là điểm mới trong trích xuất thông tin, khai thác cấu trúc liên kết giữa các phần văn bản, giúp phân loại chính xác hơn so với các mô hình phân loại đơn thuần. Tuy nhiên, hiệu suất giảm khi xử lý chữ viết tay do tính đa dạng và khó đoán của chữ viết cá nhân, đòi hỏi thêm dữ liệu và cải tiến mô hình.
So sánh với các nghiên cứu trước chủ yếu tập trung vào tiếng Anh hoặc các ngôn ngữ khác, nghiên cứu này đóng góp quan trọng trong việc phát triển công nghệ xử lý ngôn ngữ tự nhiên và thị giác máy tính cho tiếng Việt, đặc biệt trong lĩnh vực hóa đơn thanh toán đa dạng về mẫu mã và hình thức.
Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác từng mô hình phát hiện chữ viết, nhận dạng ký tự và trích xuất thông tin, cũng như bảng tổng hợp kết quả cuối cùng của hệ thống trên hai loại hóa đơn.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu hóa đơn chữ viết tay từ nhiều đối tượng khác nhau để tăng tính đa dạng, giúp cải thiện độ chính xác nhận dạng ký tự và trích xuất thông tin. Thời gian thực hiện dự kiến 6-12 tháng, do các tổ chức kế toán và doanh nghiệp phối hợp cung cấp dữ liệu.
Tối ưu mô hình nhận dạng ký tự: Nghiên cứu và áp dụng các kiến trúc Transformer mới hoặc kết hợp với kỹ thuật augmentation dữ liệu để nâng cao khả năng nhận dạng chữ viết tay. Mục tiêu tăng độ chính xác lên trên 85% trong vòng 6 tháng, do nhóm nghiên cứu AI chuyên sâu thực hiện.
Phát triển giao diện người dùng thân thiện: Xây dựng ứng dụng web hoặc phần mềm tích hợp hệ thống trích xuất thông tin, hỗ trợ người dùng doanh nghiệp dễ dàng tải lên hóa đơn và nhận kết quả nhanh chóng. Thời gian phát triển 3-4 tháng, do nhóm phát triển phần mềm đảm nhiệm.
Triển khai thử nghiệm thực tế: Hợp tác với các doanh nghiệp, phòng kế toán để áp dụng hệ thống vào quy trình làm việc thực tế, thu thập phản hồi và điều chỉnh mô hình phù hợp. Kế hoạch triển khai trong 6 tháng, với mục tiêu giảm thời gian xử lý hóa đơn ít nhất 50%.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử, Trí tuệ nhân tạo: Có thể áp dụng các phương pháp và mô hình deep learning trong xử lý ngôn ngữ tự nhiên và thị giác máy tính, đặc biệt cho tiếng Việt.
Doanh nghiệp và phòng kế toán: Hỗ trợ tự động hóa quy trình xử lý hóa đơn, giảm thiểu sai sót và tăng hiệu quả công việc thông qua hệ thống trích xuất thông tin tự động.
Nhà phát triển phần mềm và công nghệ: Tham khảo kiến trúc hệ thống, thuật toán và cách tích hợp các mô hình deep learning để xây dựng các ứng dụng tương tự trong lĩnh vực xử lý văn bản và tài liệu.
Cơ quan quản lý và tổ chức tài chính: Áp dụng công nghệ để nâng cao hiệu quả quản lý tài liệu, kiểm tra và xử lý hóa đơn, góp phần hiện đại hóa quy trình hành chính.
Câu hỏi thường gặp
Hệ thống có thể xử lý các hóa đơn có nhiều trang không?
Hiện tại, hệ thống được thiết kế để xử lý hóa đơn một trang với nội dung rõ ràng và độ nghiêng chữ không quá 10 độ. Việc mở rộng cho nhiều trang cần nghiên cứu thêm về phân đoạn và nối kết thông tin giữa các trang.Độ chính xác của hệ thống với chữ viết tay như thế nào?
Độ chính xác nhận dạng và trích xuất thông tin với chữ viết tay đạt khoảng 78%, thấp hơn so với chữ in do tính đa dạng và khó đoán của chữ viết cá nhân. Cần thêm dữ liệu và cải tiến mô hình để nâng cao hiệu quả.Hệ thống có hỗ trợ các loại hóa đơn khác ngoài hóa đơn thanh toán không?
Nghiên cứu tập trung vào hóa đơn thanh toán tiếng Việt với 16 trường thông tin cụ thể. Việc áp dụng cho các loại văn bản khác cần điều chỉnh mô hình và huấn luyện lại với dữ liệu phù hợp.Thời gian xử lý một hóa đơn là bao lâu?
Trung bình hệ thống xử lý một hóa đơn trong vài giây, phù hợp với yêu cầu ứng dụng thực tế trong doanh nghiệp và phòng kế toán.Có thể tích hợp hệ thống vào phần mềm quản lý hiện có không?
Có thể, hệ thống được xây dựng với giao diện web đơn giản và có thể phát triển API để tích hợp vào các phần mềm quản lý tài chính, kế toán hiện hành.
Kết luận
- Luận văn đã xây dựng thành công hệ thống nhận dạng và trích xuất thông tin tự động từ hóa đơn thanh toán tiếng Việt, bao gồm cả chữ in và chữ viết tay.
- Ứng dụng các mô hình deep learning hiện đại như Cascade R-CNN, TransformerOCR và GCN giúp đạt độ chính xác cao, lần lượt 92% và 78% cho hai loại hóa đơn.
- Nghiên cứu góp phần mở rộng lĩnh vực xử lý ngôn ngữ tự nhiên và thị giác máy tính cho tiếng Việt, đặc biệt trong ứng dụng thực tiễn.
- Các bước tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình và triển khai thử nghiệm thực tế tại doanh nghiệp.
- Khuyến khích các nhà nghiên cứu và doanh nghiệp quan tâm áp dụng và phát triển thêm để nâng cao hiệu quả tự động hóa xử lý văn bản.
Hãy bắt đầu ứng dụng công nghệ nhận dạng và trích xuất thông tin tự động để nâng cao hiệu quả quản lý tài liệu và tiết kiệm thời gian cho doanh nghiệp của bạn ngay hôm nay!