I. Hàm mất mát
Luận văn tập trung vào việc đề xuất một hàm mất mát mới, EIOU, để cải thiện hiệu suất trong bài toán phát hiện đối tượng trên ảnh tiếng Việt. Hàm mất mát này được thiết kế để tối ưu hóa quá trình hồi quy hộp giới hạn, giúp mô hình học sâu xác định vị trí các đối tượng chính xác hơn. Các hàm mất mát truyền thống như IOU, GIOU, DIOU, và CIOU được phân tích để làm cơ sở cho đề xuất mới. EIOU kết hợp ưu điểm của các hàm này, đồng thời khắc phục các hạn chế như độ lệch tâm và kích thước hộp giới hạn.
1.1. Phân tích hàm mất mát truyền thống
Các hàm mất mát truyền thống như IOU, GIOU, DIOU, và CIOU được đánh giá chi tiết. IOU đo lường sự chồng lấp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế, nhưng không xử lý được trường hợp không chồng lấp. GIOU khắc phục điều này bằng cách tính toán diện tích bao phủ, nhưng vẫn có hạn chế về độ lệch tâm. DIOU và CIOU bổ sung thêm yếu tố khoảng cách và tỷ lệ khung hình, nhưng vẫn chưa tối ưu cho các đối tượng đa dạng trong ảnh tiếng Việt.
1.2. Đề xuất hàm mất mát EIOU
Hàm EIOU được đề xuất để giải quyết các hạn chế của các hàm mất mát truyền thống. Nó kết hợp yếu tố khoảng cách, tỷ lệ khung hình và độ lệch tâm, giúp mô hình học sâu hội tụ nhanh hơn và đạt độ chính xác cao hơn. Kết quả thực nghiệm trên bộ dữ liệu UIT-DODV cho thấy EIOU cải thiện đáng kể hiệu suất phát hiện đối tượng, đạt 76,1% mAP, cao hơn 1,6% so với các phương pháp hiện có.
II. Phát hiện đối tượng
Bài toán phát hiện đối tượng trên ảnh tiếng Việt được nghiên cứu với mục tiêu xác định vị trí các đối tượng như bảng, hình, chú thích, và công thức trong tài liệu dạng ảnh. Luận văn sử dụng các mô hình học sâu tiên tiến như Dynamic Faster R-CNN, Guided Anchoring R-CNN, PointRend, và CascadeTabNet để giải quyết bài toán này. Các mô hình này được huấn luyện trên bộ dữ liệu UIT-DODV, bộ dữ liệu đầu tiên về ảnh tiếng Việt với các đối tượng đa dạng.
2.1. Các mô hình học sâu tiên tiến
Các mô hình học sâu như Dynamic Faster R-CNN và Guided Anchoring R-CNN được sử dụng để cải thiện độ chính xác trong việc phát hiện đối tượng. PointRend tập trung vào việc tinh chỉnh các biên của đối tượng, trong khi CascadeTabNet được thiết kế đặc biệt để phát hiện và nhận diện cấu trúc bảng. Các mô hình này được đánh giá dựa trên các tiêu chí như IOU và mAP.
2.2. Thách thức trong phát hiện đối tượng
Bài toán phát hiện đối tượng trên ảnh tiếng Việt đối mặt với nhiều thách thức như độ nghiêng, độ mờ, tiếng ồn, và sự đa dạng trong bố cục tài liệu. Các đối tượng như bảng và hình có thể có cấu trúc phức tạp, đòi hỏi mô hình học sâu phải có khả năng xử lý tốt các biến thể này. Bộ dữ liệu UIT-DODV được sử dụng để đánh giá khả năng của các mô hình trong việc giải quyết các thách thức này.
III. Ảnh tiếng Việt
Luận văn tập trung vào việc phát hiện đối tượng trên ảnh tiếng Việt, một lĩnh vực còn nhiều hạn chế trong nghiên cứu. Bộ dữ liệu UIT-DODV được sử dụng làm cơ sở để đánh giá các phương pháp đề xuất. Bộ dữ liệu này bao gồm các đối tượng như bảng, hình, chú thích, và công thức, được thu thập từ các tài liệu tiếng Việt. Các thử nghiệm được thực hiện để đánh giá hiệu suất của các mô hình học sâu trong việc xử lý ảnh tiếng Việt.
3.1. Bộ dữ liệu UIT DODV
Bộ dữ liệu UIT-DODV là bộ dữ liệu đầu tiên về ảnh tiếng Việt với các đối tượng đa dạng. Nó bao gồm các hình ảnh được scan từ tài liệu và các tệp PDF, với các đối tượng được chú thích chi tiết. Bộ dữ liệu này được sử dụng để huấn luyện và đánh giá các mô hình học sâu, giúp cải thiện khả năng phát hiện đối tượng trong ảnh tiếng Việt.
3.2. Đánh giá hiệu suất
Các mô hình học sâu được đánh giá dựa trên các tiêu chí như IOU và mAP. Kết quả thực nghiệm cho thấy các mô hình đề xuất đạt hiệu suất cao hơn so với các phương pháp truyền thống. Đặc biệt, mô hình GaDocNet kết hợp với hàm mất mát EIOU đạt được kết quả ấn tượng, mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ảnh và nhận diện đối tượng.
IV. Luận văn thạc sĩ
Luận văn này là một phần của chương trình thạc sĩ khoa học máy tính, tập trung vào việc đề xuất các phương pháp mới trong phát hiện đối tượng trên ảnh tiếng Việt. Nghiên cứu đóng góp vào lĩnh vực học máy và deep learning bằng cách đề xuất hàm mất mát EIOU và mô hình GaDocNet. Kết quả nghiên cứu đã được công bố tại hội nghị quốc tế MAPR 2022, khẳng định giá trị học thuật và ứng dụng thực tiễn của luận văn.
4.1. Đóng góp học thuật
Luận văn đóng góp vào lĩnh vực khoa học máy tính bằng cách đề xuất các phương pháp mới trong phát hiện đối tượng và xử lý ảnh. Hàm mất mát EIOU và mô hình GaDocNet được xem là những cải tiến quan trọng, giúp nâng cao hiệu suất của các mô hình học sâu trong việc xử lý ảnh tiếng Việt.
4.2. Ứng dụng thực tiễn
Nghiên cứu có tiềm năng ứng dụng cao trong các lĩnh vực như xử lý tài liệu, trích xuất thông tin, và nhận diện đối tượng. Các kết quả thực nghiệm cho thấy các phương pháp đề xuất có thể được áp dụng trong các hệ thống tự động hóa, giúp cải thiện hiệu quả và độ chính xác trong việc xử lý ảnh tiếng Việt.