Luận Văn Thạc Sĩ Khoa Học Máy Tính: Phát Triển Hàm Mất Mát Mới Cho Bài Toán Phát Hiện Đối Tượng Trên Tài Liệu Ảnh Tiếng Việt

2023

103
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Hàm mất mát

Luận văn tập trung vào việc đề xuất một hàm mất mát mới, EIOU, để cải thiện hiệu suất trong bài toán phát hiện đối tượng trên ảnh tiếng Việt. Hàm mất mát này được thiết kế để tối ưu hóa quá trình hồi quy hộp giới hạn, giúp mô hình học sâu xác định vị trí các đối tượng chính xác hơn. Các hàm mất mát truyền thống như IOU, GIOU, DIOU, và CIOU được phân tích để làm cơ sở cho đề xuất mới. EIOU kết hợp ưu điểm của các hàm này, đồng thời khắc phục các hạn chế như độ lệch tâm và kích thước hộp giới hạn.

1.1. Phân tích hàm mất mát truyền thống

Các hàm mất mát truyền thống như IOU, GIOU, DIOU, và CIOU được đánh giá chi tiết. IOU đo lường sự chồng lấp giữa hộp giới hạn dự đoán và hộp giới hạn thực tế, nhưng không xử lý được trường hợp không chồng lấp. GIOU khắc phục điều này bằng cách tính toán diện tích bao phủ, nhưng vẫn có hạn chế về độ lệch tâm. DIOUCIOU bổ sung thêm yếu tố khoảng cách và tỷ lệ khung hình, nhưng vẫn chưa tối ưu cho các đối tượng đa dạng trong ảnh tiếng Việt.

1.2. Đề xuất hàm mất mát EIOU

Hàm EIOU được đề xuất để giải quyết các hạn chế của các hàm mất mát truyền thống. Nó kết hợp yếu tố khoảng cách, tỷ lệ khung hình và độ lệch tâm, giúp mô hình học sâu hội tụ nhanh hơn và đạt độ chính xác cao hơn. Kết quả thực nghiệm trên bộ dữ liệu UIT-DODV cho thấy EIOU cải thiện đáng kể hiệu suất phát hiện đối tượng, đạt 76,1% mAP, cao hơn 1,6% so với các phương pháp hiện có.

II. Phát hiện đối tượng

Bài toán phát hiện đối tượng trên ảnh tiếng Việt được nghiên cứu với mục tiêu xác định vị trí các đối tượng như bảng, hình, chú thích, và công thức trong tài liệu dạng ảnh. Luận văn sử dụng các mô hình học sâu tiên tiến như Dynamic Faster R-CNN, Guided Anchoring R-CNN, PointRend, và CascadeTabNet để giải quyết bài toán này. Các mô hình này được huấn luyện trên bộ dữ liệu UIT-DODV, bộ dữ liệu đầu tiên về ảnh tiếng Việt với các đối tượng đa dạng.

2.1. Các mô hình học sâu tiên tiến

Các mô hình học sâu như Dynamic Faster R-CNNGuided Anchoring R-CNN được sử dụng để cải thiện độ chính xác trong việc phát hiện đối tượng. PointRend tập trung vào việc tinh chỉnh các biên của đối tượng, trong khi CascadeTabNet được thiết kế đặc biệt để phát hiện và nhận diện cấu trúc bảng. Các mô hình này được đánh giá dựa trên các tiêu chí như IOUmAP.

2.2. Thách thức trong phát hiện đối tượng

Bài toán phát hiện đối tượng trên ảnh tiếng Việt đối mặt với nhiều thách thức như độ nghiêng, độ mờ, tiếng ồn, và sự đa dạng trong bố cục tài liệu. Các đối tượng như bảnghình có thể có cấu trúc phức tạp, đòi hỏi mô hình học sâu phải có khả năng xử lý tốt các biến thể này. Bộ dữ liệu UIT-DODV được sử dụng để đánh giá khả năng của các mô hình trong việc giải quyết các thách thức này.

III. Ảnh tiếng Việt

Luận văn tập trung vào việc phát hiện đối tượng trên ảnh tiếng Việt, một lĩnh vực còn nhiều hạn chế trong nghiên cứu. Bộ dữ liệu UIT-DODV được sử dụng làm cơ sở để đánh giá các phương pháp đề xuất. Bộ dữ liệu này bao gồm các đối tượng như bảng, hình, chú thích, và công thức, được thu thập từ các tài liệu tiếng Việt. Các thử nghiệm được thực hiện để đánh giá hiệu suất của các mô hình học sâu trong việc xử lý ảnh tiếng Việt.

3.1. Bộ dữ liệu UIT DODV

Bộ dữ liệu UIT-DODV là bộ dữ liệu đầu tiên về ảnh tiếng Việt với các đối tượng đa dạng. Nó bao gồm các hình ảnh được scan từ tài liệu và các tệp PDF, với các đối tượng được chú thích chi tiết. Bộ dữ liệu này được sử dụng để huấn luyện và đánh giá các mô hình học sâu, giúp cải thiện khả năng phát hiện đối tượng trong ảnh tiếng Việt.

3.2. Đánh giá hiệu suất

Các mô hình học sâu được đánh giá dựa trên các tiêu chí như IOUmAP. Kết quả thực nghiệm cho thấy các mô hình đề xuất đạt hiệu suất cao hơn so với các phương pháp truyền thống. Đặc biệt, mô hình GaDocNet kết hợp với hàm mất mát EIOU đạt được kết quả ấn tượng, mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ảnhnhận diện đối tượng.

IV. Luận văn thạc sĩ

Luận văn này là một phần của chương trình thạc sĩ khoa học máy tính, tập trung vào việc đề xuất các phương pháp mới trong phát hiện đối tượng trên ảnh tiếng Việt. Nghiên cứu đóng góp vào lĩnh vực học máydeep learning bằng cách đề xuất hàm mất mát EIOU và mô hình GaDocNet. Kết quả nghiên cứu đã được công bố tại hội nghị quốc tế MAPR 2022, khẳng định giá trị học thuật và ứng dụng thực tiễn của luận văn.

4.1. Đóng góp học thuật

Luận văn đóng góp vào lĩnh vực khoa học máy tính bằng cách đề xuất các phương pháp mới trong phát hiện đối tượngxử lý ảnh. Hàm mất mát EIOU và mô hình GaDocNet được xem là những cải tiến quan trọng, giúp nâng cao hiệu suất của các mô hình học sâu trong việc xử lý ảnh tiếng Việt.

4.2. Ứng dụng thực tiễn

Nghiên cứu có tiềm năng ứng dụng cao trong các lĩnh vực như xử lý tài liệu, trích xuất thông tin, và nhận diện đối tượng. Các kết quả thực nghiệm cho thấy các phương pháp đề xuất có thể được áp dụng trong các hệ thống tự động hóa, giúp cải thiện hiệu quả và độ chính xác trong việc xử lý ảnh tiếng Việt.

21/02/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính một hàm mất mát mới cho bài toán phát hiện đối tượng trên tài liệu dạng ảnh tiếng việt
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính một hàm mất mát mới cho bài toán phát hiện đối tượng trên tài liệu dạng ảnh tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Hàm Mất Mát Mới Cho Phát Hiện Đối Tượng Trên Ảnh Tiếng Việt | Luận Văn Thạc Sĩ Khoa Học Máy Tính là một nghiên cứu chuyên sâu về việc cải tiến hàm mất mát trong bài toán phát hiện đối tượng trên ảnh, đặc biệt tập trung vào dữ liệu tiếng Việt. Tài liệu này không chỉ giới thiệu một phương pháp mới để tối ưu hóa quá trình nhận dạng đối tượng mà còn cung cấp các kết quả thực nghiệm chứng minh hiệu quả của phương pháp này so với các cách tiếp cận truyền thống. Đây là nguồn tài liệu quý giá cho những ai đang nghiên cứu về thị giác máy tính và muốn áp dụng các kỹ thuật tiên tiến vào bài toán thực tế.

Để mở rộng kiến thức về các phương pháp nhận dạng đối tượng, bạn có thể tham khảo Luận văn nghiên cứu về mạng neural convolutional áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính, nơi đi sâu vào việc sử dụng mạng nơ-ron tích chập để giải quyết các bài toán tương tự. Ngoài ra, Tiểu luận đồ án tốt nghiệp phát triển mô hình học máy phát hiện và định vị vật thể ứng dụng trong điều khiển cánh tay robot cung cấp cái nhìn thực tế về việc áp dụng các mô hình học máy vào hệ thống robot. Cuối cùng, Luận án tiến sĩ nâng cao độ chính xác tra cứu ảnh dựa vào nội dung sử dụng kỹ thuật điều chỉnh trọng số hàm khoảng cách sẽ giúp bạn hiểu rõ hơn về các kỹ thuật tối ưu hóa trong xử lý ảnh.

Mỗi liên kết trên là cơ hội để bạn khám phá sâu hơn về các chủ đề liên quan, từ đó nâng cao hiểu biết và kỹ năng trong lĩnh vực thị giác máy tính và học máy.

Tải xuống (103 Trang - 48.7 MB)