Phát Hiện Đối Tượng Trên Ấn Phẩm Tiếng Việt Sử Dụng Mạng Học Sâu

Luận văn thạc sĩ công nghệ thông tin nghiên cứu phát hiện đối tượng trên ấn phẩm tiếng Việt bằng mạng học sâu, ứng dụng thực tiễn và tiềm năng.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Phát biểu bài toán

1.2. Mục tiêu và phạm vi của luận văn

1.3. Bố cục của luận văn

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Các hướng tiếp cận truyền thống

2.2. Các hướng tiếp cận dựa trên học sâu

3. CHƯƠNG 3: PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN HỌC SÂU

3.1. Bài toán phát hiện đối tượng

3.2. Mạng nơ-ron tích chập

3.3. Các phương pháp phát hiện đối tượng tiên tiến

3.4. Các thành phần của bộ phát hiện đối tượng

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Bộ dữ liệu UIT-DODV-Ext

4.2. Tiêu chí đánh giá

4.3. Cài đặt thực nghiệm

4.4. Kết quả thực nghiệm, đánh giá và bàn luận

5. CHƯƠNG 5: ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KẾT QUẢ

5.1. Mô hình phát hiện đối tượng trên ấn phẩm tiếng Việt - CasGRoIENet

5.2. Đánh giá kết quả đề xuất

5.3. Phân tích kết quả đề xuất

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

PHỤ LỤC - BÀI BÁO

PHỤ LỤC - QUYẾT ĐỊNH THÀNH LẬP HỘI ĐỒNG

PHỤ LỤC - NHẬN XÉT

PHỤ LỤC - YÊU CẦU CHỈNH SỬA VÀ BẢNG GIẢI TRÌNH

Tóm tắt

I. Tổng Quan Về Phát Hiện Đối Tượng Tiếng Việt Bằng Học Sâu

Bài toán phát hiện đối tượng (Object Detection) trên ấn phẩm tiếng Việt đang ngày càng trở nên quan trọng trong bối cảnh chuyển đổi số. Sự gia tăng của tài liệu tiếng Việt trên mạng Internet đòi hỏi các thuật toán có khả năng xử lý ảnh tiếng Việt và hiểu nội dung một cách hiệu quả. Luận văn thạc sĩ của Lê Thanh Lực (2023) tại Đại học Quốc gia TP.HCM đã tập trung vào việc phát hiện đối tượng trên ấn phẩm tiếng Việt sử dụng mạng học sâu. Nghiên cứu này góp phần giải quyết bài toán phân tích hình ảnh tài liệu, một thách thức lớn trong lĩnh vực computer vision tiếng Việt. Luận văn đi sâu vào các phương pháp, mô hình, và đánh giá hiệu suất trên các bộ dữ liệu tiếng Việt. Mục tiêu là xây dựng mô hình có khả năng phát hiện các đối tượng như hình ảnh, bảng biểu, và chú thích trong các bài báo khoa học hoặc sách giáo khoa tiếng Việt.

1.1. Giới Thiệu Bài Toán Object Detection Tiếng Việt

Bài toán Object Detection Tiếng Việt liên quan đến việc xác định vị trí và phân loại các đối tượng trong hình ảnh tài liệu tiếng Việt. Theo Lê Thanh Lực (2023), bài toán này đóng vai trò quan trọng trong nhiều ứng dụng, bao gồm trích xuất thông tin, nhận dạng cấu trúc bố cục, và trả lời câu hỏi trực quan. Các đối tượng cần phát hiện bao gồm hình ảnh, bảng biểu, chú thích và các thành phần văn bản khác. Việc phát hiện chính xác vị trí các đối tượng giúp cho các hệ thống trích xuất thông tin hoạt động hiệu quả hơn, đặc biệt là khi kết hợp với OCR Tiếng Việt để nhận diện nội dung văn bản. Phát hiện vật thể trên ảnh là một bước quan trọng để hiểu được cấu trúc và ý nghĩa của tài liệu số.

1.2. Thách Thức Trong Phát Hiện Đối Tượng Ảnh Tiếng Việt

Việc phát hiện đối tượng trên ảnh tiếng Việt gặp nhiều thách thức do các yếu tố bên ngoài và bên trong tài liệu. Các yếu tố bên ngoài bao gồm độ nghiêng, độ mờ, độ nhiễu, độ chiếu sáng không đồng đều, và sự che khuất. Các yếu tố bên trong bao gồm bố cục phức tạp (trang một cột và nhiều cột), sự đa dạng của các đối tượng (kiểu phông chữ, cỡ chữ, và định dạng nội dung), và ngôn ngữ tiếng Việt với các dấu và ký tự phụ. Theo luận văn, các mô hình Deep Learning Tiếng Việt cần phải thích ứng với những biến thể này để đạt được hiệu suất cao. Việc thu thập và Augmentation dữ liệu Tiếng Việt chất lượng cao cũng là một thách thức lớn.

II. Cách Tiếp Cận Học Sâu Trong Object Detection Tiếng Việt

Hiện nay, các phương pháp dựa trên mạng học sâu đang dần thay thế các phương pháp truyền thống trong bài toán phát hiện đối tượng trên ấn phẩm tiếng Việt. Các mô hình Deep Learning Tiếng Việt sử dụng mạng CNN để tạo ra các bản đồ đặc trưng không gian từ các hình ảnh tài liệu đầu vào. Các mô hình này có khả năng học các đặc trưng phức tạp và trừu tượng, giúp cải thiện độ chính xác và độ tin cậy của việc nhận diện đối tượng trong ảnh Tiếng Việt. Các mô hình phổ biến bao gồm Faster R-CNN, YOLO, và SSD, đã được điều chỉnh và huấn luyện trên các bộ dữ liệu tiếng Việt.

2.1. Các Mô Hình Object Detection Phổ Biến Tiếng Việt

Luận văn của Lê Thanh Lực (2023) đã đề cập đến một số mô hình Object Detection Tiếng Việt phổ biến như Faster R-CNN và Cascade R-CNN. Các mô hình này sử dụng mạng CNN để trích xuất đặc trưng, sau đó sử dụng các lớp phân loại và hồi quy để dự đoán vị trí và nhãn của các đối tượng. Faster R-CNN là một mô hình hai giai đoạn, trong đó giai đoạn đầu tiên là đề xuất vùng (region proposal) và giai đoạn thứ hai là phân loại và tinh chỉnh vị trí. Cascade R-CNN là một biến thể của Faster R-CNN với nhiều giai đoạn phân loại, giúp cải thiện độ chính xác. Các mô hình này đã được huấn luyện và đánh giá trên bộ dữ liệu UIT-DODV-Ext.

2.2. Tầm Quan Trọng Của Dữ Liệu Huấn Luyện Tiếng Việt

Hiệu suất của các mô hình Object Detection Tiếng Việt phụ thuộc rất nhiều vào chất lượng và số lượng dữ liệu huấn luyện. Việc xây dựng các Dataset Tiếng Việt cho Object Detection là một thách thức lớn, do sự thiếu hụt dữ liệu được gán nhãn. Các phương pháp Augmentation dữ liệu Tiếng Việt có thể được sử dụng để tăng cường số lượng dữ liệu huấn luyện. Ngoài ra, việc sử dụng các kỹ thuật transfer learning từ các bộ dữ liệu lớn khác có thể giúp cải thiện hiệu suất của các mô hình khi huấn luyện trên dữ liệu tiếng Việt hạn chế.

2.3. Ứng dụng xử lý ảnh cho Phát hiện đối tượng dựa trên Học sâu

Việc phát hiện đối tượng dựa trên học sâu mang lại nhiều lợi ích to lớn so với các cách tiếp cận truyền thống. Các mô hình học sâu có thể tự động học các đặc trưng phức tạp từ dữ liệu, giảm thiểu sự can thiệp của con người trong quá trình thiết kế đặc trưng. Ngoài ra, các mô hình học sâu có thể xử lý các biến thể lớn trong hình ảnh, như độ nghiêng, độ mờ, và độ chiếu sáng không đồng đều. Tuy nhiên, việc huấn luyện các mô hình học sâu đòi hỏi một lượng lớn dữ liệu và tài nguyên tính toán.

III. Phương Pháp CasGRolENet Cải Tiến Phát Hiện Tiếng Việt

Luận văn của Lê Thanh Lực (2023) đã đề xuất mô hình CasGRolENet như một giải pháp cải thiện hiệu suất phát hiện đối tượng trên ấn phẩm tiếng Việt. Mô hình này kết hợp Cascade R-CNN với Generic RoI Extractor (GRoIE), một phương pháp trích xuất vùng quan tâm (Region of Interest) linh hoạt và hiệu quả. CasGRolENet được thiết kế để xử lý các biến thể trong bố cục và hình dạng của các đối tượng trong tài liệu tiếng Việt, giúp cải thiện độ chính xác của việc nhận diện đối tượng trong ảnh Tiếng Việt.

3.1. Kiến Trúc Mô Hình CasGRolENet Chi Tiết

Mô hình CasGRolENet bao gồm một mạng xương sống (backbone) CNN để trích xuất đặc trưng, một mạng GRoIE để trích xuất vùng quan tâm, và một mạng Cascade R-CNN để phân loại và tinh chỉnh vị trí của các đối tượng. Mạng GRoIE cho phép trích xuất các vùng quan tâm có hình dạng và kích thước khác nhau, giúp mô hình xử lý các đối tượng có bố cục phức tạp. Mạng Cascade R-CNN sử dụng nhiều giai đoạn phân loại để cải thiện độ chính xác và giảm thiểu sai sót.

3.2. Ưu Điểm Của Generic RoI Extractor GRoIE

Generic RoI Extractor (GRoIE) là một thành phần quan trọng của mô hình CasGRolENet. GRoIE có khả năng trích xuất các vùng quan tâm có hình dạng và kích thước khác nhau, giúp mô hình xử lý các đối tượng có bố cục phức tạp. GRoIE cũng có khả năng thích ứng với các biến thể trong hình dạng và kích thước của các đối tượng, giúp cải thiện độ chính xác của việc nhận diện đối tượng trong ảnh Tiếng Việt.

3.3. CasGRolENet Nâng cao độ chính xác của mô hình học sâu

Sự kết hợp của Cascade R-CNN và GRoIE trong CasGRolENet giúp tăng cường độ mạnh mẽ của mô hình học sâu trong việc phát hiện đối tượng trên ấn phẩm tiếng Việt. Mô hình có khả năng xử lý các biến thể phức tạp và nhiễu trong tài liệu tiếng Việt, đồng thời duy trì độ chính xác cao. Điều này cho phép CasGRolENet vượt trội hơn so với các mô hình truyền thống trong việc nhận diện đối tượng trong ảnh Tiếng Việt.

IV. Thực Nghiệm Và Đánh Giá Mô Hình Object Detection Tiếng Việt

Luận văn của Lê Thanh Lực (2023) đã thực hiện các thực nghiệm và đánh giá mô hình CasGRolENet trên bộ dữ liệu UIT-DODV-Ext, một bộ dữ liệu tài liệu tiếng Việt được xây dựng riêng cho bài toán phát hiện đối tượng. Các kết quả thực nghiệm cho thấy CasGRolENet đạt được hiệu suất cao hơn so với các mô hình cơ sở, chứng tỏ tính hiệu quả của phương pháp đề xuất. Các kết quả này được đánh giá bằng độ đo mean Average Precision (mAP), một độ đo phổ biến trong Object Detection Tiếng Việt.

4.1. Bộ Dữ Liệu UIT DODV Ext Cho Huấn Luyện Mô Hình

Bộ dữ liệu UIT-DODV-Ext là một bộ dữ liệu quan trọng cho việc huấn luyện và đánh giá các mô hình Object Detection Tiếng Việt. Bộ dữ liệu này chứa một lượng lớn các hình ảnh tài liệu tiếng Việt với các nhãn được gán cho các đối tượng như hình ảnh, bảng biểu, và chú thích. Việc sử dụng bộ dữ liệu này cho phép các nhà nghiên cứu phát triển và so sánh các phương pháp phát hiện đối tượng một cách công bằng và khách quan.

4.2. Đánh Giá Hiệu Suất Bằng Mean Average Precision mAP

Mean Average Precision (mAP) là một độ đo phổ biến trong Object Detection Tiếng Việt, được sử dụng để đánh giá hiệu suất của các mô hình. mAP tính toán độ chính xác trung bình (Average Precision) cho mỗi lớp đối tượng, sau đó tính trung bình các giá trị AP này để có được mAP. Giá trị mAP càng cao, hiệu suất của mô hình càng tốt.

4.3. So sánh kết quả đề xuất với thực nghiệm cơ sở

So sánh kết quả đề xuất với thực nghiệm cơ sở cho thấy mô hình CasGRolENet có cải thiện đáng kể so với các mô hình cơ sở trên bộ dữ liệu UIT-DODV-Ext. Điều này chứng tỏ tính hiệu quả của phương pháp tiếp cận mới trong việc phát hiện đối tượng trên ấn phẩm tiếng Việt. Việc kết hợp Cascade R-CNN và GroIE đã giúp tăng cường khả năng phát hiện và phân loại các đối tượng phức tạp trong tài liệu số.

V. Kết Luận Và Hướng Phát Triển Nghiên Cứu Object Detection

Nghiên cứu của Lê Thanh Lực (2023) đã đóng góp vào lĩnh vực phát hiện đối tượng trên ấn phẩm tiếng Việt bằng cách đề xuất mô hình CasGRolENet và đánh giá hiệu suất trên bộ dữ liệu UIT-DODV-Ext. Kết quả nghiên cứu cho thấy tiềm năng của các phương pháp dựa trên mạng học sâu trong việc giải quyết bài toán này. Các hướng phát triển tiếp theo có thể tập trung vào việc cải thiện kiến trúc mô hình, tăng cường dữ liệu huấn luyện, và áp dụng các kỹ thuật transfer learning.

5.1. Các Hướng Phát Triển Tiềm Năng Trong Tương Lai

Các hướng phát triển tiềm năng trong tương lai bao gồm việc nghiên cứu các kiến trúc mô hình mới, như transformer, và áp dụng các kỹ thuật self-supervised learning để tận dụng dữ liệu không được gán nhãn. Ngoài ra, việc phát triển các phương pháp Augmentation dữ liệu Tiếng Việt hiệu quả hơn có thể giúp cải thiện hiệu suất của các mô hình khi huấn luyện trên dữ liệu hạn chế. Cuối cùng, việc tích hợp các mô hình Object Detection Tiếng Việt vào các ứng dụng thực tế, như trích xuất thông tin tự động và phân tích tài liệu, có thể mang lại nhiều lợi ích cho xã hội.

5.2. Áp Dụng Object Detection Vào Ứng Dụng Thực Tế

Việc áp dụng Object Detection Tiếng Việt vào các ứng dụng thực tế có thể mang lại nhiều lợi ích. Ví dụ, các mô hình có thể được sử dụng để trích xuất thông tin tự động từ các tài liệu, giúp tiết kiệm thời gian và công sức cho con người. Các mô hình cũng có thể được sử dụng để phân tích cấu trúc của tài liệu, giúp cải thiện khả năng tìm kiếm và truy xuất thông tin. Ngoài ra, các mô hình có thể được sử dụng để hỗ trợ người khiếm thị đọc tài liệu, giúp họ tiếp cận thông tin một cách dễ dàng hơn.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phát hiện đối tượng trên ấn phẩm tiếng việt sử dụng mạng học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số ngày càng phát triển mạnh mẽ tại Việt Nam, việc số hóa các tài liệu tiếng Việt như văn bản hành chính, bài báo khoa học, sách giáo khoa trở nên phổ biến trên các nền tảng số. Theo ước tính, có khoảng 99 triệu người Việt Nam sử dụng tiếng Việt, trong đó có 4,5 triệu người Việt nhập cư trên toàn thế giới. Điều này đặt ra nhu cầu cấp thiết về các thuật toán có khả năng hiểu và xử lý tài liệu tiếng Việt dưới dạng ảnh, đặc biệt là phát hiện đối tượng trên ấn phẩm tiếng Việt. Bài toán phát hiện đối tượng trên ảnh tài liệu tiếng Việt bao gồm việc xác định và phân loại các thành phần như bảng, hình ảnh, chú thích trong các tài liệu dạng ảnh như bài báo khoa học và sách giáo khoa.

Mục tiêu chính của luận văn là nghiên cứu và phát triển các phương pháp phát hiện đối tượng dựa trên mạng học sâu, tập trung vào hai mô hình phát hiện đối tượng tiên tiến là Faster R-CNN và Cascade R-CNN, cùng với ba mô-đun neck (CARAFE, GRoIE, FPG) và bốn backbone (Generalized Attention, HRNet, ResNeSt, ResNet strikes back). Nghiên cứu được thực hiện trên bộ dữ liệu UIT-DODV-Ext, bộ dữ liệu lớn nhất hiện nay về tài liệu dạng ảnh tiếng Việt với 5.000 ảnh và ba lớp đối tượng chính: bảng, hình và chú thích. Kết quả nghiên cứu không chỉ nâng cao độ chính xác phát hiện đối tượng mà còn góp phần thúc đẩy ứng dụng thị giác máy tính trong lĩnh vực xử lý tài liệu tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính trong lĩnh vực phát hiện đối tượng:

Mạng học sâu (Deep Learning): Sử dụng mạng nơ-ron tích chập (CNN) làm backbone để trích xuất đặc trưng không gian từ ảnh tài liệu. CNN bao gồm các tầng tích chập, tổng hợp và liên kết đầy đủ, giúp mô hình học được các đặc trưng quan trọng từ dữ liệu đầu vào.
Phương pháp phát hiện đối tượng hai giai đoạn (Two-stage Object Detection): Tiêu biểu là Faster R-CNN và Cascade R-CNN. Faster R-CNN sử dụng mạng đề xuất vùng (RPN) để tạo các vùng đề xuất có khả năng chứa đối tượng, sau đó phân loại và định vị chính xác các đối tượng. Cascade R-CNN cải tiến bằng cách huấn luyện tuần tự các bộ phân loại với ngưỡng IoU tăng dần nhằm giảm hiện tượng overfitting và nâng cao chất lượng phát hiện.

Các khái niệm chính bao gồm:

Bounding-box (BB): Hộp giới hạn xác định vị trí đối tượng trong ảnh.
Region Proposal Network (RPN): Mạng đề xuất vùng giúp xác định các vùng có khả năng chứa đối tượng.
Mean Average Precision (mAP): Đo lường hiệu suất phát hiện đối tượng, thể hiện độ chính xác trung bình.
Neck và Backbone: Các thành phần trong mạng phát hiện đối tượng, trong đó backbone trích xuất đặc trưng, neck hợp nhất và nâng cao đặc trưng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu UIT-DODV-Ext, gồm 5.000 ảnh tài liệu tiếng Việt với ba lớp đối tượng: bảng, hình và chú thích. Bộ dữ liệu bao gồm ảnh PDF, scan và chụp từ bài báo khoa học và sách giáo khoa, được phân chia thành tập huấn luyện (3.503 ảnh), tập đánh giá (720 ảnh) và tập kiểm thử (1.037 ảnh). Số lượng đối tượng trong tập huấn luyện là 11.799, trong đó chú thích chiếm đa số với 6.088 đối tượng.

Phương pháp phân tích bao gồm:

Huấn luyện và đánh giá các mô hình Faster R-CNN và Cascade R-CNN với các cấu hình neck (CARAFE, GRoIE, FPG) và backbone (Generalized Attention, HRNet, ResNeSt, ResNet strikes back).
Sử dụng chỉ số mean Average Precision (mAP) làm tiêu chí đánh giá chính.
Phân tích kết quả thực nghiệm dựa trên các thước đo Precision, Recall và mAP.
Thời gian nghiên cứu kéo dài trong năm 2023, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, đánh giá và đề xuất cải tiến.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình Cascade R-CNN vượt trội hơn Faster R-CNN: Kết quả thực nghiệm trên bộ dữ liệu UIT-DODV-Ext cho thấy Cascade R-CNN đạt mAP cao hơn khoảng 3-5% so với Faster R-CNN, đặc biệt ở các ngưỡng IoU cao (≥0.7), nhờ cơ chế huấn luyện phân tầng giúp giảm overfitting.
Neck CARAFE cải thiện đáng kể độ chính xác phát hiện: Khi sử dụng CARAFE làm neck, mAP tăng trung bình 2-3% so với các neck truyền thống như FPN, nhờ khả năng lấy mẫu đặc trưng thích ứng và tối ưu hóa thông tin ngữ nghĩa tại các vị trí địa phương.
Backbone HRNet và ResNeSt cho kết quả tốt nhất: HRNet duy trì biểu diễn độ phân giải cao trong toàn bộ quá trình, giúp phát hiện đối tượng nhỏ và chi tiết tốt hơn, đạt mAP cao hơn khoảng 4% so với ResNet truyền thống. ResNeSt với cơ chế chú ý phân tách kênh cũng cải thiện mAP khoảng 3%.
Bộ dữ liệu UIT-DODV-Ext đa dạng và phong phú: Với hơn 11.799 đối tượng được gán nhãn chi tiết, bộ dữ liệu cung cấp nền tảng vững chắc cho việc huấn luyện và đánh giá các mô hình phát hiện đối tượng trên tài liệu tiếng Việt.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất là do việc áp dụng các mô hình học sâu tiên tiến kết hợp với các mô-đun neck và backbone hiện đại, giúp mạng học được các đặc trưng phong phú và đa quy mô. Cascade R-CNN giải quyết hiệu quả vấn đề overfitting khi huấn luyện với ngưỡng IoU cao, điều mà Faster R-CNN gặp phải. CARAFE giúp lấy mẫu đặc trưng có tính thích ứng cao hơn so với các phương pháp lấy mẫu truyền thống, từ đó nâng cao chất lượng đặc trưng đầu vào cho các lớp phân loại.

So sánh với các nghiên cứu trước đây, kết quả của luận văn cho thấy sự tiến bộ rõ rệt trong phát hiện đối tượng trên tài liệu tiếng Việt, đặc biệt khi xử lý các đối tượng phức tạp như bảng và chú thích có nhiều biến thể về kích thước và bố cục. Các biểu đồ Precision-Recall và mAP theo từng lớp đối tượng minh họa rõ sự vượt trội của mô hình đề xuất so với baseline.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao độ chính xác phát hiện đối tượng mà còn mở ra hướng phát triển các ứng dụng thực tiễn như trích xuất thông tin tự động, nhận dạng cấu trúc tài liệu và hỗ trợ chuyển đổi số trong lĩnh vực giáo dục và nghiên cứu khoa học.

Đề xuất và khuyến nghị

Triển khai mô hình CasGRoIENet trong hệ thống xử lý tài liệu số: Đề xuất áp dụng mô hình CasGRoIENet cải tiến trên các nền tảng số hóa tài liệu tiếng Việt nhằm nâng cao độ chính xác phát hiện đối tượng, đặc biệt trong các ứng dụng OCR và trích xuất thông tin. Thời gian thực hiện dự kiến 6-12 tháng, chủ thể thực hiện là các trung tâm nghiên cứu và doanh nghiệp công nghệ.
Phát triển bộ dữ liệu mở rộng và đa dạng hơn: Khuyến nghị xây dựng thêm các bộ dữ liệu tài liệu tiếng Việt với nhiều loại định dạng và nguồn khác nhau để tăng tính đa dạng và khả năng tổng quát của mô hình. Thời gian thực hiện 12-18 tháng, do các tổ chức nghiên cứu và trường đại học đảm nhận.
Tối ưu hóa mô hình cho thiết bị di động và môi trường tài nguyên hạn chế: Đề xuất nghiên cứu và phát triển các phiên bản mô hình nhẹ, giảm thiểu tài nguyên tính toán để ứng dụng trên thiết bị di động và các hệ thống nhúng. Thời gian thực hiện 6-9 tháng, chủ thể là các nhóm nghiên cứu công nghệ thông tin và phát triển phần mềm.
Tích hợp cơ chế chú ý nâng cao và học tăng cường: Khuyến nghị áp dụng các kỹ thuật chú ý không gian và học tăng cường để cải thiện khả năng phát hiện đối tượng trong các điều kiện ảnh tài liệu phức tạp như mờ, nghiêng, nhiễu. Thời gian thực hiện 9-12 tháng, do các nhóm nghiên cứu chuyên sâu về học sâu đảm nhận.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Thị giác máy tính: Luận văn cung cấp kiến thức chuyên sâu về phát hiện đối tượng trên tài liệu tiếng Việt, giúp phát triển các đề tài nghiên cứu liên quan và ứng dụng thực tế.
Doanh nghiệp công nghệ phát triển phần mềm xử lý tài liệu số: Các công ty có thể ứng dụng mô hình và phương pháp đề xuất để nâng cao chất lượng sản phẩm nhận dạng ký tự quang học (OCR) và trích xuất thông tin tự động.
Cơ quan quản lý và tổ chức giáo dục: Hỗ trợ trong việc số hóa và quản lý tài liệu giáo dục, bài báo khoa học, giúp nâng cao hiệu quả lưu trữ và truy xuất thông tin.
Nhà phát triển ứng dụng di động và thiết bị nhúng: Tham khảo để tối ưu hóa mô hình phát hiện đối tượng phù hợp với các thiết bị có tài nguyên hạn chế, mở rộng ứng dụng trong các lĩnh vực như giám sát, kiểm tra tài liệu.

Câu hỏi thường gặp

Phát hiện đối tượng trên tài liệu tiếng Việt có những thách thức gì?
Tiếng Việt có cấu trúc đặc thù với các dấu và ký tự phụ, cùng với sự đa dạng về bố cục tài liệu như bảng, hình, chú thích. Ngoài ra, các yếu tố bên ngoài như độ nghiêng, mờ, nhiễu ảnh cũng gây khó khăn cho việc phát hiện chính xác.
Tại sao chọn Faster R-CNN và Cascade R-CNN làm mô hình chính?
Hai mô hình này là tiêu chuẩn trong phát hiện đối tượng hai giai đoạn, với Cascade R-CNN cải tiến giúp giảm overfitting và nâng cao độ chính xác ở ngưỡng IoU cao, phù hợp với yêu cầu phát hiện đối tượng chính xác trên tài liệu.
Bộ dữ liệu UIT-DODV-Ext có điểm gì nổi bật?
Bộ dữ liệu gồm 5.000 ảnh tài liệu tiếng Việt đa dạng về nguồn (PDF, scan, chụp), với ba lớp đối tượng chính và hơn 11.799 đối tượng được gán nhãn chi tiết, là bộ dữ liệu lớn nhất và phong phú nhất hiện nay cho nghiên cứu phát hiện đối tượng trên tài liệu tiếng Việt.
CARAFE và GRoIE đóng vai trò gì trong mô hình?
CARAFE là mô-đun lấy mẫu đặc trưng thích ứng giúp nâng cao chất lượng đặc trưng đầu vào, trong khi GRoIE là mô-đun trích xuất vùng quan tâm đa quy mô, giúp mô hình tận dụng thông tin từ nhiều cấp độ đặc trưng khác nhau để cải thiện hiệu suất phát hiện.
Ứng dụng thực tiễn của nghiên cứu này là gì?
Nghiên cứu hỗ trợ phát triển các hệ thống nhận dạng ký tự quang học, trích xuất thông tin tự động từ tài liệu tiếng Việt, phục vụ chuyển đổi số trong giáo dục, nghiên cứu khoa học và quản lý tài liệu số.

Kết luận

Luận văn đã hệ thống và phân tích các phương pháp phát hiện đối tượng trên tài liệu tiếng Việt dựa trên mạng học sâu, tập trung vào Faster R-CNN và Cascade R-CNN cùng các mô-đun neck và backbone hiện đại.
Bộ dữ liệu UIT-DODV-Ext được sử dụng làm nền tảng huấn luyện và đánh giá, với hơn 5.000 ảnh và gần 12.000 đối tượng được gán nhãn chi tiết.
Kết quả thực nghiệm cho thấy Cascade R-CNN kết hợp với CARAFE và backbone HRNet hoặc ResNeSt đạt hiệu suất phát hiện đối tượng vượt trội, cải thiện mAP từ 2-5% so với các mô hình baseline.
Đề xuất các giải pháp ứng dụng mô hình CasGRoIENet trong thực tế, phát triển bộ dữ liệu mở rộng, tối ưu hóa mô hình cho thiết bị di động và tích hợp các cơ chế chú ý nâng cao.
Các bước tiếp theo bao gồm triển khai mô hình trong các hệ thống xử lý tài liệu số, mở rộng nghiên cứu về học tăng cường và chú ý không gian, đồng thời phát triển các phiên bản mô hình nhẹ cho ứng dụng thực tiễn.

Hành động ngay: Các nhà nghiên cứu và doanh nghiệp công nghệ nên tiếp cận và ứng dụng các kết quả nghiên cứu này để thúc đẩy chuyển đổi số và nâng cao hiệu quả xử lý tài liệu tiếng Việt.

Trích đoạn nội dung tài liệu

Chương 1, luận văn nay tập trung vào bài toán phat hiện đối tượng trong tải liệu dạng ảnh. Do đó, nội dung Chương 2 giới thiệu sơ nét về các hướng tiếp cận liên quan đến bài toán. Cho đến thời điểm hiện nay thi bài toán phát hiện đổi tượng trong anh tài liệu có hai hưởng tiếp cận chính đỏ là truyền thông và dựa trên các mang hoe sâu. Các hướng tiếp cận truyền thong HMM, SVM.

Predicted Page Objects Hinh 2-1. Minh họa cho hưởng tiếp cận truyền thông của bai toán phát hiện đối tượng trên ảnh tài liệu [5] Các phương pháp tiếp cận truyền thông tân dụng các kỹ thuật xử lý, trích xuất đặc trưng hình ảnh truyền thông hoặc dựa trên rule-based dé rút trich đặc trưng (Hình 2-1). Năm 1995, các nha nghiên cửu đã áp dụng hai phương pháp chỉnh là dựa trên kết cầu (texture-based) [17], [18] va hình dang (shape-based) [19] [20] [21]. Cho dén năm 2002, Cesarini và công sự [22] đã đẻ xuất phương pháp phát hiện bang dựa vao các đường ké ngang dọc, sau đó xác định khu vực can quan tâm được bao quanh bởi những đường nay.

Năm 2005, Gatos va công sự [23] đã giới thiệu một phiên bản cải tiên của phương pháp trên bang cách thêm phát hiên các điểm giao nhau để giảm các sai sot khi phát hiện các vùng ứng viên. Mặc du đã đạt được rất nhiều tiễn bộ lớn, tuy nhiên các phương pháp phát hiện doi tượng trang truyền thông vẫn còn tôn tại nhiều van dé nhur phat hién lỗi, bị bỏ sót. Các hướng tiếp cận dựa trên học sâu Grouping and Input Document Feature Extraction Predicted Page Image Network Marella Selection Objects Preprocessing Backbone techniques” =Ế Hình 2-2. Minh họa cho hướng tiếp cận dựa trên của bài toán phát hiện doi tượng trên ảnh tải liệu [5].

Vi sự giới han của các phương pháp truyền thông, hưởng tiếp can nay dang dan được thay thẻ bằng các phương pháp dựa trên học sâu. Trong những năm gần đây, nhiều phương pháp dựa trên học sâu dé phát hiện đối tượng đã xuất hiện va mang lại những cải tiên hiệu suất kha tốt. Trong đỏ, co những mô hình học sâu đã được thiết kế riêng cho bài toán phát hiện đổi tượng trên tải liệu dạng ảnh. Các phương pháp dựa trên học sâu thường sử dụng mạng CNN dé tạo ra các ban đỏ đặc trưng không gian từ các hình anh tải liệu đầu vào (Hình 2-2), Nói cách khác, mạng CNN được sử dung đẻ làm backbone cho các phương pháp phát hiện đổi tượng.

Các phương pháp học sâu lần đầu tiên được giới thiệu từ những năm 2016 trở đi với dé xuất sử dụng CNN dé xác định từng vùng dé xuất có chửa bang hay không của Hao vả cộng sự [24]. Năm 2017, Yang vả công sự [25] dé xuất mang Multimodel Full CNN cho phan đoạn trang đẻ phát hiện các dai tượng bang, hình và các đỗi tượng khác trong trang. Ngoải ra, He và công sự [18] cũng đã dé xuất Multi scale multi-task FCN dé phát hiện các vùng và đường viễn của bang, sử dung kết qua phát hiện đường viền dé cải thiện nhiệm vụ phát hiện đối tượng bảng. Năm 2018, Li và cộng sự [26] lần đầu tiên sử dụng các phương pháp phân tích bố cục dé xác định các vùng bang ứng viên, đặc biệt trong đề xuất này là áp dung Conditional Random Field — CRF và CNN dé phân loại thành các công thức, bảng, hình hoặc đô thị.

Năm 2019, Qasim và cộng sự [27] đã dé xuất một kiến trúc dựa trên mạng đồ thị như một hướng mới để nhận diện bảng. Tác giả lập luận rằng mạng đồ thị là một lựa chọn tự nhiên cho những van dé này và khám phá hai mang nơ-ron đồ thi dựa trên gradient. Năm 2020, Prasad và công sự [28] đã đề xuất CascadeTabNet: một mô hình dựa trên Mạng phân giải cao với CNN và mặt nạ phân tang dé phát hiện các vùng của đối tượng bảng và nhận diện đồng thời các ô (cell) cấu trúc từ các bảng được phát hiện. PHƯƠNG PHÁP PHÁT HIEN BOI TƯỢNG DỰA TREN HỌC SÂU Trong chương này, chúng tôi tập trung giới thiệu vé tong quan về các phương pháp phát hiện đối tượng.

Phân tích và nhận dạng tài liệu là một lĩnh vực của thị giác máy tính do đó nó cũng chịu ảnh hưởng rat nhiều bởi học sâu. Nhiều nghiên cứu đã bắt dau áp dụng các phương pháp dựa trên học sâu cho nhiệm vụ phát hiện đối tượng trong ảnh tài liệu. Trong các phương pháp này, các tài liệu PDF thường được biến đổi thành các trang hình ảnh, sau đó sử dụng mạng học sâu dé huần luyện và phát hiện đối tượng. Phương pháp phát hiện đồi tượng dựa trên học sâu.

Bài toán phát hiện đối tượng 3. Giới thiệu Phát hiện đối tượng (object detection) mô tả một tập hợp các nhiệm vu thị giác máy tinh (computer vision). Cụ thé, bài toán nay có liên quan đến hai nhiệm vụ chính là định vị vị trí của các đối tượng (localization) và phân lớp (classification). ¢ Dinh vị đối tượng (localization): xác định vị trí xuất hiện của các đối tượng trong ảnh và thẻ hiện vị trí của chúng bằng hộp giới hạn (bounding - box) e Phan lớp đối tượng (classification): dự đoán nhãn của một đối tượng (tại mỗi vị trí được xác định có chứa đối tượng sẽ được dự đoán đối tượng đó là đối tượng nào).

Phân loại Thông thường, thuật toán phát hiện đối tượng được phân chia thành hai nhóm chính với những điểm khác biệt cơ bản sau ¢ Hai giai đoạn: điền hình là các phương pháp thuộc họ các mô hình R-CNN, Mask R-CNN. Các phương pháp này thuộc nhóm thuật toán phát hiện đối tượng Hai giai đoạn vì mô hình phải thực hiện sẽ thực hiện 2 phần gồm trích chon (extract) các vùng trên anh củ khả năng chứa đối tượng dựa vảo các hộp neo (anchor box), sau đó sẽ thực hiện tiếp phân loại đổi tượng vả định vị trí. Đặc điểm chung của các thuật toản thuộc nhỏm nay lả dé cao về độ chính xác thay vi tốc độ. Cụ thé hơn, khung lam việc (framework) của thuật toán phát hiện đổi tượng Hai giải đoạn bao gồm các thành phần chính minh họa trong Hình 3-1.

Cụ thé, nó bao gồm một mô-đun xương sống (backbone), cổ (neck) va dau (head) với các nhiệm vụ cụ thé. Mé-dun xương sống khai thác các đặc trưng ở các độ phân giải khác nhau, trích xuất các đặc trưng can thiết của nó. Sau đó, mé-dun neck hợp nhất đặc trưng trích xuất tir xương song. Cudi cùng, may dò có nhiều mé-dun dau phát hiện các đối tượng, đoạn.

© One-stage: điển hình với các phương pháp thuộc họ họ YOLO, SSD, Restina. Đôi với nhóm thuật toán này, mô hình sẽ không cỏ phan rút trích các vùng đặc trưng như Hai giai đoạn. Các mô hinh One-stawe xem bai toản phát hiện đối tượng như một bai toán hỏi quy và dựa trên pre-define box dé phát hiện đối tượng, Đặc điểm của các mô hình One-stage là có sự đánh đổi giữa tốc độ và đô chính xác, khi đạt được tốc độ suy nhanh hơn nhưng thường kém hơn so với Hai giai đoạn. Mạng no-ron tích chập Mạng nơ-ron tích chập (CNN) là một trong những yếu tố quyết định sự thành công của một mô hình phát hiện đối tượng, khi nó đóng vai trò như một xương sống (backbone) dé rút trích đặc trưng.

CNN bao gồm các tang: tầng tích chập (convolution), tang tổng hợp (pooling) và tang liên kết day đủ (fully connected) ¢ _ Tầng tích chập: thực hiện nhiệm vụ trích xuất đặc trưng bang cách sử dung một bộ lọc dé tìm kiếm và trích xuất những thông tin quan trọng từ dữ liệu đầu vào, đồng thời giảm số chiều cho các lớp ân tiếp theo. Sau đó, các giá trị đầu ra sẽ được tính toán bằng các hàm kích hoạt (activated function) như ReLU, tanh, sigmoid. ¢ Tang tổng hợp: tang tông hop làm giảm số chiều cho dữ liệu đầu vào hay đồng nghĩa với giảm số lượng tham só, rút ngắn được thời gian huấn luyện dé hạn chế overfitting. Tang tông hợp sử dụng bộ lọc trượt qua dữ liệu đầu vào dé trích xuất đặc trưng cần thiết với MaxPooling hoặc AveragePooling.

Trong đó, MaxPooling lấy giá trị cao nhất trong vùng của bộ lọc đi qua còn AveragePooling sẽ tính toán giá trị trung bình trong vùng bộ lọc đi qua. « _ Tầng liên kết day đủ: từ kết quả dau ra của tầng tong hợp sẽ là một ma trận ở dang hai hoặc ba chiều. Sau đó, các ma trận này trước khi đưa vô tang FC sẽ được làm phăng (flatten) thành một vector đặc trưng. Ung dụng Phát hiện phương tiện giao thông dé giám sát, phân luồng giao thông.

Phat hiện nguy hiểm trên xe không người lái Nhận diện ký tự quang học hoặc trong điều kiện tự nhiên. Một số phương pháp phát hiện dỗi tượng tiên tién 3. Faster R-CNN (a) R-CNN RCH Regions with CNNfeatures ] warped reel 7|acroplan? no. Classify image proposals (~2k) CNN features regions Hình 3-2.

Kiến trúc R-CNN [29]. R-CNN được giới thiệu lần đầu vào 2014 bởi Ross Girshick và cộng sự [29] ở UC Berkeley trong bai bao “Rich feature hierarchies for accurate object detection and semantic segmentation”. R-CNN là một thuật toán kha đơn giản gém hai bước thực hiện chính. Đầu tiên, sử dụng thuật toán Selective Search dé di tìm các vùng dé xuất.

Sau đó sir dụng CNN đẻ trích xuất đặc trưng tử những hộp giới hạn đỏ. Kiến trúc của R-CNN gỗm ba thành phan chính như tại Hình 3-2: © Vùng dé xuất (region proposal): Thuật toán Selective Search trích xuất ra khoảng 2000 vùng dé xuất (Rol) tir hình anh đầu vào, đây là vùng có khả năng chứa đối tượng. © Trich chon đặc trưng (feature rxtractor): Trích xuất các đặc trưng giúp nhận điện hình ảnh từ các vùng dé xuất thông qua các mang CNN, Trong quá trình trích xuất đặc trưng, mỗi lần truyền các Rol sẽ được tình chỉnh kích thước (resize) dé phù hợp với kích thước đầu vào của mang CNN. Sau khi tinh toán, mỗi Rol sẽ có được các vector đặc trưng.

e Phan loại (classifier): Các vector đặc trưng sẽ được đưa vào mô hình SVM để phân loại. Bên cạnh đó các đặc trưng cũng được dùng đề dự đoán 4 offsets values cho mỗi cạnh. Các vector đặc trưng sẽ đưa vào thuật toán pre-trained SVM phân lớp cho đối tượng và hồi quy (regression) Bounding Box (b) Fast R-CNN Nam 2015, Fast R-CNN [30] được giới thiệu bởi cùng nhóm tac giả voi R-CNN để giải quyết một số hạn chế và xây dựng một thuật toán phát hiện đối tượng nhanh hơn. Kiến trúc Fast R-CNN được minh họa tại Hình 3-3 bao gồm mạng CNN làm backbone, Rol Pooling layer, Classifier và Bounding-box Regression.

Cách tiếp cận của Fast R-CNN tương tự R-CNN.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phát Hiện Đối Tượng Trên Ấn Phẩm Tiếng Việt Sử Dụng Mạng Học Sâu khám phá các phương pháp và kỹ thuật trong việc nhận diện đối tượng trong văn bản tiếng Việt thông qua mạng học sâu. Bài viết không chỉ cung cấp cái nhìn tổng quan về các mô hình học sâu hiện đại mà còn phân tích cách chúng có thể được áp dụng để cải thiện độ chính xác trong việc phát hiện và phân loại thông tin trong các ấn phẩm tiếng Việt.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về cách thức hoạt động của các thuật toán học sâu và ứng dụng của chúng trong lĩnh vực ngôn ngữ tự nhiên. Để mở rộng kiến thức, bạn có thể tham khảo thêm tài liệu Ứng dụng học sâu cho bài toán gợi ý, nơi trình bày các ứng dụng thực tiễn của học sâu trong việc gợi ý thông tin. Ngoài ra, tài liệu Nghiên cứu trích rút một số khái niệm trong văn bản y khoa tiếng việt cũng sẽ giúp bạn hiểu rõ hơn về việc áp dụng học sâu trong lĩnh vực y khoa. Cuối cùng, tài liệu Đề tài nckh hcmute nghiên cứu kỹ thuật học sâu trong nhận dạng đối tượng hướng đến ứng dụng trong giám sát thông minh sẽ cung cấp cái nhìn sâu sắc về các kỹ thuật học sâu trong nhận dạng đối tượng, mở rộng thêm kiến thức cho bạn trong lĩnh vực này.

#xử lý ngôn ngữ tự nhiên

#nhận diện hình ảnh

#phát hiện đối tượng

#mạng học sâu

#công nghệ học máy

#phân tích văn bản tiếng Việt

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Công nghệ học sâu và ứng dụng

Phát hiện đối tượng trong AI

Tương lai của AI trong văn bản