Khóa luận tốt nghiệp: Đánh giá phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng Việt

Trường đại học

Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

2021

115
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Phạm vi và mục tiêu

1.3. Đóng góp của khóa luận

1.4. Cấu trúc khóa luận

2. CHƯƠNG 2: KIẾN THỨC CƠ SỞ

2.1. Mở đầu

2.2. Tổng quan về bài toán hỏi đáp trên hình ảnh infographic

2.2.1. Ảnh infographic là gì?

2.2.2. Định nghĩa bài toán

2.2.3. Nhu cầu của bài toán

2.2.4. Vai trò của ảnh infographic trong cuộc sống

2.2.5. Thách thức của bài toán

2.3. Các nghiên cứu liên quan

2.3.1. Hướng tiếp cận modular method

2.3.2. Hướng tiếp cận monolithic method

2.4. Kiến trúc tổng quan cho bài toán hỏi đáp trên ảnh

2.4.1. Rút trích đặc trưng thị giác

2.4.1.1. Một số kiến trúc dùng để rút trích đặc trưng thị giác

2.4.2. Rút trích đặc trưng văn bản

2.4.2.1. Một số kiến trúc dùng để rút trích đặc trưng trong văn bản

2.4.3. Kết hợp thông tin thị giác và văn bản

3. CHƯƠNG 3: ĐÁNH GIÁ MỘT SỐ PHƯƠNG PHÁP HỌC SÂU CHO BÀI TOÁN HỎI ĐÁP DỰA TRÊN ẢNH INFOGRAPHIC

3.1. Kiến trúc Transformer

3.1.1. Các thành phần cơ bản trong Transformer

3.2. Phương pháp BERT

3.2.1. Các giai đoạn trong mô hình BERT

3.2.2. Các kiến trúc mô hình BERT

3.2.3. Áp dụng BERT cho bài toán hỏi đáp

3.3. Phương pháp LayoutLMv2

3.3.1. Kiến trúc mô hình

3.3.2. Multi-modal Encoder with Spatial-Aware Self-Attention Mechanism

3.3.3. Huấn luyện mô hình LayoutLMv2

3.3.3.1. Giai đoạn fine-tuning

4. CHƯƠNG 4: XÂY DỰNG BỘ DỮ LIỆU HỎI ĐÁP INFOGRAPHIC CHO TIẾNG VIỆT

4.1. Mô tả dữ liệu

4.2. Xây dựng tập dữ liệu VilnfographicVQA

4.2.1. Thu thập ảnh infographic

4.2.2. Quá trình thu thập dữ liệu

4.2.3. Quá trình tiền xử lý dữ liệu

4.2.4. Thống kê số liệu tập dữ liệu

4.2.5. Xây dựng dữ liệu OCR (OCR token annotations)

4.2.5.1. Tạo OCR token bằng Tesseract

4.2.6. Xây dựng dữ câu hỏi câu trả lời (Question-Answer annotation)

4.2.6.1. Xây dựng tập câu hỏi-câu trả lời
4.2.6.2. Phân loại câu hỏi-câu trả lời
4.2.6.3. Thông tin thống kê bộ dữ liệu VilnfographicVQA

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Tập dữ liệu InfographicVQA

5.2. Tập dữ liệu VilnfographicVQA

5.3. Average Normalized Levenshtein Similarity (ANLS)

5.4. Kết quả đánh giá trên InfographicVQA

5.5. Kết quả đánh giá trên VilnfographicVQA

5.6. Một số nhận xét

5.6.1. Phương pháp cho bài toán

5.6.2. Tập dữ liệu VilnfographicVQA

5.6.3. Xây dựng ứng dụng minh họa

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng quan về phương pháp học sâu và bài toán hỏi đáp trên ảnh infographic

Học sâu đã trở thành một công cụ mạnh mẽ trong việc giải quyết các bài toán phức tạp, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiênphân tích ảnh. Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic là một dạng hình ảnh trực quan, chứa nhiều thông tin được trình bày dưới dạng biểu đồ, đồ thị và văn bản ngắn gọn. Việc áp dụng học sâu vào bài toán này đòi hỏi sự kết hợp giữa trí tuệ nhân tạoxử lý ngôn ngữ tự nhiên để tối ưu hóa mô hình.

1.1. Định nghĩa và thách thức của bài toán

Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic thường chứa nhiều yếu tố phức tạp như biểu đồ, đồ thị và văn bản ngắn gọn, điều này đặt ra thách thức lớn cho việc phân tích ảnhxử lý ngôn ngữ tự nhiên. Các mô hình học sâu cần phải được tối ưu hóa để có thể xử lý hiệu quả các thông tin đa phương thức này.

1.2. Ứng dụng của bài toán trong thực tế

Bài toán hỏi đáp trên ảnh infographic có nhiều ứng dụng thực tế, đặc biệt trong các lĩnh vực như giáo dục, y tế và truyền thông. Ví dụ, trong giáo dục, hệ thống có thể giúp học sinh hiểu nhanh các thông tin từ ảnh infographic mà không cần đọc nhiều văn bản. Trong y tế, hệ thống có thể hỗ trợ bác sĩ trong việc đọc và phân tích các biểu đồ y khoa. Điều này cho thấy tiềm năng lớn của bài toán trong việc cải thiện hiệu quả làm việc và học tập.

II. Phương pháp học sâu và đánh giá hiệu quả

Các phương pháp học sâu như BERT, M4CLayoutLMv2 đã được áp dụng để giải quyết bài toán hỏi đáp trên ảnh infographic. Các mô hình này sử dụng kiến trúc Transformer để kết hợp thông tin từ cả hình ảnh và văn bản. BERT là một mô hình tiên tiến trong xử lý ngôn ngữ tự nhiên, trong khi LayoutLMv2 được thiết kế đặc biệt để xử lý các tài liệu có cấu trúc phức tạp. Việc đánh giá phương pháp này trên tập dữ liệu tiếng Việt cho thấy hiệu quả vượt trội của LayoutLMv2 trong việc xử lý các ảnh infographic.

2.1. Kiến trúc Transformer và ứng dụng

Kiến trúc Transformer đã trở thành nền tảng cho nhiều mô hình học sâu hiện đại. Nó cho phép mô hình xử lý thông tin từ cả hình ảnh và văn bản một cách hiệu quả. Transformer sử dụng cơ chế tự tập trung để xác định mối quan hệ giữa các phần tử trong dữ liệu đầu vào. Điều này đặc biệt hữu ích trong bài toán hỏi đáp trên ảnh infographic, nơi thông tin hình ảnh và văn bản cần được kết hợp chặt chẽ.

2.2. Đánh giá hiệu quả của các mô hình

Việc đánh giá phương pháp học sâu trên tập dữ liệu tiếng Việt cho thấy LayoutLMv2 đạt hiệu quả cao nhất với điểm ANLS (Average Normalized Levenshtein Similarity) tốt nhất. BERTM4C cũng cho kết quả khả quan, nhưng LayoutLMv2 vượt trội nhờ khả năng xử lý các tài liệu có cấu trúc phức tạp. Điều này khẳng định tiềm năng của LayoutLMv2 trong việc giải quyết bài toán hỏi đáp trên ảnh infographic.

III. Xây dựng và ứng dụng tập dữ liệu tiếng Việt

Việc xây dựng tập dữ liệu VilnfographicVQA cho bài toán hỏi đáp trên ảnh infographic tiếng Việt là một bước quan trọng trong nghiên cứu. Tập dữ liệu này bao gồm các ảnh infographic được thu thập từ nhiều nguồn khác nhau, cùng với các câu hỏi và câu trả lời tương ứng. Quá trình xây dựng tập dữ liệu bao gồm việc thu thập ảnh, tiền xử lý dữ liệu và tạo các OCR token để hỗ trợ việc phân tích văn bản. Tập dữ liệu này đã được sử dụng để đánh giá phương pháp học sâu và cho thấy hiệu quả trong việc xử lý ảnh infographic tiếng Việt.

3.1. Quá trình thu thập và tiền xử lý dữ liệu

Tập dữ liệu VilnfographicVQA được xây dựng bằng cách thu thập các ảnh infographic từ nhiều nguồn khác nhau, bao gồm các trang web và tài liệu công khai. Sau đó, dữ liệu được tiền xử lý để loại bỏ các yếu tố không cần thiết và chuẩn hóa định dạng. Các OCR token được tạo ra để hỗ trợ việc phân tích văn bản trong ảnh. Quá trình này đảm bảo rằng tập dữ liệu có chất lượng cao và phù hợp với mục đích nghiên cứu.

3.2. Ứng dụng của tập dữ liệu trong nghiên cứu

Tập dữ liệu VilnfographicVQA đã được sử dụng để đánh giá phương pháp học sâu như BERT, M4CLayoutLMv2. Kết quả cho thấy các mô hình này đạt hiệu quả cao trong việc xử lý ảnh infographic tiếng Việt. Điều này khẳng định giá trị của tập dữ liệu trong việc hỗ trợ nghiên cứu và phát triển các hệ thống hỏi đáp trên ảnh infographic.

21/02/2025