Khóa luận tốt nghiệp: Đánh giá phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng Việt

Trường đại học

Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

2021

115
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan về phương pháp học sâu và bài toán hỏi đáp trên ảnh infographic

Học sâu đã trở thành một công cụ mạnh mẽ trong việc giải quyết các bài toán phức tạp, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiênphân tích ảnh. Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic là một dạng hình ảnh trực quan, chứa nhiều thông tin được trình bày dưới dạng biểu đồ, đồ thị và văn bản ngắn gọn. Việc áp dụng học sâu vào bài toán này đòi hỏi sự kết hợp giữa trí tuệ nhân tạoxử lý ngôn ngữ tự nhiên để tối ưu hóa mô hình.

1.1. Định nghĩa và thách thức của bài toán

Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic thường chứa nhiều yếu tố phức tạp như biểu đồ, đồ thị và văn bản ngắn gọn, điều này đặt ra thách thức lớn cho việc phân tích ảnhxử lý ngôn ngữ tự nhiên. Các mô hình học sâu cần phải được tối ưu hóa để có thể xử lý hiệu quả các thông tin đa phương thức này.

1.2. Ứng dụng của bài toán trong thực tế

Bài toán hỏi đáp trên ảnh infographic có nhiều ứng dụng thực tế, đặc biệt trong các lĩnh vực như giáo dục, y tế và truyền thông. Ví dụ, trong giáo dục, hệ thống có thể giúp học sinh hiểu nhanh các thông tin từ ảnh infographic mà không cần đọc nhiều văn bản. Trong y tế, hệ thống có thể hỗ trợ bác sĩ trong việc đọc và phân tích các biểu đồ y khoa. Điều này cho thấy tiềm năng lớn của bài toán trong việc cải thiện hiệu quả làm việc và học tập.

II. Phương pháp học sâu và đánh giá hiệu quả

Các phương pháp học sâu như BERT, M4CLayoutLMv2 đã được áp dụng để giải quyết bài toán hỏi đáp trên ảnh infographic. Các mô hình này sử dụng kiến trúc Transformer để kết hợp thông tin từ cả hình ảnh và văn bản. BERT là một mô hình tiên tiến trong xử lý ngôn ngữ tự nhiên, trong khi LayoutLMv2 được thiết kế đặc biệt để xử lý các tài liệu có cấu trúc phức tạp. Việc đánh giá phương pháp này trên tập dữ liệu tiếng Việt cho thấy hiệu quả vượt trội của LayoutLMv2 trong việc xử lý các ảnh infographic.

2.1. Kiến trúc Transformer và ứng dụng

Kiến trúc Transformer đã trở thành nền tảng cho nhiều mô hình học sâu hiện đại. Nó cho phép mô hình xử lý thông tin từ cả hình ảnh và văn bản một cách hiệu quả. Transformer sử dụng cơ chế tự tập trung để xác định mối quan hệ giữa các phần tử trong dữ liệu đầu vào. Điều này đặc biệt hữu ích trong bài toán hỏi đáp trên ảnh infographic, nơi thông tin hình ảnh và văn bản cần được kết hợp chặt chẽ.

2.2. Đánh giá hiệu quả của các mô hình

Việc đánh giá phương pháp học sâu trên tập dữ liệu tiếng Việt cho thấy LayoutLMv2 đạt hiệu quả cao nhất với điểm ANLS (Average Normalized Levenshtein Similarity) tốt nhất. BERTM4C cũng cho kết quả khả quan, nhưng LayoutLMv2 vượt trội nhờ khả năng xử lý các tài liệu có cấu trúc phức tạp. Điều này khẳng định tiềm năng của LayoutLMv2 trong việc giải quyết bài toán hỏi đáp trên ảnh infographic.

III. Xây dựng và ứng dụng tập dữ liệu tiếng Việt

Việc xây dựng tập dữ liệu VilnfographicVQA cho bài toán hỏi đáp trên ảnh infographic tiếng Việt là một bước quan trọng trong nghiên cứu. Tập dữ liệu này bao gồm các ảnh infographic được thu thập từ nhiều nguồn khác nhau, cùng với các câu hỏi và câu trả lời tương ứng. Quá trình xây dựng tập dữ liệu bao gồm việc thu thập ảnh, tiền xử lý dữ liệu và tạo các OCR token để hỗ trợ việc phân tích văn bản. Tập dữ liệu này đã được sử dụng để đánh giá phương pháp học sâu và cho thấy hiệu quả trong việc xử lý ảnh infographic tiếng Việt.

3.1. Quá trình thu thập và tiền xử lý dữ liệu

Tập dữ liệu VilnfographicVQA được xây dựng bằng cách thu thập các ảnh infographic từ nhiều nguồn khác nhau, bao gồm các trang web và tài liệu công khai. Sau đó, dữ liệu được tiền xử lý để loại bỏ các yếu tố không cần thiết và chuẩn hóa định dạng. Các OCR token được tạo ra để hỗ trợ việc phân tích văn bản trong ảnh. Quá trình này đảm bảo rằng tập dữ liệu có chất lượng cao và phù hợp với mục đích nghiên cứu.

3.2. Ứng dụng của tập dữ liệu trong nghiên cứu

Tập dữ liệu VilnfographicVQA đã được sử dụng để đánh giá phương pháp học sâu như BERT, M4CLayoutLMv2. Kết quả cho thấy các mô hình này đạt hiệu quả cao trong việc xử lý ảnh infographic tiếng Việt. Điều này khẳng định giá trị của tập dữ liệu trong việc hỗ trợ nghiên cứu và phát triển các hệ thống hỏi đáp trên ảnh infographic.

21/02/2025
Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng việt
Bạn đang xem trước tài liệu : Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tải xuống (115 Trang - 63.19 MB)