Hỏi Đáp Tự Động Dựa Trên Hình Ảnh Chủ Đề Mở Trong Tiếng Việt

2023

99
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MÔ TẢ BÀI TOÁN. CÁC CÔNG TRÌNH LIÊN QUAN. LÝ DO THỰC HIỆN ĐỀ TÀI. HẠN CHẾ CỦA BỘ DỮ LIỆU VQAV2. HẠN CHẾ CỦA BỘ DỮ LIỆU TEXTVQA. HẠN CHẾ CỦA BỘ DỮ LIỆU VIVQA. TỔNG QUAN QUY TRÌNH.

1.1. Thu thập hình ảnh

1.2. Xây dựng guideline tạo câu hỏi — câu trả lời

1.3. Xây dựng công cụ tạo dữ liệu

1.4. Huy động nhân lực và tạo câu hỏi - câu trả lời

1.5. Thẩm định và hoàn thiện bộ dữ liệu

1.6. Phân loại cặp câu hỏi — câu trả lời

1.7. Xác định vị trí của đối tượng trong hình ảnh

1.8. Xác định số lượng đối tượng trong hình ảnh

1.9. Xác định màu sắc của đối tượng trong hình ảnh

1.10. Phân tích tổng quan đặc trưng bộ dữ liệu

1.11. Các phương pháp thử nghiệm

1.12. Thiết lập tham số thí nghiệm

2. CHƯƠNG 2: PHƯƠNG PHÁP TRÍCH XUẤT ĐẶC TRƯNG CỦA HÌNH ẢNH. PHƯƠNG PHÁP TRÍCH XUẤT SCENE TEXT TRONG HÌNH ẢNH. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ.

2.1. Show, Ask, Attend and Answer (SAAA)

2.2. Modular Co-Attention Neural Network (MCAN)

2.3. Look, Read, Reason and Answer (LoRRA)

2.4. Iterative Answer Prediction with Pointer - Augmented Multimodal Transformer (M4C)

2.5. Các phương pháp cải tiến dựa trên các mô hình classifier

2.5.1. Modular Co-Attention Neural Network with Generator (MCAN+generator)

2.5.2. Show, Ask, Attend and Answer with Generator (SAAA+Generator)

2.5.3. Look, Reason, Read and Answer with Generator (LoRRA+generator)

2.6. Các kết quả thử nghiệm

2.6.1. Kết quả chính

2.6.2. Hướng tiếp cận dựa trên phân loại câu trả lời không phù hợp với bộ dữ liệu OpenViVQA

2.6.3. Các phương pháp học sâu cần thêm thông tin từ scene text để hiểu câu hỏi tốt hơn và đưa ra câu trả lời phù hợp

3. CHƯƠNG 3: CÁC KẾT QUẢ THỬ NGHIỆM VỚI PHƯƠNG PHÁP M4C. PHÂN TÍCH KẾT QUẢ. ĐÓNG GÓP, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN.

3.1. Tác động từ các yếu tố của scene text lên hiệu năng của M4C-small

3.2. Tác động của kích thước lên hiệu năng của M4C

3.3. Tác động của mô hình ảnh được huấn luyện sẵn lên hiệu năng của M4C

3.4. Phân tích kết quả

3.4.1. Kết quả của mô hình M4C-small trên Non-text QA

3.4.2. Kết quả của mô hình M4C-small trên text QA

3.4.3. Ảnh hưởng của độ dài câu hỏi — câu trả lời lên kết quả của M4C-small

3.4.4. Ảnh hưởng của mô hình OCR lên kết quả của M4C

3.4.5. Ảnh hưởng của mô hình ảnh được huấn luyện sẵn lên kết quả của M4C

3.4.6. Phân tích kết quả của các độ đo đánh giá trên bộ dữ liệu OpenViVQA

3.5. Đóng góp, hạn chế và hướng phát triển

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC BIỂU ĐỒ

TÓM TẮT KHÓA LUẬN

Tóm tắt

I. Tổng quan về Hỏi Đáp Tự Động Dựa Trên Hình Ảnh

Hỏi đáp tự động dựa trên hình ảnh (Visual Question Answering - VQA) là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Bài toán này yêu cầu máy tính phải có khả năng hiểu và phân tích nội dung hình ảnh để đưa ra câu trả lời chính xác cho các câu hỏi liên quan. VQA kết hợp giữa trí tuệ nhân tạoxử lý ngôn ngữ tự nhiên, tạo ra những ứng dụng hữu ích trong nhiều lĩnh vực như giáo dục, y tế và thương mại điện tử.

1.1. Định nghĩa và ý nghĩa của VQA

VQA là một bài toán phức tạp, yêu cầu máy tính không chỉ nhận diện hình ảnh mà còn hiểu ngữ cảnh và nội dung câu hỏi. Điều này giúp cải thiện khả năng tương tác giữa người và máy, mở ra nhiều cơ hội mới trong việc phát triển các ứng dụng thông minh.

1.2. Lịch sử phát triển của VQA

Bài toán VQA lần đầu tiên được giới thiệu vào năm 2015 với bộ dữ liệu VQAv1. Kể từ đó, nhiều bộ dữ liệu và mô hình mới đã được phát triển, như VQAv2 và TextVQA, nhằm cải thiện độ chính xác và khả năng hiểu biết của các hệ thống VQA.

II. Thách thức trong Hỏi Đáp Tự Động Dựa Trên Hình Ảnh

Mặc dù VQA đã đạt được nhiều tiến bộ, nhưng vẫn còn nhiều thách thức cần giải quyết. Các vấn đề như độ chính xác của câu trả lời, khả năng hiểu ngữ cảnh và sự đa dạng của câu hỏi vẫn là những điểm yếu lớn. Đặc biệt, việc xử lý các câu hỏi phức tạp và không rõ ràng là một thách thức lớn cho các mô hình hiện tại.

2.1. Độ chính xác của câu trả lời

Nhiều mô hình VQA hiện tại vẫn gặp khó khăn trong việc đưa ra câu trả lời chính xác cho các câu hỏi phức tạp. Điều này thường xảy ra do sự thiếu hụt trong việc hiểu ngữ cảnh của hình ảnh và câu hỏi.

2.2. Khả năng hiểu ngữ cảnh

Việc hiểu ngữ cảnh trong hình ảnh là rất quan trọng để đưa ra câu trả lời chính xác. Tuy nhiên, nhiều mô hình hiện tại vẫn chưa thể xử lý tốt các yếu tố ngữ nghĩa và ngữ cảnh trong hình ảnh.

III. Phương pháp Giải Quyết Vấn Đề Hỏi Đáp Tự Động

Để cải thiện khả năng của các hệ thống VQA, nhiều phương pháp mới đã được đề xuất. Các phương pháp này bao gồm việc sử dụng học sâu, mô hình phân loại câu trả lời, và các kỹ thuật xử lý ngôn ngữ tự nhiên. Những phương pháp này giúp tăng cường khả năng hiểu biết và độ chính xác của các mô hình VQA.

3.1. Sử dụng học sâu trong VQA

Học sâu đã chứng minh được hiệu quả trong việc cải thiện khả năng nhận diện hình ảnh và hiểu ngữ nghĩa. Các mô hình như CNN và RNN thường được sử dụng để xử lý hình ảnh và câu hỏi.

3.2. Mô hình phân loại câu trả lời

Mô hình phân loại câu trả lời giúp xác định câu trả lời phù hợp nhất từ một tập hợp các câu trả lời có thể. Phương pháp này giúp giảm thiểu sai sót trong việc đưa ra câu trả lời.

IV. Ứng Dụng Thực Tiễn Của Hỏi Đáp Tự Động

Hỏi đáp tự động dựa trên hình ảnh có nhiều ứng dụng thực tiễn trong đời sống. Từ việc hỗ trợ học tập, cải thiện trải nghiệm người dùng trong thương mại điện tử, đến việc hỗ trợ trong lĩnh vực y tế, VQA đang dần trở thành một công cụ hữu ích.

4.1. Ứng dụng trong giáo dục

VQA có thể được sử dụng để tạo ra các hệ thống học tập thông minh, giúp học sinh tìm kiếm thông tin và giải đáp thắc mắc một cách nhanh chóng và hiệu quả.

4.2. Ứng dụng trong thương mại điện tử

Trong thương mại điện tử, VQA có thể giúp người tiêu dùng tìm kiếm sản phẩm và nhận thông tin chi tiết về sản phẩm một cách dễ dàng hơn.

V. Kết Luận và Tương Lai Của Hỏi Đáp Tự Động

Hỏi đáp tự động dựa trên hình ảnh là một lĩnh vực đầy tiềm năng và thách thức. Với sự phát triển không ngừng của công nghệ, tương lai của VQA hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới. Việc nghiên cứu và phát triển các mô hình VQA hiệu quả hơn sẽ mở ra nhiều cơ hội mới trong tương lai.

5.1. Tương lai của VQA

Với sự phát triển của công nghệ AI và học sâu, VQA sẽ ngày càng trở nên chính xác và hiệu quả hơn. Các nghiên cứu mới sẽ tiếp tục cải thiện khả năng của các mô hình VQA.

5.2. Hướng nghiên cứu tiếp theo

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện khả năng hiểu ngữ cảnh và độ chính xác của câu trả lời, cũng như phát triển các bộ dữ liệu mới để phục vụ cho nghiên cứu VQA.

10/07/2025
Khóa luận tốt nghiệp khoa học dữ liệu hỏi đáp tự động dựa trên hình ảnh trong tiếng việt

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu hỏi đáp tự động dựa trên hình ảnh trong tiếng việt