Hỏi Đáp Tự Động Dựa Trên Hình Ảnh Chủ Đề Mở Trong Tiếng Việt

Khóa luận tốt nghiệp khám phá công nghệ hỏi đáp tự động dựa trên hình ảnh, ứng dụng trong khoa học dữ liệu, mang lại giải pháp hiệu quả.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Cử nhân ngành khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

Khóa luận tốt nghiệp

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MÔ TẢ BÀI TOÁN. CÁC CÔNG TRÌNH LIÊN QUAN. LÝ DO THỰC HIỆN ĐỀ TÀI. HẠN CHẾ CỦA BỘ DỮ LIỆU VQAV2. HẠN CHẾ CỦA BỘ DỮ LIỆU TEXTVQA. HẠN CHẾ CỦA BỘ DỮ LIỆU VIVQA. TỔNG QUAN QUY TRÌNH.

1.1. Thu thập hình ảnh

1.2. Xây dựng guideline tạo câu hỏi — câu trả lời

1.3. Xây dựng công cụ tạo dữ liệu

1.4. Huy động nhân lực và tạo câu hỏi - câu trả lời

1.5. Thẩm định và hoàn thiện bộ dữ liệu

1.6. Phân loại cặp câu hỏi — câu trả lời

1.7. Xác định vị trí của đối tượng trong hình ảnh

1.8. Xác định số lượng đối tượng trong hình ảnh

1.9. Xác định màu sắc của đối tượng trong hình ảnh

1.10. Phân tích tổng quan đặc trưng bộ dữ liệu

1.11. Các phương pháp thử nghiệm

1.12. Thiết lập tham số thí nghiệm

2. CHƯƠNG 2: PHƯƠNG PHÁP TRÍCH XUẤT ĐẶC TRƯNG CỦA HÌNH ẢNH. PHƯƠNG PHÁP TRÍCH XUẤT SCENE TEXT TRONG HÌNH ẢNH. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ.

2.1. Show, Ask, Attend and Answer (SAAA)

2.2. Modular Co-Attention Neural Network (MCAN)

2.3. Look, Read, Reason and Answer (LoRRA)

2.4. Iterative Answer Prediction with Pointer - Augmented Multimodal Transformer (M4C)

2.5. Các phương pháp cải tiến dựa trên các mô hình classifier

2.5.1. Modular Co-Attention Neural Network with Generator (MCAN+generator)

2.5.2. Show, Ask, Attend and Answer with Generator (SAAA+Generator)

2.5.3. Look, Reason, Read and Answer with Generator (LoRRA+generator)

2.6. Các kết quả thử nghiệm

2.6.1. Kết quả chính

2.6.2. Hướng tiếp cận dựa trên phân loại câu trả lời không phù hợp với bộ dữ liệu OpenViVQA

2.6.3. Các phương pháp học sâu cần thêm thông tin từ scene text để hiểu câu hỏi tốt hơn và đưa ra câu trả lời phù hợp

3. CHƯƠNG 3: CÁC KẾT QUẢ THỬ NGHIỆM VỚI PHƯƠNG PHÁP M4C. PHÂN TÍCH KẾT QUẢ. ĐÓNG GÓP, HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN.

3.1. Tác động từ các yếu tố của scene text lên hiệu năng của M4C-small

3.2. Tác động của kích thước lên hiệu năng của M4C

3.3. Tác động của mô hình ảnh được huấn luyện sẵn lên hiệu năng của M4C

3.4. Phân tích kết quả

3.4.1. Kết quả của mô hình M4C-small trên Non-text QA

3.4.2. Kết quả của mô hình M4C-small trên text QA

3.4.3. Ảnh hưởng của độ dài câu hỏi — câu trả lời lên kết quả của M4C-small

3.4.4. Ảnh hưởng của mô hình OCR lên kết quả của M4C

3.4.5. Ảnh hưởng của mô hình ảnh được huấn luyện sẵn lên kết quả của M4C

3.4.6. Phân tích kết quả của các độ đo đánh giá trên bộ dữ liệu OpenViVQA

3.5. Đóng góp, hạn chế và hướng phát triển

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC BIỂU ĐỒ

TÓM TẮT KHÓA LUẬN

Tóm tắt

I. Tổng quan về Hỏi Đáp Tự Động Dựa Trên Hình Ảnh

Hỏi đáp tự động dựa trên hình ảnh (Visual Question Answering - VQA) là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Bài toán này yêu cầu máy tính phải có khả năng hiểu và phân tích nội dung hình ảnh để đưa ra câu trả lời chính xác cho các câu hỏi liên quan. VQA kết hợp giữa trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên, tạo ra những ứng dụng hữu ích trong nhiều lĩnh vực như giáo dục, y tế và thương mại điện tử.

1.1. Định nghĩa và ý nghĩa của VQA

VQA là một bài toán phức tạp, yêu cầu máy tính không chỉ nhận diện hình ảnh mà còn hiểu ngữ cảnh và nội dung câu hỏi. Điều này giúp cải thiện khả năng tương tác giữa người và máy, mở ra nhiều cơ hội mới trong việc phát triển các ứng dụng thông minh.

1.2. Lịch sử phát triển của VQA

Bài toán VQA lần đầu tiên được giới thiệu vào năm 2015 với bộ dữ liệu VQAv1. Kể từ đó, nhiều bộ dữ liệu và mô hình mới đã được phát triển, như VQAv2 và TextVQA, nhằm cải thiện độ chính xác và khả năng hiểu biết của các hệ thống VQA.

II. Thách thức trong Hỏi Đáp Tự Động Dựa Trên Hình Ảnh

Mặc dù VQA đã đạt được nhiều tiến bộ, nhưng vẫn còn nhiều thách thức cần giải quyết. Các vấn đề như độ chính xác của câu trả lời, khả năng hiểu ngữ cảnh và sự đa dạng của câu hỏi vẫn là những điểm yếu lớn. Đặc biệt, việc xử lý các câu hỏi phức tạp và không rõ ràng là một thách thức lớn cho các mô hình hiện tại.

2.1. Độ chính xác của câu trả lời

Nhiều mô hình VQA hiện tại vẫn gặp khó khăn trong việc đưa ra câu trả lời chính xác cho các câu hỏi phức tạp. Điều này thường xảy ra do sự thiếu hụt trong việc hiểu ngữ cảnh của hình ảnh và câu hỏi.

2.2. Khả năng hiểu ngữ cảnh

Việc hiểu ngữ cảnh trong hình ảnh là rất quan trọng để đưa ra câu trả lời chính xác. Tuy nhiên, nhiều mô hình hiện tại vẫn chưa thể xử lý tốt các yếu tố ngữ nghĩa và ngữ cảnh trong hình ảnh.

III. Phương pháp Giải Quyết Vấn Đề Hỏi Đáp Tự Động

Để cải thiện khả năng của các hệ thống VQA, nhiều phương pháp mới đã được đề xuất. Các phương pháp này bao gồm việc sử dụng học sâu, mô hình phân loại câu trả lời, và các kỹ thuật xử lý ngôn ngữ tự nhiên. Những phương pháp này giúp tăng cường khả năng hiểu biết và độ chính xác của các mô hình VQA.

3.1. Sử dụng học sâu trong VQA

Học sâu đã chứng minh được hiệu quả trong việc cải thiện khả năng nhận diện hình ảnh và hiểu ngữ nghĩa. Các mô hình như CNN và RNN thường được sử dụng để xử lý hình ảnh và câu hỏi.

3.2. Mô hình phân loại câu trả lời

Mô hình phân loại câu trả lời giúp xác định câu trả lời phù hợp nhất từ một tập hợp các câu trả lời có thể. Phương pháp này giúp giảm thiểu sai sót trong việc đưa ra câu trả lời.

IV. Ứng Dụng Thực Tiễn Của Hỏi Đáp Tự Động

Hỏi đáp tự động dựa trên hình ảnh có nhiều ứng dụng thực tiễn trong đời sống. Từ việc hỗ trợ học tập, cải thiện trải nghiệm người dùng trong thương mại điện tử, đến việc hỗ trợ trong lĩnh vực y tế, VQA đang dần trở thành một công cụ hữu ích.

4.1. Ứng dụng trong giáo dục

VQA có thể được sử dụng để tạo ra các hệ thống học tập thông minh, giúp học sinh tìm kiếm thông tin và giải đáp thắc mắc một cách nhanh chóng và hiệu quả.

4.2. Ứng dụng trong thương mại điện tử

Trong thương mại điện tử, VQA có thể giúp người tiêu dùng tìm kiếm sản phẩm và nhận thông tin chi tiết về sản phẩm một cách dễ dàng hơn.

V. Kết Luận và Tương Lai Của Hỏi Đáp Tự Động

Hỏi đáp tự động dựa trên hình ảnh là một lĩnh vực đầy tiềm năng và thách thức. Với sự phát triển không ngừng của công nghệ, tương lai của VQA hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới. Việc nghiên cứu và phát triển các mô hình VQA hiệu quả hơn sẽ mở ra nhiều cơ hội mới trong tương lai.

5.1. Tương lai của VQA

Với sự phát triển của công nghệ AI và học sâu, VQA sẽ ngày càng trở nên chính xác và hiệu quả hơn. Các nghiên cứu mới sẽ tiếp tục cải thiện khả năng của các mô hình VQA.

5.2. Hướng nghiên cứu tiếp theo

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện khả năng hiểu ngữ cảnh và độ chính xác của câu trả lời, cũng như phát triển các bộ dữ liệu mới để phục vụ cho nghiên cứu VQA.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu hỏi đáp tự động dựa trên hình ảnh trong tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Mô tả bài toán. Các công trình liên quan. Lý do thực hiện để tài.

Hạn chế của bộ dit liệu VQAv2. _ Hạn chế của bộ dit liệu TextVQA. Hạn chế của bộ dit liệu ViVQA. Tổng quan quy trình.

Thu thập hình ảnh. Xây dựng guideline tạo câu hỏi — câu trả lỜi. Xây dựng công cụ tạo dữ liệu. Huy động nhân lực và tao câu hỏi - câu trả lời.

Tham định và hoàn thiện bộ dữ liệu. Phân loại cặp câu hỏi — câu trả lời. Xác định vị trí của đối tượng trong hình ảnh. Xác định số lượng đối tượng trong hình ảnh.

Xác định màu sắc của đối tượng trong hình ảnh. Phân tích tổng quan đặc trưng bộ dữ liệu. Cac phương pháp thử nghiệm. Thiết lập tham số thí nghiệm.

LORRA+Qe@MeratOrscscscsssssssesesesesssesssesssssssesssesssssssssesssssssssssesssssssssssssesssssssssssees 27 2. Phương pháp trích xuất đặc trưng của hình ảnh. Phương pháp trích xuất scene text trong hình ảnh. Các phương pháp đánh giá.

Show, Ask, Attend and Answer (SA AAA). Modular Co-Attention Neural Network (MCAN). Look, Read, Reason and Answer (LoRRA). Iterative Answer Prediction with Pointer - Augmented Multimodal Transformer (M4C).

Cac phương pháp cải tiên dựa trên các mô hình classifier. Modular Co-Attention Neural Network with Generator (MCAN+generator). Show, Ask, Attend and Answer with Generator (SAAA+Generator) 46 2. Look, Reason, Read and Answer with Generator (LoRRA+generator) 47 2⁄7.

Các kết qua thử nghiệm. Kết quả chính. Hướng tiếp cận dựa trên phân loại câu trả lời không phù hợp với bộ dữ liệu OpenViV(QA. Các phương pháp học sâu cần thêm thông tin từ scene text để hiéu câu hỏi tốt hơn và đưa ra câu trả lời phù hợp NON essences50 3.

Các kết qua thử nghiệm với phương pháp M4C. Tác động từ các yếu tô của scene text hiệu năng của M4C-small. Tác động của kích thước lên hiệu năng của M4C. Tác động của mô hình ảnh được huấn luyện sẵn lên hiệu năng của M4C 61 3.

Phân tích kết quả. Kết quả của mô hình M4C-small trên Non — text QA. Kết quả của mô hình M4C-small trên text QA. Ảnh hưởng của độ dài câu hỏi — câu trả lời lên kết quả của M4C- small 69 3.

Ảnh hưởng của mô hình OCR lên kết quả của M4C. Ảnh hưởng của mô hình ảnh được huấn luyện sẵn lên kết quả của I6 1077. Phân tích kết quả của các độ đo đánh giá trên bộ dữ liệu OpenViVQA. Đóng góp, hạn chế và hướng phát triển.

Hướng phát triên.-------c-cccckckrrkkrtriiiiiiiiiiiiiiiiiiiiiiiiiiiiiiirir 80 DANH MỤC HÌNH Hình 1.1: Mô tả bài toán được đề xuất bởi OpenViVQA.eccce ONADo4 Hình 1.2: Một số ví dụ trong bộ dữ liệu VQAV2 .3: Một số ví dụ trong bộ dữ liệu TextVQA.4: Một số ví dụ trong bộ dữ liệu VĩVQA.5: Quy trình xây dựng bộ dữ liệu OpenVTVQA.-------ec-c-ceecccercee Hình 1.6: Một số hình ảnh ví dụ trong OpenViVQA.7: Ví dụ cho Text-QA (trái) và Non-text QA (phải).8: Một ví dụ điển hình của Non text QA.9: Một số ví dụ về Text QA.10: Một số ví dụ về việc xác định vi trí trái - phải trong ảnh.1: Các mappings có thể có giữa cặp hypo - ref.2: Kiến trúc mô hình FasterRCNN.3: Kiến trúc mô hình SwinTextSpotter.4: Kiến trúc module Transformer Encoder của SwinTextSpotter.5: Kiến trúc module Recognition Conversion của SwinTextSpotter.6: Kiến trúc mô hình SAAA+elassifier.7: Kiến trúc mô hình MCAN+classifier.8: SA và GA trong MCAN+classifier.9: Kiến trúc mô hình LoRR.10: Kiến trúc mô hình M4C.11: Minh họa tổng quan quá trình thay thé module classifier thành generator trong các mô hình VQA phân loại câu trả lời.12: Kiến trúc mô hình MCAN+generator.13: Kiến trúc mô hình SA A A+generator.14: Kiến trúc mô hình LoRRAA+generator.1: Các ví dụ cho kết quả của các mô hình không có khả năng đọc và có 80.2: Một số ví dụ cho câu trả lời đúng của M4C-small trên Non-text QA.3: Một số ví dụ cho lỗi nhìn sai đối tượng của M4C-small.4: Một số ví dụ cho lỗi nhìn sai ngữ cảnh của M4C-small.5: Một số ví dụ cho lỗi xác định sai số lượng của M4C-small.6: Một số ví dụ cho câu trả lời đúng của M4C-small trên Text QA (màu xanh dương lá cây biểu thị các token được lấy từ tập từ điền được định nghĩa sẵn và chữ màu xanh dương biểu bị các token được “copy” từ scene text).7: Một 86 vi du cho kết quả sai của M4C-small trên Text QA (màu xanh dương lá cây biểu thị các token được lay từ tập từ điền được định nghĩa sẵn va chữ màu xanh dương biểu bị các token được “copy” từ scene text).8: Kết quả của SwinTextSpotter với confidence threshold lần lượt từ trái qua phải là 0.9 va total num là IÖU.9: Một số ví dụ cho kết quả của VinVL.10: Một số ví dụ của VinVL chưa nhận diện đầy đủ hoặc chính xác một số đối tượng trên hình ảnh có bối cảnh ở Việt Nam.11: Một số kết quả của M4C-small (màu xanh nước biển đánh dâu những nội dung được “copy” từ câu hỏi trong câu trả lời va phần xanh lá cây đánh dấu thông tim trả lời).---c-c-cccceeeeeeertrtrertrtrtrtrtririirrrirriiririririrrrrrrrirreroreooee | OL DANH MỤC BANG Bảng 1.1: Thống kê số lượng cặp câu hỏi - câu trả lời.2: Thống kê dựa trên độ dài của câu hỏi — câu trả lời.1: Kết qua tlhu nghiệm chính. ww AD Bảng 3.2: Kết qua tl ử nghiệm so sánh các mô hình classifier va generator.3: Kết qua tl hử nghiệm so sánh các mô hình không có khả năng đọc và các mô hình có khả nan; ø doc.4: Kết quả tl iệm ảnh hưởng của các yếu té từ scene text lên hiệu quả của M4C-small.5: Kết quả độ lệch chuẩn trên các độ đo của M4C-small.6: Kết quả tÌ ử ng iệm ảnh hưởng của các yêu tô cua scene text lên hiệu qua của M4C-large.---c-cstztrtrtrrrtrEEEriririiiiiiiiiiiiiiiiiirrrirrrrerruree OO) Bang 3.7: Kết quảt hử nghiệm của M4C-large khi được giảm dan kích thước của module Question Embedd Bang 3.8: Kết quả t ử ng! iệm với các kích thước khác nhau của M4C-small.9: Kết quả tÌ hử nghiệm ảnh hưởng của mô hình huấn luyện ảnh lên hiệu qua của M4C-small .62 DANH MỤC BIEU DO Biểu đồ 1.1: Phân phối độ dài của câu hỏi - câu trả lời trên tập train.2: Thống kê dựa trên độ dài câu hỏi - câu trả lời trên tập dev.3: Thống kê dựa trên cặp câu hỏi - câu trả lời trên tập test.1: So sánh kết quả trên Text QA (trái) và Non-text QA (phải) giữa các mô hình không có khả năng đọc với các mô hình có khả năng đọc.2: Kết qua thử nghiệm ảnh hưởng của các yếu tô của scene text lên hiệu quả của M4C -small,.---s--s<e s2 x1 HH Hàng Hà Hàn HH HH H101 p1.3: Kết quả thử nghiệm ảnh hưởng của các yếu tố của scene text lên hiệu quả Của M4 -ÏaTB€.-s-- se HAY HH nHYnHHYnHYHH Hà HYn HH1 g1 ng1eg 59 Biểu đồ 3.4: Ảnh hưởng của độ dài câu hỏi (trái) và độ dài câu trả lời (phải) lên hiệu quả của M4C-simalÏ.c--scc<ScxSSkkESkkEEksrktkrkEEkEEEE 11H HH H111 111kg 70 Biểu đồ 3.5: Ảnh hưởng của độ dài câu hỏi (trái) và độ dài câu trả lời (phải) lên hiệu quả của MCATN-B€TTAfOT.«-- 5s +cc+ + ES E111 111 111g grkrikeg 71 Biểu đồ 3.6: Ảnh hưởng của độ dài câu hỏi (trái) và độ dài câu trả lời (phải) lên hiệu quả của SAAA-g€nerafOT.----‹---xx++kktHH HH HH HH này 71 Biểu đồ 3.7: Ảnh hưởng của độ dài câu hỏi (trái) và độ dài câu trả lời (phải) lên hiệu quả của LoRRA+Ø€TTAẨOT.«-- 5< 5cc+S té k1 1H11 11g11 ri 72 TÓM TÁT KHÓA LUẬN Hỏi đáp tự động dựa trên hình anh (visual question answering — VQA) là một bài toán khá phức tạp và thách thức bởi nó đòi hỏi máy tính phải có khả năng khai thác nội dung trong hình ảnh dé đưa ra câu trả lời phù hợp nhất cho câu hỏi được đưa ra. Bài toán này là sự kết hợp của các kết quả nghiên cứu từ cả hai lĩnh vực Xử lý ảnh (computer vision — CV) và Xử lý ngôn ngữ tự nhiên (natural language processing — NLP). Chính vi tính chất giao thoa của hai nhánh nghiên cứu phô biến của học sâu (Deep Learning — DL) cũng như sự thú vị đến từ sự thách thức của bài toán mà những năm gần đây, VQA nhận được rất nhiều sự quan tâm của cộng đồng nghiên cứu trong nước cũng như trên thế giới.

Tiêu biểu có thể ké đến sự ra đời của những bộ dữ liệu mới hơn và thách thức hơn cho bài toán VQA trên tiếng Anh như TextVQA [1], Doc-VQA [2], OCR-VQA [3], VisualMRC [4], OK-VQA [5], ViQAR [6] và trên tiếng Việt như ViVQA [7]. Tuy nhiên, nhìn chung đa số những bộ dữ liệu VQA đều được xây dựng phục vụ cho việc nghiên cứu trên tiếng Anh và hiện tại có khá khiêm tốn số lượng bộ dit liệu phục vụ cho việc nghiên cứu VQA trên tiếng Việt, khiêm tốn cả về số lượng lẫn chất lượng (so với những bộ dữ liệu VQA trên tiếng Anh). Nhằm tạo tiền đề cho sự phát triên của việc nghiên cứu bài toán VQA trên tiếng Việt cũng như đóng góp thêm cho cộng đồng nghiên cứu NLP trên tiếng Việt một bộ dữ liệu mới đủ lớn và chất lượng, chúng tôi đã xây dựng nên bộ dữ liệu mới Open-domain Visual Question Answering (OpenViVQA) với 11,000+ hình ảnh và 37,000+ cặp câu hỏi — câu tra lời (QA). Thông qua các thử nghiệm, chúng tôi chứng minh những đặc trưng trên bộ dữ liệu OpenViVQA thách thức các phương pháp state-of-the-art (SOTA) hiện nay trên hai bộ dữ liệu VQAv2 và TextVQA.

Mô tả bai toán Z Đầu vào \ Đ au ra | những cửa hàng ở đây chủ yếu bán mặt hàng gì? | VOA những cửa hàng này chủ yêu bán các loại model XU ( quan áo \ 7 Hình 1.1: Mô tả bài toán được đề xuất bởi OpenViVQA Hỏi đáp tự động dựa trên hình ảnh là bài toán đòi hỏi máy tính phải có khả năng dựa trên nội dung trong hình ảnh đưa ra được câu trả lời cho câu hỏi được đưa ra liên quan đến hình ảnh [8]. Đầu vào của bài toán là cặp hình ảnh — câu hỏi (Image — Question hay IQ) và đầu ra của bài toán của một câu trả lời (Hình 1. Các công trình liên quan Bài toán hỏi đáp tự động dựa trên hình ảnh (VQA) là một bài toán thách thức giới nghiên cứu khi đòi hỏi phải khai thác thông tin từ hình ảnh dé đưa ra được câu trả lời thích hợp cho câu hỏi được đưa ra. Bài toán VQA lần đầu tiên được dé xuất vào năm 2015 bởi Antol và cộng sự [8] với sự ra đời của bộ dữ liệu VQAv1.

Năm 2017, trong cuộc thi VQA Challenge 2017, Teney và cộng sự [9] đã dé xuất xây dựng mô hình VQA theo hướng phân loại câu trả lời. Các kết quả mà Teney và cộng sự [9] công bố đã chứng minh tính ưu việt của việc tiếp cận này.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu về VQA trong tiếng Việt

Thách thức trong Visual Question Answering

Phương pháp xây dựng bộ dữ liệu VQA

Ứng dụng của học sâu trong VQA