Khóa luận tốt nghiệp khoa học dữ liệu tích hợp đặc trưng ảnh vào mô hình mạng convolutional sequence to sequence cho bài toán hỏi đáp trực quan đa ngôn ngữ

Khóa luận trình bày mô hình mạng convolutional sequence to sequence tích hợp đặc trưng ảnh cho bài toán hỏi đáp đa ngôn ngữ trong khoa học dữ liệu.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu và phạm vi nghiên cứu

1.3. Đối tượng nghiên cứu

1.4. Đóng góp của khóa luận

1.5. Cấu trúc khóa luận

2. CHƯƠNG 2: TỔNG QUAN ĐỀ TÀI

2.1. Bài toán Hỏi đáp trực quan

2.2. Tình hình nghiên cứu trên thế giới

2.3. Tình hình nghiên cứu tại Việt Nam

3. CHƯƠNG 3: QUÁ TRÌNH THỰC NGHIỆM

3.1. Giới thiệu bộ dữ liệu UIT-EVJVQA

3.2. Tổ chức và tiền xử lý dữ liệu

3.3. Phương pháp đề xuất cho tác vụ hỏi đáp trực quan đa ngôn ngữ

3.3.1. Tổng quan phương pháp

3.3.2. Kiến trúc mạng Convolutional Sequence-to-Sequence

3.3.3. Kiến trúc Vision Transformer

3.3.4. Kiến trúc đa thể thức kết hợp thị giác và ngôn ngữ

3.3.5. Trích xuất gợi ý từ hình ảnh và câu hỏi

3.3.6. Tích hợp đặc trưng đa thể thức và tạo sinh câu trả lời

3.4. Thiết lập và cài đặt

3.4.1. Mô hình mạng Convolutional Sequence-to-Sequence

3.4.2. Mô hình pre-trained đa thể thức

3.4.3. Công cụ sử dụng và cấu hình phần cứng

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Độ đo đánh giá

4.2. Đánh giá kết quả thực nghiệm

4.2.1. Kết quả đánh giá sơ bộ các gợi ý được trích xuất

4.2.2. Kết quả đánh giá trên tập Public Test

4.2.3. Kết quả đánh giá trên tập Private Test

4.3. Phân tích kết quả thực nghiệm

4.3.1. Phân tích định lượng

5. CHƯƠNG 5: CHƯƠNG TRÌNH MINH HỌA

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

6.3. Công bố khoa học

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Mô Hình Mạng Convolutional Sequence to Sequence

Mô hình mạng Convolutional Sequence-to-Sequence (ConvS2S) là một trong những phương pháp tiên tiến trong lĩnh vực Hỏi đáp trực quan đa ngôn ngữ. Mô hình này kết hợp giữa mạng nơ-ron tích chập và học sâu để xử lý và tạo ra câu trả lời cho các câu hỏi liên quan đến hình ảnh. Việc tích hợp đặc trưng hình ảnh vào mô hình này giúp cải thiện độ chính xác và khả năng hiểu ngữ nghĩa của hệ thống. Nghiên cứu này sẽ đi sâu vào các khía cạnh của mô hình ConvS2S và ứng dụng của nó trong Hỏi đáp trực quan.

1.1. Ứng dụng của Mô Hình ConvS2S trong Hỏi đáp trực quan

Mô hình ConvS2S được áp dụng rộng rãi trong các hệ thống Hỏi đáp trực quan, cho phép máy tính hiểu và trả lời các câu hỏi liên quan đến hình ảnh. Các ứng dụng này bao gồm hỗ trợ trong y tế, giáo dục và giao thông, giúp nâng cao hiệu quả trong việc ra quyết định.

1.2. Các thành phần chính của Mô Hình ConvS2S

Mô hình ConvS2S bao gồm các thành phần chính như bộ mã hóa và bộ giải mã, sử dụng học sâu để xử lý thông tin từ hình ảnh và ngôn ngữ. Các thành phần này giúp tối ưu hóa quá trình học và cải thiện độ chính xác của câu trả lời.

II. Thách thức trong Hỏi đáp trực quan đa ngôn ngữ

Hỏi đáp trực quan đa ngôn ngữ đối mặt với nhiều thách thức, bao gồm việc xử lý ngôn ngữ tự nhiên và đặc trưng hình ảnh. Các hệ thống cần phải hiểu và phân tích ngữ nghĩa từ cả hình ảnh và câu hỏi, đồng thời đưa ra câu trả lời chính xác trong nhiều ngôn ngữ khác nhau. Điều này đòi hỏi sự phát triển của các thuật toán mạnh mẽ và bộ dữ liệu phong phú.

2.1. Vấn đề về dữ liệu trong Hỏi đáp đa ngôn ngữ

Một trong những thách thức lớn nhất là thiếu hụt dữ liệu cho các ngôn ngữ ít tài nguyên. Điều này ảnh hưởng đến khả năng huấn luyện và hiệu suất của các mô hình Hỏi đáp trực quan.

2.2. Khó khăn trong việc hiểu ngữ nghĩa

Việc hiểu ngữ nghĩa từ hình ảnh và câu hỏi là một thách thức lớn. Các mô hình cần phải có khả năng nhận diện và phân tích các đối tượng trong hình ảnh để đưa ra câu trả lời chính xác.

III. Phương pháp tích hợp đặc trưng hình ảnh vào Mô Hình ConvS2S

Phương pháp tích hợp đặc trưng hình ảnh vào mô hình ConvS2S là một bước tiến quan trọng trong việc cải thiện hiệu suất của hệ thống Hỏi đáp trực quan. Bằng cách sử dụng các mô hình pre-trained như Vision Transformer và ViLT, nghiên cứu này đề xuất một hướng tiếp cận mới nhằm tối ưu hóa quá trình học và giảm thiểu thời gian huấn luyện.

3.1. Sử dụng Vision Transformer trong ConvS2S

Vision Transformer là một trong những mô hình mạnh mẽ giúp rút trích đặc trưng hình ảnh. Việc tích hợp mô hình này vào ConvS2S giúp cải thiện độ chính xác và khả năng hiểu ngữ nghĩa của hệ thống.

3.2. Tích hợp ViLT vào Mô Hình ConvS2S

ViLT là một mô hình đa thể thức giúp kết hợp thông tin từ hình ảnh và ngôn ngữ. Việc tích hợp ViLT vào ConvS2S giúp nâng cao khả năng tương tác giữa hình ảnh và câu hỏi, từ đó cải thiện hiệu suất của hệ thống.

IV. Kết quả thực nghiệm và ứng dụng thực tiễn

Kết quả thực nghiệm cho thấy mô hình ConvS2S tích hợp đặc trưng hình ảnh đạt được hiệu suất cao trong các bài toán Hỏi đáp trực quan đa ngôn ngữ. Nghiên cứu đã thực hiện trên bộ dữ liệu UIT-EVJVQA và đạt được những kết quả khả quan, chứng minh tính khả thi của phương pháp đề xuất.

4.1. Đánh giá hiệu suất trên bộ dữ liệu UIT EVJVQA

Mô hình ConvS2S tích hợp đặc trưng hình ảnh đã đạt được điểm F1 cao trên bộ dữ liệu UIT-EVJVQA, cho thấy khả năng xử lý và trả lời câu hỏi chính xác.

4.2. Ứng dụng trong thực tiễn

Hệ thống Hỏi đáp trực quan có thể được áp dụng trong nhiều lĩnh vực như y tế, giáo dục và giao thông, giúp nâng cao hiệu quả trong việc ra quyết định và hỗ trợ người dùng.

V. Kết luận và hướng phát triển tương lai

Nghiên cứu này đã chỉ ra rằng mô hình ConvS2S tích hợp đặc trưng hình ảnh có tiềm năng lớn trong việc cải thiện hiệu suất của hệ thống Hỏi đáp trực quan đa ngôn ngữ. Hướng phát triển tương lai có thể tập trung vào việc mở rộng bộ dữ liệu và cải thiện các thuật toán học sâu.

5.1. Đề xuất hướng nghiên cứu tiếp theo

Hướng nghiên cứu tiếp theo có thể tập trung vào việc phát triển các mô hình mới và cải thiện khả năng xử lý ngôn ngữ tự nhiên cho các ngôn ngữ ít tài nguyên.

5.2. Tăng cường ứng dụng thực tiễn

Cần nghiên cứu thêm về cách áp dụng mô hình Hỏi đáp trực quan trong các lĩnh vực khác nhau, từ y tế đến giáo dục, nhằm nâng cao giá trị thực tiễn của nghiên cứu.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu tích hợp đặc trưng ảnh vào mô hình mạng convolutional sequence to sequence cho bài toán hỏi đáp trực quan đa ngôn ngữ

Tải đầy đủ

Trích đoạn nội dung tài liệu

Mở đầu. Trình bày lí do chọn dé tài, mục tiêu, đối tượng và phạm vi nghiên cứu cùng những đóng góp chính của khóa luận. * Chương 2: Tổng quan dé tài. Tìm hiểu tổng quan về bài toán hỏi đáp dựa trên nội dung hình ảnh (VQA).

Phân tích và đánh giá các hướng nghiên cứu liên quan trong nước và quốc tế, nêu những vấn đề còn tồn tại mà đề tài khóa luận tập trung nghiên cứu và giải quyết. « Chương 3: Quá trình thực nghiệm. Định nghĩa bài toán, giới thiệu về bộ dữ liệu thực nghiệm, trình bày cơ sở lý thuyết các mô hình học sâu cơ sở, và cuối cùng phát biểu và cài đặt phương pháp đề xuất cho tác vụ Hỏi đáp trực quan đa ngôn ngữ. * Chương 4: Kết quả thực nghiệm.

Trình bày kết quả đánh giá hiệu suất của các phương pháp đề xuất trên bộ dữ liệu thực nghiệm. Phân tích kết quả thực nghiệm nhằm chỉ ra những mặt tích cực và hạn chế của hướng tiếp cận. « Chương 5: Chương trình minh hoa. Trình bày về việc triển khai chương trình minh họa cho hệ thống hỏi đáp trực quan đa ngữ.

* Chương 6: Kết luận và hướng phát triển. Trình bay các kết quả đạt được và những đóng góp chính của khóa luận. Bàn luận về kết quả của hướng tiếp cận và đề xuất các hướng nghiên cứu tiếp theo. ! Đã được báo cáo tại Hội thảo VLSP 2022 diễn ra tại Hà Nội.

6 Chương 2 TỔNG QUAN ĐỀ TÀI 2. Bài toán Hoi đáp trực quan Bài toán Hỏi đáp trực quan hay Hỏi đáp dựa trên nội dung ảnh (tiéng Anh: Visual Question Answering - VQA) là một chủ đề nghiên cứu nhận được nhiều sự quan tâm trong cộng đồng nghiên cứu trí tuệ nhân tạo (AI) trên thé giới và gần đây có một số bước tiến nổi bật trong công đồng nghiên cứu AI và khoa hoc dif liệu tại Việt Nam. Tác vụ này của trí tuệ nhân tạo áp dụng các kỹ thuật tiêu biểu trong Thị giác máy tính (CV) và Xử lý ngôn ngữ tự nhiên(NLP) nhằm cho phép những chiếc máy tính có thể hiểu được được đặc trưng ngữ nghĩa từ hình ảnh và đưa ra câu trả lời cho câu hỏi liên quan một cách tự động. Hỏi đáp trực quan có những ứng dụng quan trọng vào thực tiễn đời sống, như ứng dụng trong các hệ thống chatbot nơi công cộng, trong các hệ thống hỗ trợ ra quyết định (DSS) giúp các chuyên gia y tế trong việc chuẩn đoán hình ảnh y khoa, hay hỗ trợ cho người mắc khiếm khuyết về thị giác nhận thức rõ hơn về sự vật, hiện tượng đang xảy ra xung quanh họ.

Tình hình nghiên cứu trên thé giới ee Trong lĩnh vực thị giác máy tính, mục tiêu của các nghiên cứu trên tác vụ VỌA tập trung vào phát triển các bộ dữ liệu và các phương pháp đề xuất nhằm giúp cho máy tính hiểu được nội dung và ngữ cảnh của hình ảnh. Sự ra đời của bộ dữ liệu Microsoft COCO [6], một cơ sở dữ liệu khổng lồ với hơn 1,5 triệu ảnh, đã tạo nên sức ảnh hưởng lớn trong cộng đồng nghiên cứu về AI va đẩy mạnh công tác nghiên cứu ở phạm vi toàn cầu trên các tác vụ thị giác máy tính như Phát hiện đối tượng, Phân loại ảnh, Phân đoạn ảnh, Mô tả ảnh và Hỏi đáp trực quan. Đã có nhiều công trình nghiên cứu trên thế giới công bố các bộ dữ liệu phục vụ cho tác vụ VQA được xây dựng trên hình ảnh lấy từ bộ dữ liệu COCO với các câu hỏi đáp được biên soạn ở các thứ tiếng khác nhau. Như bộ dữ liệu VQA [7], VQAv2 [§] cho tiếng Anh, EM-IQA [9] cho tiếng Trung hay Japanese VQA [10] cho tiếng Nhật.

Ngoài ra còn có hai bộ dữ liệu benchmark cho việc phát triển các phương pháp VQA gồm Visual Genome (VG-QA) [11] và GQA [12]. VG-QA là một bộ dữ liệu VQA gồm các bức ảnh được chụp trong thế giới thực, và được thiết kế để nhấn mạnh sự tương tác giữa các câu hỏi tự nhiên và những vùng nhất định trên ảnh. Sự ra đời của VG-QA làm nền tảng xây dựng nên GQA, một bộ dữ liệu đề xuất cho bài toán hỏi đáp thành phần và luận giải thế giới thực. Bên cạnh những công trình liên quan về thị giác máy tính, trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) không thể không nhắc đến bộ dữ liệu SQuAD [13] đã đẩy mạnh quá trình nghiên cứu về các hệ thống hỏi đáp và giúp máy tính hiểu được ngôn ngữ tự nhiên.

Dựa trên SQuAD, nhiều bộ dữ liệu tương tự đã được xây dựng với nhiều ngôn ngữ khác nhau như DuReader [14] cho tiếng Trung, JaQuAD [15] cho tiếng Nhật hay KorQuAD [16] cho tiếng Hàn. Bên cạnh các bộ dữ liệu chất lượng về thị giác và ngôn ngữ, các kiến trúc cũng đóng vai trò quan trọng việc xây dựng các hệ thống thông minh. Tận dụng các thành tựu của NLP, trên thế giới đã có nhiều mô hình mạnh mẽ cho tác vụ học tập Sequence- to-Sequence (Seq2Seq) như mạng Long-short Term Memory (LSTM) [17], Convo- lutional Neural Networks dạng Sequence-to-sequence (ConvS2S) [18], Transformer [19] va mT5 [20]. Trong thi giác máy tính, đã có nhiều mô hình State-of-the-art được dé xuất cho việc rút trích thông tin từ hình ảnh như YOLO [21], VGG [22] và Vision Transformer (ViT) [3].

Su đa dạng và không ngừng tăng lên của dữ liệu đi kèm với nhu cầu giải quyết các tác vụ đa thể thức ngoài thực tế dựa trên đặc trưng thị giác và ngôn ngữ. Những hướng tiếp cận gần đây tập trung vào việc phát triển các phương pháp mô hình hóa sự tương tác đa thể thức này như kiến trúc Vision-and-Language Transformer (ViLT) [4] va OFA [5]. Tình hình nghiên cứu tại Việt Nam Hiện nay, các nghiên cứu về bài toán Hởi đáp (QA) nói chung, Hỏi đáp trực quan (VOA) nói riêng nhận được sự quan tâm lớn trong cộng đồng NLP tại Việt Nam. Đối với một ngôn ngữ ít tài nguyên (low-resource) như tiếng Việt, các nghiên cứu trên ngôn ngữ này mang ý nghĩa lớn và có những đóng góp quan trong, làm nên tang cho sự phát triển những hệ thống thông minh hỗ trợ giải quyết các van dé thực tế mang tính đặc thù về mặt ngôn ngữ tại các địa phương ở Việt Nam và các khu vực sử dụng ngôn ngữ Việt trên thế giới.

Các nghiên cứu về QA trên tiếng Việt đã đạt được một số thành tựu nổi bật trong những năm gần đây, với nhiều bộ dữ liệu phục vụ cho các tác vụ QA đặc thù được công bó, như các bộ dữ liệu ViQuAD [23, 24], UIT-ViQuAD [25], UIT-ViNewsQA [26], ViMMRC [27] cho hỏi đáp dựa trên văn bản ngữ cảnh, ViCoQA [28] cho hỏi đáp đàm thoại, hay UIT-ViCoV19QA [29] cho hỏi đáp dựa trên cộng đồng về chủ đề COVID-19. Tuy thé giới dang bước vào ky nguyên mới của chuyển đổi số với những thành tựu của trí tuệ nhân tạo (AI) được ứng dụng vào cuộc sống, việc phát triển các hệ thống hỏi đáp tự động dựa trên nội dung ảnh vẫn còn là một chủ dé nghiên cứu mới mẻ tại Việt Nam. Trên tác vụ VQA ở nước ta hiện nay đã có nghiên cứu xây dựng bộ dữ liệu ViVQA [30] được xem là bộ dữ liệu VQA đầu tiên cho tiếng Việt. Bộ dữ liệu được xây dựng với 10,328 hình ảnh từ cơ sở dữ liệu ảnh MS COCO và 15,000 cặp câu hỏi đáp về nội dung hình ảnh.

Nghiên cứu cũng đã thử nghiệm nhiều phương pháp học sâu khác nhau trên bộ dữ liệu như LSTM, Bi-LSTM kết hợp với pre-trained word embedding như W2V, PhoW2Vec, Fasflext, ELMO, và kiến trúc Hierarchical Co-Attention. Bên cạnh xây dung bộ dif liệu, các nghiên cứu về QA nói chung cũng đã thiết lập các phương pháp khác nhau để thẩm định chất lượng các bộ dữ liệu, như BERT [31], PhoBERT [32] hay các biến thể mạng hồi quy (RNN) như LSTM, Bi-LSTM, và mở ra những hướng phát triển mới cho các tác vụ hỏi đáp liên quan. Tuy đã đạt được những thành tựu nhất định, vẫn còn một số điểm hạn chế tổn tại trong nghiên cứu hỏi đáp trực quan trên tiếng Việt hiện nay như: « Các phương pháp hỏi đáp trực quan trên tiếng Việt chưa thể tạo được câu trả lời diễn đạt tự nhiên với cấu trúc mở do tiếp cận bài toán VQA dưới tác vụ phân lớp. * Các phương pháp xây dựng dựa vào mạng RNN truyền thống chưa tối ưu chi phí tính toán cho tác vụ hỏi đáp trực quan trên tiếng Việt.

¢ Nghiên cứu chưa áp dụng các mô hình pre-trained thị giác tiên tiến như Vision Transformer - ViT để trích xuất đặc trưng từ ảnh. * Do được huấn luyện trên bộ dữ liệu ViVQA chỉ mang tinh đơn ngữ và hình ảnh trích xuất từ MS COCO nên các hệ thống VQA đề xuất chưa thể áp dụng tại môi trường đa ngôn ngữ và chưa thể đưa ra câu trả lời phù hợp cho hình ảnh có bối cảnh đặc thù tại Việt Nam. Trước những khó khăn và thách thức đó, cuộc thi VLSP2022-EVJVQA [1] đã được tổ chức với chủ đề Hỏi đáp trực quan đa ngôn ngữ nhằm tạo một không gian cho các cá nhân, tổ chức trong cộng đồng NLP Việt Nam nghiên cứu và trình bày giải pháp của mình cho bài toán còn nhiều mới mẻ này. Bộ dữ liệu công bố cho cuộc thi được xây dựng dựa trên hình ảnh lấy bối cảnh tại Việt Nam với câu trả lời theo cấu trúc mở, cho thấy cuộc thi mang ý nghĩa lớn trong việc phát triển các hệ thống VQA phù hợp nhằm phục vụ cộng đồng trong nước.

Trong nghiên cứu này chúng tôi đề xuất một phương pháp hiệu quả cho bài toán dat ra và dat vị trí thứ Ba tai VLSP2022-EVJVQA, qua đó có những đóng góp tích cực cho cộng đồng nghiên cứu trong nước về bài toán Hỏi đáp, Hỏi đáp trực quan nói chung, và Hỏi đáp trực quan đa ngôn ngữ nói riêng. 10 Chương 3 QUÁ TRÌNH THỰC NGHIỆM 3. Phát biểu bài toán Hỏi đáp trực quan da ngôn ngữ (mVQA) là dạng mỏ rộng của tác vụ Hỏi đáp trực quan cho phép máy tính có thể hiểu được nội dung của hình ảnh và trả lời cho câu hỏi liên quan ở nhiều ngôn ngữ khác nhau được nhập liệu từ người dùng. Bài toán được định nghĩa như sau: « Đầu vào: Một bức ảnh cho trước và một câu hỏi có thể trả lời được liên quan đến nội dung bức ảnh.

* Đầu ra: Một câu trả lời chứa phần thông tin liên quan đến nội dung hình ảnh. Trong đó, ba ngôn ngữ chính dự kiến áp dụng cho nghiên cứu này gồm tiếng Anh, tiếng Việt và tiếng Nhật, cùng hình ảnh lấy bối cảnh tại Việt Nam.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Mô Hình Mạng Convolutional Sequence-to-Sequence Tích Hợp Đặc Trưng Hình Ảnh Cho Hỏi Đáp Trực Quan Đa Ngôn Ngữ" trình bày một mô hình học sâu tiên tiến, kết hợp giữa mạng convolutional và phương pháp sequence-to-sequence để cải thiện khả năng hỏi đáp trực quan trong nhiều ngôn ngữ. Mô hình này không chỉ giúp nâng cao độ chính xác trong việc nhận diện và phân tích hình ảnh mà còn mở rộng khả năng tương tác ngôn ngữ, mang lại trải nghiệm người dùng tốt hơn trong các ứng dụng đa ngôn ngữ.

Độc giả có thể tìm hiểu thêm về các ứng dụng của học sâu trong lĩnh vực phân loại và nhận diện thông qua tài liệu Luận văn thạc sĩ kỹ thuật viễn thông phát triển và tối ưu mô hình học sâu cho tác vụ phân loại thẻ đeo tai của vật nuôi trong công nghiệp. Bên cạnh đó, tài liệu Khóa luận tốt nghiệp an toàn thông tin nghiên cứu trình phát hiện xâm nhập dựa trên few shot learning cũng cung cấp cái nhìn sâu sắc về các kỹ thuật học máy hiện đại. Cuối cùng, bạn có thể tham khảo Luận văn nghiên cứu kỹ thuật hồi quy trong học máy và ứng dụng nội suy trên ảnh mặt người để hiểu rõ hơn về các phương pháp hồi quy trong học máy và ứng dụng của chúng trong phân tích hình ảnh. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực học máy và trí tuệ nhân tạo.

#xử lý ngôn ngữ tự nhiên

#phương pháp học sâu

#đánh giá hiệu suất mô hình

#Hỏi đáp trực quan đa ngôn ngữ

#Mô hình mạng Convolutional Sequence-to-Sequence

#Tích hợp đặc trưng hình ảnh

Chủ đề

Phát triển mô hình học sâu

Nghiên cứu về Hỏi đáp trực quan

Ứng dụng trí tuệ nhân tạo trong VQA

Tích hợp đa thể thức trong AI

Khóa luận tốt nghiệp khoa học dữ liệu tích hợp đặc trưng ảnh vào mô hình mạng convolutional sequence to sequence cho bài toán hỏi đáp trực quan đa ngôn ngữ

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu và phạm vi nghiên cứu

1.3. Đối tượng nghiên cứu

1.4. Đóng góp của khóa luận

1.5. Cấu trúc khóa luận

2. CHƯƠNG 2: TỔNG QUAN ĐỀ TÀI

2.1. Bài toán Hỏi đáp trực quan

2.2. Tình hình nghiên cứu trên thế giới

2.3. Tình hình nghiên cứu tại Việt Nam

3. CHƯƠNG 3: QUÁ TRÌNH THỰC NGHIỆM

3.1. Giới thiệu bộ dữ liệu UIT-EVJVQA

3.2. Tổ chức và tiền xử lý dữ liệu

3.3. Phương pháp đề xuất cho tác vụ hỏi đáp trực quan đa ngôn ngữ

3.3.1. Tổng quan phương pháp

3.3.2. Kiến trúc mạng Convolutional Sequence-to-Sequence

3.3.3. Kiến trúc Vision Transformer

3.3.4. Kiến trúc đa thể thức kết hợp thị giác và ngôn ngữ

3.3.5. Trích xuất gợi ý từ hình ảnh và câu hỏi

3.3.6. Tích hợp đặc trưng đa thể thức và tạo sinh câu trả lời

3.4. Thiết lập và cài đặt

3.4.1. Mô hình mạng Convolutional Sequence-to-Sequence

3.4.2. Mô hình pre-trained đa thể thức

3.4.3. Công cụ sử dụng và cấu hình phần cứng

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Độ đo đánh giá

4.2. Đánh giá kết quả thực nghiệm

4.2.1. Kết quả đánh giá sơ bộ các gợi ý được trích xuất

4.2.2. Kết quả đánh giá trên tập Public Test

4.2.3. Kết quả đánh giá trên tập Private Test

4.3. Phân tích kết quả thực nghiệm

4.3.1. Phân tích định lượng

5. CHƯƠNG 5: CHƯƠNG TRÌNH MINH HỌA

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

6.3. Công bố khoa học

TÀI LIỆU THAM KHẢO

I. Tổng quan về Mô Hình Mạng Convolutional Sequence to Sequence

1.1. Ứng dụng của Mô Hình ConvS2S trong Hỏi đáp trực quan

1.2. Các thành phần chính của Mô Hình ConvS2S

II. Thách thức trong Hỏi đáp trực quan đa ngôn ngữ

2.1. Vấn đề về dữ liệu trong Hỏi đáp đa ngôn ngữ

2.2. Khó khăn trong việc hiểu ngữ nghĩa

III. Phương pháp tích hợp đặc trưng hình ảnh vào Mô Hình ConvS2S

3.1. Sử dụng Vision Transformer trong ConvS2S

3.2. Tích hợp ViLT vào Mô Hình ConvS2S

IV. Kết quả thực nghiệm và ứng dụng thực tiễn

4.1. Đánh giá hiệu suất trên bộ dữ liệu UIT EVJVQA

4.2. Ứng dụng trong thực tiễn

V. Kết luận và hướng phát triển tương lai

5.1. Đề xuất hướng nghiên cứu tiếp theo

5.2. Tăng cường ứng dụng thực tiễn

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Thái Minh Triết

Người hướng dẫn: ThS. Lưu Thanh Sơn

Trường học: Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học dữ liệu

Đề tài: Mô Hình Mạng Convolutional Sequence-to-Sequence Tích Hợp Đặc Trưng Hình Ảnh Cho Hỏi Đáp Trực Quan Đa Ngôn Ngữ

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2023

Địa điểm: Hồ Chí Minh

Có thể bạn quan tâm