Xây Dựng Bộ Dữ Liệu và Phương Pháp cho Hỏi Đáp Trực Quan Đa Ngôn Ngữ

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp công nghệ thông tin nghiên cứu bộ dữ liệu và phát triển phương pháp cho hỏi đáp trực, vận dụng lý thuyết vào thực tế, đề xuất giải pháp

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI MỞ ĐẦU

1. CHƯƠNG 1: MỞ ĐẦU

2. CHƯƠNG 2: TỔNG QUAN

2.1. Giới thiệu bài toán Visual question answering (VQA) hay hỏi đáp trực quan

2.2. Hướng tiếp cận

2.3. Các công trình liên quan

2.4. Khó khăn và thách thức

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Artificial Neural Network (ANN)

3.2. Convolutional Neural Network (CNN)

3.3. Recurrent Neural Network (RNN)

3.4. Long Short-Term Memory (LSTM)

3.5. Hierarchical Co-Attention

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Xây dựng bộ dữ liệu

4.2. Phân tích bộ dữ liệu

4.3. Môi trường và ngôn ngữ cài đặt

4.4. Mô hình tiếp cận

4.5. Mô hình baseline VGG+LSTM

4.6. Mô hình VGG+Hierarchical Co-Attention

4.7. Mô hình đề xuất BERT

4.8. Tham số huấn luyện

5. CHƯƠNG 5: ĐÁNH GIÁ VÀ KẾT QUẢ

5.1. Độ đo đánh giá

5.2. Kết quả đánh giá mô hình CNN+LSTM

5.3. Kết quả đánh giá mô hình VGG+Hierarchical Co-Attention

5.4. Kết quả đánh giá mô hình BERT

6. CHƯƠNG 6: KẾT LUẬN

6.1. Những hạn chế gặp phải

7. CHƯƠNG 7: HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng Quan Về Xây Dựng Bộ Dữ Liệu Đa Ngôn Ngữ

Xây dựng bộ dữ liệu cho hỏi đáp trực quan đa ngôn ngữ là một nhiệm vụ quan trọng trong lĩnh vực trí tuệ nhân tạo. Bộ dữ liệu này không chỉ giúp cải thiện khả năng hiểu ngôn ngữ của máy mà còn hỗ trợ trong việc phát triển các ứng dụng thực tiễn như trợ lý ảo và hệ thống chatbot. Việc xây dựng bộ dữ liệu đa ngôn ngữ giúp tăng cường khả năng tương tác giữa các ngôn ngữ khác nhau, từ đó mở rộng khả năng phục vụ cho người dùng toàn cầu.

1.1. Định Nghĩa Hỏi Đáp Trực Quan Đa Ngôn Ngữ

Hỏi đáp trực quan đa ngôn ngữ (Multilingual Visual Question Answering - VQA) là một lĩnh vực nghiên cứu mới, nơi mà hệ thống có thể trả lời câu hỏi dựa trên hình ảnh và ngôn ngữ khác nhau. Điều này đòi hỏi sự kết hợp giữa xử lý ngôn ngữ tự nhiên và nhận diện hình ảnh.

1.2. Tầm Quan Trọng Của Bộ Dữ Liệu Đa Ngôn Ngữ

Bộ dữ liệu đa ngôn ngữ giúp cải thiện độ chính xác của các mô hình AI trong việc xử lý thông tin từ nhiều ngôn ngữ khác nhau. Điều này đặc biệt quan trọng trong bối cảnh toàn cầu hóa, nơi mà người dùng có thể sử dụng nhiều ngôn ngữ khác nhau.

II. Thách Thức Trong Việc Xây Dựng Bộ Dữ Liệu Đa Ngôn Ngữ

Việc xây dựng bộ dữ liệu đa ngôn ngữ gặp phải nhiều thách thức, bao gồm sự khác biệt về ngữ pháp, từ vựng và cách diễn đạt giữa các ngôn ngữ. Ngoài ra, việc thu thập và xử lý dữ liệu từ nhiều nguồn khác nhau cũng là một vấn đề lớn. Đặc biệt, tiếng Việt và tiếng Nhật hiện chưa có nhiều tài liệu hỗ trợ cho việc phát triển bộ dữ liệu này.

2.1. Khó Khăn Trong Việc Thu Thập Dữ Liệu

Việc thu thập dữ liệu cho các ngôn ngữ ít phổ biến như tiếng Việt và tiếng Nhật gặp khó khăn do thiếu nguồn tài liệu phong phú. Điều này dẫn đến việc khó khăn trong việc tạo ra các cặp câu hỏi và câu trả lời chính xác.

2.2. Vấn Đề Chất Lượng Dữ Liệu

Chất lượng của bộ dữ liệu là một yếu tố quan trọng. Nếu sử dụng các công cụ dịch tự động, kết quả có thể không tự nhiên và ảnh hưởng đến độ chính xác của mô hình. Do đó, cần có sự tham gia của các annotator có kinh nghiệm để đảm bảo chất lượng dữ liệu.

III. Phương Pháp Xây Dựng Bộ Dữ Liệu Đa Ngôn Ngữ Hiệu Quả

Để xây dựng bộ dữ liệu đa ngôn ngữ hiệu quả, cần áp dụng các phương pháp hiện đại trong xử lý ngôn ngữ tự nhiên và học máy. Việc kết hợp giữa các công cụ dịch tự động và sự can thiệp của con người sẽ giúp cải thiện chất lượng dữ liệu. Ngoài ra, việc sử dụng các mô hình học sâu như BERT và LSTM cũng rất quan trọng.

3.1. Sử Dụng Công Cụ Dịch Tự Động Kết Hợp Với Con Người

Kết hợp giữa công cụ dịch tự động và sự chỉnh sửa của con người giúp tạo ra các bản dịch chính xác hơn. Điều này đặc biệt quan trọng trong việc xây dựng bộ dữ liệu cho các ngôn ngữ ít tài nguyên.

3.2. Ứng Dụng Các Mô Hình Học Sâu

Sử dụng các mô hình học sâu như BERT và LSTM giúp cải thiện khả năng hiểu ngôn ngữ của hệ thống. Những mô hình này có khả năng học hỏi từ dữ liệu lớn và tạo ra các câu trả lời chính xác hơn cho các câu hỏi.

IV. Ứng Dụng Thực Tiễn Của Bộ Dữ Liệu Đa Ngôn Ngữ

Bộ dữ liệu đa ngôn ngữ có thể được ứng dụng trong nhiều lĩnh vực khác nhau, từ giáo dục đến dịch vụ khách hàng. Hệ thống hỏi đáp trực quan có thể giúp người dùng tìm kiếm thông tin nhanh chóng và hiệu quả hơn. Đặc biệt, nó có thể hỗ trợ cho những người khiếm thị trong việc nhận diện hình ảnh và hiểu biết về môi trường xung quanh.

4.1. Hỗ Trợ Người Khiếm Thị

Hệ thống hỏi đáp trực quan có thể giúp người khiếm thị nhận diện các đối tượng xung quanh thông qua hình ảnh. Điều này giúp họ có thể tương tác tốt hơn với môi trường.

4.2. Ứng Dụng Trong Giáo Dục

Bộ dữ liệu đa ngôn ngữ có thể được sử dụng trong các ứng dụng giáo dục, giúp học sinh tiếp cận thông tin từ nhiều ngôn ngữ khác nhau. Điều này không chỉ giúp nâng cao khả năng ngôn ngữ mà còn mở rộng kiến thức cho học sinh.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Xây dựng bộ dữ liệu và phương pháp cho hỏi đáp trực quan đa ngôn ngữ là một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên, vẫn còn nhiều thách thức cần phải vượt qua. Hướng phát triển tương lai có thể bao gồm việc mở rộng bộ dữ liệu sang các ngôn ngữ khác và cải thiện các mô hình học máy để đạt được độ chính xác cao hơn.

5.1. Mở Rộng Bộ Dữ Liệu Sang Các Ngôn Ngữ Khác

Việc mở rộng bộ dữ liệu sang các ngôn ngữ khác sẽ giúp tăng cường khả năng phục vụ cho người dùng toàn cầu. Điều này cũng giúp nâng cao khả năng tương tác giữa các ngôn ngữ khác nhau.

5.2. Cải Thiện Các Mô Hình Học Máy

Cải thiện các mô hình học máy sẽ giúp nâng cao độ chính xác của hệ thống hỏi đáp trực quan. Việc áp dụng các công nghệ mới trong học sâu sẽ là một hướng đi tiềm năng cho tương lai.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin nghiên cứu bộ dữ liệu và phát triển phương pháp cho hỏi đáp trực quan đa ngôn ngữ

Tải đầy đủ

Trích đoạn nội dung tài liệu

MỞ ĐẦU Hệ thống trả lời câu hỏi trực quan cần thiết cho nhiều tình huống thực tế như là hỗ trợ, dé xuất, trả lời câu hỏi cho khách hàng hay tìm kiếm hình ảnh. Ngoài ra, hỏi đáp trực quan còn có thê tích hợp vào các hệ thống chatbot. Các hệ thống hỏi đáp trực quan là công cụ rất hữu ích cho những người khiếm thị, nó có thể giúp họ nhận biết được cảnh vật hay tình huống xung quanh, làm giảm thiểu tai nạn không mong muốn. ls there anyone on the right? Hình 1.1: Minh họa công dụng của hỏi đáp trực quan.

Việc xây dựng mô hình đa ngôn ngữ sẽ làm giảm chỉ phí xây dựng, và nâng cấp so với xây dựng riêng từng mô hình cho từng loại ngôn ngữ. Gần đây, có nhiều bộ di liệu và mô hình hỏi dap trực quan được đưa ra nhưng hầu hết đều trên các loại ngôn ngữ phổ biến như tiếng Anh và tiếng Trung. Hiện tại chưa có bộ dữ liệu đa ngôn ngữ nào vừa chứa tiếng Việt và tiếng Nhật nên chúng tôi muốn xây dựng bộ dit liệu đa ngôn ngữ trên 3 thứ tiếng đó là tiếng Anh, tiếng Việt và tiếng Nhật dé đóng góp vào cộng đồng xử lý ngôn ngữ tự nhiên tại Việt Nam. Chúng tôi quyết định xây dựng bộ liệu hỏi đáp trực quan đa ngôn ngữ được xây dựng trên 3 ngôn ngữ là tiếng Việt, tiếng Nhật và tiếng Anh thông qua các bộ dữ liệu có sẵn là ViVQA [1], VQA [2].

So với chỉ sử dụng một ngữ thì việc áp dụng đa ngôn vào bài toán này sẽ tránh được trường hợp phải đào tạo một mô hình đơn ngữ cho mọi ngôn ngữ. Ngoài ra, mô hình đa ngôn ngữ có thê đạt được hiệu suất tốt hơn so với các mô hình đơn ngữ, đặc biệt là đối với các ngôn ngữ ít tài nguyên. Tuy nhiên, dé có thé cho ra một mô hình đa ngôn có kết quả khả quan, thì cần một bộ dữ liệu có độ chính xác nhất định cho từng ngôn ngữ. Một bộ dữ liệu đa ngôn ngữ sẽ cần nhiều nguồn lực dé xây dựng và kiểm tra dit liệu trên mỗi loại ngôn ngữ, điều đó dẫn đến việc xây dựng trở nên khó khăn và tốn kém hơn.

Vì vậy, chúng tôi quyết định chỉ thực hiện xây dựng bộ dữ liệu trên 3 ngôn ngữ. Và sau đó, nghiên cứu các mô hình, thuật toán phù hợp với bộ dữ liệu đã tạo. Chuong 2:TONG QUAN 2. Giới thiệu bài toán Visual question answering (VQA) hay hỏi đáp trực quan là bài toán nhằm mục đích tìm ra câu trả lời đúng cho một câu hỏi nhất định phù hợp với nội dung trực quan của một hình ảnh nhất định.

Mục tiêu đích của bài toán nảy là tạo ra các hệ thống có thé hiểu nội dung của một hình ảnh giống như cách mà con người làm và giao tiếp hiệu quả về hình ảnh đó bằng ngôn ngữ tự nhiên. Đây thực sự là một nhiệm vụ đầy thách thức vì nó đòi hỏi sự tương tác và bé sung của cả trình trích xuất tinh năng hình anh và trình xử lý ngôn ngữ tự nhiên. Question Answer EN what parked next to the sidewalk bus VI _ những gi đỗ bên cạnh via hè xe buýt JA #;¡ŠØ§*(-ƒJ2'§†#L 9H M Question Answer EN whatissitting on the toiletinsideof cat the bathroom VI cái gì đang ngồi trên nhà vệ sinh con mèo bên trong phòng tắm JA FA LORORALICIAA a BotTWata Question Answer EN how many sheep grazingin agrassy bus field near a wire fence? VI có bao nhiêu con cừu dang chan thả xe buýt trên đồng cỏ gần hàng rào dây thép JA. FAR HS a YAO Hình 2.1: Một số vi dụ về hỏi dap trực quan da ngôn ngữ 2.

Hướng tiếp cận Một trong các hướng tiếp cận tốt nhất hiện nay cho bài toán hỏi đáp trực quan đó là dựa trên cơ chế attention. Phương pháp này cô găng tìm hiểu sự tương tác giữa các đặc trưng trong ảnh và các đặc trưng trong câu hỏi thông qua một mô-đun gọi là attention. Sau đó, các tính năng chung có được từ mô-đun đó được tận dung dé trả lời câu hỏi tương ứng. Hướng tiếp cận này có 4 bước chính: Image: = CNN | (2 Visual | _Representation | | Joint Answer ` | Answer: KoitoboiictdiebcTlZ61g0gi600/3(4:3:3:470-3'08 Representation | __ prediction ! Baseball bat ' Question: h >J ~S” Va, ỐC ỐỒỘỐ ` ộo.°¬ | What is the girl holding '——> j {Textual á | + in her hand? | Representation sceeceudccccoecsccecoceue F— hi | Word/Sentence | embedding Hình 2.

2: Quy trình xử lý theo hướng tiếp cận attention e Visual Representation Các thuộc tính hoặc khía cạnh cơ bảnrõ ràng giúp chúng ta nhận ra một đối tượng, hình ảnh hoặc một cái gì đó cụ thé được gọi là các đặc trưng. Các đặc điểm phân biệt là các thuộc tính khác biệt. Khi thao tác trên tập dữ liệu VQA, chúng ta phải trích xuất các đặc điểm của các hình ảnh khác nhau dé tách các hình ảnh dựa trên các tinh năng hoặc khía cạnh cụ thé. Đặc điểm hình ảnh là một trong những phan thông tin quan trọng nhất dé hệ thống VQA đưa ra câu trả lời chính xác.

e Textual Representation Textual Representation có thé được cung cấp theo nhiều cách khác nhau. Các kỹ thuật dựa trên số lượng và tần số như count vectoization và TF-IDF là những vi dụ về các phương pháp tiếp cận cũ hơn. Ngoài ra còn có các cách tiếp cận dựa trên dự đoán như bag of words va skip grams, pre-trained Word2Vec. Embeddings cũng có thé được tao bằng cách sử dụng kiến trúc học sâu như RNN, LSTM, GRU và 1-D CNN.

LSTM là một trong những cách thường được sử dung trong tài liệu VỌA. Đối với nhúng câu hỏi trong VQA, Glove hoặc BERT được sử dụng rộng rãi dé nam bắt sự biểu diễn của các từ và câu trong các ngữ cảnh khác nhau. e Joint Representation Trong các hệ thống VQA hiện tại, thành phần phương thức chung đóng một vai trò thiết yếu vì nó có thể học các biêu diễn chung có ý nghĩa giữa đầu vào ngôn ngữ và hình ảnh bằng cách áp dụng cơ chế attention. e Visual Representation Gan day, cac dac diém chung nhận được từ co chế attention sau đó được chuyền qua bộ phân loại dé đưa ra câu trả lời dự đoán.

Tuy nhiên, nhiều mô-đun hơn cũng có thể được áp dụng đề tạo ra kiến thức bên ngoài và giải quyết các câu hỏi khó. Các công trình liên quan 2. UIT-ViVQA COCO-QA N Get questions-answers “an ¬ | ấy Translate Guidelines ˆ ' of Translated Dataset |—>| vự; 4 Checking ' \ Image collection *S._Question-answer generation Training | - set .' ViVQA ! | CC Z2 dataset ' ' se \.3: Sơ đồ xây dựng bộ dữ liệu UIT-ViVQA UIT-ViVQA là bộ dữ liệu hỏi đáp trực quan trên tiến ø Việt được dựa trên dữ liệu tiếng Anh COCO-QA. UIT-ViVQA bao gồm 15000 cặp câu hỏi tiếng Việt và được chia thành 4 loại câu hỏi, đó là câu hỏi về số lượng, câu hỏi về địa điểm, câu hỏi về mau sac và câu hỏi vê màu sắc.

Trong quá trình xây dựng bộ dữ liệu này, Khánh và các cộng sự sử dụng phương pháp kết hợp giữa các công cụ dịch (Google translate và Microsoft translate) và người dịch. Các bản dịch tiếng Việt từ bộ dữ liệu tiếng Anh sẽ được tính độ tương đồng Cosine và chỉnh sửa các câu có độ tương đồng thấp trước khi đưa vào sử dụng. Khánh và các cộng sự sử dụng giới hạn cho độ tương đồng la 80% nhưng qua xem xét, chúng tôi còn phát hiện một sô cặp câu hỏi chưa chính xác. What is the color of the sign? Microsoft: Mau của dau hiệu là gi? Google: Mau của biên bao là gi? cosine: 89% | Hình 2.4: Ví dụ về lỗi của bộ dữ liệu UIT-ViVQA Trong hình vi dụ phía trên, khi dịch câu hỏi “What is the color of the sign?” sang tiếng Việt, các công cụ dịch đưa ra các bản dịch khác nhau.

Từ “the sign” có thể dich sang “dau hiệu” hoặc “biên báo” nhưng trong trường hợp này nó nên được dịch ra là “biên báo”. Ngoài ra, độ tương đồng cho 2 bản dịch là 89%, nó đã vượt qua giới hạn độ tương đồng của bộ dit liệu UIT-ViVQA do đó bản dịch này được chấp nhận. Image Anwe AJƑUEEIMM. The bus is red.5: Một số cặp câu hỏi trả lời trong bộ dữ liệu FM-IQA 2.

FM-IQA FM-IQA [3] là một trong những bộ dữ liệu đa ngôn ngữ đầu tiên do Gao và các cộng sự dé xuất. FM-IQA có khoảng 300000 cặp câu hỏi và câu trả lời tiếng Anh và tiếng Trung. Xây dựng bộ dữ liệu FM-IQA được bắt đầu từ việc thu thập hình ảnh từ bộ dữ liệu ảnh MS COCO [9]. Các câu hỏi và câu trả lời sẽ được thu thập từ các cộng đồng online Baidu.

Các annotator được tự đo hỏi bất kỳ loại câu hỏi nao liên quan đến hình ảnh. Do đó, FM-IQA là một bộ dữ liệu hỏi đáp trực quan đa ngôn ngữ freestyle. Đối với phần dir liệu tiếng Anh, Gao và các cộng sự chọn hướng sử dụng dịch máy dé tự động dịch từ tiếng Trung sang tiếng Anh. Tuy nhiên, sử dụng dịch máy vẫn còn nhiều bat cập, chưa có tính tự nhiên như các bản dịch của con người.

Trong công trình nay, mô hình mà Gao và các cộng sự dé xuất là mô hình CNN- LSTM. LSTM là một mô hình khá cũ so với hiện tại. Do thực hiện vào năm 2015 nên các tác giả chưa thể tiếp cận với các mô hình sau này hiện đại hơn như Hierarchical Co-attention hay BERT. What is the cat doing ? <BOA> Sitting on the umbrella ® @ ew, & Shared C) embedding TCI CIC ICICI LSTM Softmax C) O k2 L2) % Sitting on the umbrella <EOA> Hình 2.6: Mô hình CNN-LSTM được đề xuất bởi Gao và các cộng sự 2.

xGQA Skateboarder KTo neTraeT no He6y? tit ? EEA SI oss 3 US? Siapa yang sedang terbang melintasi langit? Hình 2.7: Vi du cho bộ dữ liệu xGQA với 8 loại ngôn ngữ khác nhau. Nam 2022, Jonas và các cộng sự [4] đã xuất bản một bộ đữ liệu hỏi đáp trực quan đa ngôn ngữ với số lượng ngôn ngữ khác nhau lên đến 8 loại. Đó là tiếng Anh, tiếng Đức, tiếng Bồ Đào Nha, tiếng Nga, Tiếng Indo, tiếng Bengal, tiếng Hàn, tiếng Trung. xGQA được phát triển dựa trên bộ dit liệu thuần tiếng Anh GQA [11].

Khoảng 12000 cặp câu hỏi câu trả lời tiếng Anh sẽ được dịch thủ công sang 7 loại ngôn ngữ còn lại. Qua các công trình liên quan chúng tôi nhận thấy các công trình có chứa tiếng Việt hay tiếng Nhật còn ít. Đặc biệt chưa có bộ dữ liệu đa ngôn ngữ nào có cả tiếng Nhật và tiếng Việt trong đó. Do đó chúng tôi quyết định lựa chọn đề tài này.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xây dựng bộ dữ liệu cho VQA

Phương pháp và mô hình trong VQA

Thách thức trong hỏi đáp đa ngôn ngữ

Ứng dụng của hỏi đáp trực quan