Ứng dụng Visual Question Answering với BERT và Cơ sở Tri thức trong Khoa học Máy tính

I. Tổng quan về Visual Question Answering và KBVQA

Visual Question Answering (VQA) là một lĩnh vực nghiên cứu nổi bật trong trí tuệ nhân tạo, nhằm phát triển các hệ thống có khả năng hiểu và trả lời các câu hỏi dựa trên nội dung hình ảnh. VQA yêu cầu sự kết hợp giữa các mô hình xử lý ngôn ngữ tự nhiên và thị giác máy tính, tạo ra thách thức lớn trong việc phát triển các phương pháp hiệu quả. Knowledge-based Visual Question Answering (KBVQA) là một nhánh mở rộng của VQA, nơi mà hệ thống không chỉ dựa vào thông tin từ hình ảnh mà còn cần truy xuất thông tin từ cơ sở tri thức bên ngoài. Điều này giúp cải thiện khả năng trả lời các câu hỏi phức tạp hơn, yêu cầu sự hiểu biết sâu sắc về nội dung hình ảnh và mối quan hệ giữa các thực thể. Nghiên cứu này nhằm tìm hiểu các phương pháp hiện có trong KBVQA và đề xuất các giải pháp mới để nâng cao hiệu quả của hệ thống.

1.1. Visual Question Answering VQA

VQA là một nhiệm vụ khó khăn, yêu cầu máy tính phải hiểu được nội dung của hình ảnh và trả lời các câu hỏi một cách chính xác. Các câu hỏi có thể liên quan đến nhận diện đối tượng, hành động, hoặc đặc điểm trong hình ảnh. Mặc dù đã có nhiều tiến bộ trong lĩnh vực này, nhưng các hệ thống VQA truyền thống vẫn gặp khó khăn trong việc xử lý những câu hỏi phức tạp mà cần kiến thức bên ngoài. Do đó, việc kết hợp VQA với cơ sở tri thức đã mở ra hướng đi mới cho việc phát triển các hệ thống thông minh hơn.

1.2. Knowledge based Visual Question Answering KBVQA

KBVQA là một lĩnh vực nghiên cứu mới, nơi mà các hệ thống VQA sử dụng các nguồn thông tin bên ngoài như Wikipedia để trả lời các câu hỏi. Sự kết hợp giữa thông tin hình ảnh và kiến thức từ cơ sở tri thức cho phép hệ thống có thể lý luận về mối quan hệ giữa các khái niệm hình ảnh và thông tin có sẵn, từ đó cung cấp câu trả lời chính xác hơn. Nghiên cứu này sẽ phân tích các phương pháp hiện tại trong KBVQA, cũng như các thách thức mà lĩnh vực này đang phải đối mặt.

II. Phương pháp và Kỹ thuật trong Nghiên cứu

Nghiên cứu này tập trung vào việc áp dụng các kỹ thuật học sâu trong việc phát triển hệ thống KBVQA. Các mô hình như BERT và CLIP được sử dụng để xử lý ngôn ngữ tự nhiên và hình ảnh, tương ứng. Việc sử dụng mô hình ngôn ngữ BERT cho phép hệ thống hiểu và xử lý các câu hỏi một cách hiệu quả, trong khi CLIP giúp nhận diện và phân tích nội dung hình ảnh. Kỹ thuật hợp nhất đa phương thức cũng được áp dụng để kết hợp thông tin từ cả hai nguồn, nhằm tối ưu hóa khả năng trả lời câu hỏi. Nghiên cứu sẽ tiến hành đánh giá các mô hình này trên các tập dữ liệu khác nhau để rút ra được những nhận định về hiệu quả của từng phương pháp.

2.1. Mô hình BERT và CLIP

BERT là một mô hình học sâu nổi bật trong việc xử lý ngôn ngữ tự nhiên, cho phép hiểu ngữ nghĩa và ngữ cảnh của câu hỏi. Trong khi đó, CLIP là mô hình mạnh mẽ trong việc xử lý hình ảnh, có khả năng liên kết giữa văn bản và hình ảnh. Việc kết hợp hai mô hình này không chỉ giúp cải thiện độ chính xác trong việc trả lời câu hỏi mà còn mở rộng khả năng hiểu biết của hệ thống về mối quan hệ giữa các thực thể trong hình ảnh.

2.2. Kỹ thuật Hợp nhất Đa phương thức

Kỹ thuật hợp nhất đa phương thức là một phương pháp quan trọng trong KBVQA, cho phép kết hợp thông tin từ nhiều nguồn khác nhau. Bằng cách sử dụng các kỹ thuật như late fusion, hệ thống có thể tích hợp thông tin từ BERT và CLIP một cách hiệu quả, từ đó nâng cao khả năng trả lời câu hỏi phức tạp. Nghiên cứu này sẽ xem xét các phương pháp hợp nhất khác nhau và đánh giá hiệu quả của chúng trong việc cải thiện hệ thống KBVQA.

III. Kết quả và Đánh giá

Các kết quả thu được từ nghiên cứu cho thấy rằng việc sử dụng BERT lớn và CLIP trong hệ thống KBVQA mang lại những cải thiện đáng kể về độ chính xác và khả năng trả lời các câu hỏi phức tạp. Các thí nghiệm với tập dữ liệu ViQuAE đã chỉ ra rằng các mô hình này có thể đạt được điểm số F1 cao hơn so với các baseline truyền thống. Việc tích hợp kiến thức từ cơ sở tri thức không chỉ cải thiện chất lượng câu trả lời mà còn mở rộng khả năng của hệ thống trong việc xử lý các câu hỏi yêu cầu kiến thức sâu hơn. Nghiên cứu cũng chỉ ra rằng việc đào tạo với các tập dữ liệu lớn hơn và đa dạng hơn có thể nâng cao đáng kể khả năng hiểu ngôn ngữ của các mô hình.

3.1. Đánh giá Hiệu suất Mô hình

Việc đánh giá hiệu suất của các mô hình được thực hiện thông qua các chỉ số như precision, recall và F1 score. Các kết quả cho thấy rằng mô hình KBVQA với BERT và CLIP không chỉ đạt được độ chính xác cao mà còn có khả năng xử lý các câu hỏi phức tạp một cách hiệu quả. Điều này chứng tỏ rằng việc tích hợp kiến thức từ cơ sở tri thức vào trong hệ thống VQA là một bước đi đúng đắn.

3.2. Hướng phát triển trong tương lai

Nghiên cứu này cũng đề xuất một số hướng phát triển trong tương lai, bao gồm việc mở rộng tập dữ liệu đào tạo và cải thiện các kỹ thuật nhận diện đối tượng và nhận dạng khuôn mặt. Những cải tiến này sẽ giúp nâng cao khả năng của hệ thống trong việc xử lý các câu hỏi phức tạp hơn, đồng thời mở rộng ứng dụng của KBVQA trong các lĩnh vực khác nhau trong Khoa học máy tính.

Nghiên cứu ứng dụng Visual Question Answering sử dụng BERT tích hợp với cơ sở tri thức để trả lời câu hỏi mở rộng

I. Tổng quan về Visual Question Answering và KBVQA

1.1. Visual Question Answering VQA

1.2. Knowledge based Visual Question Answering KBVQA

II. Phương pháp và Kỹ thuật trong Nghiên cứu

2.1. Mô hình BERT và CLIP

2.2. Kỹ thuật Hợp nhất Đa phương thức

III. Kết quả và Đánh giá

3.1. Đánh giá Hiệu suất Mô hình

3.2. Hướng phát triển trong tương lai

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Phạm Điền Khoa

Người hướng dẫn: Assoc. Quản Thành Thơ

Trường học: Ho Chi Minh City University of Technology

Chuyên ngành: Computer Science

Đề tài: Ứng Dụng Visual Question Answering Với BERT và Cơ Sở Tri Thức Trong Khoa Học Máy Tính

Loại tài liệu: master’s thesis

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City