I. Khóa Luận Tốt Nghiệp
Khóa luận tốt nghiệp này tập trung vào việc so khớp ngữ nghĩa đối tượng cho bài toán chú thích hình ảnh tiếng Việt. Nghiên cứu này được thực hiện bởi Hứa Văn Sơn và Nguyễn Thịnh Quyên, dưới sự hướng dẫn của TS. Nguyễn Vĩnh Tiệp. Khóa luận này áp dụng phương pháp Oscar để cải thiện hiệu suất trong việc tạo chú thích hình ảnh tự động, đặc biệt trong lĩnh vực y tế. Khóa luận này không chỉ đóng góp vào lý thuyết mà còn có giá trị thực tiễn cao trong việc phát triển các ứng dụng AI tại Việt Nam.
1.1 Mục tiêu
Mục tiêu chính của khóa luận là nghiên cứu và áp dụng phương pháp Oscar để giải quyết bài toán chú thích hình ảnh trong tiếng Việt. Cụ thể, nghiên cứu này nhằm tạo ra một hệ thống tự động tạo chú thích hình ảnh trong lĩnh vực y tế, giúp hỗ trợ nhân viên y tế trong việc quản lý và phân tích dữ liệu hình ảnh.
1.2 Đóng góp
Khóa luận đã giới thiệu phương pháp Oscar, một phương pháp tiên tiến trong việc học biểu diễn đa phương thức (vision-language). Nghiên cứu này cũng phát triển một mô hình có khả năng tạo chú thích hình ảnh bằng tiếng Việt, vượt trội so với các phương pháp truyền thống dựa trên mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN).
II. So Khớp Ngữ Nghĩa
So khớp ngữ nghĩa là quá trình liên kết các đối tượng trong hình ảnh với các từ ngữ tương ứng trong văn bản. Phương pháp Oscar sử dụng các đối tượng được phát hiện trong hình ảnh làm điểm neo để dễ dàng hóa việc học các liên kết ngữ nghĩa. Điều này dựa trên quan sát rằng các đối tượng nổi bật trong hình ảnh có thể được phát hiện chính xác và thường được đề cập trong văn bản đi kèm.
2.1 Phương pháp Oscar
Oscar là một phương pháp tiên tiến sử dụng các đối tượng làm điểm neo để liên kết hình ảnh và văn bản. Phương pháp này đã đạt được kết quả tốt trong việc tạo chú thích hình ảnh bằng tiếng Anh và được thử nghiệm trên tập dữ liệu y tế tiếng Việt trong khóa luận này.
2.2 Ứng dụng
So khớp ngữ nghĩa có nhiều ứng dụng thực tế, từ việc hỗ trợ người khiếm thị đến việc cải thiện hiệu quả của các hệ thống quản lý sản phẩm (PIM). Trong lĩnh vực y tế, việc tạo chú thích hình ảnh tự động có thể giúp nhân viên y tế phân tích và quản lý dữ liệu hình ảnh một cách hiệu quả hơn.
III. Bài Toán Chú Thích Hình Ảnh
Bài toán chú thích hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên và thị giác máy tính. Nó liên quan đến việc tự động tạo ra các mô tả ngôn ngữ tự nhiên dựa trên nội dung của hình ảnh. Khóa luận này tập trung vào việc áp dụng phương pháp Oscar để giải quyết bài toán chú thích hình ảnh trong tiếng Việt, đặc biệt là trong lĩnh vực y tế.
3.1 Thách thức
Một trong những thách thức lớn nhất của bài toán chú thích hình ảnh là sự thiếu tự nhiên trong các chú thích được tạo ra. Các hệ thống truyền thống thường tạo ra các chú thích theo cách tuần tự, dẫn đến các cấu trúc ngôn ngữ không liên quan về mặt ngữ nghĩa. Ngoài ra, sự thiếu dữ liệu trong tiếng Việt cũng là một thách thức lớn.
3.2 Giải pháp
Khóa luận này đề xuất sử dụng phương pháp Oscar để giải quyết các thách thức trên. Phương pháp này sử dụng các đối tượng làm điểm neo để liên kết hình ảnh và văn bản, giúp cải thiện độ chính xác và tự nhiên của các chú thích được tạo ra.
IV. Tiếng Việt và Xử Lý Ngôn Ngữ Tự Nhiên
Tiếng Việt là một ngôn ngữ có cấu trúc phức tạp và đa dạng, điều này đặt ra nhiều thách thức trong việc xử lý ngôn ngữ tự nhiên. Khóa luận này tập trung vào việc áp dụng các phương pháp tiên tiến để giải quyết bài toán chú thích hình ảnh trong tiếng Việt, đặc biệt là trong lĩnh vực y tế.
4.1 Thách thức trong tiếng Việt
Một trong những thách thức lớn nhất khi nghiên cứu bài toán chú thích hình ảnh trong tiếng Việt là sự thiếu dữ liệu. Các phương pháp dịch máy thường không thể dịch chính xác các câu văn mang đậm văn hóa phương Tây sang tiếng Việt. Ngoài ra, các hoạt động và cảnh quan trong hình ảnh cũng khác biệt so với thực tế tại Việt Nam.
4.2 Giải pháp
Khóa luận này đề xuất sử dụng phương pháp Oscar để giải quyết các thách thức trên. Phương pháp này sử dụng các đối tượng làm điểm neo để liên kết hình ảnh và văn bản, giúp cải thiện độ chính xác và tự nhiên của các chú thích được tạo ra.