I. Mô hình đọc hiểu tự động
Mô hình đọc hiểu tự động là trọng tâm của nghiên cứu này, tập trung vào việc phát triển các giải pháp để máy tính có thể hiểu và trả lời các câu hỏi từ văn bản tiếng Việt. Nghiên cứu đề xuất các mô hình dựa trên kiến trúc Transformer và tích hợp truy xuất minh chứng, mang lại hiệu quả cao trong việc xử lý ngôn ngữ tự nhiên. Các mô hình này được đánh giá trên các bộ dữ liệu tiếng Việt như UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, đóng góp vào việc cải thiện khả năng đọc hiểu tự động cho ngôn ngữ ít tài nguyên.
1.1. Kiến trúc Transformer
Kiến trúc Transformer được sử dụng làm nền tảng cho các mô hình đọc hiểu tự động. Nó cho phép xử lý song song các từ trong câu, tối ưu hóa thời gian huấn luyện và cải thiện độ chính xác. Các mô hình như BERT và XLM-R được tích hợp để tăng cường khả năng hiểu ngữ nghĩa của văn bản tiếng Việt.
1.2. Truy xuất minh chứng
Truy xuất minh chứng là một thành phần quan trọng trong mô hình đọc hiểu tự động. Nó giúp xác định các đoạn văn bản liên quan đến câu hỏi, từ đó cải thiện độ chính xác của câu trả lời. Phương pháp này đặc biệt hữu ích khi xử lý các văn bản dài và phức tạp.
II. Văn bản tiếng Việt
Nghiên cứu tập trung vào văn bản tiếng Việt, một ngôn ngữ có đặc thù riêng về cấu trúc ngữ pháp và từ vựng. Các bộ dữ liệu được xây dựng bao gồm UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, nhằm đánh giá và phát triển các mô hình đọc hiểu tự động. Những bộ dữ liệu này đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu về xử lý ngôn ngữ tự nhiên cho tiếng Việt.
2.1. Xây dựng bộ dữ liệu
Quy trình xây dựng bộ dữ liệu bao gồm thu thập, làm sạch và chú thích văn bản. Các bộ dữ liệu được thiết kế để phản ánh đa dạng các loại văn bản, từ Wikipedia đến tin tức sức khỏe, giúp mô hình có thể xử lý nhiều ngữ cảnh khác nhau.
2.2. Đánh giá bộ dữ liệu
Các bộ dữ liệu được đánh giá dựa trên độ chính xác (EM) và độ đo F1. Kết quả cho thấy các mô hình đọc hiểu tự động đạt hiệu suất cao trên các bộ dữ liệu này, chứng minh tính khả thi của việc áp dụng công nghệ AI trong xử lý tiếng Việt.
III. Khoa học máy tính
Nghiên cứu này nằm trong lĩnh vực khoa học máy tính, cụ thể là xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Các mô hình đọc hiểu tự động được phát triển dựa trên các kỹ thuật học máy và học sâu, mang lại những đóng góp quan trọng cho việc tự động hóa quá trình đọc hiểu văn bản.
3.1. Học máy và học sâu
Các kỹ thuật học máy và học sâu được áp dụng để huấn luyện các mô hình đọc hiểu tự động. Các mô hình như BERT và XLM-R được sử dụng để tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên, đặc biệt là cho tiếng Việt.
3.2. Ứng dụng thực tiễn
Nghiên cứu này có nhiều ứng dụng thực tiễn, từ việc phát triển các hệ thống hỏi đáp tự động đến việc cải thiện khả năng hiểu ngôn ngữ của các trợ lý ảo. Những đóng góp này giúp thúc đẩy sự phát triển của công nghệ ngôn ngữ và AI tại Việt Nam.