I. Phương pháp đọc hiểu và bài toán đọc hiểu tự động
Phương pháp đọc hiểu là một trong những chủ đề nghiên cứu tiên tiến trong xử lý ngôn ngữ tự nhiên. Bài toán đọc hiểu tự động yêu cầu hệ thống trả lời câu hỏi dựa trên đoạn văn bản đầu vào. Đây là một thách thức lớn, đặc biệt với ngôn ngữ tiếng Việt, do sự phức tạp về ngữ nghĩa và cấu trúc. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh và tiếng Trung, trong khi tiếng Việt vẫn còn nhiều hạn chế. Kỹ thuật đọc hiểu hiện đại sử dụng các mô hình ngôn ngữ được huấn luyện trước như BERT, nhưng hiệu quả chưa cao. Tự động hóa đọc hiểu đòi hỏi sự kết hợp giữa phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu để cải thiện độ chính xác.
1.1. Phương pháp đọc hiểu tự động
Phương pháp đọc hiểu tự động tập trung vào việc dạy máy trả lời câu hỏi dựa trên đoạn văn bản. Các hệ thống ban đầu giả định mọi câu hỏi đều có thể trả lời, nhưng thực tế không phải lúc nào cũng đúng. Công nghệ đọc hiểu hiện đại yêu cầu mô hình phân biệt câu hỏi có thể trả lời và không thể trả lời. Điều này đòi hỏi sự kết hợp giữa phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu. Ví dụ, trong VLSP 2021, các mô hình phải xử lý cả câu hỏi có và không có câu trả lời, đặt ra thách thức lớn cho hệ thống đọc hiểu.
1.2. Ứng dụng của đọc hiểu tự động
Đọc hiểu tự động có nhiều ứng dụng thực tế, từ hệ thống trả lời câu hỏi đến chatbot. Công nghệ đọc hiểu giúp tóm tắt văn bản, tìm kiếm thông tin chính xác từ lượng lớn dữ liệu. Đặc biệt, với ngôn ngữ tiếng Việt, việc phát triển các mô hình đọc hiểu hiệu quả sẽ thúc đẩy các ứng dụng như dịch máy và hội thoại tự động. Tối ưu hóa nội dung và từ khóa ngữ nghĩa là yếu tố quan trọng để cải thiện hiệu suất của các hệ thống này.
II. Trình đọc hồi tưởng và tích hợp thông tin ngữ nghĩa
Trình đọc hồi tưởng là mô hình đạt hiệu suất cao trong bài toán đọc hiểu tiếng Anh. Mô hình này kết hợp phân tích ngữ nghĩa và hồi tưởng trong đọc hiểu để cải thiện độ chính xác. Tích hợp thông tin ngữ nghĩa vào mô hình biểu diễn ngôn ngữ như BERT giúp mô hình hiểu sâu hơn về ngữ cảnh và ngữ nghĩa của câu. Phương pháp tự động này đặc biệt hữu ích trong việc phân loại khả năng trả lời của câu hỏi, một yếu tố quan trọng trong nghiên cứu đọc hiểu.
2.1. Mô hình Trình đọc hồi tưởng
Trình đọc hồi tưởng là mô hình được công bố năm 2020, đạt hiệu suất cao trong bài toán đọc hiểu tiếng Anh. Mô hình này gồm hai mô-đun chính: mô-đun phân loại và mô-đun đọc chuyên sâu. Mô-đun phân loại xác định khả năng trả lời của câu hỏi, trong khi mô-đun đọc chuyên sâu tìm câu trả lời chính xác. Hồi tưởng trong đọc hiểu giúp mô hình xác minh lại câu trả lời, cải thiện độ chính xác.
2.2. Tích hợp thông tin ngữ nghĩa
Tích hợp thông tin ngữ nghĩa vào mô hình biểu diễn ngôn ngữ như BERT giúp mô hình hiểu sâu hơn về ngữ cảnh và ngữ nghĩa của câu. Phương pháp tự động này sử dụng các nhãn vai nghĩa để cải thiện hiệu suất của hệ thống đọc hiểu. Ví dụ, trong bộ dữ liệu LORELEI, các nhãn vai nghĩa được sử dụng để huấn luyện mô hình Gán nhãn vai nghĩa, sau đó tích hợp vào mô hình biểu diễn ngôn ngữ để cải thiện hiệu suất đọc hiểu.
III. Thực nghiệm và kết quả
Các thực nghiệm được tiến hành trên bộ dữ liệu ViQuAD2.0 và LORELEI Vietnamese Representative Language Pack. Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao trong việc phân loại khả năng trả lời của câu hỏi. Phương pháp đánh giá sử dụng các chỉ số như Exact Match (EM) và F1-score. Kết quả cho thấy mô hình cơ sở hoạt động không tốt trong việc phân loại khả năng trả lời, trong khi Trình đọc hồi tưởng cải thiện đáng kể hiệu suất.
3.1. Phương pháp đánh giá
Phương pháp đánh giá sử dụng các chỉ số như Exact Match (EM) và F1-score để đo lường hiệu suất của mô hình. Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao hơn so với mô hình cơ sở. Kết quả cho thấy tầm quan trọng của việc phân loại khả năng trả lời trong bài toán đọc hiểu.
3.2. Kết quả thực nghiệm
Kết quả thực nghiệm trên bộ dữ liệu ViQuAD2.0 cho thấy Trình đọc hồi tưởng kết hợp tích hợp thông tin ngữ nghĩa đạt hiệu suất cao hơn so với mô hình cơ sở. Phương pháp tự động này cải thiện đáng kể khả năng phân loại khả năng trả lời của câu hỏi, một yếu tố quan trọng trong nghiên cứu đọc hiểu.