Nghiên cứu xây dựng mô hình đọc hiểu tự động cho văn bản tiếng Việt trong khoa học máy tính

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Động lực nghiên cứu

1.2. Các đóng góp chính

1.3. Mục tiêu, đối tượng và phạm vi nghiên cứu

1.4. Ý nghĩa khoa học và thực tiễn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Lịch sử đọc hiểu tự động

2.2. Định nghĩa đọc hiểu tự động

2.3. Phương pháp đọc hiểu tự động

2.4. Ngữ liệu đọc hiểu tự động

2.5. Thông số đánh giá

2.6. Hỏi đáp dựa trên đọc hiểu tự động

2.7. Thách thức trong đọc hiểu và hỏi đáp tự động tiếng Việt

3. CHƯƠNG 3: XÂY DỰNG NGỮ LIỆU VÀ ĐÁNH GIÁ ĐỌC HIẾU TỰ ĐỘNG TRÊN VĂN BẢN TIẾNG VIỆT

3.1. Giới thiệu và động lực xây dựng các bộ ngữ liệu

3.2. Bộ ngữ liệu đọc hiểu tự động cho văn bản Wikipedia tiếng Việt

3.3. Quy trình xây dựng ngữ liệu

3.4. Phân tích bộ ngữ liệu

3.5. Bộ ngữ liệu đọc hiểu tự động cho văn bản tin tức sức khỏe tiếng Việt

3.6. Bộ ngữ liệu đọc hiểu tự động cấp độ câu cho văn bản tiếng Việt

3.7. Mở rộng bộ ngữ liệu đọc hiểu tự động tiếng Việt với câu hỏi không trả lời được

3.8. Những đánh giá đầu tiên trên các mô hình đọc hiểu tự động tiếng Việt

3.9. Kết luận

4. CHƯƠNG 4: MÔ HÌNH ĐỌC HIẾU TỰ ĐỘNG TÍCH HỢP TRUY XUẤT MINH CHỨNG TRÊN VĂN BẢN TIẾNG VIỆT

4.1. Giới thiệu và động lực nghiên cứu

4.2. Mô hình đọc hiểu tự động trong văn bản tiếng Việt

4.3. Thử nghiệm và kết quả

4.4. Bộ ngữ liệu thử nghiệm

4.5. Chuẩn bị ngữ liệu

4.6. Các mô hình cơ sở

4.7. Các thông số mô hình

4.8. Các kết quả thử nghiệm

4.9. Phân tích kết quả thử nghiệm và thảo luận

4.10. Kết luận chương

5. CHƯƠNG 5: MÔ HÌNH HỎI ĐÁP TỰ ĐỘNG CHO VĂN BẢN TIẾNG VIỆT

5.1. Giới thiệu và động lực nghiên cứu

5.2. Mô hình hỏi đáp tiếng Việt đề xuất dựa trên đọc hiểu tự động

5.3. Các quy tắc tiền xử lý

5.4. Mô hình truy xuất văn bản

5.5. Mô hình đọc hiểu văn bản

5.6. Xếp hạng các câu trả lời ứng cử (Answer Re-ranker)

5.7. Thử nghiệm và kết quả

5.8. Các bộ ngữ liệu thử nghiệm

5.9. Các thông số đánh giá

5.10. Thiết kế các thử nghiệm

5.11. Môi trường thử nghiệm

5.12. Các kết quả thử nghiệm

5.13. Phân tích kết quả thử nghiệm và thảo luận

5.14. Các thành phần đóng góp vào mô hình hỏi đáp tiếng Việt đề xuất

5.15. Các thông số của truy vấn văn bản và đọc hiểu văn bản ảnh hưởng đến mô hình hỏi đáp

5.16. Ảnh hưởng của các từ tiếng nước ngoài đến các mô hình ngôn ngữ trong mô hình đọc hiểu tự động tiếng Việt

5.17. Độ dài văn bản tác động đến hiệu suất mô hình

5.18. Những dạng câu hỏi thách thức đối với mô hình hỏi đáp đề xuất

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Đóng góp thứ nhất: Xây dựng ngữ liệu và đánh giá các mô hình đọc hiểu cho văn bản tiếng Việt

6.2. Đóng góp thứ hai: Đề xuất mô hình đọc hiểu tự động tích hợp truy xuất minh chứng cho văn bản tiếng Việt

6.3. Đóng góp thứ ba: Đề xuất mô hình hỏi đáp tích hợp đọc hiểu tự động cho văn bản tiếng Việt

6.4. Các hạn chế và các hướng phát triển

6.5. Ngữ liệu cho đánh giá các mô hình đọc hiểu tự động

6.6. Mô hình đọc hiểu và hỏi đáp tự động

6.7. Mở rộng ứng dụng của các mô hình đọc hiểu tự động

HỌC BỔNG ĐÀO TẠO TIẾN SĨ

CÔNG BỐ KHOA HỌC

TÀI LIỆU THAM KHẢO

I. Mô hình đọc hiểu tự động

Mô hình đọc hiểu tự động là trọng tâm của nghiên cứu này, tập trung vào việc phát triển các giải pháp để máy tính có thể hiểu và trả lời các câu hỏi từ văn bản tiếng Việt. Nghiên cứu đề xuất các mô hình dựa trên kiến trúc Transformer và tích hợp truy xuất minh chứng, mang lại hiệu quả cao trong việc xử lý ngôn ngữ tự nhiên. Các mô hình này được đánh giá trên các bộ dữ liệu tiếng Việt như UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, đóng góp vào việc cải thiện khả năng đọc hiểu tự động cho ngôn ngữ ít tài nguyên.

1.1. Kiến trúc Transformer

Kiến trúc Transformer được sử dụng làm nền tảng cho các mô hình đọc hiểu tự động. Nó cho phép xử lý song song các từ trong câu, tối ưu hóa thời gian huấn luyện và cải thiện độ chính xác. Các mô hình như BERT và XLM-R được tích hợp để tăng cường khả năng hiểu ngữ nghĩa của văn bản tiếng Việt.

1.2. Truy xuất minh chứng

Truy xuất minh chứng là một thành phần quan trọng trong mô hình đọc hiểu tự động. Nó giúp xác định các đoạn văn bản liên quan đến câu hỏi, từ đó cải thiện độ chính xác của câu trả lời. Phương pháp này đặc biệt hữu ích khi xử lý các văn bản dài và phức tạp.

II. Văn bản tiếng Việt

Nghiên cứu tập trung vào văn bản tiếng Việt, một ngôn ngữ có đặc thù riêng về cấu trúc ngữ pháp và từ vựng. Các bộ dữ liệu được xây dựng bao gồm UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, nhằm đánh giá và phát triển các mô hình đọc hiểu tự động. Những bộ dữ liệu này đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu về xử lý ngôn ngữ tự nhiên cho tiếng Việt.

2.1. Xây dựng bộ dữ liệu

Quy trình xây dựng bộ dữ liệu bao gồm thu thập, làm sạch và chú thích văn bản. Các bộ dữ liệu được thiết kế để phản ánh đa dạng các loại văn bản, từ Wikipedia đến tin tức sức khỏe, giúp mô hình có thể xử lý nhiều ngữ cảnh khác nhau.

2.2. Đánh giá bộ dữ liệu

Các bộ dữ liệu được đánh giá dựa trên độ chính xác (EM) và độ đo F1. Kết quả cho thấy các mô hình đọc hiểu tự động đạt hiệu suất cao trên các bộ dữ liệu này, chứng minh tính khả thi của việc áp dụng công nghệ AI trong xử lý tiếng Việt.

III. Khoa học máy tính

Nghiên cứu này nằm trong lĩnh vực khoa học máy tính, cụ thể là xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Các mô hình đọc hiểu tự động được phát triển dựa trên các kỹ thuật học máy và học sâu, mang lại những đóng góp quan trọng cho việc tự động hóa quá trình đọc hiểu văn bản.

3.1. Học máy và học sâu

Các kỹ thuật học máy và học sâu được áp dụng để huấn luyện các mô hình đọc hiểu tự động. Các mô hình như BERT và XLM-R được sử dụng để tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên, đặc biệt là cho tiếng Việt.

3.2. Ứng dụng thực tiễn

Nghiên cứu này có nhiều ứng dụng thực tiễn, từ việc phát triển các hệ thống hỏi đáp tự động đến việc cải thiện khả năng hiểu ngôn ngữ của các trợ lý ảo. Những đóng góp này giúp thúc đẩy sự phát triển của công nghệ ngôn ngữ và AI tại Việt Nam.

Luận án tiến sĩ: Xây dựng mô hình đọc hiểu tự động cho văn bản tiếng Việt