Luận án tiến sĩ: Xây dựng mô hình đọc hiểu tự động cho văn bản tiếng Việt

2024

183
0
0

Phí lưu trữ

50.000 VNĐ

Tóm tắt

I. Mô hình đọc hiểu tự động

Mô hình đọc hiểu tự động là trọng tâm của nghiên cứu này, tập trung vào việc phát triển các giải pháp để máy tính có thể hiểu và trả lời các câu hỏi từ văn bản tiếng Việt. Nghiên cứu đề xuất các mô hình dựa trên kiến trúc Transformer và tích hợp truy xuất minh chứng, mang lại hiệu quả cao trong việc xử lý ngôn ngữ tự nhiên. Các mô hình này được đánh giá trên các bộ dữ liệu tiếng Việt như UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, đóng góp vào việc cải thiện khả năng đọc hiểu tự động cho ngôn ngữ ít tài nguyên.

1.1. Kiến trúc Transformer

Kiến trúc Transformer được sử dụng làm nền tảng cho các mô hình đọc hiểu tự động. Nó cho phép xử lý song song các từ trong câu, tối ưu hóa thời gian huấn luyện và cải thiện độ chính xác. Các mô hình như BERTXLM-R được tích hợp để tăng cường khả năng hiểu ngữ nghĩa của văn bản tiếng Việt.

1.2. Truy xuất minh chứng

Truy xuất minh chứng là một thành phần quan trọng trong mô hình đọc hiểu tự động. Nó giúp xác định các đoạn văn bản liên quan đến câu hỏi, từ đó cải thiện độ chính xác của câu trả lời. Phương pháp này đặc biệt hữu ích khi xử lý các văn bản dài và phức tạp.

II. Văn bản tiếng Việt

Nghiên cứu tập trung vào văn bản tiếng Việt, một ngôn ngữ có đặc thù riêng về cấu trúc ngữ pháp và từ vựng. Các bộ dữ liệu được xây dựng bao gồm UIT-ViQuAD, UIT-ViNewsQA, và UIT-ViWikiQA, nhằm đánh giá và phát triển các mô hình đọc hiểu tự động. Những bộ dữ liệu này đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu về xử lý ngôn ngữ tự nhiên cho tiếng Việt.

2.1. Xây dựng bộ dữ liệu

Quy trình xây dựng bộ dữ liệu bao gồm thu thập, làm sạch và chú thích văn bản. Các bộ dữ liệu được thiết kế để phản ánh đa dạng các loại văn bản, từ Wikipedia đến tin tức sức khỏe, giúp mô hình có thể xử lý nhiều ngữ cảnh khác nhau.

2.2. Đánh giá bộ dữ liệu

Các bộ dữ liệu được đánh giá dựa trên độ chính xác (EM) và độ đo F1. Kết quả cho thấy các mô hình đọc hiểu tự động đạt hiệu suất cao trên các bộ dữ liệu này, chứng minh tính khả thi của việc áp dụng công nghệ AI trong xử lý tiếng Việt.

III. Khoa học máy tính

Nghiên cứu này nằm trong lĩnh vực khoa học máy tính, cụ thể là xử lý ngôn ngữ tự nhiêntrí tuệ nhân tạo. Các mô hình đọc hiểu tự động được phát triển dựa trên các kỹ thuật học máyhọc sâu, mang lại những đóng góp quan trọng cho việc tự động hóa quá trình đọc hiểu văn bản.

3.1. Học máy và học sâu

Các kỹ thuật học máyhọc sâu được áp dụng để huấn luyện các mô hình đọc hiểu tự động. Các mô hình như BERTXLM-R được sử dụng để tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên, đặc biệt là cho tiếng Việt.

3.2. Ứng dụng thực tiễn

Nghiên cứu này có nhiều ứng dụng thực tiễn, từ việc phát triển các hệ thống hỏi đáp tự động đến việc cải thiện khả năng hiểu ngôn ngữ của các trợ lý ảo. Những đóng góp này giúp thúc đẩy sự phát triển của công nghệ ngôn ngữAI tại Việt Nam.

21/02/2025
Luận án tiến sĩ khoa học máy tính nghiên cứu xây dựng mô hình đọc hiểu tự động cho văn bản tiếng việt
Bạn đang xem trước tài liệu : Luận án tiến sĩ khoa học máy tính nghiên cứu xây dựng mô hình đọc hiểu tự động cho văn bản tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Nghiên cứu xây dựng mô hình đọc hiểu tự động cho văn bản tiếng Việt trong khoa học máy tính là một tài liệu chuyên sâu tập trung vào việc phát triển các mô hình AI có khả năng đọc và hiểu văn bản tiếng Việt, đặc biệt trong lĩnh vực khoa học máy tính. Nghiên cứu này không chỉ giúp cải thiện khả năng xử lý ngôn ngữ tự nhiên (NLP) mà còn mở ra nhiều ứng dụng thực tiễn như phân tích văn bản, trích xuất thông tin, và hỗ trợ các hệ thống chatbot thông minh. Đây là bước tiến quan trọng trong việc áp dụng AI vào các bài toán liên quan đến ngôn ngữ tiếng Việt, mang lại lợi ích lớn cho cả nghiên cứu và ứng dụng thực tế.

Để hiểu rõ hơn về các phương pháp học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin. Ngoài ra, nghiên cứu về trích xuất thông tin thực thể và quan hệ trong văn bản tiếng Việt bằng mô hình đồ thị động cũng cung cấp những góc nhìn sâu sắc về cách thức xử lý văn bản phức tạp. Cuối cùng, phát triển chatbot trên nền tảng transformers là một ứng dụng thực tế khác giúp bạn hiểu rõ hơn về tiềm năng của các mô hình đọc hiểu tự động.