I. Khóa luận tốt nghiệp và Khoa học dữ liệu
Khóa luận tốt nghiệp là một nghiên cứu khoa học quan trọng trong lĩnh vực Khoa học dữ liệu, đặc biệt khi tích hợp ngữ nghĩa vào việc phát hiện kế thừa văn bản tiếng Việt. Nghiên cứu này tập trung vào việc sử dụng các mô hình ngôn ngữ tiền huấn luyện dựa trên kiến trúc Transformer để biểu diễn ngữ cảnh và kết hợp với thông tin ngữ nghĩa thông qua tác vụ Gán nhãn vai nghĩa. Đây là một hướng tiếp cận mới, phá vỡ giới hạn của các phương pháp truyền thống, mang lại hiệu quả cao trong việc hiểu và xử lý ngôn ngữ tự nhiên.
1.1. Mục tiêu nghiên cứu
Mục tiêu chính của khóa luận tốt nghiệp là nghiên cứu sự ảnh hưởng của tích hợp ngữ nghĩa trong việc phát hiện kế thừa văn bản tiếng Việt. Nghiên cứu này nhằm tận dụng các mô hình ngôn ngữ tiền huấn luyện như BERT, XLM-R để biểu diễn ngữ cảnh, đồng thời kết hợp với thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi tích hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.
1.2. Phạm vi nghiên cứu
Nghiên cứu được thực hiện trên bộ dữ liệu VLSP-2021, bộ dữ liệu đầu tiên được gán nhãn thủ công cho bài toán phát hiện kế thừa văn bản tiếng Việt. Bên cạnh đó, bộ dữ liệu Lorelei được sử dụng để khai thác thông tin ngữ nghĩa thông qua tác vụ Gán nhãn vai nghĩa. Phạm vi nghiên cứu tập trung vào việc đánh giá hiệu quả của việc tích hợp thông tin ngữ nghĩa với các mô hình ngôn ngữ tiền huấn luyện, từ đó đưa ra các kết luận và hướng phát triển trong tương lai.
II. Tích hợp ngữ nghĩa và Phát hiện kế thừa văn bản
Tích hợp ngữ nghĩa là một yếu tố quan trọng trong việc phát hiện kế thừa văn bản, đặc biệt là với ngôn ngữ tiếng Việt. Nghiên cứu này sử dụng mô hình SemBERT, kết hợp biểu diễn ngữ cảnh từ BERT với thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi tích hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.
2.1. Mô hình SemBERT
Mô hình SemBERT là sự kết hợp giữa biểu diễn ngữ cảnh từ BERT và thông tin ngữ nghĩa từ tác vụ Gán nhãn vai nghĩa. Mô hình này cho thấy hiệu suất tăng khoảng 1% khi so sánh với mô hình BERT không kết hợp thông tin ngữ nghĩa. Điều này chứng tỏ vai trò quan trọng của tích hợp ngữ nghĩa trong việc cải thiện hiệu quả của các mô hình ngôn ngữ tiền huấn luyện.
2.2. Ứng dụng thực tiễn
Nghiên cứu này không chỉ mang lại giá trị học thuật mà còn có nhiều ứng dụng thực tiễn. Phát hiện kế thừa văn bản là nền tảng cho các hệ thống hỏi đáp, tóm tắt văn bản, và rút trích quan hệ. Việc tích hợp ngữ nghĩa vào các mô hình ngôn ngữ tiền huấn luyện giúp cải thiện độ chính xác và hiệu quả của các hệ thống này, đặc biệt trong việc xử lý ngôn ngữ tiếng Việt.
III. Kết luận và Hướng phát triển
Nghiên cứu này đã chứng minh được tầm quan trọng của tích hợp ngữ nghĩa trong việc phát hiện kế thừa văn bản tiếng Việt. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi kết hợp thông tin ngữ nghĩa với các mô hình ngôn ngữ tiền huấn luyện. Đây là một hướng nghiên cứu đầy tiềm năng, mở ra nhiều cơ hội phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên và khoa học dữ liệu.
3.1. Kết luận
Nghiên cứu đã thành công trong việc tích hợp ngữ nghĩa vào các mô hình ngôn ngữ tiền huấn luyện, mang lại hiệu quả cao trong việc phát hiện kế thừa văn bản tiếng Việt. Kết quả thí nghiệm cho thấy sự cải thiện đáng kể khi kết hợp thông tin ngữ nghĩa, đặc biệt trong việc xử lý các văn bản tiếng Việt phức tạp.
3.2. Hướng phát triển
Trong tương lai, nghiên cứu có thể mở rộng bằng cách tích hợp thêm các yếu tố ngữ nghĩa khác, hoặc áp dụng các mô hình ngôn ngữ tiền huấn luyện mới. Ngoài ra, việc phát triển các bộ dữ liệu lớn hơn và đa dạng hơn cũng là một hướng đi quan trọng để cải thiện hiệu quả của các mô hình trong việc phát hiện kế thừa văn bản tiếng Việt.