I. Tóm tắt văn bản tiếng Việt
Khóa luận tập trung vào việc tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Encoder-Decoder với cấu trúc Hierarchical Neural Semantic Encoder (NSE). Đây là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), nhằm trích xuất thông tin quan trọng từ văn bản gốc để tạo ra bản tóm tắt ngắn gọn. Phương pháp này giúp tiết kiệm thời gian và chi phí trong việc nắm bắt thông tin từ các tài liệu dài. Khóa luận sử dụng hướng tiếp cận tóm tắt tóm lược (Abstractive Summarization), tạo ra bản tóm tắt mới dựa trên đặc trưng của văn bản gốc, thay vì chỉ trích xuất các câu từ văn bản.
1.1. Mục tiêu và phạm vi nghiên cứu
Mục tiêu chính của khóa luận là thử nghiệm và đánh giá hiệu suất của mô hình Hierarchical NSE trong việc tóm tắt văn bản tiếng Việt, đặc biệt là các bài báo từ các trang báo điện tử. Phạm vi nghiên cứu bao gồm các mô hình học sâu như Encoder-Decoder, RNN, và LSTM, cùng với các kỹ thuật xử lý ngôn ngữ tự nhiên để tối ưu hóa quá trình tóm tắt.
1.2. Cấu trúc khóa luận
Khóa luận được chia thành 5 chương chính: Mở đầu, Mô hình bài toán, Cơ sở lý thuyết, Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động, và Kết luận. Mỗi chương tập trung vào một khía cạnh cụ thể của bài toán, từ lý thuyết đến thực nghiệm, nhằm đánh giá toàn diện hiệu suất của mô hình.
II. Mô hình Encoder Decoder với Hierarchical NSE
Mô hình Encoder-Decoder là một trong những mô hình phổ biến nhất trong NLP, được sử dụng để giải quyết các bài toán như dịch máy và tóm tắt văn bản. Trong khóa luận này, mô hình được kết hợp với cấu trúc Hierarchical NSE để cải thiện hiệu suất tóm tắt. Hierarchical NSE là một cải tiến của Neural Semantic Encoder (NSE), sử dụng tính phân cấp của văn bản để tăng cường khả năng ghi nhớ và xử lý thông tin dài hạn. Mô hình này giúp tạo ra bản tóm tắt có độ chính xác và mạch lạc cao hơn.
2.1. Cơ chế hoạt động của Encoder Decoder
Encoder có nhiệm vụ mã hóa văn bản đầu vào thành một vector đặc trưng, trong khi Decoder giải mã vector này để tạo ra bản tóm tắt. Cơ chế Attention được sử dụng để tập trung vào các phần quan trọng của văn bản, giúp cải thiện chất lượng tóm tắt. Hierarchical NSE thêm vào cấu trúc phân cấp, cho phép mô hình xử lý thông tin theo từng cấp độ, từ câu đến đoạn văn.
2.2. Đánh giá mô hình bằng ROUGE
Hiệu suất của mô hình được đánh giá bằng phương pháp ROUGE, so sánh sự trùng khớp giữa bản tóm tắt được tạo ra và bản tóm tắt tham khảo. Các chỉ số ROUGE-1, ROUGE-2, và ROUGE-L được sử dụng để đo lường độ chính xác và mạch lạc của bản tóm tắt. Kết quả thực nghiệm cho thấy mô hình đạt hiệu suất tốt trên tập dữ liệu tiếng Việt.
III. Xây dựng hệ thống tóm tắt văn bản tiếng Việt
Khóa luận đề xuất một hệ thống tự động hóa tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Hierarchical NSE. Hệ thống bao gồm các bước: thu thập dữ liệu, tiền xử lý, word embedding, xây dựng mô hình, huấn luyện và đánh giá. Dữ liệu được thu thập từ các trang báo điện tử Việt Nam, sau đó được xử lý để loại bỏ các ký tự không cần thiết và chuẩn hóa định dạng. Word embedding được sử dụng để chuyển đổi văn bản thành các vector số, giúp mô hình có thể xử lý và học từ dữ liệu.
3.1. Thu thập và tiền xử lý dữ liệu
Dữ liệu được thu thập từ các trang báo điện tử như VnExpress, bao gồm các bài báo và bản tóm tắt mẫu. Quá trình tiền xử lý bao gồm việc làm sạch dữ liệu, loại bỏ các ký tự đặc biệt, và chuẩn hóa định dạng văn bản. Điều này đảm bảo rằng dữ liệu đầu vào có chất lượng cao, giúp mô hình học tập hiệu quả hơn.
3.2. Huấn luyện và đánh giá mô hình
Mô hình được huấn luyện trên bộ dữ liệu đã tiền xử lý, với mục tiêu tối ưu hóa điểm ROUGE. Quá trình huấn luyện bao gồm việc điều chỉnh các siêu tham số để cải thiện hiệu suất. Kết quả thực nghiệm cho thấy mô hình đạt được hiệu suất tóm tắt tốt, đặc biệt là trên các bài báo tiếng Việt.
IV. Kết luận và hướng phát triển
Khóa luận đã thành công trong việc áp dụng mô hình Encoder-Decoder với Hierarchical NSE để tóm tắt văn bản tiếng Việt. Kết quả thực nghiệm cho thấy mô hình có khả năng tạo ra bản tóm tắt chính xác và mạch lạc, đặc biệt là trên các bài báo từ các trang báo điện tử. Tuy nhiên, vẫn còn một số hạn chế, chẳng hạn như việc xử lý các văn bản dài và phức tạp. Hướng phát triển trong tương lai bao gồm việc cải thiện mô hình để xử lý tốt hơn các văn bản đa dạng và phức tạp hơn.
4.1. Hạn chế của mô hình
Một trong những hạn chế chính của mô hình là khả năng xử lý các văn bản dài và phức tạp. Mặc dù Hierarchical NSE đã cải thiện khả năng ghi nhớ thông tin, nhưng vẫn cần thêm nghiên cứu để tối ưu hóa mô hình cho các văn bản có cấu trúc phức tạp hơn.
4.2. Hướng phát triển trong tương lai
Hướng phát triển trong tương lai bao gồm việc tích hợp thêm các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên để cải thiện hiệu suất của mô hình. Ngoài ra, việc mở rộng bộ dữ liệu và thử nghiệm trên các loại văn bản khác nhau cũng là một hướng đi tiềm năng.