Khóa Luận Tốt Nghiệp: Tóm Tắt Văn Bản Tiếng Việt Sử Dụng Mô Hình Encoder-Decoder Và Hierarchical Neural Semantic Encoder

2021

76
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tóm tắt văn bản tiếng Việt

Khóa luận tập trung vào việc tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Encoder-Decoder với cấu trúc Hierarchical Neural Semantic Encoder (NSE). Đây là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), nhằm trích xuất thông tin quan trọng từ văn bản gốc để tạo ra bản tóm tắt ngắn gọn. Phương pháp này giúp tiết kiệm thời gian và chi phí trong việc nắm bắt thông tin từ các tài liệu dài. Khóa luận sử dụng hướng tiếp cận tóm tắt tóm lược (Abstractive Summarization), tạo ra bản tóm tắt mới dựa trên đặc trưng của văn bản gốc, thay vì chỉ trích xuất các câu từ văn bản.

1.1. Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của khóa luận là thử nghiệm và đánh giá hiệu suất của mô hình Hierarchical NSE trong việc tóm tắt văn bản tiếng Việt, đặc biệt là các bài báo từ các trang báo điện tử. Phạm vi nghiên cứu bao gồm các mô hình học sâu như Encoder-Decoder, RNN, và LSTM, cùng với các kỹ thuật xử lý ngôn ngữ tự nhiên để tối ưu hóa quá trình tóm tắt.

1.2. Cấu trúc khóa luận

Khóa luận được chia thành 5 chương chính: Mở đầu, Mô hình bài toán, Cơ sở lý thuyết, Xây dựng hệ thống tóm tắt văn bản tiếng Việt tự động, và Kết luận. Mỗi chương tập trung vào một khía cạnh cụ thể của bài toán, từ lý thuyết đến thực nghiệm, nhằm đánh giá toàn diện hiệu suất của mô hình.

II. Mô hình Encoder Decoder với Hierarchical NSE

Mô hình Encoder-Decoder là một trong những mô hình phổ biến nhất trong NLP, được sử dụng để giải quyết các bài toán như dịch máy và tóm tắt văn bản. Trong khóa luận này, mô hình được kết hợp với cấu trúc Hierarchical NSE để cải thiện hiệu suất tóm tắt. Hierarchical NSE là một cải tiến của Neural Semantic Encoder (NSE), sử dụng tính phân cấp của văn bản để tăng cường khả năng ghi nhớ và xử lý thông tin dài hạn. Mô hình này giúp tạo ra bản tóm tắt có độ chính xác và mạch lạc cao hơn.

2.1. Cơ chế hoạt động của Encoder Decoder

Encoder có nhiệm vụ mã hóa văn bản đầu vào thành một vector đặc trưng, trong khi Decoder giải mã vector này để tạo ra bản tóm tắt. Cơ chế Attention được sử dụng để tập trung vào các phần quan trọng của văn bản, giúp cải thiện chất lượng tóm tắt. Hierarchical NSE thêm vào cấu trúc phân cấp, cho phép mô hình xử lý thông tin theo từng cấp độ, từ câu đến đoạn văn.

2.2. Đánh giá mô hình bằng ROUGE

Hiệu suất của mô hình được đánh giá bằng phương pháp ROUGE, so sánh sự trùng khớp giữa bản tóm tắt được tạo ra và bản tóm tắt tham khảo. Các chỉ số ROUGE-1, ROUGE-2, và ROUGE-L được sử dụng để đo lường độ chính xác và mạch lạc của bản tóm tắt. Kết quả thực nghiệm cho thấy mô hình đạt hiệu suất tốt trên tập dữ liệu tiếng Việt.

III. Xây dựng hệ thống tóm tắt văn bản tiếng Việt

Khóa luận đề xuất một hệ thống tự động hóa tóm tắt văn bản tiếng Việt bằng cách sử dụng mô hình Hierarchical NSE. Hệ thống bao gồm các bước: thu thập dữ liệu, tiền xử lý, word embedding, xây dựng mô hình, huấn luyện và đánh giá. Dữ liệu được thu thập từ các trang báo điện tử Việt Nam, sau đó được xử lý để loại bỏ các ký tự không cần thiết và chuẩn hóa định dạng. Word embedding được sử dụng để chuyển đổi văn bản thành các vector số, giúp mô hình có thể xử lý và học từ dữ liệu.

3.1. Thu thập và tiền xử lý dữ liệu

Dữ liệu được thu thập từ các trang báo điện tử như VnExpress, bao gồm các bài báo và bản tóm tắt mẫu. Quá trình tiền xử lý bao gồm việc làm sạch dữ liệu, loại bỏ các ký tự đặc biệt, và chuẩn hóa định dạng văn bản. Điều này đảm bảo rằng dữ liệu đầu vào có chất lượng cao, giúp mô hình học tập hiệu quả hơn.

3.2. Huấn luyện và đánh giá mô hình

Mô hình được huấn luyện trên bộ dữ liệu đã tiền xử lý, với mục tiêu tối ưu hóa điểm ROUGE. Quá trình huấn luyện bao gồm việc điều chỉnh các siêu tham số để cải thiện hiệu suất. Kết quả thực nghiệm cho thấy mô hình đạt được hiệu suất tóm tắt tốt, đặc biệt là trên các bài báo tiếng Việt.

IV. Kết luận và hướng phát triển

Khóa luận đã thành công trong việc áp dụng mô hình Encoder-Decoder với Hierarchical NSE để tóm tắt văn bản tiếng Việt. Kết quả thực nghiệm cho thấy mô hình có khả năng tạo ra bản tóm tắt chính xác và mạch lạc, đặc biệt là trên các bài báo từ các trang báo điện tử. Tuy nhiên, vẫn còn một số hạn chế, chẳng hạn như việc xử lý các văn bản dài và phức tạp. Hướng phát triển trong tương lai bao gồm việc cải thiện mô hình để xử lý tốt hơn các văn bản đa dạng và phức tạp hơn.

4.1. Hạn chế của mô hình

Một trong những hạn chế chính của mô hình là khả năng xử lý các văn bản dài và phức tạp. Mặc dù Hierarchical NSE đã cải thiện khả năng ghi nhớ thông tin, nhưng vẫn cần thêm nghiên cứu để tối ưu hóa mô hình cho các văn bản có cấu trúc phức tạp hơn.

4.2. Hướng phát triển trong tương lai

Hướng phát triển trong tương lai bao gồm việc tích hợp thêm các kỹ thuật học sâuxử lý ngôn ngữ tự nhiên để cải thiện hiệu suất của mô hình. Ngoài ra, việc mở rộng bộ dữ liệu và thử nghiệm trên các loại văn bản khác nhau cũng là một hướng đi tiềm năng.

21/02/2025
Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder
Bạn đang xem trước tài liệu : Khóa luận tốt nghiệp khoa học máy tính tóm tắt văn bản tiếng việt sử dụng mô hình encoderdecoder với cấu trúc hierarchical neural semantic encoder

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Tóm Tắt Văn Bản Tiếng Việt Bằng Mô Hình Encoder-Decoder Với Hierarchical Neural Semantic Encoder" giới thiệu một phương pháp tiên tiến trong việc tóm tắt văn bản tiếng Việt, sử dụng mô hình Encoder-Decoder kết hợp với Hierarchical Neural Semantic Encoder. Phương pháp này không chỉ cải thiện độ chính xác mà còn tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên, giúp tạo ra các bản tóm tắt ngắn gọn, súc tích và đầy đủ thông tin. Đây là một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là với tiếng Việt, một ngôn ngữ có cấu trúc phức tạp.

Để hiểu sâu hơn về các ứng dụng của học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin, nghiên cứu này cung cấp cái nhìn chi tiết về việc áp dụng học sâu trong các bài toán rút trích thông tin. Ngoài ra, Luận văn thạc sĩ khoa học máy tính trích xuất thông tin thực thể và quan hệ trong văn bản tiếng việt bằng mô hình đồ thị động cũng là một tài liệu hữu ích, tập trung vào việc trích xuất thông tin từ văn bản tiếng Việt bằng các mô hình đồ thị động. Cuối cùng, Luận văn thạc sĩ khoa học máy tính dịch máy tiếng việtba na bằng phương pháp attention sẽ giúp bạn khám phá thêm về các phương pháp dịch máy tiên tiến, một lĩnh vực liên quan chặt chẽ đến xử lý ngôn ngữ tự nhiên.

Những tài liệu này không chỉ mở rộng kiến thức của bạn về học sâu và xử lý ngôn ngữ tiếng Việt mà còn cung cấp các góc nhìn đa chiều, giúp bạn nắm bắt được xu hướng và công nghệ mới nhất trong lĩnh vực này.

Tải xuống (76 Trang - 39.63 MB)