Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt sử dụng học sâu

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

2021

61
12
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Trong bối cảnh phát triển nhanh chóng của các kênh truyền thông xã hội, việc tóm tắt văn bản trở thành một nhiệm vụ quan trọng nhằm giúp người đọc dễ dàng tiếp cận thông tin. Tóm tắt văn bản không chỉ giúp nâng cao tính chuyên nghiệp của các bài viết mà còn tiết kiệm thời gian cho người đọc. Luận văn này nghiên cứu việc áp dụng hệ thống học sâu để tự động tóm tắt văn bản tiếng Việt, từ đó tạo ra tiêu đề cho các bài viết. Mô hình Forcing-Seq2Seq được giới thiệu như một giải pháp tối ưu cho bài toán này. Mô hình này kết hợp các ưu điểm của các phương pháp truyền thống và machine learning hiện đại, nhằm đạt được kết quả tóm tắt hiệu quả và chính xác.

1.1. Lý do chọn đề tài

Nhu cầu tóm tắt văn bản tự động ngày càng tăng, đặc biệt trong lĩnh vực báo chí và truyền thông. Việc thiếu tiêu đề cho các bài viết không chỉ gây khó khăn cho người đọc mà còn làm giảm hiệu quả của các hệ thống phân tích ngôn ngữ tự nhiên. Luận văn này nhằm mục đích phát triển một mô hình có khả năng tự động tạo tiêu đề cho các bài viết, từ đó nâng cao chất lượng thông tin và hỗ trợ người dùng trong việc tìm kiếm nội dung. Mô hình này sẽ được áp dụng trên tập dữ liệu các bài đánh giá thực phẩm từ Amazon, một nguồn dữ liệu phong phú và có chất lượng cao.

II. Công trình liên quan

Chương này tổng hợp các nghiên cứu trước đây liên quan đến tóm tắt văn bản và các phương pháp tự động tạo tiêu đề. Có hai phương pháp chính trong tóm tắt văn bản: phương pháp dựa trên trích xuất và phương pháp dựa trên tóm lược. Phương pháp dựa trên trích xuất chọn lọc các câu quan trọng từ văn bản gốc mà không thay đổi nội dung, trong khi phương pháp dựa trên tóm lược tạo ra các câu mới, ngắn gọn hơn nhưng vẫn truyền tải ý nghĩa chính. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng học sâu có thể cải thiện đáng kể độ chính xác của các hệ thống tóm tắt văn bản.

2.1. Phương pháp tóm tắt văn bản dựa trên trích xuất

Phương pháp này được ưa chuộng bởi tính đơn giản và hiệu quả. Nó chọn ra các câu có độ quan trọng cao dựa trên tần suất từ và vị trí của câu trong văn bản. Tuy nhiên, nhược điểm của phương pháp này là khả năng tạo ra văn bản tóm tắt có thể thiếu mạch lạc và tự nhiên. Một số nghiên cứu như phương pháp Text-Rank và TF-IDF đã được áp dụng thành công trong việc xác định các câu quan trọng trong văn bản. Hình thức tóm tắt này thường được sử dụng trong các ứng dụng cần xử lý nhanh chóng và hiệu quả.

2.2. Phương pháp tóm tắt văn bản dựa trên tóm lược

Khác với phương pháp dựa trên trích xuất, phương pháp dựa trên tóm lược xây dựng mô hình học sâu để sinh ra các câu mới. Mô hình này không chỉ sao chép từ văn bản gốc mà còn tạo ra các nội dung mới, ngắn gọn hơn nhưng vẫn giữ được ý nghĩa. Các mô hình như Seq2Seq và Attention đã được áp dụng để cải thiện khả năng tóm tắt văn bản. Những nghiên cứu này mở ra hướng đi mới cho việc phát triển các hệ thống tự động tạo tiêu đề, giúp nâng cao tính chính xác và hiệu quả trong việc truyền tải thông tin.

III. Mô hình đề xuất

Mô hình Forcing-Seq2Seq được đề xuất trong luận văn này nhằm tự động hóa quá trình tóm tắt văn bản và tạo tiêu đề. Mô hình này kết hợp các thành phần của hệ thống học sâu, bao gồm cơ chế Attention và Teacher Forcing, nhằm tối ưu hóa quá trình học và cải thiện độ chính xác của kết quả. Mô hình được xây dựng dựa trên các lý thuyết và nghiên cứu trước đây, đồng thời được thử nghiệm trên tập dữ liệu thực tế để đánh giá hiệu quả. Kết quả cho thấy mô hình có khả năng tạo ra tiêu đề tự động với độ dài và ngữ nghĩa hợp lý, đáp ứng được nhu cầu thực tế trong việc tóm tắt văn bản.

3.1. Cấu trúc của hệ thống Forcing Seq2Seq

Hệ thống Forcing-Seq2Seq bao gồm các bước tiền xử lý văn bản, xây dựng mô hình Seq2Seq với cơ chế Attention, và áp dụng mô hình ngôn ngữ để cải thiện độ chính xác. Các bước này được thiết kế nhằm tối ưu hóa quá trình tóm tắt và tạo tiêu đề, đảm bảo rằng nội dung được truyền tải một cách chính xác và tự nhiên. Mô hình này không chỉ đơn thuần là một công cụ tóm tắt mà còn là một giải pháp toàn diện cho việc xử lý ngôn ngữ tự nhiên, mở ra nhiều cơ hội ứng dụng trong các lĩnh vực khác nhau.

IV. Đánh giá và kết quả

Chương này trình bày kết quả đánh giá mô hình Forcing-Seq2Seq thông qua các phương pháp tự động và đánh giá thủ công. Các chỉ số đánh giá như BLEU và ROUGE được sử dụng để đo lường độ chính xác và tính khả thi của mô hình. Kết quả cho thấy mô hình đạt được điểm số cao trong cả hai phương pháp đánh giá, chứng tỏ khả năng tạo tiêu đề tự động hiệu quả. Đánh giá từ người dùng cũng cho thấy mô hình có thể tạo ra tiêu đề phù hợp với nội dung văn bản, giúp nâng cao trải nghiệm người đọc. Điều này khẳng định giá trị và tính ứng dụng thực tiễn của mô hình trong việc tóm tắt văn bản tiếng Việt.

4.1. Đánh giá tự động

Kết quả đánh giá tự động cho thấy mô hình Forcing-Seq2Seq đạt điểm BLEU cao hơn so với các mô hình trước đây. Điều này cho thấy khả năng của mô hình trong việc tạo ra các tiêu đề chính xác và ngắn gọn. Việc sử dụng các chỉ số đánh giá tự động giúp cung cấp cái nhìn rõ ràng về hiệu suất của mô hình, đồng thời tạo điều kiện cho việc so sánh với các phương pháp khác. Kết quả này mở ra hướng đi mới cho nghiên cứu và phát triển các hệ thống tóm tắt văn bản tự động trong tương lai.

09/01/2025
Luận văn thạc sĩ khoa học máy tính tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt sử dụng học sâu của tác giả Nguyễn Thị Hiệp Thuận, được thực hiện dưới sự hướng dẫn của PGS. Quản Thành Thơ, TS. Lê Thanh Vân, và TS. Nguyễn Lưu Thùy Ngân tại Đại học Bách Khoa - ĐHQG Tp. HCM vào năm 2021, tập trung vào việc áp dụng các kỹ thuật học sâu để tóm tắt văn bản tiếng Việt. Nghiên cứu này không chỉ giúp nâng cao khả năng xử lý ngôn ngữ tự nhiên mà còn mở ra cơ hội ứng dụng trong nhiều lĩnh vực như giáo dục, truyền thông và công nghệ thông tin. Độc giả sẽ tìm thấy những lợi ích từ việc hiểu rõ hơn về cách thức tóm tắt văn bản, điều này có thể hỗ trợ trong việc xử lý thông tin hiệu quả hơn.

Nếu bạn quan tâm đến các nghiên cứu khác liên quan đến học máy và ứng dụng công nghệ trong giáo dục, hãy tham khảo thêm bài viết Nghiên cứu thuật toán và ứng dụng công nghệ định vị vệ tinh GNSS tại Việt Nam, nơi khám phá cách công nghệ có thể hỗ trợ trong việc định vị và quản lý thông tin.

Ngoài ra, bài viết Nghiên cứu kỹ thuật học sâu để biểu diễn đô thị không đồng nhất cũng sẽ mang lại những hiểu biết sâu sắc về cách học sâu có thể được áp dụng trong các lĩnh vực khác nhau, bao gồm cả việc phân tích dữ liệu đô thị.

Cuối cùng, bạn có thể tìm hiểu thêm về Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính để thấy được sự phát triển của các mô hình học sâu trong việc xử lý văn bản, một lĩnh vực có liên quan mật thiết đến tóm tắt văn bản. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và ứng dụng của công nghệ học sâu trong nhiều lĩnh vực khác nhau.