Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt sử dụng học sâu

Tìm hiểu ứng dụng hệ thống học sâu trong tóm tắt văn bản tiếng Việt qua luận văn thạc sĩ khoa học máy tính. Khám phá công nghệ mới.

Trường đại học

Đại học Bách Khoa - ĐHQG Tp. HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

TÓM TẮT LUẬN VĂN (TIẾNG ANH)

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu đề tài

1.2. Lý do chọn đề tài

1.3. Phạm vi đề tài

1.4. Quá trình thực hiện

2. CHƯƠNG 2: CÔNG TRÌNH LIÊN QUAN

2.1. Các công trình liên quan

2.1.1. Phương pháp tóm tắt văn bản dựa trên trích xuất

2.1.2. Phương pháp tóm tắt văn bản dựa trên tóm lược

2.2. Các mô hình nền tảng

2.2.1. Mô hình Seq2Seq và cơ chế Attention

2.2.2. Hệ số TF-IDF

2.2.3. Cơ chế Teacher Forcing

2.2.4. Mô hình ngôn ngữ (Language Model)

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Tổng quan

3.2. Cấu trúc của hệ thống Forcing-Seq2Seq

3.2.1. Tiền xử lý văn bản

3.2.2. Mô hình Seq2Seq cơ chế attention

3.2.3. Mô hình ngôn ngữ

3.2.4. Mô hình TF-IDF và cơ chế Teacher forcing

3.3. Phương pháp đánh giá

3.3.1. Phương pháp đánh giá tự động

3.3.2. Phương pháp đánh giá bằng con người

4. CHƯƠNG 4: HIỆN THỰC

4.1. Dữ liệu

4.2. Kết quả huấn luyện trên mô hình Forcing-Seq2Seq

4.3. Kết quả thực nghiệm

5. CHƯƠNG 5: ĐÁNH GIÁ

5.1. Đánh giá tự động

5.2. Đánh giá với con người

6. CHƯƠNG 6: TỔNG KẾT

6.1. Kết luận

6.2. Đánh giá ưu, nhược điểm

6.2.1. Nhược điểm

6.3. Hướng phát triển trong tương lai

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh phát triển nhanh chóng của các kênh truyền thông xã hội, việc tóm tắt văn bản trở thành một nhiệm vụ quan trọng nhằm giúp người đọc dễ dàng tiếp cận thông tin. Tóm tắt văn bản không chỉ giúp nâng cao tính chuyên nghiệp của các bài viết mà còn tiết kiệm thời gian cho người đọc. Luận văn này nghiên cứu việc áp dụng hệ thống học sâu để tự động tóm tắt văn bản tiếng Việt, từ đó tạo ra tiêu đề cho các bài viết. Mô hình Forcing-Seq2Seq được giới thiệu như một giải pháp tối ưu cho bài toán này. Mô hình này kết hợp các ưu điểm của các phương pháp truyền thống và machine learning hiện đại, nhằm đạt được kết quả tóm tắt hiệu quả và chính xác.

1.1. Lý do chọn đề tài

Nhu cầu tóm tắt văn bản tự động ngày càng tăng, đặc biệt trong lĩnh vực báo chí và truyền thông. Việc thiếu tiêu đề cho các bài viết không chỉ gây khó khăn cho người đọc mà còn làm giảm hiệu quả của các hệ thống phân tích ngôn ngữ tự nhiên. Luận văn này nhằm mục đích phát triển một mô hình có khả năng tự động tạo tiêu đề cho các bài viết, từ đó nâng cao chất lượng thông tin và hỗ trợ người dùng trong việc tìm kiếm nội dung. Mô hình này sẽ được áp dụng trên tập dữ liệu các bài đánh giá thực phẩm từ Amazon, một nguồn dữ liệu phong phú và có chất lượng cao.

II. Công trình liên quan

Chương này tổng hợp các nghiên cứu trước đây liên quan đến tóm tắt văn bản và các phương pháp tự động tạo tiêu đề. Có hai phương pháp chính trong tóm tắt văn bản: phương pháp dựa trên trích xuất và phương pháp dựa trên tóm lược. Phương pháp dựa trên trích xuất chọn lọc các câu quan trọng từ văn bản gốc mà không thay đổi nội dung, trong khi phương pháp dựa trên tóm lược tạo ra các câu mới, ngắn gọn hơn nhưng vẫn truyền tải ý nghĩa chính. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng học sâu có thể cải thiện đáng kể độ chính xác của các hệ thống tóm tắt văn bản.

2.1. Phương pháp tóm tắt văn bản dựa trên trích xuất

Phương pháp này được ưa chuộng bởi tính đơn giản và hiệu quả. Nó chọn ra các câu có độ quan trọng cao dựa trên tần suất từ và vị trí của câu trong văn bản. Tuy nhiên, nhược điểm của phương pháp này là khả năng tạo ra văn bản tóm tắt có thể thiếu mạch lạc và tự nhiên. Một số nghiên cứu như phương pháp Text-Rank và TF-IDF đã được áp dụng thành công trong việc xác định các câu quan trọng trong văn bản. Hình thức tóm tắt này thường được sử dụng trong các ứng dụng cần xử lý nhanh chóng và hiệu quả.

2.2. Phương pháp tóm tắt văn bản dựa trên tóm lược

Khác với phương pháp dựa trên trích xuất, phương pháp dựa trên tóm lược xây dựng mô hình học sâu để sinh ra các câu mới. Mô hình này không chỉ sao chép từ văn bản gốc mà còn tạo ra các nội dung mới, ngắn gọn hơn nhưng vẫn giữ được ý nghĩa. Các mô hình như Seq2Seq và Attention đã được áp dụng để cải thiện khả năng tóm tắt văn bản. Những nghiên cứu này mở ra hướng đi mới cho việc phát triển các hệ thống tự động tạo tiêu đề, giúp nâng cao tính chính xác và hiệu quả trong việc truyền tải thông tin.

III. Mô hình đề xuất

Mô hình Forcing-Seq2Seq được đề xuất trong luận văn này nhằm tự động hóa quá trình tóm tắt văn bản và tạo tiêu đề. Mô hình này kết hợp các thành phần của hệ thống học sâu, bao gồm cơ chế Attention và Teacher Forcing, nhằm tối ưu hóa quá trình học và cải thiện độ chính xác của kết quả. Mô hình được xây dựng dựa trên các lý thuyết và nghiên cứu trước đây, đồng thời được thử nghiệm trên tập dữ liệu thực tế để đánh giá hiệu quả. Kết quả cho thấy mô hình có khả năng tạo ra tiêu đề tự động với độ dài và ngữ nghĩa hợp lý, đáp ứng được nhu cầu thực tế trong việc tóm tắt văn bản.

3.1. Cấu trúc của hệ thống Forcing Seq2Seq

Hệ thống Forcing-Seq2Seq bao gồm các bước tiền xử lý văn bản, xây dựng mô hình Seq2Seq với cơ chế Attention, và áp dụng mô hình ngôn ngữ để cải thiện độ chính xác. Các bước này được thiết kế nhằm tối ưu hóa quá trình tóm tắt và tạo tiêu đề, đảm bảo rằng nội dung được truyền tải một cách chính xác và tự nhiên. Mô hình này không chỉ đơn thuần là một công cụ tóm tắt mà còn là một giải pháp toàn diện cho việc xử lý ngôn ngữ tự nhiên, mở ra nhiều cơ hội ứng dụng trong các lĩnh vực khác nhau.

IV. Đánh giá và kết quả

Chương này trình bày kết quả đánh giá mô hình Forcing-Seq2Seq thông qua các phương pháp tự động và đánh giá thủ công. Các chỉ số đánh giá như BLEU và ROUGE được sử dụng để đo lường độ chính xác và tính khả thi của mô hình. Kết quả cho thấy mô hình đạt được điểm số cao trong cả hai phương pháp đánh giá, chứng tỏ khả năng tạo tiêu đề tự động hiệu quả. Đánh giá từ người dùng cũng cho thấy mô hình có thể tạo ra tiêu đề phù hợp với nội dung văn bản, giúp nâng cao trải nghiệm người đọc. Điều này khẳng định giá trị và tính ứng dụng thực tiễn của mô hình trong việc tóm tắt văn bản tiếng Việt.

4.1. Đánh giá tự động

Kết quả đánh giá tự động cho thấy mô hình Forcing-Seq2Seq đạt điểm BLEU cao hơn so với các mô hình trước đây. Điều này cho thấy khả năng của mô hình trong việc tạo ra các tiêu đề chính xác và ngắn gọn. Việc sử dụng các chỉ số đánh giá tự động giúp cung cấp cái nhìn rõ ràng về hiệu suất của mô hình, đồng thời tạo điều kiện cho việc so sánh với các phương pháp khác. Kết quả này mở ra hướng đi mới cho nghiên cứu và phát triển các hệ thống tóm tắt văn bản tự động trong tương lai.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính tóm tắt văn bản tiếng việt sử dụng hệ thống học sâu

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh sự phát triển nhanh chóng của các kênh truyền thông xã hội, số lượng bài viết chất lượng cao dưới dạng blog, ghi chú hay bình luận ngày càng tăng, tuy nhiên phần lớn các bài viết này thường thiếu tiêu đề và phần tóm tắt. Việc biên tập viên phải thủ công thêm tiêu đề và tóm tắt cho hàng trăm nghìn bài viết gây tốn kém thời gian và công sức, đồng thời khó đảm bảo tiêu đề phản ánh chính xác nội dung bài viết. Mục tiêu nghiên cứu của luận văn là xây dựng mô hình Forcing-Seq2Seq nhằm tự động tạo tiêu đề cho văn bản, giúp tự động hóa quá trình biên tập, nâng cao hiệu quả xử lý dữ liệu và hỗ trợ các hệ thống xử lý ngôn ngữ tự nhiên khác. Nghiên cứu tập trung trên tập dữ liệu đánh giá thực phẩm của Amazon với hơn 500.000 bài viết trong khoảng thời gian hơn 10 năm, đồng thời sử dụng kho dữ liệu mở rộng gồm 35 triệu bài đánh giá để huấn luyện các mô hình phụ trợ. Kết quả đánh giá mô hình dựa trên chỉ số BLEU và khảo sát đánh giá của 11 tình nguyện viên cho thấy mô hình Forcing-Seq2Seq đạt điểm BLEU 49,73%, cao hơn đáng kể so với các mô hình nền tảng, đồng thời có tỷ lệ tiêu đề hợp lý và khả thi lần lượt là 82,10% và 69,57%. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao chất lượng và hiệu quả xử lý tự động tiêu đề văn bản, góp phần phát triển các ứng dụng trí tuệ nhân tạo trong lĩnh vực xử lý ngôn ngữ tự nhiên.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mô hình Seq2Seq và cơ chế Attention**: Mô hình Seq2Seq gồm bộ mã hóa (encoder) và bộ giải mã (decoder) sử dụng mạng LSTM để xử lý chuỗi dữ liệu, kết hợp cơ chế Attention giúp tập trung vào các phần quan trọng của văn bản đầu vào khi tạo tiêu đề, khắc phục hạn chế của mô hình truyền thống trong việc xử lý chuỗi dài.
- **Hệ số TF-IDF**: Thuật toán thống kê đánh giá mức độ quan trọng của từ trong văn bản dựa trên tần suất xuất hiện và tần suất nghịch đảo trong tập tài liệu, được sử dụng để xác định từ khóa quan trọng nhất làm điểm khởi đầu cho quá trình tạo tiêu đề.
- **Cơ chế Teacher Forcing**: Chiến lược huấn luyện mạng nơ-ron lặp lại bằng cách sử dụng đầu ra thực tế làm đầu vào cho bước tiếp theo, giúp mô hình hội tụ nhanh hơn và giảm lỗi sai lặp trong quá trình tạo tiêu đề.
- **Mô hình ngôn ngữ (Language Model)**: Mô hình dự đoán xác suất xuất hiện của từ tiếp theo dựa trên ngữ cảnh, được huấn luyện trên tập corpus lớn để sửa lỗi ngữ pháp và làm mượt tiêu đề tự động tạo ra.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng tập dữ liệu đánh giá thực phẩm Amazon (khoảng 500.000 bài viết) làm dữ liệu chính để huấn luyện mô hình tạo tiêu đề, đồng thời sử dụng kho dữ liệu mở rộng gồm 35 triệu bài đánh giá Amazon để huấn luyện mô hình TF-IDF và mô hình ngôn ngữ.
- **Phương pháp phân tích**: Xây dựng mô hình Forcing-Seq2Seq kết hợp Seq2Seq với Attention, TF-IDF, Teacher Forcing và mô hình ngôn ngữ. Đánh giá mô hình bằng chỉ số BLEU và khảo sát đánh giá thủ công của 11 tình nguyện viên trên 600 tiêu đề tạo ra từ 200 văn bản.
- **Timeline nghiên cứu**: Quá trình nghiên cứu gồm 4 giai đoạn chính: tìm hiểu công trình liên quan, xây dựng hệ thống mô hình, thu thập và xử lý dữ liệu, đánh giá kết quả mô hình. Thời gian thực hiện kéo dài trong khoảng 1 năm, hoàn thành bảo vệ luận văn tháng 8 năm 2021.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Forcing-Seq2Seq đạt điểm BLEU trung bình 49,73%, cao hơn đáng kể so với mô hình Base-Seq2Seq (35,23%) và Smooth-Seq2Seq (35,97%), cho thấy hiệu quả cải tiến trong việc tạo tiêu đề tự động.
- Tỷ lệ tiêu đề tự động tạo ra được đánh giá hợp lý (phản ánh đúng nội dung văn bản gốc) đạt 82,10%, vượt trội so với Base-Seq2Seq (64,73%) và Smooth-Seq2Seq (79,02%).
- Tỷ lệ tiêu đề khả thi (có thể sử dụng thay thế tiêu đề gốc) của Forcing-Seq2Seq là 69,57%, cao hơn nhiều so với Base-Seq2Seq (26,64%) và Smooth-Seq2Seq (43,37%).
- Ví dụ thực tế cho thấy tiêu đề tạo ra từ Forcing-Seq2Seq không chỉ ngắn gọn, đúng ngữ pháp mà còn truyền tải được nội dung trọng tâm, thậm chí có tiêu đề còn hay hơn tiêu đề gốc.

### Thảo luận kết quả

Kết quả cho thấy việc kết hợp TF-IDF để xác định từ khóa quan trọng làm điểm khởi đầu cho quá trình giải mã (Teacher Forcing) giúp mô hình tập trung vào nội dung trọng tâm, giảm sai lệch ngữ nghĩa so với mô hình truyền thống. Mô hình ngôn ngữ hỗ trợ sửa lỗi ngữ pháp, loại bỏ hiện tượng lặp từ, làm tiêu đề mạch lạc và tự nhiên hơn. So với các nghiên cứu trước đây chỉ sử dụng Seq2Seq và Attention, mô hình đề xuất đã khắc phục được hạn chế về độ chính xác và tính khả thi của tiêu đề tự động. Dữ liệu đánh giá thủ công từ 11 tình nguyện viên cũng xác nhận tính thực tiễn và hiệu quả của mô hình. Tuy nhiên, mô hình hiện chỉ được huấn luyện trên dữ liệu đánh giá thực phẩm, do đó khả năng áp dụng cho các lĩnh vực khác còn hạn chế và cần mở rộng tập dữ liệu huấn luyện. Các lỗi ngữ pháp nhỏ vẫn còn tồn tại, cần nghiên cứu thêm các kỹ thuật xử lý ngôn ngữ nâng cao để cải thiện.

## Đề xuất và khuyến nghị

- **Mở rộng tập dữ liệu huấn luyện**: Thu thập và tích hợp thêm các bộ dữ liệu đa dạng về lĩnh vực và ngôn ngữ nhằm nâng cao khả năng tổng quát và ứng dụng của mô hình. Mục tiêu tăng độ chính xác tiêu đề trên các lĩnh vực mới trong vòng 12-18 tháng, do nhóm nghiên cứu và đối tác dữ liệu thực hiện.
- **Nâng cao mô hình ngôn ngữ**: Phát triển và áp dụng các kỹ thuật sửa lỗi ngữ pháp nâng cao, bao gồm mô hình ngôn ngữ dựa trên Transformer hoặc BERT để cải thiện tính mạch lạc và chính xác của tiêu đề. Mục tiêu giảm lỗi ngữ pháp xuống dưới 5% trong 6 tháng tới.
- **Tích hợp kỹ thuật tóm tắt hiện đại**: Nghiên cứu và áp dụng các phương pháp tóm tắt văn bản mới như tóm tắt dựa trên Transformer, attention đa chiều để tăng tính thu hút và sáng tạo của tiêu đề tự động. Thời gian thử nghiệm và đánh giá trong 1 năm.
- **Phát triển hệ thống ứng dụng thực tiễn**: Xây dựng giao diện và API cho phép tích hợp mô hình vào các hệ thống quản lý nội dung, trang báo điện tử, mạng xã hội để tự động tạo tiêu đề, giảm tải công việc biên tập viên. Mục tiêu triển khai thử nghiệm trong 9 tháng tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo**: Nghiên cứu các mô hình học sâu, xử lý ngôn ngữ tự nhiên, đặc biệt là tóm tắt văn bản và tạo tiêu đề tự động.
- **Các công ty công nghệ phát triển sản phẩm AI, xử lý ngôn ngữ tự nhiên**: Áp dụng mô hình Forcing-Seq2Seq để nâng cao chất lượng sản phẩm, tự động hóa quy trình biên tập nội dung.
- **Biên tập viên, nhà quản lý nội dung báo chí và truyền thông**: Tận dụng công nghệ tự động tạo tiêu đề để giảm thiểu thời gian và công sức trong việc xử lý bài viết, nâng cao hiệu quả công việc.
- **Các tổ chức nghiên cứu và phát triển ứng dụng AI trong lĩnh vực truyền thông, marketing**: Tham khảo mô hình và phương pháp để phát triển các giải pháp tự động hóa nội dung, tăng tính tương tác và thu hút người đọc.

## Câu hỏi thường gặp

1. **Mô hình Forcing-Seq2Seq khác gì so với các mô hình tóm tắt truyền thống?**  
Mô hình kết hợp Seq2Seq với Attention, TF-IDF để xác định từ khóa quan trọng, sử dụng cơ chế Teacher Forcing để bắt đầu giải mã bằng từ khóa này, đồng thời áp dụng mô hình ngôn ngữ để sửa lỗi ngữ pháp, giúp tạo tiêu đề chính xác và tự nhiên hơn.

2. **Tại sao cần sử dụng TF-IDF trong mô hình?**  
TF-IDF giúp xác định từ quan trọng nhất trong văn bản gốc, từ đó làm điểm khởi đầu cho quá trình tạo tiêu đề, đảm bảo tiêu đề phản ánh đúng nội dung trọng tâm của bài viết.

3. **Phương pháp đánh giá mô hình được thực hiện như thế nào?**  
Đánh giá tự động bằng chỉ số BLEU so sánh tiêu đề tạo ra với tiêu đề gốc, đồng thời đánh giá thủ công bởi 11 tình nguyện viên dựa trên tính hợp lý và khả thi của tiêu đề.

4. **Mô hình có thể áp dụng cho các lĩnh vực khác ngoài đánh giá thực phẩm không?**  
Hiện tại mô hình được huấn luyện chủ yếu trên dữ liệu đánh giá thực phẩm, cần mở rộng tập dữ liệu để áp dụng hiệu quả cho các lĩnh vực khác.

5. **Làm thế nào để cải thiện mô hình trong tương lai?**  
Mở rộng dữ liệu huấn luyện, nâng cao mô hình ngôn ngữ, tích hợp kỹ thuật tóm tắt hiện đại và phát triển hệ thống ứng dụng thực tiễn là các hướng cải tiến chính.

## Kết luận

- Mô hình Forcing-Seq2Seq đã cải thiện đáng kể hiệu quả tạo tiêu đề tự động so với các mô hình nền tảng, đạt điểm BLEU 49,73% và tỷ lệ tiêu đề hợp lý 82,10%.  
- Kết hợp TF-IDF và cơ chế Teacher Forcing giúp mô hình tập trung vào nội dung trọng tâm, giảm sai lệch ngữ nghĩa.  
- Mô hình ngôn ngữ hỗ trợ sửa lỗi ngữ pháp, làm tiêu đề mạch lạc và tự nhiên hơn.  
- Nghiên cứu mở ra hướng phát triển các hệ thống tự động hóa biên tập nội dung trong lĩnh vực truyền thông và xử lý ngôn ngữ tự nhiên.  
- Đề xuất mở rộng dữ liệu và nâng cao mô hình để tăng tính ứng dụng và chất lượng tiêu đề trong tương lai.  

**Hành động tiếp theo**: Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình vào thực tiễn, đồng thời tiếp tục phát triển và hoàn thiện mô hình theo các hướng đề xuất để nâng cao hiệu quả và phạm vi ứng dụng.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu 1 Giới thiệu đề tài Ngày nay, thế giới đã và đang chứng kiến sự phát triển nhanh chóng của mạng xã hội, nơi mọi người tìm thấy một kênh thuận tiện để bày tỏ ý tưởng, quan điểm và cảm xúc của mình. Có một số blog, bài đăng và bình luận được thực hiện bởi những người dùng phổ thông rất thú vị và thu hút nhiều sự chú ý của khán giả. Những bài viết đó nhiều lần được các biên tập viên lựa chọn để xuất bản thành những bài báo chất lượng cao. Tuy nhiên, vì là những người viết không chuyên nghiệp, người dùng thường không viết phần tóm tắt và đặt tiêu đề cho bài viết của họ mà thay vào đó các biên tập viên sẽ đảm nhận công việc này.

Nhiệm vụ này rất quan trọng vì phần tóm tắt và tiêu đề không chỉ giúp bài viết trở nên chuyên nghiệp hơn mà còn giúp người đọc nắm bắt thông tin nhanh chóng và đầy đủ hơn. Hình 1 là ví dụ minh hoạ giao diện trang chủ của các trang báo điện tử thường hiện thị phần tóm tắt và tiêu đề các bài báo giúp người đọc nắm bắt nhanh thông tin và lựa chọn bài viết phù hợp với nhu cầu của mình. Tuy nhu cầu thực tế là vậy nhưng với số lượng bài viết khổng lồ, công việc tóm tắt bài viết và đặt tiêu đề này làm tiêu tốn tương đối nhiều thời gian và sức lực để xử lý. Đồng thời, vì không phải là tác giả của bài viết, người biên tập thường khó nắm bắt hết quan điểm và nội dung người viết muốn truyền tải làm cho nội dung phần tóm tắt và tiêu đề không bám sát bài viết gốc.

Hình 1: Ví dụ minh hoạ giao diện trang chủ báo điện tử Từ nhu cầu thực tế đó cùng với sự phát triển vượt bậc của các kỹ thuật trí tuệ nhân tạo, tôi tập trung nghiên cưú để xây dựng 1 mô hình tự động tóm tắt bài viết tối ưu, ứng dụng cụ thể giải quyết nhu cầu tạo tiêu đề cho bài viết. Với mô hình này, tiêu đề bài viết sẽ được tạo ra tự động trong thời gian ngắn mà vẫn đảm bảo độ dài và văn phạm hợp lý, đồng thời tiêu đề tự động cũng truyền tải được nội dung trọng tâm của văn bản gốc. 1 2 Lý do chọn đề tài Các bất cập và nhu cầu thực tế đã đề cập bên trên vô tình xuất hiện khi tôi nghiên cứu các bài toán xử lý ngôn ngữ tự nhiên áp dụng trên dữ liệu báo chí. Việc thiếu sót tiêu đề cho các bài báo không chỉ gây khó khăn và tốn thời gian cho việc đọc hiểu dữ liệu mà còn dẫn đến việc thiếu dữ liệu, khó khăn, làm giảm độ hiệu quả của các bài phân tích, tổng hợp.

Tôi nhận thấy nhu cầu tóm tắt văn bản nhằm tạo tiêu đề tự động không chỉ cần thiết cho người đọc mà còn hỗ trợ được rất nhiều cho các bài toán, hệ thống xử lý ngôn ngữ tự nhiên như : phân loại văn bản, rút trích thông tin, tìm kiếm nội dung, chọn lọc tài liệu, hỗ trợ hệ thống trả lời câu hỏi. Từ những vấn đề trên, tôi quyết định xây dựng mô hình tóm tắt văn bản ứng dụng giải quyết bài toán tự động đặt tiêu đề cho các bài viết. Đầu tiên là trên tập dữ liệu các bài viết đánh giá thực phẩm của Amazon - một tập dữ liệu tiếng anh phổ biến có sẳn với chất lượng đảm bảo. Sau đó, tôi muốn phát triển mô hình này thành hệ thống tổng quan có thể áp dụng trên tất cả các loại bài viết, cho cả tiếng việt và tiếng anh.

Khi áp dụng mô hình này, tiêu đề tự động được tạo ra giúp tự động hoá quá trình đặt tiêu đề thủ công của biên tập viên. Đồng thời, hệ thống này cũng giúp bổ sung dữ liệu tiêu đề tóm tắt, là đầu vào chất lượng cho các bài phân tích, thống kê, xử lý ngôn ngữ tự nhiên. 3 Phạm vi đề tài Để tập trung giải quyết các vấn đề thực tiễn được nêu lên ở trên, phạm vi đề tài được giới hạn như sau: • Xây dựng một mô hình tóm tắt văn bản cải tiến, ứng dụng vào giải quyết bài toán tự động tạo tiêu đề từ văn bản gốc. • Văn bản sử dụng là các bài bình luận về thực phẩm trên trang web Amazon đã được thu thập và công khai trên diễn đàn Kaggle.

• Đánh giá được mô hình về mức độ hoàn thiện, độ chính xác và tính ứng dụng của kết quả. • Tổng hợp, trình bày và bảo vệ kết quả đề tài như một công trình nghiên cứu khoa học hoàn thiện. 4 Quá trình thực hiện Quá trình thực hiện luận văn này trải qua 4 giai đoạn: Giai đoạn 1: Tìm hiểu những công trình nghiên cứu liên quan đến bài toán tóm tắt văn bản và tự động tạo tiêu đề. Công việc đầu tiên là tìm hiểu các công trình liên quan, các phương pháp trước đây để giải quyết bài toán tóm tắt văn bản.

Sau đó tập trung vào các công trình, mô hình nhằm mục đích tối ưu kết quả tóm tắt văn bản, hướng đến giải quyết nhu cầu tạo tiêu đề tự động. 2 Giai đoạn 2: Xây dựng hệ thống tự động tạo tiêu đề từ kiến thức đã thu thập được theo yêu cầu đã đặt ra. Hệ thống xây dựng phải vừa giải quyết được yêu cầu đã đặt ra, khắc phục các hạn chế của các công trình trước đây, vừa phải có đặc tính nổi bật hơn và tạo ra kết quả tốt hơn, hiệu quả và có tính ứng dụng cao hơn các công trình đã nghiên cứu. Giai đoạn 3: Đây là giai đoạn thu thập dữ liệu để huấn luyện.

Nhằm mục đích xây dựng và đo đạc độ chính xác cũng như tính ứng dụng của mô hình tự động đặt tiêu đề, tôi đã tiến hành tìm kiếm và thu thập một tập dữ liệu đầy đủ, đúng với nhu cầu của bài toán để huấn luyện và để đánh giá mô hình. Giai đoạn 4: Đây là giai đoạn đánh giá kết quả. Sau khi xây dựng mô hình, tôi đánh giá mô hình của mình bằng cả phương pháp tự động và đánh giá thủ công của các tình nguyện viên, qua đó đánh giá được độ chính xác, tính khả quan và thực nghiệm của kết quả mô hình cũng như rút ra được ưu, nhược điểm và định hướng cải thiện, phát triển mô hình này trong tương lai. 3 Chương 2 Công trình liên quan 1 Các công trình liên quan Như đã đề cập ở trên, tôi tập trung tìm hiểu các công trình hướng tới giải quyết bài toán tóm tắt văn bản và các phương pháp cải tiến các công trình này phù hợp với ứng dụng tự động tạo tiêu đề.

Thực tế hiện tại, thông qua tìm kiếm tôi cũng nhận thấy không có dự án nghiên cứu cụ thể nào giải quyết chính xác vấn đề tự động tạo tiêu đề của một bài viết mặc dù nhu cầu này rất cần thiết. Nhìn chung, nhiệm vụ tự động tạo tiêu đề có thể được coi là một trường hợp cụ thể của bài toán tóm tắt văn bản. Cụ thể, một bản tóm tắt văn bản được định nghĩa là một đoạn văn được tạo ra từ một hoặc nhiều văn bản, truyền tải thông tin quan trọng và tổng quát của văn bản gốc và ngắn hơn đáng kể so với văn bản gốc, thường có độ dài không quá một nữa độ dài văn bản gốc. Tự động tóm tắt văn bản là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy trong khi vẫn giữ được nội dung thông tin chính và ý nghĩa tổng thể của văn bản gốc.

Vào năm 1958, Luhn của IBM đã trình bày phương pháp tóm tắt tự động đầu tiên cho các bài báo kĩ thuật sử dụng phương pháp thống kê thông qua tần suất và phân bố của các từ trong văn bản [3]. Trong suốt hơn 60 năm phát triển của tóm tắt văn bản, cùng với tốc độ phát triển vũ bão của ngành khoa học máy tính đã có rất nhiều các phương pháp được đề xuất nhằm mục đích xây dựng các hệ thống tóm tắt văn bản tự động với độ chính xác tăng dần, đạt được những thành tựu nhất định, ứng dụng trong nhiều lĩnh vực đời sống [4] [5]. Các nghiên cứu về tóm tắt văn bản tập trung vào hai phương pháp tiếp cận chính là phương pháp dựa trên trích xuất 1 và phương pháp dựa trên tóm lược 2 , với nhiều công trình đạt được kết quả khả quan mà tôi đã tìm hiểu và sẽ trình bày dưới đây.1 Phương pháp tóm tắt văn bản dựa trên trích xuất [1] Trong 2 cách tiếp cận, cách tiếp cận dựa trên trích xuất phổ biến hơn, bởi độ phức tạp không quá lớn và vẫn đảm bảo được yêu cầu của một văn bản tóm tắt cần đạt được. Cách tiếp cận này chọn ra các câu văn, cụm từ mang ý nghĩa chính và quan trọng nhất của văn bản gốc, sau đó tổng hợp lại tạo ra một bản tóm tắt.

Nó sẽ cân nhắc độ quan trọng của các câu văn, cụm từ và xếp hạng chúng dựa trên mức độ quan trọng và tương đồng lẫn nhau. Từ đó lựa ra các câu văn, cụm từ quan trọng nhất dựa trên điểm đánh giá và tổng hợp thành bản tóm tắt mà không thay đổi hay thêm bớt bất kì từ ngữ nào của văn bản gốc. Có nhiều phương pháp xây dựng công thức tính điểm cho mỗi câu trong văn bản gốc. Một số nghiên cứu giai đoạn đầu thường sử dụng các đặc trưng như vị trí của câu trong văn bản, tần số xuất hiện của từ ngữ hay sử dụng các cụm từ khóa để tính toán trọng số của mỗi câu, qua đó chọn ra các câu có trọng số cao nhất cho văn bản tóm tắt [6].

Các kỹ thuật tóm tắt gần đây hơn sử dụng các phương pháp học máy và xử 1 Extraction-based 2 Ábstraction-based 4 lý ngôn ngữ tự nhiên nhằm phân tích để tìm ra các thành phần quan trọng của văn bản. Các công trình tiêu biểu có thể kể đến phương pháp của Kupiec,Penderson and Chen năm 1995 sử dụng phân lớp Bayes để kết hợp các đặc trưng lại với nhau [7], công trình nghiên cứu của Lin và Hovy năm 1997 áp dụng phương pháp học máy nhằm xác định vị trí của các câu quan trọng trong văn bản [8] và phương pháp áp dụng các phân tích ngôn ngữ tự nhiên như sử dụng mạng từ Wordnet của Barzilay và Elhadad vào năm 1997 [9].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt sử dụng học sâu của tác giả Nguyễn Thị Hiệp Thuận, được thực hiện dưới sự hướng dẫn của PGS. Quản Thành Thơ, TS. Lê Thanh Vân, và TS. Nguyễn Lưu Thùy Ngân tại Đại học Bách Khoa - ĐHQG Tp. HCM vào năm 2021, tập trung vào việc áp dụng các kỹ thuật học sâu để tóm tắt văn bản tiếng Việt. Nghiên cứu này không chỉ giúp nâng cao khả năng xử lý ngôn ngữ tự nhiên mà còn mở ra cơ hội ứng dụng trong nhiều lĩnh vực như giáo dục, truyền thông và công nghệ thông tin. Độc giả sẽ tìm thấy những lợi ích từ việc hiểu rõ hơn về cách thức tóm tắt văn bản, điều này có thể hỗ trợ trong việc xử lý thông tin hiệu quả hơn.

Nếu bạn quan tâm đến các nghiên cứu khác liên quan đến học máy và ứng dụng công nghệ trong giáo dục, hãy tham khảo thêm bài viết Nghiên cứu thuật toán và ứng dụng công nghệ định vị vệ tinh GNSS tại Việt Nam, nơi khám phá cách công nghệ có thể hỗ trợ trong việc định vị và quản lý thông tin.

Ngoài ra, bài viết Nghiên cứu kỹ thuật học sâu để biểu diễn đô thị không đồng nhất cũng sẽ mang lại những hiểu biết sâu sắc về cách học sâu có thể được áp dụng trong các lĩnh vực khác nhau, bao gồm cả việc phân tích dữ liệu đô thị.

Cuối cùng, bạn có thể tìm hiểu thêm về Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính để thấy được sự phát triển của các mô hình học sâu trong việc xử lý văn bản, một lĩnh vực có liên quan mật thiết đến tóm tắt văn bản. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và ứng dụng của công nghệ học sâu trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#mô hình ngôn ngữ

#tóm tắt văn bản

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Nghiên cứu khoa học máy tính

Học sâu và ứng dụng

Phát triển công nghệ thông tin