Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị

Luận văn thạc sĩ phân tích tóm tắt văn bản tiếng việt tự động dựa trên mô hình đồ thị001, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

2. CHƯƠNG 2: CÁC PHƢƠNG PHÁP TÓM TẮT VĂN BẢN

3. CHƯƠNG 3: XÂY DỰNG MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO PHƢƠNG PHÁP ĐỒ THỊ

4. CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về tóm tắt văn bản

Chương này trình bày tổng quan về tóm tắt văn bản, bao gồm các khái niệm cơ bản, phân loại và ứng dụng của tóm tắt văn bản tiếng Việt. Tóm tắt văn bản là quá trình tạo ra một phiên bản ngắn gọn từ một hoặc nhiều văn bản gốc, nhằm bảo tồn nội dung và ý nghĩa chính. Có nhiều định nghĩa khác nhau về tóm tắt văn bản, tùy thuộc vào mục đích và yêu cầu của người dùng. Phân loại bài toán tóm tắt văn bản có thể chia thành nhiều loại như tóm tắt trích rút và tóm tắt tóm lược. Mỗi loại có ứng dụng và phương pháp khác nhau, từ việc phục vụ cho máy tìm kiếm đến việc tóm tắt tin tức. Việc đánh giá độ chính xác của tóm tắt văn bản cũng rất quan trọng, với các phương pháp như đánh giá thủ công, đánh giá đồng chọn và đánh giá dựa trên nội dung.

1.1 Khái niệm tóm tắt văn bản

Khái niệm tóm tắt văn bản được định nghĩa là quá trình trích rút thông tin quan trọng từ một hoặc nhiều nguồn để tạo ra phiên bản ngắn gọn. Tóm tắt văn bản tự động là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy, bảo tồn nội dung chính. Ví dụ, một văn bản gốc có thể được tóm tắt thành một đoạn ngắn, giữ lại các thông tin quan trọng nhất. Điều này giúp người dùng nhanh chóng nắm bắt nội dung mà không cần đọc toàn bộ văn bản gốc.

1.2 Phân loại bài toán tóm tắt văn bản

Bài toán tóm tắt văn bản có thể phân chia thành nhiều loại, mỗi loại phục vụ cho các mục đích khác nhau. Tóm tắt trích rút là loại tóm tắt bao gồm các câu quan trọng được trích từ văn bản gốc, trong khi tóm tắt tóm lược là việc viết lại văn bản gốc bằng ngôn ngữ tự nhiên. Các loại tóm tắt này có thể được áp dụng cho nhiều lĩnh vực khác nhau, từ tìm kiếm thông tin đến tóm tắt tài liệu khoa học.

II. Các phương pháp tóm tắt văn bản

Chương này trình bày các phương pháp tóm tắt văn bản, bao gồm tóm tắt trích rút và tóm tắt trừu tượng. Tóm tắt trích rút là kỹ thuật chọn lọc các câu quan trọng từ văn bản gốc, trong khi tóm tắt trừu tượng yêu cầu hệ thống phải hiểu và diễn giải nội dung để tạo ra văn bản mới. Các phương pháp này có ưu điểm và nhược điểm riêng. Tóm tắt trích rút thường cho kết quả ổn định hơn, trong khi tóm tắt trừu tượng có thể tạo ra nội dung phong phú hơn nhưng khó khăn hơn trong việc thực hiện.

2.1 Tóm tắt trích rút

Kỹ thuật tóm tắt trích rút sử dụng các câu trong văn bản gốc để tạo ra bản tóm tắt. Phương pháp này có thể áp dụng cho một hoặc nhiều tài liệu. Tóm tắt trích rút thường cho kết quả tốt hơn và hiệu quả hơn so với tóm tắt trừu tượng, do không phải đối mặt với các vấn đề phức tạp như biểu diễn ngữ nghĩa hay tạo ngôn ngữ tự nhiên.

2.2 Tóm tắt trừu tượng

Phương pháp tóm tắt trừu tượng yêu cầu hệ thống phải hiểu nội dung và tạo ra văn bản mới. Điều này đòi hỏi khả năng suy luận và diễn giải thông tin, làm cho phương pháp này khó khăn hơn. Tuy nhiên, nếu thực hiện thành công, tóm tắt trừu tượng có thể cung cấp thông tin phong phú và dễ hiểu hơn cho người dùng.

III. Xây dựng mô hình tóm tắt văn bản tiếng Việt

Chương này tập trung vào việc xây dựng mô hình tóm tắt văn bản tiếng Việt dựa trên phương pháp đồ thị. Mô hình này áp dụng thuật toán iSpreadRank để xử lý và xếp hạng các câu trong văn bản. Quá trình này bao gồm việc khởi tạo hạng ban đầu cho các câu, xếp hạng và trích chọn câu để tạo ra bản tóm tắt. Việc sử dụng mô hình đồ thị giúp cải thiện độ chính xác và hiệu quả của tóm tắt văn bản.

3.1 Thuật toán iSpreadRank

Thuật toán iSpreadRank là một trong những công cụ chính trong mô hình tóm tắt văn bản tiếng Việt. Thuật toán này giúp xác định tầm quan trọng của các câu trong văn bản dựa trên cấu trúc đồ thị. Bằng cách phân tích mối quan hệ giữa các câu, thuật toán có thể xác định những câu nào nên được đưa vào bản tóm tắt, từ đó tạo ra một phiên bản ngắn gọn và chính xác hơn.

3.2 Thiết kế mô hình

Mô hình tóm tắt văn bản được thiết kế để tối ưu hóa quá trình trích rút thông tin. Việc đồ thị hóa văn bản giúp dễ dàng xác định các mối quan hệ giữa các câu, từ đó cải thiện khả năng trích chọn câu. Mô hình này không chỉ áp dụng cho văn bản tiếng Việt mà còn có thể mở rộng cho các ngôn ngữ khác, tạo ra một giải pháp linh hoạt cho bài toán tóm tắt văn bản.

IV. Đánh giá kết quả đạt được

Chương cuối cùng của luận văn đánh giá kết quả thực nghiệm của mô hình tóm tắt văn bản tiếng Việt. Môi trường thực nghiệm được thiết lập với phần cứng và phần mềm phù hợp để kiểm tra hiệu suất của mô hình. Kết quả cho thấy mô hình đạt được độ chính xác cao trong việc trích chọn câu, đồng thời cũng chỉ ra những điểm cần cải thiện trong tương lai.

4.1 Môi trường thực nghiệm

Môi trường thực nghiệm được thiết lập với các thông số kỹ thuật cụ thể để đảm bảo tính chính xác của kết quả. Việc sử dụng phần mềm và phần cứng hiện đại giúp tối ưu hóa quá trình xử lý và đánh giá mô hình. Kết quả thực nghiệm cho thấy mô hình hoạt động hiệu quả trong việc tóm tắt văn bản tiếng Việt.

4.2 Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy mô hình tóm tắt văn bản đạt được độ chính xác cao, với khả năng trích chọn các câu quan trọng từ văn bản gốc. Tuy nhiên, vẫn còn một số hạn chế cần khắc phục, như việc cải thiện khả năng xử lý ngữ nghĩa và tăng cường độ chính xác trong các trường hợp văn bản phức tạp.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ tóm tắt văn bản tiếng việt tự động dựa trên mô hình đồ thị001

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Theo báo cáo của Global Digital từ We Are Social và Hootsuite, tính đến tháng 1 năm 2019, có khoảng 4,39 tỷ người dùng Internet trên toàn thế giới, tăng 366 triệu người so với cùng kỳ năm 2018. Sự phát triển nhanh chóng của Internet kéo theo sự gia tăng mạnh mẽ về số lượng các blog, trang web và tài liệu văn bản, dẫn đến nhu cầu cấp thiết về việc tìm kiếm, xử lý và tổng hợp thông tin. Trong bối cảnh đó, tóm tắt văn bản tự động trở thành một giải pháp quan trọng nhằm nâng cao hiệu quả xử lý thông tin, đặc biệt trong các hệ thống tìm kiếm thông minh và tổng hợp dữ liệu.

Luận văn tập trung nghiên cứu đề tài "Tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị" với mục tiêu xây dựng một mô hình tóm tắt trích rút đơn văn bản tiếng Việt hiệu quả, ứng dụng thuật toán iSpreadRank để xếp hạng và trích chọn câu quan trọng. Phạm vi nghiên cứu bao gồm dữ liệu tiếng Việt, với bộ dữ liệu thực nghiệm gồm 200 văn bản gốc và 200 văn bản tóm tắt mẫu, chia thành 6 chủ đề chính: Chính trị, Khoa học công nghệ, Khoa học giáo dục, Kinh tế, Văn hóa và Xã hội.

Nghiên cứu có ý nghĩa lớn trong việc phát triển các công cụ xử lý ngôn ngữ tự nhiên cho tiếng Việt, góp phần nâng cao hiệu quả tìm kiếm và xử lý thông tin trong môi trường số, đồng thời hỗ trợ các ứng dụng thương mại và khoa học dữ liệu.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Mô hình đồ thị trong tóm tắt văn bản**: Văn bản được biểu diễn dưới dạng đồ thị vô hướng có trọng số, trong đó mỗi đỉnh đại diện cho một câu, các cạnh thể hiện mối quan hệ ngữ nghĩa giữa các câu dựa trên độ tương đồng cosine của vector câu.

- **Thuật toán iSpreadRank**: Là thuật toán lan truyền kích hoạt, cập nhật trọng số câu dựa trên số lượng và trọng số các câu liên kết, cũng như sức mạnh liên kết được đo bằng độ tương đồng ngữ nghĩa. Thuật toán gồm ba bước: khởi tạo ma trận kề, suy diễn trọng số câu qua các vòng lặp, và dự đoán bảng xếp hạng câu.

- **Các khái niệm chính**:
  - *Tóm tắt trích rút*: Chọn lọc các câu quan trọng từ văn bản gốc để tạo bản tóm tắt.
  - *Độ tương đồng cosine*: Đo lường sự giống nhau giữa hai vector câu.
  - *Điểm PageRank và điểm đặc trưng*: Các phương pháp khởi tạo trọng số ban đầu cho câu dựa trên vị trí, trọng tâm và tương đồng với câu đầu tiên.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Bộ dữ liệu gồm 200 văn bản tiếng Việt và 200 bản tóm tắt mẫu, phân chia theo 6 chủ đề, được thu thập từ đề tài nghiên cứu về tóm tắt văn bản tiếng Việt.

- **Phương pháp phân tích**: 
  - Tiền xử lý văn bản bao gồm loại bỏ ký tự thừa, từ dừng, tách từ và câu bằng thư viện vnTokenizer.
  - Biểu diễn câu thành vector sử dụng các kỹ thuật Word2Vec, Doc2Vec và TF.ISF.
  - Xây dựng đồ thị câu với trọng số cạnh dựa trên độ tương đồng cosine.
  - Áp dụng thuật toán iSpreadRank để xếp hạng câu.
  - Trích chọn câu theo thứ tự xếp hạng, loại bỏ câu trùng lặp thông tin dựa trên ngưỡng tương đồng.
  - Đánh giá kết quả bằng chỉ số ROUGE (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4) với các tham số chuẩn.

- **Timeline nghiên cứu**: Nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2018 đến giữa năm 2019, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Thuật toán iSpreadRank cho hiệu suất tóm tắt vượt trội hơn so với các thuật toán truyền thống như PageRank, Normalized Similarity-based Degree và HITS, với điểm ROUGE-1 đạt khoảng 0.36444, cao hơn đáng kể so với các phương pháp còn lại.

- So sánh ba hệ thống thử nghiệm:
  - SYS1 (thuần PageRank) có hiệu suất thấp nhất.
  - SYS2 (iSpreadRank với điểm PageRank làm trọng số đầu vào) đạt kết quả tốt nhất với điểm F-score ROUGE cao hơn SYS1 và SYS3.
  - SYS3 (iSpreadRank với điểm đặc trưng làm trọng số đầu vào) cho kết quả tốt hơn SYS1 nhưng thấp hơn SYS2.

- Kết quả đánh giá trên từng chủ đề cho thấy sự khác biệt rõ rệt:
  - Chủ đề Chính trị đạt F-score ROUGE-1 cao nhất khoảng 0.3819.
  - Chủ đề Văn hóa có kết quả thấp nhất với F-score khoảng 0.2154.
  - Các chủ đề khác như Khoa học công nghệ, Kinh tế, Xã hội cũng đạt kết quả khả quan, dao động từ 0.32 đến 0.38.

- Độ dài văn bản tóm tắt được giới hạn ở 3 câu, tương đương với độ dài bản tóm tắt mẫu do người thực hiện, đảm bảo tính ngắn gọn và đầy đủ thông tin.

### Thảo luận kết quả

Kết quả cho thấy thuật toán iSpreadRank có khả năng tận dụng hiệu quả cấu trúc đồ thị và mối quan hệ ngữ nghĩa giữa các câu để xác định trọng số câu chính xác hơn, từ đó nâng cao chất lượng bản tóm tắt. Việc sử dụng điểm PageRank làm trọng số khởi tạo giúp mô hình hội tụ nhanh và ổn định hơn so với điểm đặc trưng.

Sự khác biệt về hiệu suất giữa các chủ đề phản ánh đặc điểm ngôn ngữ và cấu trúc nội dung khác nhau của từng lĩnh vực, cho thấy việc tùy chỉnh mô hình theo chủ đề có thể cải thiện kết quả. Kết quả cũng phù hợp với các nghiên cứu quốc tế về tóm tắt văn bản, đồng thời khẳng định tính khả thi của phương pháp đồ thị trong xử lý tiếng Việt, vốn có cấu trúc phức tạp và thiếu tài nguyên ngôn ngữ.

Dữ liệu có thể được trình bày qua biểu đồ so sánh F-score ROUGE giữa các hệ thống và bảng thống kê chi tiết kết quả theo từng chủ đề, giúp minh họa rõ ràng hiệu quả của mô hình.

## Đề xuất và khuyến nghị

- **Phát triển thêm mô hình tùy chỉnh theo chủ đề**: Tăng cường hiệu quả tóm tắt bằng cách xây dựng các mô hình chuyên biệt cho từng lĩnh vực như Chính trị, Kinh tế, Văn hóa, dự kiến hoàn thành trong 12 tháng tới, do các nhóm nghiên cứu chuyên ngành thực hiện.

- **Tích hợp kỹ thuật học sâu**: Áp dụng các mô hình deep learning như Sequence-to-Sequence with Attention để cải thiện khả năng tóm tắt trừu tượng, nâng cao chất lượng bản tóm tắt, với mục tiêu tăng điểm ROUGE thêm khoảng 10% trong vòng 18 tháng.

- **Mở rộng bộ dữ liệu huấn luyện**: Thu thập và xây dựng kho dữ liệu lớn hơn, đa dạng hơn về tiếng Việt, bao gồm các thể loại văn bản khác nhau, nhằm nâng cao độ chính xác và khả năng tổng quát của mô hình, thực hiện trong 24 tháng.

- **Phát triển công cụ hỗ trợ người dùng cuối**: Xây dựng phần mềm hoặc plugin tích hợp mô hình tóm tắt tự động cho các hệ thống tìm kiếm và quản lý tài liệu, giúp người dùng nhanh chóng tiếp cận thông tin quan trọng, dự kiến ra mắt sản phẩm thử nghiệm trong 6 tháng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Xử lý ngôn ngữ tự nhiên**: Nghiên cứu sâu về các thuật toán tóm tắt văn bản, mô hình đồ thị và ứng dụng trong tiếng Việt.

- **Các công ty công nghệ phát triển công cụ tìm kiếm và xử lý dữ liệu lớn**: Áp dụng mô hình tóm tắt tự động để nâng cao hiệu quả tìm kiếm và trải nghiệm người dùng.

- **Cơ quan truyền thông và báo chí**: Sử dụng công nghệ tóm tắt để nhanh chóng tổng hợp tin tức, giảm thời gian biên tập và tăng tính chính xác.

- **Các tổ chức giáo dục và nghiên cứu**: Hỗ trợ trong việc tổng hợp tài liệu học thuật, giúp sinh viên và giảng viên tiếp cận nhanh các nội dung trọng tâm.

## Câu hỏi thường gặp

1. **Tóm tắt văn bản tự động là gì?**  
Tóm tắt văn bản tự động là quá trình tạo ra bản tóm tắt ngắn gọn từ một hoặc nhiều văn bản gốc, giữ nguyên nội dung và ý nghĩa chính, giúp người dùng tiếp cận thông tin nhanh hơn.

2. **Thuật toán iSpreadRank có ưu điểm gì?**  
iSpreadRank tận dụng mô hình lan truyền kích hoạt trên đồ thị câu, cập nhật trọng số dựa trên mối liên kết và độ tương đồng ngữ nghĩa, cho kết quả xếp hạng câu chính xác và hiệu quả hơn các thuật toán truyền thống.

3. **Tại sao cần loại bỏ từ dừng trong tiền xử lý?**  
Từ dừng không mang nhiều ý nghĩa từ vựng và thường xuất hiện nhiều, loại bỏ giúp giảm nhiễu, tăng hiệu quả tính toán và cải thiện độ chính xác của mô hình.

4. **Mô hình có thể áp dụng cho các loại văn bản nào?**  
Mô hình phù hợp với văn bản tiếng Việt thuộc nhiều chủ đề khác nhau như Chính trị, Kinh tế, Văn hóa, Khoa học, và có thể mở rộng cho các thể loại văn bản đa dạng.

5. **Làm thế nào để đánh giá chất lượng bản tóm tắt?**  
Chất lượng được đánh giá bằng các chỉ số ROUGE, đo lường sự trùng khớp n-gram giữa bản tóm tắt tự động và bản tóm tắt mẫu do con người tạo ra, giúp đánh giá độ chính xác và đầy đủ thông tin.

## Kết luận

- Đã xây dựng thành công mô hình tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị và thuật toán iSpreadRank, nâng cao hiệu quả trích rút câu quan trọng.  
- Thuật toán iSpreadRank cho kết quả vượt trội so với các phương pháp truyền thống, đặc biệt khi sử dụng điểm PageRank làm trọng số khởi tạo.  
- Kết quả thực nghiệm trên bộ dữ liệu 200 văn bản và 200 bản tóm tắt mẫu cho thấy hiệu suất cao với điểm ROUGE-1 đạt khoảng 0.36 và sự khác biệt rõ rệt giữa các chủ đề.  
- Đề xuất phát triển mô hình chuyên biệt theo chủ đề, tích hợp học sâu và mở rộng dữ liệu để nâng cao hơn nữa chất lượng tóm tắt.  
- Khuyến khích các nhà nghiên cứu, doanh nghiệp và tổ chức giáo dục ứng dụng mô hình để cải thiện hiệu quả xử lý thông tin và hỗ trợ người dùng.

**Hành động tiếp theo**: Triển khai thử nghiệm mô hình trên các hệ thống thực tế, mở rộng bộ dữ liệu và nghiên cứu tích hợp kỹ thuật học sâu để nâng cao chất lượng tóm tắt.

**Liên hệ để nhận bản đầy đủ luận văn và hỗ trợ ứng dụng mô hình.**

Trích đoạn nội dung tài liệu

MỞ ĐẦU Theo số liệu báo cáo [18] của Global Digital từ We Are Social và Hootsuite, trong tháng 1 năm 2019 có 4,39 tỷ ngƣời dùng internet trên toàn thế giới, tăng 366 triệu ngƣời dùng so với cùng kỳ năm 2018, điều đó cho thấy sự phát triển nhanh chóng của mạng internet. Sự phát triển này kéo theo sự tăng trƣởng mạnh về số lƣợng các blog, trang web và các tài liệu văn bản. Từ đó gia tăng nhu cầu tìm kiếm, xử lý và tổng hợp thông tin của con ngƣời. Để cải thiện khả năng tìm kiếm cũng nhƣ tăng hiệu quả cho các công việc xử lý thông tin, tóm tắt văn bản tự động là một giải pháp hàng đầu.

Tóm tắt văn bản là quá trình tạo ra một văn bản ngắn hơn từ một hoặc nhiều văn bản gốc đáp ứng một số yêu cầu nào đó của ngƣời dùng, mà vẫn đảm bảo nội dung và ý nghĩa của văn bản gốc. Bài toán tóm tắt văn bản đóng vai trò quan trọng trong khoa học khai phá dữ liệu. Là một bài toán thực tiễn, có khả năng thƣơng mại, áp dụng cho các hệ thống tìm kiếm thông minh, hệ gợi ý, tổng hợp thông tin. Thay vì một tài liệu đầy đủ, chỉ có một văn bản tóm tắt ngắn gọn cần đƣợc xử lý.

Chẳng hạn, bằng cách cung cấp các đoạn mô tả ngắn gọn nội dung truy vấn, công cụ tìm kiếm có thể giúp ngƣời dùng xác định các tài liệu ƣa thích trong thời gian ngắn. Trên thế giới, các nghiên cứu đầu tiên về tóm tắt văn bản đƣợc công bố vào những năm 50 của thế kỉ trƣớc. Cho tới nay, tóm tắt văn bản vẫn không ngừng đƣợc nghiên cứu, phát triển, và đã đạt đƣợc thành tựu đáng kể trong việc tóm tắt các văn bản tiếng Anh, tiếng Trung… Tại Việt Nam, tóm tắt văn bản cũng rất đƣợc quan tâm, cụ thể cho bài toán tóm tắt văn bản tiếng Việt. Tuy nhiên, do sự phức tạp về cấu trúc, ngữ pháp của tiếng Việt, do thiếu tài nguyên về những kho ngữ liệu, tập mẫu nên những nghiên cứu về tóm tắt văn bản tiếng Việt vẫn còn hạn chế cả về mặt số lƣợng lẫn chất lƣợng.

Vì thế tôi lựa chọn đề tài luận văn “Tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị” bởi tính cấp thiết và tính ứng dụng cao của nó. Luận văn bao gồm 4 chƣơng: Chƣơng 1. Tổng quan về tóm tắt văn bản Trình bày về các khái niệm cơ bản của tóm tắt văn bản, phân loại bài toán tóm tắt văn bản, các ứng dụng của tóm tắt văn bản và các phƣơng pháp đánh giá một hệ thống tóm tắt văn bản. z 2 Chƣơng 2: Các phƣơng pháp tóm tắt văn bản Trình bày về các phƣơng pháp tóm tắt văn bản, các hƣớng tiếp cận cho việc giải quyết bài toán tóm tắt văn bản, một số đặc điểm của tiếng Việt, hiện trạng các nghiên cứu về tóm tắt văn bản tiếng Việt.

Chƣơng 3: Xây dựng mô hình tóm tắt văn bản tiếng Việt dựa theo phƣơng pháp đồ thị. Trình bày chi tiết về mô hình tóm tắt trích rút đơn văn bản tiếng Việt dựa trên mô hình đồ thị trên cơ sở áp dụng thuật toán iSpreadRank. Phần này đi sâu về thiết kế mô hình tóm tắt và các giai đoạn xử lý, bên cạnh đó luận văn cũng trình bày chi tiết thuật toán trong từng giai đoạn. Chƣơng 4: Đánh giá kết quả đạt đƣợc.

Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN Trong chƣơng này, luận văn trình bày tổng quan về tóm tắt văn bản, bao gồm các khái niệm cơ bản, phân loại tóm tắt văn bản và các phƣơng pháp đánh giá độ chính xác của tóm tắt văn bản. Khái niệm tóm tắt văn bản. Có rất nhiều định nghĩa khác nhau về tóm tắt văn bản.

Tuỳ thuộc vào mục đích yêu cầu của bài toán hay góc nhìn nhận của đối tƣợng sử dụng mà chúng ta có các định nghĩa khác nhau:  Tóm tắt văn bản là quá trình trích rút những thông tin quan trọng nhất từ một hoặc nhiều nguồn để tạo ra phiên bản cô đọng, ngắn gọn phục vụ cho một hoặc nhiều ngƣời dùng cụ thể, hay một hoặc nhiều nhiệm vụ cụ thể [1].  Tóm tắt văn bản là cô đọng văn bản nguồn thành một phiên bản ngắn hơn bảo tồn nội dung thông tin và ý nghĩa tổng thể của nó [16].  Tóm tắt văn bản tự động là nhiệm vụ tạo ra một bản tóm tắt ngắn gọn và trôi chảy trong khi bảo tồn nội dung thông tin chính và ý nghĩa tổng thể [11]. Ví dụ: Văn bản gốc: Thành lập Tiểu ban An toàn và an ninh hạt nhân trực thuộc Ban Chỉ đạo Nhà nước Dự án điện hạt nhân Ninh Thuận Trưởng Ban Chỉ đạo Nhà nước Dự án điện hạt nhân Ninh Thuận đã ký Quyết định số 106/QĐ-BCĐĐHNNT ngày 29/5/2013 về việc thành lập Tiểu ban An toàn và an ninh hạt nhân.

Tiểu ban An toàn và an ninh hạt nhân có nhiệm vụ giúp Ban Chỉ đạo Nhà nước Dự án điện hạt nhân Ninh Thuận (Ban Chỉ đạo Nhà nước) chỉ đạo, đôn đốc, kiểm tra việc: xây dựng, tiến độ ban hành và thực hiện các văn bản quy phạm pháp luật, quy chuẩn và tiêu chuẩn quốc gia, các văn bản hướng dẫn về an toàn, an ninh cho dự án điện hạt nhân, tham gia và thực hiện các điều ước quốc tế về an toàn hạt nhân; xây dựng và thực hiện các chương trình về đảm bảo an toàn bức xạ hạt nhân, bảo đảm an ninh và bảo vệ nhà máy điện hạt nhân, xây dựng trung tâm ứng phó quốc gia; thực hiện quan trắc cảnh báo phóng xạ môi trường và đánh giá tác động môi trường của Dự án điện hạt nhân Ninh Thuận; thẩm z 4 định, thanh tra và giám sát an toàn và an ninh hạt nhân. Tiểu ban cũng có trách nhiệm tham mưu, tư vấn cho Ban Chỉ đạo Nhà nước về các vấn đề liên quan đến công tác bảo đảm an toàn, an ninh hạt nhân; xây dựng và kiểm tra việc thực hiện chính sách, chương trình về bảo đảm an toàn bức xạ hạt nhân, bảo đảm an ninh và ứng phó sự cố cho Dự án điện hạt nhân Ninh Thuận. Trưởng Tiểu ban là Ủy viên Ban Chỉ đạo Nhà nước, Thứ trưởng Bộ Khoa học và Công nghệ; Phó Trưởng Tiểu ban thường trực là Cục trưởng Cục An toàn bức xạ và hạt nhân. Các ủy viên của Tiểu ban là đại diện các Bộ, cơ quan, địa phương liên quan đến nhiệm vụ của Tiểu ban.

Bộ máy giúp việc của Tiểu ban có Tổ giúp việc (hoặc bộ phận thường trực) thuộc Cục An toàn bức xạ và hạt nhân. Văn bản tóm tắt: Trưởng Ban Chỉ đạo Nhà nước Dự án điện hạt nhân Ninh Thuận đã ký Quyết định về việc thành lập Tiểu ban An toàn và an ninh hạt nhân. Tiểu ban có nhiệm vụ giúp Ban Chỉ đạo Nhà nước Dự án điện hạt nhân Ninh Thuận chỉ đạo, đôn đốc, kiểm tra đồng thời tham mưu, tư vấn về các vấn đề liên quan đến công tác bảo đảm an toàn, an ninh hạt nhân, xây dựng và kiểm tra việc thực hiện chính sách, chương trình về bảo đảm an toàn bức xạ hạt nhân, bảo đảm an ninh và ứng phó sự cố cho Dự án điện hạt nhân Ninh Thuận. Trưởng Tiểu ban là Thứ trưởng Bộ Khoa học và Công nghệ; Phó Trưởng Tiểu ban thường trực là Cục trưởng Cục An toàn bức xạ và hạt nhân.

Các ủy viên của Tiểu ban là đại diện các Bộ, cơ quan, địa phương liên quan đến nhiệm vụ của Tiểu ban. Phân loại bài toán tóm tắt văn bản Có thể phân chia bài toán tóm tắt văn bản thành nhiều loại. Mỗi loại đƣợc sử dụng cho các mục đích khác nhau, các yêu cầu khác nhau, bởi vậy cũng có các phƣơng pháp, kỹ thuật tƣơng ứng với mỗi loại. Không có một hệ thống tóm tắt văn bản nào có thể đáp ứng đƣợc hết tất cả các yêu cầu của con ngƣời.

Theo kết quả (out put) Tóm tắt trích rút (Extract): Là một bản tóm tắt bao gồm các đơn vị quan trọng trong văn bản nhƣ câu, đoạn văn đƣợc trích rút y nguyên từ văn bản gốc z 5 [16]. Tóm tắt tóm lƣợc (Abtract): Tƣơng tự nhƣ cách con ngƣời tóm tắt, văn bản mới đƣợc tạo ra bằng cách viết lại văn bản gốc. Nói cách khác, chúng ta diễn giải và biểu diễn văn bản tóm tắt bằng các kỹ thuật ngôn ngữ tự nhiên tiên tiến để tạo ra một văn bản mới truyền tải thông tin quan trọng nhất từ văn bản gốc [11]. Theo mục đích tóm tắt Tóm tắt thông tin (Information): Tóm tắt bao gồm tất cả thông tin nổi bật của văn bản gốc ở nhiều mức độ chi tiết khác nhau.

Tóm tắt đánh giá: Tóm tắt nhằm mục đích đánh giá vấn đề chính của văn bản gốc theo quan điểm của ngƣời đánh giá. Theo nội dung Tóm tắt chung (Generalized): Tóm tắt nhằm mục đích đƣa ra các nội dung quan trọng phản ánh toàn bộ nội dung của văn bản gốc. Hay nói cách khác mục đích của loại tóm tắt này là sao cho văn bản tóm tắt chứa đựng những nội dung mà tác giả muốn ngƣời đọc biết và hiểu. Tóm tắt truy vấn (Qurery-based): Tóm tắt nhằm mục đích đƣa ra các kết quả dựa vào câu truy vấn của ngƣời dùng.

Tóm tắt này thƣờng đƣợc sử dụng trong quá trình tìm kiếm thông tin. Theo miền dữ liệu Tóm tắt trên một miền dữ liệu (Domain): Tóm tắt nhắm vào một miền nội dung cụ thể nào đó, nhƣ tin tức thể thao, tin tức giáo dục, bản tin tài chính. Tóm tắt trên một thể loại (Genre): Đối tƣợng cần tóm tắt là một loại văn bản cụ thể, ví dụ nhƣ văn bản báo chí, email, website. Tóm tắt độc lập (Independent): Tóm tắt có thể áp dụng cho nhiều loại văn bản và trên nhiều miền dữ liệu.

Theo số lƣợng Tóm tắt đơn văn bản: Văn bản tóm tắt đƣợc tạo ra từ một văn riêng lẻ. Tóm tắt đa văn bản: Văn bản tóm tắt đƣợc tạo ra từ nhiều văn bản cùng liên quan tới một chủ đề. Theo ngôn ngữ z 6 Tóm tắt đơn ngôn ngữ: Văn bản nguồn chỉ đƣợc trình bày bởi duy nhất một ngôn ngữ, văn bản tóm tắt đƣợc sinh ra mang ngôn ngữ của văn bản đó. Tóm tắt đa ngôn ngữ: Hệ thống tóm tắt có thể áp dụng tóm tắt cho nhiều văn bản ở nhiều ngôn ngữ khác nhau.

Mỗi văn bản gốc chỉ chứa duy nhất một loại ngôn ngữ. Tóm tắt xuyên ngôn ngữ: Trong mỗi văn bản gốc chứa nhiều ngôn ngữ khác nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị" của tác giả Nguyễn Mạnh Cường, dưới sự hướng dẫn của PGS.TS Nguyễn Phương Thái, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2019. Bài viết tập trung vào việc phát triển một phương pháp tóm tắt văn bản tự động cho tiếng Việt, sử dụng mô hình đồ thị để cải thiện độ chính xác và hiệu quả trong việc xử lý ngôn ngữ tự nhiên. Những điểm nổi bật của nghiên cứu bao gồm khả năng tự động hóa quy trình tóm tắt, giảm thiểu thời gian và công sức cho người dùng trong việc tìm kiếm thông tin quan trọng từ các văn bản dài.

Để mở rộng thêm kiến thức về các ứng dụng trong lĩnh vực công nghệ thông tin và khoa học máy tính, bạn có thể tham khảo các bài viết liên quan như "Cài đặt và thực nghiệm SQLCipher trên hệ điều hành Android cho luận văn thạc sĩ", nơi bạn sẽ tìm thấy thông tin về bảo mật dữ liệu trong ứng dụng di động, hay "Luận văn về tự động hóa và sửa lỗi cho các lỗi biến thể trong dòng sản phẩm phần mềm", nghiên cứu về tự động hóa trong phát triển phần mềm. Cuối cùng, bài viết "Luận Văn Thạc Sĩ Về Ngăn Chặn Lan Truyền Thông Tin Xấu Trên Mạng Xã Hội" cũng sẽ cung cấp cái nhìn sâu sắc về các vấn đề an ninh mạng trong bối cảnh hiện đại. Những tài liệu này không chỉ giúp bạn hiểu rõ hơn về các khía cạnh khác nhau của công nghệ thông tin mà còn mở rộng kiến thức về các ứng dụng thực tiễn trong lĩnh vực này.

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#Nghiên cứu thạc sĩ

#tóm tắt văn bản

#mô hình đồ thị

#thuật toán tóm tắt

Chủ đề

nghiên cứu và ứng dụng trong giáo dục

Xử Lý Ngôn Ngữ Tự Nhiên

Học máy và trí tuệ nhân tạo

Công nghệ tóm tắt văn bản

Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

2. CHƯƠNG 2: CÁC PHƢƠNG PHÁP TÓM TẮT VĂN BẢN

3. CHƯƠNG 3: XÂY DỰNG MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO PHƢƠNG PHÁP ĐỒ THỊ

4. CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC

TÀI LIỆU THAM KHẢO

I. Tổng quan về tóm tắt văn bản

1.1 Khái niệm tóm tắt văn bản

1.2 Phân loại bài toán tóm tắt văn bản

II. Các phương pháp tóm tắt văn bản

2.1 Tóm tắt trích rút

2.2 Tóm tắt trừu tượng

III. Xây dựng mô hình tóm tắt văn bản tiếng Việt

3.1 Thuật toán iSpreadRank

3.2 Thiết kế mô hình

IV. Đánh giá kết quả đạt được

4.1 Môi trường thực nghiệm

4.2 Kết quả thực nghiệm

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Mạnh Cường

Người hướng dẫn: PGS.TS Nguyễn Phương Thái

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Khoa học máy tính

Đề tài: Tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Hà Nội

Luận văn thạc sĩ về tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

2. CHƯƠNG 2: CÁC PHƢƠNG PHÁP TÓM TẮT VĂN BẢN

3. CHƯƠNG 3: XÂY DỰNG MÔ HÌNH TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO PHƢƠNG PHÁP ĐỒ THỊ

4. CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC

TÀI LIỆU THAM KHẢO

I. Tổng quan về tóm tắt văn bản

1.1 Khái niệm tóm tắt văn bản

1.2 Phân loại bài toán tóm tắt văn bản

II. Các phương pháp tóm tắt văn bản

2.1 Tóm tắt trích rút

2.2 Tóm tắt trừu tượng

III. Xây dựng mô hình tóm tắt văn bản tiếng Việt

3.1 Thuật toán iSpreadRank

3.2 Thiết kế mô hình

IV. Đánh giá kết quả đạt được

4.1 Môi trường thực nghiệm

4.2 Kết quả thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Mạnh Cường

Người hướng dẫn: PGS.TS Nguyễn Phương Thái

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Khoa học máy tính

Đề tài: Tóm tắt văn bản tiếng Việt tự động dựa trên mô hình đồ thị

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2019

Địa điểm: Hà Nội

Có thể bạn quan tâm