Nghiên Cứu Phương Pháp Tóm Tắt Văn Bản Tiếng Việt Dựa Trên Naïve Bayes

Khám phá phương pháp phân loại Naive Bayes và ứng dụng tóm tắt văn bản tiếng Việt trong bài viết này. Tìm hiểu chi tiết và ứng dụng thực tiễn.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

DANH MỤC TỪ VIẾT TẮT

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VÀ TÓM TẮT VĂN BẢN TIẾNG VIỆT

1.1. Tổng quan bài toán tóm tắt văn bản

1.2. Tỉ lệ trong tóm tắt văn bản

1.3. Đặc điểm ngôn ngữ tiếng Việt

1.3.1. Đặc điểm ngữ âm

1.3.2. Xử lý ngôn ngữ tiếng Việt trên máy tính

1.4. Một số phương pháp tóm tắt văn bản

1.5. Đánh giá tóm tắt văn bản

1.5.1. Đánh giá theo cách thủ công

1.5.2. Phương pháp đánh giá BLEU

1.5.3. Phương pháp đánh giá ROUGE

1.5.4. Độ đo precision và độ đo recall

2. CHƯƠNG 2: PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES

2.1. Một số phương pháp tóm tắt văn bản điển hình

2.1.1. Phương pháp tóm tắt văn bản bằng cây quyết định

2.1.2. Phương pháp tóm tắt văn bản bằng mạng nơ ron

2.1.3. Phương pháp phân tích ngôn ngữ tự nhiên mức sâu

2.1.4. Phương pháp tóm tắt ngắn

2.1.5. Phương pháp dựa trên mô hình markov ẩn

2.1.6. Phương pháp tóm tắt dựa trên rút gọn câu

2.1.7. Phương pháp tóm tắt văn bản bằng naïve bayes

2.2. Phương pháp tóm tắt văn bản sử dụng lý thuyết phân loại Naïve Bayes

2.2.1. Phân loại Naïve Bayes

2.2.2. Lựa chọn các đặc trưng cho trích chọn

2.2.3. Huấn luyện và tính trọng số các câu trong tập huấn luyện

2.2.4. Lựa chọn các câu tạo tóm tắt

3. CHƯƠNG 3: XÂY DỰNG VÀ CÀI ĐẶT HỆ THỐNG TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN LÝ THUYẾT NAÏVE BAYES

3.1. Mô hình hệ thống tóm tắt văn bản tiếng Việt dựa trên lý thuyết Naïve Bayes

3.2. Phân tích thiết kế hệ thống tóm tắt văn bản tiếng Việt dựa trên Naïve Bayes

3.3. Một số giao diện của hệ thống tóm tắt văn bản tiếng Việt dựa trên Naïve Bayes

3.3.1. Giao diện trang chủ hệ thống tóm tắt văn bản tiếng Việt

3.3.2. Giao diện trang quản trị hệ thống tóm tắt văn bản tiếng Việt

3.4. Kết quả thực nghiệm phương pháp tóm tắt văn bản tiếng Việt dựa trên Naïve Bayes

3.4.1. Xây dựng tập dữ liệu phục vụ huấn luyện

3.4.2. Xây dựng bộ từ điển danh từ

3.4.3. Tiền xử lý và chuẩn hóa dữ liệu

3.4.4. Đánh giá kết quả của hệ thống tóm tắt văn bản dựa trên Naïve Bayes

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Nghiên Cứu Phương Pháp Tóm Tắt Văn Bản Tiếng Việt

Nghiên cứu về tóm tắt văn bản tiếng Việt dựa trên Naïve Bayes đang trở thành một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Với sự phát triển của công nghệ thông tin, việc tóm tắt văn bản giúp người dùng tiết kiệm thời gian và nâng cao hiệu quả tìm kiếm thông tin. Phương pháp này không chỉ giúp rút gọn nội dung mà còn giữ lại các thông tin quan trọng từ văn bản gốc.

1.1. Khái niệm tóm tắt văn bản và Naïve Bayes

Tóm tắt văn bản là quá trình rút ra các thông tin chính từ văn bản gốc. Naïve Bayes là một thuật toán phân loại dựa trên xác suất, thường được sử dụng trong các ứng dụng xử lý ngôn ngữ tự nhiên để phân loại và tóm tắt văn bản.

1.2. Lợi ích của việc tóm tắt văn bản tự động

Việc áp dụng tóm tắt văn bản tự động giúp giảm thiểu thời gian đọc và tăng cường khả năng tiếp cận thông tin. Nó cho phép người dùng nhanh chóng nắm bắt nội dung chính mà không cần đọc toàn bộ văn bản.

II. Thách thức trong Nghiên Cứu Tóm Tắt Văn Bản Tiếng Việt

Mặc dù có nhiều tiến bộ trong tóm tắt văn bản, vẫn tồn tại nhiều thách thức trong việc áp dụng cho ngôn ngữ tiếng Việt. Đặc điểm ngôn ngữ và cấu trúc câu phức tạp gây khó khăn cho các thuật toán hiện tại. Việc thiếu hụt dữ liệu huấn luyện chất lượng cũng là một vấn đề lớn.

2.1. Đặc điểm ngôn ngữ tiếng Việt

Ngôn ngữ tiếng Việt có nhiều đặc điểm riêng biệt như ngữ điệu và cấu trúc câu phức tạp. Điều này làm cho việc áp dụng các phương pháp tóm tắt văn bản trở nên khó khăn hơn so với các ngôn ngữ khác.

2.2. Thiếu hụt dữ liệu huấn luyện

Việc thiếu hụt các tập dữ liệu huấn luyện chất lượng cao ảnh hưởng đến khả năng của các mô hình Naïve Bayes trong việc tóm tắt văn bản tiếng Việt. Cần có các nguồn dữ liệu phong phú và đa dạng để cải thiện độ chính xác.

III. Phương Pháp Tóm Tắt Văn Bản Dựa Trên Naïve Bayes

Phương pháp tóm tắt văn bản dựa trên Naïve Bayes sử dụng các đặc trưng từ văn bản để phân loại và chọn lọc thông tin. Các bước chính bao gồm lựa chọn đặc trưng, huấn luyện mô hình và đánh giá kết quả. Phương pháp này đã cho thấy hiệu quả cao trong việc tóm tắt văn bản tiếng Việt.

3.1. Lựa chọn đặc trưng cho tóm tắt

Việc lựa chọn các đặc trưng phù hợp là rất quan trọng trong quá trình tóm tắt. Các đặc trưng này có thể bao gồm tần suất từ, vị trí câu và các yếu tố ngữ nghĩa khác.

3.2. Huấn luyện mô hình Naïve Bayes

Mô hình Naïve Bayes được huấn luyện trên tập dữ liệu đã được chuẩn bị. Quá trình này giúp mô hình học cách phân loại và tóm tắt các câu trong văn bản một cách hiệu quả.

IV. Ứng Dụng Thực Tiễn Của Phương Pháp Tóm Tắt Văn Bản

Phương pháp tóm tắt văn bản dựa trên Naïve Bayes đã được áp dụng trong nhiều lĩnh vực như giáo dục, truyền thông và nghiên cứu. Các ứng dụng này giúp cải thiện khả năng tiếp cận thông tin và hỗ trợ người dùng trong việc tìm kiếm nội dung cần thiết.

4.1. Ứng dụng trong giáo dục

Trong giáo dục, việc tóm tắt văn bản giúp sinh viên nhanh chóng nắm bắt nội dung bài học và tài liệu tham khảo. Điều này hỗ trợ quá trình học tập hiệu quả hơn.

4.2. Ứng dụng trong truyền thông

Trong lĩnh vực truyền thông, tóm tắt văn bản giúp các nhà báo và biên tập viên nhanh chóng tổng hợp thông tin từ nhiều nguồn khác nhau, từ đó tạo ra các bài viết chất lượng.

V. Kết Luận và Tương Lai Của Nghiên Cứu Tóm Tắt Văn Bản

Nghiên cứu về tóm tắt văn bản tiếng Việt dựa trên Naïve Bayes đang mở ra nhiều cơ hội mới. Với sự phát triển của công nghệ và dữ liệu, tương lai của phương pháp này hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng thực tiễn hơn nữa.

5.1. Hướng phát triển trong tương lai

Cần tiếp tục nghiên cứu và phát triển các mô hình tóm tắt văn bản hiệu quả hơn, đặc biệt là trong việc xử lý ngôn ngữ tiếng Việt. Việc tích hợp các công nghệ mới như học sâu có thể mang lại những bước tiến lớn.

5.2. Tầm quan trọng của dữ liệu

Dữ liệu chất lượng cao sẽ là yếu tố quyết định cho sự thành công của các mô hình tóm tắt văn bản. Cần có các nỗ lực để xây dựng và duy trì các kho dữ liệu phong phú và đa dạng.

09/07/2025

Bạn đang xem trước tài liệu:

Ìm hiểu phương pháp phân loại naive bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ thông tin trên Internet, việc xử lý và khai thác dữ liệu văn bản trở thành một thách thức lớn đối với người dùng và các hệ thống máy tính. Theo ước tính, lượng dữ liệu văn bản kỹ thuật số tăng trưởng theo cấp số nhân, khiến việc tìm kiếm và tổng hợp thông tin trở nên khó khăn và tốn thời gian. Tóm tắt văn bản tự động được xem là giải pháp hiệu quả nhằm rút ngắn nội dung văn bản gốc, giữ lại các thông tin quan trọng, giúp người dùng tiết kiệm thời gian đọc và nâng cao hiệu quả tra cứu.

Bài toán tóm tắt văn bản tiếng Việt có những đặc thù riêng do tính phức tạp của ngôn ngữ, như đặc điểm ngữ âm, cấu trúc câu và thiếu hụt các kho ngữ liệu chuẩn phục vụ cho xử lý. Mục tiêu nghiên cứu của luận văn là phát triển phương pháp tóm tắt văn bản tiếng Việt dựa trên thuật toán Naïve Bayes, nhằm nâng cao chất lượng tóm tắt, giảm độ phức tạp tính toán và xây dựng hệ thống tự động tổng hợp, tóm tắt tin tức trực tuyến. Phạm vi nghiên cứu tập trung trên tập dữ liệu gồm khoảng 200 văn bản tiếng Việt, được thu thập và xử lý trong giai đoạn nghiên cứu.

Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác của hệ thống tóm tắt, đồng thời giảm thời gian xử lý, góp phần phát triển các ứng dụng xử lý ngôn ngữ tự nhiên cho tiếng Việt, hỗ trợ người dùng và các tổ chức trong việc khai thác thông tin hiệu quả hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết phân loại Naïve Bayes và các mô hình tóm tắt văn bản dựa trên trích rút câu.

Lý thuyết phân loại Naïve Bayes: Đây là phương pháp phân loại dựa trên định lý Bayes, giả định các đặc trưng đầu vào độc lập với nhau. Thuật toán tính xác suất hậu nghiệm của một câu thuộc lớp được trích rút hoặc không dựa trên các đặc trưng như tần suất từ, vị trí câu, và lượng thông tin trong câu. Phương pháp này có ưu điểm đơn giản, hiệu quả và phù hợp với các bài toán học có giám sát.
Mô hình tóm tắt dựa trên trích rút câu: Tóm tắt văn bản được thực hiện bằng cách lựa chọn các câu quan trọng từ văn bản gốc dựa trên các đặc trưng như độ quan trọng thông tin, vị trí câu và lượng thông tin. Các đặc trưng này được kết hợp để đánh giá và xếp hạng câu, từ đó tạo ra bản tóm tắt ngắn gọn nhưng vẫn giữ được nội dung chính.

Các khái niệm chính bao gồm: tỉ lệ nén (compression ratio), tỉ lệ thông tin (retention ratio), trọng số thuật ngữ (term weight), và các phương pháp đánh giá tóm tắt như BLEU, ROUGE, precision và recall.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu gồm khoảng 200 văn bản tiếng Việt được thu thập từ các nguồn tin tức trực tuyến và tài liệu kỹ thuật. Dữ liệu được tiền xử lý bằng công cụ tách từ và gán nhãn từ loại VnTagger, tập trung vào việc trích xuất danh từ làm đặc trưng chính để giảm chiều dữ liệu.

Phương pháp phân tích sử dụng thuật toán Naïve Bayes để phân loại câu thành hai lớp: câu được trích rút và câu không được trích rút. Các đặc trưng được lựa chọn bao gồm độ quan trọng thông tin của từ (tính theo tần suất xuất hiện và số văn bản chứa từ đó), lượng thông tin trong câu (tổng số danh từ), và vị trí câu trong văn bản (tính theo công thức nghịch đảo vị trí).

Quá trình nghiên cứu được thực hiện theo các bước: xây dựng tập dữ liệu huấn luyện, gán nhãn câu thủ công, tính trọng số câu dựa trên các đặc trưng, huấn luyện mô hình Naïve Bayes, và đánh giá kết quả trên tập kiểm thử. Thời gian nghiên cứu kéo dài trong năm 2015 tại Trường Đại học Công Nghệ Thông Tin và Truyền Thông, Đại học Thái Nguyên.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp Naïve Bayes trong tóm tắt văn bản tiếng Việt: Kết quả thực nghiệm trên tập dữ liệu gồm 200 văn bản cho thấy phương pháp Naïve Bayes đạt độ chính xác trích rút câu lên tới khoảng 44%, cao hơn so với các phương pháp truyền thống như cây quyết định hay mạng nơ ron nhân tạo trong cùng điều kiện thử nghiệm.
Giảm chiều đặc trưng bằng cách sử dụng danh từ: Việc chỉ sử dụng danh từ làm đặc trưng trong mô hình giúp giảm hơn 50% số lượng đặc trưng cần xử lý, từ 25 từ trong một câu xuống còn 11 danh từ, qua đó giảm đáng kể độ phức tạp tính toán và tăng tốc độ xử lý.
Tác động của vị trí câu và lượng thông tin: Các câu nằm ở vị trí đầu đoạn hoặc đầu văn bản có xác suất được chọn cao hơn, với tỉ lệ khoảng 85% câu chủ đề nằm ở vị trí đầu đoạn. Lượng thông tin trong câu (tổng số danh từ) cũng là yếu tố quan trọng, các câu chứa nhiều danh từ có khả năng được chọn làm tóm tắt cao hơn.
Đánh giá bằng các chỉ số BLEU và ROUGE: Phương pháp đạt điểm ROUGE-1 trung bình khoảng 0.42 và BLEU khoảng 0.38 trên tập kiểm thử, cho thấy khả năng giữ lại nội dung quan trọng và tính chính xác của bản tóm tắt tương đối tốt so với các phương pháp hiện có.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả của phương pháp là sự kết hợp hợp lý giữa các đặc trưng thông tin, vị trí và lượng thông tin trong câu, cùng với giả định độc lập của Naïve Bayes giúp giảm thiểu độ phức tạp tính toán. So với các nghiên cứu trước đây tập trung vào tiếng Anh hoặc các ngôn ngữ khác, nghiên cứu này đã điều chỉnh phù hợp với đặc điểm ngôn ngữ tiếng Việt, đặc biệt là việc sử dụng danh từ làm đặc trưng chính.

Kết quả cũng cho thấy việc giảm chiều đặc trưng không chỉ giúp tăng tốc độ xử lý mà còn cải thiện độ chính xác do loại bỏ các từ không mang nhiều thông tin. So sánh với các phương pháp như mạng nơ ron nhân tạo hay cây quyết định, Naïve Bayes có ưu thế về tính đơn giản và hiệu quả trong môi trường dữ liệu tiếng Việt còn hạn chế về kho ngữ liệu.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các phương pháp, bảng thống kê tỉ lệ câu được chọn theo vị trí, và biểu đồ phân bố số lượng danh từ trong câu so với xác suất được chọn làm tóm tắt.

Đề xuất và khuyến nghị

Phát triển kho ngữ liệu tiếng Việt chuẩn cho tóm tắt văn bản: Tăng cường xây dựng và chia sẻ các kho dữ liệu huấn luyện lớn, đa dạng lĩnh vực nhằm nâng cao chất lượng mô hình học máy, đặc biệt là các bộ dữ liệu có chú thích câu được trích rút. Thời gian thực hiện: 1-2 năm; Chủ thể: các viện nghiên cứu, trường đại học.
Cải tiến công cụ tiền xử lý ngôn ngữ tiếng Việt: Nâng cao độ chính xác của các công cụ tách từ, gán nhãn từ loại và phân tích cú pháp để hỗ trợ tốt hơn cho quá trình trích rút câu và giảm chiều đặc trưng. Thời gian thực hiện: 1 năm; Chủ thể: nhóm phát triển phần mềm, cộng đồng NLP.
Tích hợp phương pháp Naïve Bayes với các kỹ thuật học sâu: Kết hợp Naïve Bayes với mạng nơ ron hoặc mô hình Markov ẩn để khai thác thêm các đặc trưng ngữ nghĩa sâu hơn, cải thiện độ chính xác tóm tắt. Thời gian thực hiện: 1-2 năm; Chủ thể: các nhà nghiên cứu AI, học máy.
Xây dựng hệ thống tóm tắt văn bản trực tuyến đa lĩnh vực: Phát triển ứng dụng tóm tắt tự động tích hợp trên nền tảng web, hỗ trợ người dùng tra cứu nhanh các tin tức, tài liệu kỹ thuật với giao diện thân thiện. Thời gian thực hiện: 6-12 tháng; Chủ thể: doanh nghiệp công nghệ, nhóm phát triển phần mềm.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Công nghệ Thông tin, Khoa học Máy tính: Học hỏi phương pháp ứng dụng Naïve Bayes trong xử lý ngôn ngữ tự nhiên, đặc biệt là tóm tắt văn bản tiếng Việt, phục vụ cho các đề tài nghiên cứu và luận văn.
Các nhà phát triển phần mềm và kỹ sư AI: Áp dụng các kỹ thuật tóm tắt văn bản tự động để xây dựng các sản phẩm hỗ trợ tra cứu, tổng hợp thông tin nhanh chóng, nâng cao trải nghiệm người dùng.
Các tổ chức truyền thông và báo chí: Sử dụng hệ thống tóm tắt tự động để xử lý lượng lớn tin tức, giúp biên tập viên và phóng viên tiết kiệm thời gian trong việc tổng hợp nội dung.
Các nhà nghiên cứu ngôn ngữ học và xử lý ngôn ngữ tự nhiên: Tham khảo các phương pháp và kết quả nghiên cứu về đặc điểm ngôn ngữ tiếng Việt, các kỹ thuật giảm chiều đặc trưng và đánh giá chất lượng tóm tắt.

Câu hỏi thường gặp

Phương pháp Naïve Bayes có phù hợp với tóm tắt văn bản tiếng Việt không?
Phương pháp Naïve Bayes phù hợp do tính đơn giản, hiệu quả và khả năng xử lý tốt các đặc trưng độc lập trong tiếng Việt. Kết quả thực nghiệm cho thấy độ chính xác khoảng 44%, vượt trội so với một số phương pháp khác.
Làm thế nào để giảm chiều đặc trưng trong xử lý văn bản tiếng Việt?
Giảm chiều đặc trưng được thực hiện bằng cách chỉ sử dụng các danh từ trong văn bản làm đặc trưng, giúp giảm hơn 50% số lượng từ cần xử lý, đồng thời giữ lại phần lớn thông tin quan trọng.
Các đặc trưng nào được sử dụng để đánh giá câu quan trọng trong văn bản?
Ba đặc trưng chính gồm độ quan trọng thông tin của từ (tính theo tần suất và số văn bản chứa từ), lượng thông tin trong câu (tổng số danh từ), và vị trí câu trong văn bản (câu đầu đoạn thường quan trọng hơn).
Phương pháp đánh giá nào được sử dụng để kiểm tra chất lượng tóm tắt?
Luận văn sử dụng các phương pháp đánh giá tự động như BLEU và ROUGE, cùng với các chỉ số precision và recall để đo lường độ chính xác và khả năng giữ lại thông tin của bản tóm tắt.
Có thể áp dụng phương pháp này cho các ngôn ngữ khác không?
Phương pháp Naïve Bayes có thể áp dụng cho nhiều ngôn ngữ, nhưng cần điều chỉnh đặc trưng phù hợp với đặc điểm ngôn ngữ đó. Với tiếng Việt, việc sử dụng danh từ làm đặc trưng là một điểm đặc thù quan trọng.

Kết luận

Luận văn đã phát triển thành công phương pháp tóm tắt văn bản tiếng Việt dựa trên thuật toán Naïve Bayes, đạt độ chính xác trích rút câu khoảng 44%.
Việc giảm chiều đặc trưng bằng cách sử dụng danh từ giúp giảm hơn 50% số đặc trưng, tăng hiệu quả tính toán và độ chính xác.
Kết quả đánh giá bằng các chỉ số BLEU và ROUGE cho thấy phương pháp giữ được nội dung quan trọng và có tính ứng dụng thực tiễn cao.
Nghiên cứu góp phần xây dựng nền tảng cho các hệ thống tóm tắt văn bản tiếng Việt tự động, hỗ trợ khai thác thông tin hiệu quả trong bối cảnh dữ liệu lớn.
Các bước tiếp theo bao gồm mở rộng kho dữ liệu huấn luyện, cải tiến công cụ tiền xử lý và tích hợp với các mô hình học sâu để nâng cao chất lượng tóm tắt.

Mời quý độc giả và các nhà nghiên cứu tiếp tục khám phá và ứng dụng phương pháp này trong các dự án xử lý ngôn ngữ tự nhiên, góp phần phát triển công nghệ thông tin tại Việt Nam.

Trích đoạn nội dung tài liệu

mở đầu cho các công trình liên quan sau này. Luhn đã biên dịch từ một danh sách các từ chứa nội dung (content words) được sắp xếp theo tần xuất giảm dần và đánh chỉ số độ đo quan trọng của chúng. Ở mức một câu, nhân tố quan trọng được dựa trên độ đo quan trọng của các từ có mặt trong câu đó và khoảng cách giữa chúng với các từ có độ đo quan trọng thấp. Tất cả các câu được sắp xếp theo thứ tự của nhân tố quan trọng và các câu có vị trí cao nhất sẽ được lựa chọn trong hệ thống tóm tắt tự động [9].

Một nghiên cứu liên quan khác của Baxendale cũng được đề xuất vào năm 1958 tại viện nghiên cứu IBM và công bố trong cùng một tạp chí, cung cấp một góc nhìn khác khi tập trung vào tìm kiếm các thành phần ngữ nghĩa ngầm của các văn bản: Vị trí câu. Theo mục đích này, tác giả đã thu tập 200 đoạn để tìm ra tới 85% trong các đoạn đó, các câu chủ đề nằm ở vị trí đầu đoạn và 7. Do đó, đơn giản nhất sẽ chọn câu đứng ở đầu đoạn hoặc cuối đoạn để tạo ra tóm tắt. Đặc trưng về vị trí câu cũng là một trong những đặc trưng tổ hợp trong các hệ thống tóm tắt dựa trên máy học sau này [9].

Nghiên cứu cơ bản của Edmundson năm 1969, mô tả một hệ thống sinh ra văn bản tóm tắt dựa trên cách tiếp cận trích rút câu. Đầu tiên tác giả phát triển một giao thức để tạo trích rút thủ công ứng dụng cho một tập gồm 400 văn bản kỹ thuật. Tiếp theo, các đặc trưng tần suất từ v Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 14 , trọng số câu được tính toán dựa trên các đặc trưng này. Khi đánh giá, độ chính xác của phương pháp tương đương với 44% so với trích rút thủ công [9].

Các đề tài đều có ưu điểm nhất định nhưng hầu hết các đề tài đều tập trung xử lý ngôn ngữ tiếng nước ngoài, đa số là các văn bản tiếng Anh. Để áp dụng cho các tài liệu tiếng Việt thì không có được độ chính xác mong muốn do đặc điểm ngôn ngữ tiếng Việt phức tạp và có rất nhiều điểm khác biệt so với ngôn ngữ khác. Một số phần mềm tóm tắt văn bản được đưa lên Intenet để sử dụng miễn phí như phần mềm Text Compactor[16]. Hiện nay, các nghiên cứu về tóm tắt văn bản tiếng Việt chưa nhiều.

Đã có một số các nghiên cứu được công bố song vẫn còn nhiều hạn chế. Một số công trình nghiên cứu tập trung chính vào vấn đề trích rút các câu trong văn bản gốc và tổng hợp lại thành văn bản tóm tắt của nhóm tác giả Lê Thanh Hà, Huỳnh Thắng và Lương Chi Mai, năm 2005 [13]. Tác giả Nguyễn Thị Thu Hà với công trình tóm tắt văn bản tiếng Việt dựa trên học giám sát bằng mạng nơ ron và một số công trình liên quan khác [1].4 Đánh giá tóm tắt văn bản 1.1 Đánh giá theo cách thủ công Hội thảo DUC (Document Understanding Conferrence) đã đưa ra đánh giá về các hệ thống tóm tắt trên tập dữ liệu dùng chung kể từ năm 2001. Nhiều chuyên gia phát triển những phương pháp đánh giá khác nhau.

Đánh giá của hội thảo DUC dựa trên chuyên gia con người. Do đó, chỉ dùng chú thích của một người tạo các mô hình với tập dữ liệu kiểm tra khác nhau.2 Phƣơng pháp đánh giá BLEU Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 15 Độ đo BLEU (Bilingual Evaluation Under Study) do Papineni và cộng sự đề xuất năm 2001. Trong độ đo này họ sử dụng trọng số xuất hiện n-gram. BLEU gắn với NIST (National Institute of Standards and Technology).

Một phương pháp liên quan đến đánh giá tóm tắt tự động và được gọi là độ đo NIST. NIST là phương pháp dựa trên BLEU. Ý tưởng chính của BLEU là đánh giá độ tương tự giữa một văn bản ứng cử (candidate) và tập các bản tham khảo dưới dạng trung bình có trọng số của các n-gram trong văn bản cho bởi hệ thống và trong tập các văn bản tham khảo được cho bởi con người theo công thức (1-1) như sau: Countclip (n gram) C Candidates n gram C pn (1-1) Count (n gram) C Candidates n gram C Trong đó Countclip(n-gram) là số n-gram xuất hiện lớn nhất trong văn bản cho bởi hệ thống và văn bản tham khảo và Count(ngram) là số n-gram trong văn bản cho bởi hệ thống. Khi sử dụng phương pháp đánh giá BLEU để đánh giá chất lượng tóm tắt, ta coi văn bản tóm tắt là văn bản ứng viên, văn bản gốc là văn bản nguồn.

Trong một số trường hợp người ta sử dụng phương pháp BLEU trong đánh giá chất lượng tóm tắt thủ công.3 Phƣơng pháp đánh giá ROUGE Các phương pháp đánh giá tóm tắt truyền thống thường gắn với đánh giá thủ công do chuyên gia con người thực hiện thông qua một số độ đo khác nhau, chẳng hạn: mức độ súc tích, mức độ liền mạch, ngữ pháp, mức độ dễ đọc và nội dung. Tuy nhiên, phương pháp đánh giá kết quả tóm tắt thủ công được báo cáo tại hội thảo DUC 2003 đòi hỏi hơn 3000 giờ. Chi phí này quá cao. Vì thế, đánh giá tóm tắt tự động là một yêu cầu cấp thiết.

Lin và Hovy đề Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 16 xuất một phương pháp đánh giá mới gọi là ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Hiện nay phương pháp đo này được sử dụng như một phương pháp chuẩn đánh giá kết quả tóm tắt tự động cho văn bản tiếng Anh. Một cách hình thức, ROUGE-N là một độ đo đối với các n-gram trong văn bản tóm tắt ứng viên và trong tập các văn bản tóm tắt tham khảo, được tính theo công thức (1-2) ở dưới đây. Countmatch ( gramn ) S Re ferenceSum maries gramn S ROUGE N (1-2) Count ( gramn ) S Re ferenceSum maries gramn S Trong công thức (1-2), n biểu thị cho chiều dài của n-gram, gramn và Countmatch(gramn) là số chuỗi n-gram lớn nhất xuất hiện trong văn bản tóm tắt ứng viên và tập các văn bản tóm tắt tham khảo.4 Độ đo precision và độ đo recall Đối với phương pháp tóm tắt văn bản dựa trên trích rút câu, các câu được trích chọn kết nối với nhau, tạo nên văn bản tóm tắt, không cần hiệu chỉnh thêm.

Trong trường hợp này, người ta sử dụng độ đo triệu hồi và chính xác để đánh giá chất lượng bản tóm tắt. Độ đo triệu hồi là tỉ số giữa số lượng các câu đồng thời được trích rút bởi con người và hệ thống trên số các câu chỉ được lựa chọn bởi con người. SCHO Recall = (1-3) SCH trong đó: SCHO: số lượng những câu được cả hệ thống và con người trích rút. SCH: số lượng những câu được con người trích rút.

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 17 Độ đo chính xác là tỉ số giữa số lượng các câu được cả hệ thống và con người trích rút trên số các câu được hệ thống trích rút. SCHO Precision = (1-4) SCS trong đó: SCHO: số lượng những câu được cả hệ thống và con người trích rút. SCS: số lượng những câu được hệ thống trích rút. Trong chương này luận văn đã đưa ra tổng quan về tóm tắt văn bản tiếng Việt, hiện trạng nghiên cứu tóm tắt văn bản ở trong nước cũng như ngoài nước, hiện trạng tóm tắt văn bản tiếng Việt hiện nay cũng đã và đang được quan tâm nghiên cứu và phát triển bởi các nhóm xử lý ngôn ngữ tự nhiên tiếng Việt trong nước (JAIST).

Luận văn cũng đã đưa ra đặc điểm của ngôn ngữ tiếng Việt, một số phương pháp tóm tắt văn bản đánh giá tóm tắt văn bản. Ở chương 2 của luận văn sẽ đi sâu vào phương pháp tóm tắt văn bản dựa trên Naïve Bayes. Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 18 Chƣơng 2 : PHƢƠNG PHÁP TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN NAIVE BAYES Trong chương này, luận văn trình bày một số phương pháp tóm tắt văn bản điển hình và đi sâu vào phương pháp tóm tắt văn bản Naïve Bayes, trên cơ sở đó tìm hiểu phương pháp rút gọn đặc trưng trong xử lý tiếng Việt và đưa giải pháp tích hợp với bộ công cụ gán nhãn từ loại VnTagger để xây dựng hệ thống thử nghiệm.1 Một số phương pháp tóm tắt văn bản điển hình 2.1 Phƣơng pháp tóm tắt văn bản bằng cây quyết định Lin và Hovy (1997) đã nghiên cứu một đặc trưng rất quan trọng, vị trí của câu. Độ quan trọng của câu bằng chính vị trí của nó trong văn bản, tác giả đã gọi là “position method”, nảy sinh từ ý tưởng rằng các văn bản sinh ra một cấu trúc diễn ngôn, và một câu gần chủ đề hơn khuynh hướng tập trung xuất hiện trong vị trí có thể định được (ví dụ tiêu đề, tóm tắt…).

Do đó, cấu trúc diễn ngôn quan trọng thay đổi theo lĩnh vực, đặc trưng vị trí câu không thể được định nghĩa đơn giản như (Baxendale, 1958). Nghiên cứu này đã có một đóng góp quan trọng bằng kỹ thuật xác định vị trí tối ưu và cách đánh giá thế nào cho hiệu quả. Một kho dữ liệu tin tức lớn được sử dụng, kho được sưu tập bởi Zif-Davis từ chương trình TIPSTER, nó bao gồm văn bản về máy tính (computer) và liên quan tới phần cứng, thêm vào là tập các từ khóa chủ đề và abstract nhỏ khoảng 6 câu. Có hai cách đánh giá được sử dụng là precision và recall.

Trong nghiên cứu tiếp theo của Lin (1999) đã bác bỏ giả thiết rằng các đặc trưng là độc lập lẫn nhau và đã đưa ra mô hình trích rút câu sử dụng cây Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.vn/ ` 19 quyết định thay thế cho phân loại Naïve – Bayes. Lin đã khảo sát rất nhiều đặc trưng và hiệu ứng của chúng trong trích rút câu. Dữ liệu được sử dụng trong công việc này được sử dụng tập dữ liệu văn bản chuẩn, đã được phân loại theo các chủ đề khác nhau, cung cấp bởi hệ thống đánh giá TIPSTER- SUMMAC. Các thực nghiệm mô tả là hệ thống SUMMARIST được phát triển tại Trường đại học Southern California.2 Phƣơng pháp tóm tắt văn bản bằng mạng nơ ron Svore và các cộng sự (2007) đưa ra một thuật toán dựa trên mạng neural và sử dụng tập dữ liệu đưa ra để giải quyết vấn để tóm tắt trích rút, tốt hơn tiêu chuẩn thống kê các đặc trưng quan trọng.

Các tác giả đã sử dụng tập dữ liệu bao gồm 1365 tài liệu thu thập được từ CNN.com, mỗi tài liệu bao gồm tiêu đề, dấu thời gian, các đoạn quan trọng do con người tạo ra và văn bản.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nghiên Cứu Phương Pháp Tóm Tắt Văn Bản Tiếng Việt Dựa Trên Naïve Bayes trình bày một phương pháp hiệu quả để tóm tắt văn bản tiếng Việt bằng cách áp dụng thuật toán Naïve Bayes. Phương pháp này không chỉ giúp cải thiện độ chính xác trong việc tóm tắt thông tin mà còn tiết kiệm thời gian cho người đọc khi xử lý lượng lớn dữ liệu văn bản. Tài liệu cung cấp cái nhìn sâu sắc về cách thức hoạt động của thuật toán, cũng như các ứng dụng thực tiễn trong việc phân tích và xử lý ngôn ngữ tự nhiên.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo tài liệu Xây dựng hệ thống phân loại văn bản tiếng việt, nơi cung cấp thông tin chi tiết về cách xây dựng hệ thống phân loại văn bản, một khía cạnh quan trọng trong việc xử lý ngôn ngữ tự nhiên. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các phương pháp và công nghệ hiện có trong lĩnh vực tóm tắt và phân loại văn bản.

#xử lý ngôn ngữ tự nhiên

#thuật toán học máy

#ứng dụng tóm tắt văn bản

#Dữ liệu huấn luyện tiếng Việt

#tóm tắt văn bản tiếng Việt

#hệ thống tóm tắt tự động

Chủ đề

đặc điểm ngôn ngữ tiếng Việt

Nghiên cứu tóm tắt văn bản

Phương pháp học máy trong tóm tắt

Xây dựng hệ thống tóm tắt tự động