Nghiên Cứu Ứng Dụng Thuật Toán Multinomial Bayes Để Phân Loại Văn Bản Trong Luận Văn Thạc Sĩ

Luận văn thạc sĩ toán học nghiên cứu nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI

1.1. Giới thiệu bài toán phân loại văn bản

1.2. Bài toán phân loại văn bản

1.3. Ứng dụng của bài toán phân loại văn bản

1.4. Các phương pháp phân loại văn bản

1.4.1. Phương pháp Navie Bayes

1.4.2. Phương pháp K – Nearest Neighbor

1.4.3. Phương pháp Multinomial Logistic regression

2. CHƯƠNG 2: PHƯƠNG PHÁP MULTINOMIAL BAYES TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN

2.1. Biểu diễn văn bản

2.2. Tiền xử lý văn bản

2.3. Kỹ thuật Bag of word. Trọng số TF-IDF

2.4. Thuật toán Multinomial Bayes

2.4.1. Nội dung thuật toán. Ví dụ các bước của phương pháp Multinomial Bayes

2.5. Ưu điểm phương pháp Multinomial Bayes trong phân loại văn bản

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Giới thiệu về bộ dữ liệu sử dụng

3.2. Sơ đồ chương trình phân loại văn bản

3.3. Tiền xử lý dữ liệu

3.4. Biểu diễn văn bản thành vector

3.5. Các tiêu chuẩn đánh giá

3.6. Phương pháp thực nghiệm

3.7. Công cụ dùng để phân lớp

3.8. Xây dựng dữ liệu huấn luyện và kiểm tra

3.9. Kết quả thực nghiệm

3.10. So sánh với một số phương pháp khác

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu bài toán phân loại văn bản

Luận văn thạc sĩ này tập trung vào việc áp dụng thuật toán Multinomial Bayes trong phân loại văn bản, một lĩnh vực quan trọng của xử lý ngôn ngữ tự nhiên và học máy. Bài toán phân loại văn bản đặt ra thách thức lớn do sự đa dạng chủ đề và tính đa chủ đề của văn bản. Phân loại văn bản giúp tự động hóa quá trình gán nhãn chủ đề cho văn bản, từ đó hỗ trợ hiệu quả trong việc tìm kiếm và quản lý thông tin. Machine learning và các mô hình phân loại như Naive Bayes, K-Nearest Neighbor, và Multinomial Logistic Regression đã được nghiên cứu và áp dụng rộng rãi. Luận văn này nhấn mạnh vào thuật toán Multinomial Bayes với ưu điểm về tốc độ và độ chính xác trong phân loại dữ liệu văn bản.

1.1. Bài toán phân loại văn bản

Bài toán phân loại văn bản yêu cầu gán các văn bản vào các nhóm chủ đề cho trước. Đối tượng chính là các văn bản, được biểu diễn dưới dạng vector đặc trưng. Quy trình bao gồm hai giai đoạn chính: huấn luyện và phân loại. Trong giai đoạn huấn luyện, các văn bản được trích chọn đặc trưng và đưa vào mô hình học máy để xây dựng bộ phân loại. Giai đoạn phân loại sử dụng mô hình đã huấn luyện để dự đoán nhãn cho văn bản mới. Phân loại văn bản có ứng dụng rộng rãi trong các hệ thống như lọc thư rác, gợi ý bài báo, và phân tích nội dung.

1.2. Ứng dụng của phân loại văn bản

Phân loại văn bản được áp dụng trong nhiều lĩnh vực thực tế. Ví dụ, Gmail sử dụng kỹ thuật này để lọc thư rác với độ chính xác cao. VnExpress áp dụng phân loại văn bản để gợi ý bài báo liên quan dựa trên nội dung người dùng đã đọc. Các ứng dụng khác bao gồm phân tích nội dung để phát hiện nhóm khủng bố, nhận dạng thư rác, và tự động hóa quá trình quản lý thông tin. Phân loại văn bản giúp tiết kiệm thời gian và công sức trong việc tìm kiếm và quản lý thông tin từ kho dữ liệu khổng lồ.

II. Phương pháp Multinomial Bayes trong phân loại văn bản

Thuật toán Multinomial Bayes là một phương pháp hiệu quả trong phân loại văn bản, dựa trên lý thuyết xác suất Bayes. Phương pháp này giả định rằng các từ trong văn bản xuất hiện độc lập với nhau, giúp đơn giản hóa quá trình tính toán. Multinomial Bayes được sử dụng để tính xác suất một văn bản thuộc về một chủ đề cụ thể dựa trên tần suất xuất hiện của các từ trong văn bản đó. Luận văn này trình bày chi tiết các bước thực hiện thuật toán Multinomial Bayes, bao gồm tiền xử lý văn bản, biểu diễn văn bản dưới dạng vector, và tính toán xác suất phân loại.

2.1. Biểu diễn văn bản

Trong phân loại văn bản, việc biểu diễn văn bản dưới dạng vector là bước quan trọng. Kỹ thuật Bag of Words và trọng số TF-IDF được sử dụng để chuyển đổi văn bản thành các vector số. Bag of Words đếm tần suất xuất hiện của các từ trong văn bản, trong khi TF-IDF tính toán trọng số của từ dựa trên tần suất xuất hiện trong văn bản và toàn bộ tập dữ liệu. Các vector này sau đó được sử dụng làm đầu vào cho thuật toán Multinomial Bayes để tính toán xác suất phân loại.

2.2. Ưu điểm của Multinomial Bayes

Thuật toán Multinomial Bayes có nhiều ưu điểm trong phân loại văn bản. Phương pháp này có tốc độ xử lý nhanh, dễ dàng cài đặt và cập nhật dữ liệu huấn luyện. Multinomial Bayes cũng có khả năng xử lý hiệu quả với các tập dữ liệu lớn và đa chủ đề. Tuy nhiên, phương pháp này giả định các từ xuất hiện độc lập, điều này có thể làm giảm độ chính xác trong một số trường hợp. Luận văn này đánh giá hiệu quả của Multinomial Bayes so với các phương pháp khác như Naive Bayes và K-Nearest Neighbor.

III. Thực nghiệm và đánh giá

Luận văn này tiến hành thực nghiệm thuật toán Multinomial Bayes trên bộ dữ liệu 20 Newsgroups, bao gồm 18,758 văn bản. Quá trình thực nghiệm bao gồm các bước tiền xử lý dữ liệu, biểu diễn văn bản thành vector, và chạy thuật toán phân loại sử dụng công cụ Apache Spark MLLib. Kết quả thực nghiệm được đánh giá dựa trên các tiêu chuẩn như độ chính xác, độ phủ, và F1-score. Luận văn cũng so sánh hiệu quả của Multinomial Bayes với các phương pháp khác như Multinomial Logistic Regression và K-Nearest Neighbor.

3.1. Bộ dữ liệu và tiền xử lý

Bộ dữ liệu 20 Newsgroups được sử dụng trong thực nghiệm bao gồm các văn bản thuộc 20 chủ đề khác nhau. Quá trình tiền xử lý bao gồm loại bỏ các từ dừng, chuẩn hóa văn bản, và chuyển đổi văn bản thành vector sử dụng kỹ thuật Bag of Words và trọng số TF-IDF. Các bước tiền xử lý này giúp cải thiện hiệu quả của thuật toán Multinomial Bayes trong việc phân loại văn bản.

3.2. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy thuật toán Multinomial Bayes đạt độ chính xác cao trong phân loại văn bản. Phương pháp này cũng có tốc độ xử lý nhanh và hiệu quả với các tập dữ liệu lớn. So sánh với Multinomial Logistic Regression và K-Nearest Neighbor, Multinomial Bayes cho kết quả tương đương hoặc tốt hơn trong nhiều trường hợp. Luận văn kết luận rằng Multinomial Bayes là một phương pháp hiệu quả và phù hợp cho các bài toán phân loại văn bản trong thực tế.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và các phương tiện truyền thông số, lượng văn bản số hóa tăng lên theo cấp số nhân, tạo ra thách thức lớn trong việc quản lý và truy xuất thông tin hiệu quả. Tại Việt Nam, theo thống kê của We Are Social, người dùng Internet trung bình dành khoảng 6 giờ 53 phút trên PC và tablet, 2 giờ 33 phút trên điện thoại di động mỗi ngày để truy cập web, trong đó hơn 90% sử dụng các trang tìm kiếm thông tin. Điều này đặt ra nhu cầu cấp thiết về phân loại văn bản tự động nhằm hỗ trợ tìm kiếm nhanh chóng, chính xác và tiết kiệm thời gian.

Luận văn tập trung nghiên cứu ứng dụng thuật toán Multinomial Bayes trong bài toán phân loại văn bản, với mục tiêu xây dựng mô hình phân loại hiệu quả, phù hợp với tập dữ liệu lớn và đa chủ đề. Phạm vi nghiên cứu sử dụng bộ dữ liệu “20 Newsgroups” gồm 18.758 văn bản thuộc 20 nhóm chủ đề khác nhau, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông, Hà Nội, năm 2018. Nghiên cứu không chỉ góp phần nâng cao hiệu quả phân loại văn bản trong môi trường công nghiệp mà còn hỗ trợ các hệ thống truy vấn thông tin, thương mại điện tử và truyền thông số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Thuật toán Multinomial Bayes: Dựa trên định lý Bayes, mô hình này tính xác suất một văn bản thuộc về một lớp nhất định dựa trên tần suất xuất hiện của các từ trong văn bản. Ưu điểm là đơn giản, tốc độ xử lý nhanh và phù hợp với dữ liệu văn bản đa chiều.
Mô hình Bag of Words (BoW): Biểu diễn văn bản dưới dạng vector đặc trưng dựa trên tần suất từ, giúp chuyển đổi dữ liệu văn bản không cấu trúc thành dạng có cấu trúc để thuật toán học máy xử lý.
Trọng số TF-IDF (Term Frequency-Inverse Document Frequency): Cải tiến BoW bằng cách giảm trọng số các từ phổ biến không mang nhiều ý nghĩa phân biệt, tăng trọng số các từ hiếm và quan trọng trong văn bản.
Các khái niệm chính: Tiền xử lý văn bản (làm sạch, tách từ, chuẩn hóa, loại bỏ từ dừng), phân loại đa lớp, các chỉ số đánh giá mô hình (Precision, Recall, F-measure).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu “20 Newsgroups” gồm 18.758 văn bản phân bố gần đều trong 20 nhóm chủ đề. Dữ liệu được tiền xử lý kỹ lưỡng qua các bước: loại bỏ email, số, dấu câu, ký tự đặc biệt; tách từ và chuyển về chữ thường; biểu diễn văn bản thành vector đặc trưng kích thước 100 sử dụng kỹ thuật BoW kết hợp TF-IDF.

Phương pháp phân tích sử dụng thuật toán Multinomial Bayes được triển khai trên nền tảng Apache Spark MLLib với ngôn ngữ Java, tận dụng khả năng xử lý phân tán và hiệu quả tính toán. Nghiên cứu áp dụng kỹ thuật 5-fold Cross-Validation để đánh giá mô hình, chia dữ liệu thành 5 phần, mỗi phần lần lượt làm tập kiểm tra, phần còn lại làm tập huấn luyện. Các chỉ số Precision, Recall và F-measure được tính toán cho từng lớp để đánh giá hiệu quả phân loại.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại cao với thuật toán Multinomial Bayes: Kết quả thực nghiệm trên bộ dữ liệu 18.758 văn bản cho thấy độ chính xác trung bình đạt khoảng 85-90% qua 5 lần kiểm tra Cross-Validation, với Precision và Recall ở mức tương đương, chứng tỏ mô hình có khả năng phân loại chính xác và ổn định.
So sánh với phương pháp Multinomial Logistic Regression: Thuật toán Multinomial Bayes cho tốc độ xử lý nhanh hơn đáng kể, đồng thời đạt hiệu quả phân loại tương đương hoặc cao hơn khoảng 3-5% về F-measure, đặc biệt trong các lớp có số lượng văn bản lớn.
Ảnh hưởng của tiền xử lý và biểu diễn văn bản: Việc áp dụng kỹ thuật TF-IDF giúp giảm trọng số các từ phổ biến không mang tính phân biệt, từ đó cải thiện độ chính xác phân loại lên khoảng 7-10% so với chỉ sử dụng BoW thuần túy.
Độ phức tạp và khả năng mở rộng: Thuật toán Multinomial Bayes sử dụng ít tài nguyên tính toán, phù hợp với xử lý dữ liệu lớn và có thể mở rộng trên các hệ thống phân tán như Apache Spark, giúp giảm thời gian huấn luyện và dự đoán xuống còn vài phút cho toàn bộ bộ dữ liệu.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của Multinomial Bayes là do mô hình tận dụng tốt đặc điểm tần suất từ trong văn bản, đồng thời giả định độc lập giữa các từ giúp giảm độ phức tạp tính toán. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng thuật toán Bayes trong phân loại văn bản đa chủ đề, đặc biệt khi dữ liệu lớn và đa dạng.

Việc sử dụng TF-IDF làm trọng số từ giúp mô hình tránh bị ảnh hưởng bởi các từ phổ biến không mang nhiều ý nghĩa phân biệt, điều này được minh chứng qua sự cải thiện rõ rệt về các chỉ số đánh giá. Kết quả cũng cho thấy Multinomial Bayes có ưu thế về tốc độ và khả năng mở rộng so với các phương pháp phức tạp hơn như Logistic Regression, phù hợp với các ứng dụng thực tế cần xử lý nhanh và hiệu quả.

Dữ liệu có thể được trình bày qua biểu đồ so sánh Precision, Recall và F-measure giữa các phương pháp, cũng như bảng thống kê kết quả từng lớp phân loại để minh họa sự ổn định và chính xác của mô hình.

Đề xuất và khuyến nghị

Triển khai hệ thống phân loại văn bản tự động dựa trên Multinomial Bayes: Áp dụng trong các tổ chức có kho dữ liệu văn bản lớn như báo chí, thư viện số, thương mại điện tử để nâng cao hiệu quả tìm kiếm và quản lý thông tin. Thời gian thực hiện dự kiến 6-12 tháng, do phòng công nghệ thông tin chủ trì.
Tích hợp kỹ thuật tiền xử lý nâng cao: Phát triển thêm các bước xử lý ngôn ngữ tự nhiên như tách từ chính xác, loại bỏ từ dừng phù hợp với từng lĩnh vực để tăng độ chính xác phân loại. Thời gian nghiên cứu và triển khai 3-6 tháng, do nhóm nghiên cứu ngôn ngữ tự nhiên đảm nhiệm.
Mở rộng mô hình cho các ngôn ngữ khác và dữ liệu đa phương tiện: Nghiên cứu áp dụng thuật toán cho các ngôn ngữ có cấu trúc phức tạp hoặc dữ liệu đa phương tiện như video, hình ảnh kèm văn bản để đa dạng hóa ứng dụng. Thời gian nghiên cứu 12-18 tháng, phối hợp giữa các viện nghiên cứu và doanh nghiệp công nghệ.
Xây dựng hệ thống đánh giá và giám sát mô hình liên tục: Thiết lập quy trình đánh giá định kỳ, cập nhật mô hình dựa trên dữ liệu mới để duy trì hiệu quả phân loại trong môi trường thay đổi nhanh. Thời gian triển khai 6 tháng, do bộ phận phát triển sản phẩm và phân tích dữ liệu thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Khoa học máy tính: Nghiên cứu sâu về thuật toán phân loại văn bản, ứng dụng học máy và xử lý ngôn ngữ tự nhiên, phục vụ cho các đề tài học thuật và phát triển công nghệ.
Chuyên gia phát triển hệ thống tìm kiếm và quản lý nội dung số: Áp dụng các phương pháp phân loại tự động để cải thiện hiệu quả tìm kiếm, lọc thông tin và đề xuất nội dung phù hợp cho người dùng.
Doanh nghiệp thương mại điện tử và truyền thông số: Tận dụng mô hình phân loại để phân loại sản phẩm, tin tức, email marketing, nâng cao trải nghiệm khách hàng và tối ưu hóa quy trình xử lý dữ liệu.
Cơ quan quản lý và tổ chức lưu trữ tài liệu số: Hỗ trợ phân loại, lưu trữ và truy xuất tài liệu nhanh chóng, chính xác, giảm thiểu chi phí và thời gian quản lý kho dữ liệu lớn.

Câu hỏi thường gặp

Thuật toán Multinomial Bayes có phù hợp với dữ liệu văn bản tiếng Việt không?
Có, tuy nhiên cần thực hiện bước tiền xử lý đặc thù như tách từ chính xác và loại bỏ từ dừng phù hợp với tiếng Việt để đảm bảo hiệu quả phân loại.
Tại sao lại chọn Multinomial Bayes thay vì các thuật toán phức tạp hơn?
Multinomial Bayes có ưu điểm về tốc độ xử lý, đơn giản, ít tốn tài nguyên và vẫn đạt hiệu quả cao trên dữ liệu lớn, phù hợp với các ứng dụng thực tế cần xử lý nhanh.
Làm thế nào để cải thiện độ chính xác của mô hình?
Có thể cải thiện bằng cách nâng cao chất lượng tiền xử lý, sử dụng kỹ thuật biểu diễn từ nâng cao như word embeddings, hoặc kết hợp với các thuật toán học sâu.
Mô hình có thể áp dụng cho các loại văn bản khác ngoài tin tức không?
Có thể, miễn là dữ liệu được chuẩn hóa và tiền xử lý phù hợp, mô hình có thể áp dụng cho email, tài liệu kỹ thuật, bình luận mạng xã hội, v.v.
Làm sao để đánh giá hiệu quả mô hình phân loại?
Sử dụng các chỉ số Precision, Recall, F-measure trên tập kiểm tra, đồng thời áp dụng kỹ thuật Cross-Validation để đảm bảo tính ổn định và khả năng tổng quát của mô hình.

Kết luận

Thuật toán Multinomial Bayes được chứng minh là hiệu quả và phù hợp cho bài toán phân loại văn bản đa chủ đề với bộ dữ liệu lớn.
Kỹ thuật tiền xử lý và biểu diễn văn bản như TF-IDF đóng vai trò quan trọng trong việc nâng cao độ chính xác phân loại.
Mô hình triển khai trên nền tảng Apache Spark MLLib cho phép xử lý nhanh, mở rộng và ứng dụng thực tế hiệu quả.
Kết quả thực nghiệm đạt độ chính xác trung bình khoảng 85-90%, vượt trội so với một số phương pháp học máy phổ biến khác.
Đề xuất các giải pháp triển khai, mở rộng và giám sát mô hình nhằm ứng dụng rộng rãi trong các lĩnh vực quản lý thông tin và truyền thông số.

Tiếp theo, nghiên cứu có thể mở rộng áp dụng cho các ngôn ngữ khác và dữ liệu đa phương tiện, đồng thời phát triển các kỹ thuật tiền xử lý nâng cao để tăng cường hiệu quả phân loại. Độc giả và các tổ chức quan tâm được khuyến khích áp dụng và phát triển mô hình trong thực tế nhằm nâng cao hiệu quả quản lý và khai thác thông tin văn bản.

Trích đoạn nội dung tài liệu

Mở đầu Ngày nay, số lượng các tài liệu điện tử tăng lên một cách nhanh chóng từ nhiều nguồn khác nhau, nguồn thông tin này đến từ các thư viện điện tử, thư điện tử, trang web. Việc khám phá tri thức tiềm ẩn từ kho dữ liệu văn bản là cần thiết cho việc quản lý, khai thác triệt để nguồn thông tin văn bản khổng lồ này. Các tri thức có thể là mô hình gom cụm hay phân lớp văn bản, mà ở đó mô hình phân lớp được sử dụng phổ biến trong ứng dụng như: gán nhãn tự động một bản tin, phân tích nội dung để phát hiện nhóm khủng bố, nhận dạng thư rác vì thế các nghiên cứu về khai phá dữ liệu dạng văn bản cũng được quan tâm hơn. Người dùng internet thường có thói quen tìm kiếm thông tin thông qua các bài báo, tài liệu kinh doanh, thương mại điện tử,.

Tại Việt Nam, số người dùng internet được xem là ở mức cao trên thế thời. Theo thống kê của We are social – Công ty chuyên thực hiện các thống kê và đánh giá về thông số kỹ thuật số, di động và các lĩnh vực liên quan: Trung bình 1 ngày, người Việt Nam bỏ ra 6 giờ 53 phút để duyệt web nếu xài PC và Tablet, 2 giờ 33 phút nếu xài điện thoại di động. 1 Thời gian trung bình sử dụng internet trong 1 ngày của người Việt Nam (Nguồn: We are social) Nhìn chung, hoạt động thực hiện thường xuyên nhất trên Internet của người dùng là thu thập thông tin, như đọc tin tức hay sử dụng các trang web tìm kiếm. Hơn 90% số lượng người sử dụng Internet đã sử dụng những trang web tìm kiếm, e 5 khoảng một nửa trong số họ thậm chí sử dụng hàng ngày.

Internet cũng được sử dụng để nghiên cứu cho việc học hay cho công việc bởi một nửa số người sử dụng Internet 1 lần 1 tuần hay thường xuyên hơn. Với các trang web và ứng dụng tương tác trực tuyến mới, người sử dụng không chỉ có cơ hội tìm được thông tin mà cũng đóng góp phần nội dung của riêng họ. Thương mại điện tử hiện nay, số lượng truy cập đạt mức tăng trưởng đáng kể. Hầu hết các trang phổ biến là các trang web đấu giá và mua bán, nơi có 40% người sử dụng đã từng viếng thăm.

Ngân hàng trực tuyến vẫn đang ở giai đoạn sơ khai. Mức độ sử dụng các trang web mua hàng trực tuyến và ngân hàng trực tuyến đã phát triển rất mạnh trong vòng vài năm trở lại đây.2 Các hoạt động trực tuyến được người dùng mạng sử dụng (Nguồn: Cimigo NetCitizens) Trong các hoạt động và truy cập internet, việc phân loại, chọn lọc, tìm kiếm thông tin cần thiết, phù hợp với mục đích công việc là cần thiết. Việc phân loại có thể được tiến hành một cách thủ công: đọc nội dung của từng hoạt động và gán nó vào một nhãn nào đó. Tuy nhiên, đối với hệ thống gồm rất bản ghi hoặc với nguồn dữ liệu lớn thì phương pháp này sẽ tốn rất nhiều thời gian và công sức.

Do vậy cần phải có phương pháp tự động để phân loại văn bản. Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin, chiết lọc thông tin, lọc văn bản hoặc tự động dẫn đường cho các văn e 6 bản tới những chủ đề xác định trước. Phân lớp văn bản có thể thực hiện thủ công hoặc tự động sử dụng các kỹ thuật học máy có giám sát. Từ thực tế về nhu cầu tìm kiếm trong kho văn bản điện tử khổng lồ và việc tìm kiếm thủ công là không khả thi, khi đó, bài toán phân loại văn bản đã, đang và sẽ được nghiên cứu, cải tiến và áp dụng vào thực tế ngày một nhiều.

Bài toán phân loại văn bản Phát biểu bài toán phân loại văn bản: Đầu vào: Cho x là một văn bản, biết x thuộc một trong các nhóm(chủ đề) {1, 2 ,. Đầu ra: Hãy nhóm đúng nhất với x. Ví dụ: Giả sử x là một bài báo của bạn gửi đăng trên trang web điện tử. Biên tập viên cần quyết định xem x thuộc chủ đề nào là tích hợp nhất: “ showbiz”, “ẩm thực”, “thể thao”,.

Giả sử x là một văn bản ngắn có mục tiêu điều khiển điều hòa. Mỗi thể loại ứng với một hành động điều khiển: “ tắt”, “bật”, “chuyển chế độ gió”,. Gọi y = ℎ∅ (x) là hàm phân loại của x trong đó ∅ là tham số của hàm. ) có khả năng phân loại tốt.

Để tìm ℎ∅ , ta sử dụng phương pháp học có hướng dẫn từ dữ liệu mẫu: - Dữ liệu học gồm N mẫu: (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ),. - Hàm ℎ∅ được xây dựng sao cho phù hợp nhất với dữ liệu huấn luyện. Mỗi văn bản x là một đối tượng cần phân loại, thông thường x được chuyển thành một biểu diễn vector thực D chiều: x = {𝑥1 , 𝑥2 ,., 𝑥𝐷 } , 𝑥𝑗  𝓡 Các thành phần 𝑥𝑗 , 𝑗 = 1, 2, … , 𝐷 được gọi là đặc trưng hay thuộc tính của x. Dưới đây là hình vẽ mô tả quy trình của bài toán phân loại văn bản: e 7 Hình 1.3 Quy trình bài toán phân loại văn bản Để tiến hành phân loại văn bản nói chung, chúng ta sẽ thực hiện theo 2 phần chính là: huấn luyện và phân loại.

- Huấn luyện: Các văn bản đầu vào với nhãn đúng được trích chọn đặc trưng và đưa vào thuật toán học để huấn luyện mô hình dự đoán phù hợp. Chúng ta có một tập huấn luyện, mỗi phần tử trong tập huấn luyện được gán vào một hoặc nhiều lớp mà chúng ta sẽ thể hiện chúng bằng một mô hình mã hóa. Thông thường, mỗi phần tử trong tập huấn luyện được thể hiện theo dạng (𝑥⃗, 𝑐). Trong đó 𝑥⃗ là vecto biểu diễn cho văn bản trong tập huấn luyện.

Sau đó, định nghĩa một lớp mô hình và một thủ tục huấn luyện. Lớp mô hình là họ các tham số của bộ phân loại, thủ tục huấn luyện là một giải thuật (hay thuật toán) để chọn ra một họ các tham số tối ưu cho bộ phân loại.4 Mô hình giai đoạn huấn luyện Đầu vào: ngữ liệu huấn luyện và thuật toán huấn luyện Đầu ra: Mô hình phân lớp - Phân loại: Văn bản mới được trích chọn đặc trưng và đưa vào mô hình đã được huấn luyện ở bước trên để dự đoán nhãn phù hợp nhất. 5 Mô hình giai đoạn phân lớp 1. Ứng dụng của bài toán phân loại văn bản Bài toán phân loại đang được sử dụng phổ biến hiện nay, ta có thể bắt gặp các ứng dụng của bài toán ở một số ví dụ như: - Công cụ phân loại mail rác (spam email) của Google – Gmail.

Theo như công bố đạt độ chính xác 99.9% năm 2017 (Theo vtv công nghệ - Báo điện tử thuộc đài truyền hình Việt Nam: https://vtv.vn/cong-nghe/gmail-cap-nhat-co-cau-tu-hoc- giup-ngan-chan-thu-rac-va-tin-nhan-lua-dao- Theo đó, google áp dụng các kỹ thuật phân loại văn bản để kiểm tra nội dung bức thư đến tự động và phát hiện được email đó là có phải là spam email hay không để cho vào mục “Spam” riêng.net phục vụ 37,5 triệu người đọc thường xuyên và đạt 1,2 tỷ lượt xem mỗi tháng, đăng gần 500 tin bài mỗi ngày (số liệu 2016 http://chungta.vn/tin-tuc/kinh-doanh/vnexpress-dat-12-ty-luot-xem-mot-thang- 48730. VnExpress, đã áp dụng phương pháp phân loại văn bản phân loại tin bài (gợi ý bài viết liên quan, khuyến nghị những bài báo phù hợp với người dùng từ những bài báo trước đó đã đọc, marketing những sản phẩm phù hợp từ những bài báo người dùng quan tâm,…). Dưới hình ta sẽ thấy khi vào đọc một bài báo, VNExpress sẽ giới thiệu cho ta nhưng bài báo có nội dung tương tự với bài ta đang đọc nhờ vào thuật toán phân loại văn bản tự động. 6 Ví dụ bài toán phân loại trên báo điện tử VNExpress e 10 1.Các phương pháp phân loại văn bản Để giải bài toán phân loại văn bản, đã có nhiều phương pháp được nghiên cứu như: Naive Bayes, Multinomial Logistic regression, K-Nearest Neighbor, Mul- tinomial Bayes.

Để tìm hiểu và so sánh rõ hơn sự khác biệt và tối ưu với phương pháp dùng thuật toán Multinomial Bayes, một số thuật toán phân loại văn bản sau sẽ được phân tích sâu hơn: 1. Phương pháp Navie Bayes Naive Bayes là thuật toán phân loại dựa trên định lý Bayes. Định lý Bayes thường được dùng trong lý thuyết xác suất, cho phép tính xác xuất xảy ra sự kiện A khi biết sự kiện liên qua B đã xảy ra [2]. Xác suất này được ký hiệu là P(A|B), và đọc là “xác suất của A nếu có B”.

Xác suất này có công thức như sau: (1.1) 𝑃(𝐵|𝐴)𝑃(𝐴) 𝑃(𝐴|𝐵) = 𝑃(𝐵) Trong đó: - P(A): Xác suất xảy ra sự kiện A. - P(B): Xác suất xảy ra sự kiện B. - P(B|A): Xác suất xảy ra sự kiên B khi biết sự kiện A đã xảy ra. Phương pháp Navie Bayes được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961, sau đó trở nên phổ biến trong nhiều lĩnh vực như trong các công cụ tìm kiếm, các bộ lọc mail… Ý tưởng Ý tưởng của phương pháp là sử dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của một văn bản phân loại.

Điểm quan trọng của phương pháp này chính là ở chỗ để ứng dụng định lý Bayes cần giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau. Giả định đó làm cho việc tính toán Navie Bayes hiệu quả và nhanh chóng hơn các phương pháp khác với độ phức e 11 tạp theo số mũ vì nó không sử dụng việc kết hợp các từ để đưa ra phán đoán chủ đề do đó bước training và testing trở nên vô cùng nhanh chóng và đơn giản. Giả định đó làm cho việc tính toán Navie Bayes hiệu quả và nhanh chóng hơn các phương pháp khác với độ phức tạp theo số mũ vì nó không sử dụng việc kết hợp các từ để đưa ra phán đoán chủ đề [17]. Công thức chính Mục đích chính là tính xác suất Pr (Cj, d’), xác suất để văn bản d’ nằm trong lớp Cj.

Theo luật Bayes, văn bản d’ sẽ được gán vào lớp Cj nào có xác suất Pr(Cj, d’) cao nhất. Công thức sau dùng để tính Pr (Cj, d’) [17]: |𝑑′ | (1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu về thuật toán Bayes

Ứng dụng trong phân loại văn bản

Machine learning và văn bản

Phân tích dữ liệu trong luận văn

Nghiên Cứu Ứng Dụng Thuật Toán Multinomial Bayes Để Phân Loại Văn Bản Trong Luận Văn Thạc Sĩ

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN PHÂN LOẠI

1.1. Giới thiệu bài toán phân loại văn bản

1.2. Bài toán phân loại văn bản

1.3. Ứng dụng của bài toán phân loại văn bản

1.4. Các phương pháp phân loại văn bản

1.4.1. Phương pháp Navie Bayes

1.4.2. Phương pháp K – Nearest Neighbor

1.4.3. Phương pháp Multinomial Logistic regression

2. CHƯƠNG 2: PHƯƠNG PHÁP MULTINOMIAL BAYES TRONG BÀI TOÁN PHÂN LOẠI VĂN BẢN

2.1. Biểu diễn văn bản

2.2. Tiền xử lý văn bản

2.3. Kỹ thuật Bag of word. Trọng số TF-IDF

2.4. Thuật toán Multinomial Bayes

2.4.1. Nội dung thuật toán. Ví dụ các bước của phương pháp Multinomial Bayes

2.5. Ưu điểm phương pháp Multinomial Bayes trong phân loại văn bản

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Giới thiệu về bộ dữ liệu sử dụng

3.2. Sơ đồ chương trình phân loại văn bản

3.3. Tiền xử lý dữ liệu

3.4. Biểu diễn văn bản thành vector

3.5. Các tiêu chuẩn đánh giá

3.6. Phương pháp thực nghiệm

3.7. Công cụ dùng để phân lớp

3.8. Xây dựng dữ liệu huấn luyện và kiểm tra

3.9. Kết quả thực nghiệm

3.10. So sánh với một số phương pháp khác

DANH MỤC TÀI LIỆU THAM KHẢO

I. Giới thiệu bài toán phân loại văn bản

1.1. Bài toán phân loại văn bản

1.2. Ứng dụng của phân loại văn bản

II. Phương pháp Multinomial Bayes trong phân loại văn bản

2.1. Biểu diễn văn bản

2.2. Ưu điểm của Multinomial Bayes

III. Thực nghiệm và đánh giá

3.1. Bộ dữ liệu và tiền xử lý

3.2. Kết quả thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Mỹ Hảo

Người hướng dẫn: TS. Nguyễn Mạnh Hùng

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Hệ thống thông tin

Đề tài: Nghiên cứu áp dụng thuật toán Multinomial Bayes vào phân loại văn bản

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2018

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm