Phân loại văn bản sử dụng mô hình xác suất trên đa tạp văn bản

Tài liệu nghiên cứu Phân loại văn bản sử dụng mô hình xá suất trên đa tạp văn bản, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG

1. MỤC LỤC

1.1. Phân loại dữ liệu

1.2. Mô hình bài toán phân loại

1.3. Biểu diễn mẫu

1.4. Tổ chức luận văn

1.5. PHÂN LOẠI ĐƠN NHÃN

2.1. Bài toán phân loại đơn nhãn

2.2. Phân phối von Mises Fisher (vMF)

2.3. Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMF (SSvMFs)

2.4. Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMFs trên đa tạp văn bản (LapSSvMFs)

2.5. Thử nghiệm và đánh giá

2.6. Tập dữ liệu thí nghiệm (Datasets)

2.7. Các thuật toán sử dụng để so sánh (baselines)

2.8. Kết quả thí nghiệm

3.1. PHÂN LOẠI ĐA NHÃN

3.2. Bài toán phân loại đa nhãn

3.3. Phân phối Watson

3.4. Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson (SSWatsons)

3.5. Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson trên đa tạp văn bản (LapSSWatsons)

3.6. Thử nghiệm và đánh giá

3.7. Tập dữ liệu thí nghiệm

3.8. Các thuật toán so sánh

3.9. Kết quả thí nghiệm

3.10. Ước lượng tham số với SSvMFs

3.11. Ước lượng tham số với SSWatsons

DANH SÁCH CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

Tóm tắt

I. Tổng Quan Phân Loại Văn Bản Mô Hình Xác Suất Là Gì

Phân loại văn bản là kỹ thuật quan trọng trong thu thập và khai phá thông tin văn bản. Trong thực tế, dữ liệu chưa gán nhãn rất sẵn có, nhưng việc gán nhãn lại tốn thời gian và chi phí. Luận văn này đề xuất hai phương pháp mới dựa trên học bán giám sát, sử dụng mô hình trộn của phân phối vMF và phân phối Watson để phân loại văn bản. Hai thuật toán này, LapSSvMFs và LapSSWatsons, xét đến cấu trúc hình học của không gian tài liệu để khai thác cả dữ liệu có nhãn và không có nhãn. Một trong những đóng góp chính của luận văn là đề xuất phương pháp học bán giám sát với mô hình trộn của phân phối vMF (SSvMFs) và phân phối Watson (SSWatsons) để khai thác cả dữ liệu có nhãn và dữ liệu không nhãn cho bài toán phân loại. Phương pháp suy diễn biến phân cũng được phát triển để xác định xác suất hậu nghiệm của các biến ẩn. Các thử nghiệm cho thấy các phương pháp đề xuất có kết quả tốt hơn các phương pháp khác trong phân loại dữ liệu đơn và đa nhãn. Theo Linh (2013), phân loại tài liệu là yếu tố thiết yếu cho việc thu thập thông tin và khai thác văn bản.

1.1. Tầm quan trọng của phân loại văn bản trong NLP và IR

Phân loại văn bản đóng vai trò then chốt trong Xử lý ngôn ngữ tự nhiên (NLP) và Tìm kiếm thông tin (IR). Nó cho phép tổ chức, sắp xếp và truy xuất thông tin hiệu quả. Các ứng dụng bao gồm lọc thư rác, phân tích tình cảm, phân loại tin tức và định tuyến tài liệu. Việc tự động hóa quy trình phân loại giúp tiết kiệm thời gian và nguồn lực đáng kể. Các thuật toán Machine learning cung cấp các công cụ mạnh mẽ để xây dựng các hệ thống phân loại văn bản chính xác và có khả năng mở rộng. Mô hình xác suất là một cách tiếp cận quan trọng trong phân loại văn bản, giúp ước tính xác suất một tài liệu thuộc về một danh mục cụ thể.

1.2. Giới thiệu các mô hình xác suất phổ biến trong phân loại

Nhiều mô hình xác suất khác nhau đã được sử dụng trong phân loại văn bản. Naive Bayes classifier là một mô hình đơn giản nhưng hiệu quả, dựa trên giả định độc lập giữa các đặc trưng. Multinomial Naive Bayes là một biến thể phổ biến cho dữ liệu văn bản, xem xét tần số xuất hiện của các từ. Bayesian networks cung cấp một cách tiếp cận tổng quát hơn, cho phép mô hình hóa các phụ thuộc giữa các biến. Maximum Entropy là một mô hình khác, cố gắng tìm phân phối xác suất phù hợp nhất với dữ liệu huấn luyện. Các mô hình xác suất dựa trên học sâu như RNNs và CNNs cũng đang trở nên phổ biến, cho phép học các biểu diễn phức tạp của văn bản.

II. Thách Thức Phân Loại Văn Bản Dữ Liệu Thiếu Nhãn

Trong thực tế, một vấn đề lớn là sự khan hiếm dữ liệu được gán nhãn. Việc gán nhãn thủ công tốn kém và mất thời gian. Điều này dẫn đến sự phát triển của các phương pháp học bán giám sát (Semi-supervised learning), tận dụng cả dữ liệu được gán nhãn và dữ liệu chưa được gán nhãn để cải thiện hiệu suất phân loại. Học bán giám sát đặc biệt hữu ích khi chỉ có một lượng nhỏ dữ liệu được gán nhãn sẵn có. Các kỹ thuật học bán giám sát thường dựa trên các giả định về cấu trúc của dữ liệu, chẳng hạn như giả định rằng các tài liệu tương tự có xu hướng thuộc cùng một lớp. Luận văn của Linh (2013) tập trung vào các phương pháp học bán giám sát để giải quyết vấn đề này, thể hiện rõ tính cấp thiết và thực tiễn của nghiên cứu.

2.1. Vấn đề thiếu dữ liệu nhãn và ảnh hưởng đến hiệu suất

Việc thiếu dữ liệu nhãn là một thách thức lớn trong phân loại văn bản. Các thuật toán học có giám sát (Supervised learning), như SVM và Naive Bayes, đòi hỏi một lượng lớn dữ liệu được gán nhãn để học các mô hình chính xác. Khi dữ liệu được gán nhãn khan hiếm, các mô hình này có thể hoạt động kém hiệu quả. Điều này đặc biệt đúng đối với các bài toán phức tạp, nơi có nhiều lớp hoặc các lớp không được xác định rõ. Việc thu thập dữ liệu được gán nhãn thường là một quá trình tốn kém và tốn thời gian, đặc biệt đối với các lĩnh vực chuyên môn.

2.2. Giải pháp Ứng dụng học bán giám sát để cải thiện độ chính xác

Học bán giám sát cung cấp một giải pháp để giải quyết vấn đề thiếu dữ liệu nhãn. Phương pháp này tận dụng cả dữ liệu được gán nhãn và dữ liệu chưa được gán nhãn để xây dựng các mô hình phân loại. Dữ liệu chưa được gán nhãn có thể cung cấp thông tin hữu ích về cấu trúc của dữ liệu, giúp cải thiện hiệu suất của các mô hình. Các kỹ thuật học bán giám sát phổ biến bao gồm Self-training, Co-training và các phương pháp dựa trên đồ thị (graph-based methods). Các phương pháp này đã cho thấy hiệu quả trong nhiều ứng dụng phân loại văn bản.

III. Giải Pháp Phân Loại Mô Hình SSvMFs và SSWatsons

Luận văn đề xuất hai phương pháp mới: LapSSvMFs và LapSSWatsons. Đây là các thuật toán học bán giám sát dựa trên mô hình trộn của phân phối vMF và phân phối Watson. Các thuật toán này đặc biệt chú trọng đến cấu trúc hình học của không gian tài liệu. Bằng cách khai thác cấu trúc này, chúng có thể sử dụng cả dữ liệu có nhãn và không có nhãn một cách hiệu quả. Phương pháp suy diễn biến phân được phát triển để tính toán xác suất hậu nghiệm của các biến ẩn. Thử nghiệm cho thấy các phương pháp đề xuất hoạt động tốt hơn so với các phương pháp khác trong phân loại dữ liệu đơn và đa nhãn. Điều này cho thấy tầm quan trọng của việc xem xét cấu trúc hình học của dữ liệu trong phân loại văn bản.

3.1. Chi tiết về mô hình SSvMFs Semi Supervised vMF Mixture Model

SSvMFs là một mô hình xác suất dựa trên phân phối von Mises-Fisher (vMF), một phân phối trên các vector đơn vị. Mô hình này giả định rằng mỗi tài liệu được tạo ra từ một hỗn hợp các phân phối vMF, mỗi phân phối tương ứng với một lớp hoặc chủ đề. Học bán giám sát được thực hiện bằng cách kết hợp thông tin từ cả dữ liệu được gán nhãn và dữ liệu chưa được gán nhãn vào quá trình ước tính tham số. Mô hình SSvMFs đặc biệt phù hợp với dữ liệu văn bản có số chiều cao và thưa, vì phân phối vMF có thể xử lý trực tiếp các vector có số chiều cao. Ước lượng tham số cho SSvMFs có thể được thực hiện bằng cách sử dụng giải thuật EM (Expectation-Maximization) hoặc suy diễn biến phân (variational inference).

3.2. Tìm hiểu về mô hình SSWatsons Semi Supervised Watson Mixture Model

SSWatsons tương tự như SSvMFs, nhưng sử dụng phân phối Watson thay vì phân phối vMF. Phân phối Watson là một phân phối khác trên các vector đơn vị, với các đặc tính khác nhau. Mô hình SSWatsons cũng được sử dụng trong học bán giám sát để tận dụng cả dữ liệu được gán nhãn và dữ liệu chưa được gán nhãn. Việc lựa chọn giữa SSvMFs và SSWatsons phụ thuộc vào các đặc tính cụ thể của dữ liệu văn bản. Cả hai mô hình đều cung cấp một cách tiếp cận hiệu quả để phân loại văn bản trong các tình huống có dữ liệu nhãn hạn chế. Tóm lại, Mô hình xác suất dựa trên phân phối vMF và Watson có hiệu năng tốt hơn các mô hình dựa trên các phân phối đa thức và phân phối Bernoulli [2, 23, 3].

IV. Cải Tiến Phân Loại Cấu Trúc Đa Tạp Văn Bản LapSSvMFs Watsons

LapSSvMFs và LapSSWatsons là các phiên bản cải tiến của SSvMFs và SSWatsons, kết hợp thêm thông tin về cấu trúc hình học của không gian tài liệu. Cấu trúc này được thể hiện bằng một đồ thị (graph), trong đó các nút đại diện cho các tài liệu và các cạnh đại diện cho sự tương tự giữa các tài liệu. Thông tin về cấu trúc này được sử dụng để điều chỉnh quá trình học, giúp mô hình học các biểu diễn tốt hơn của dữ liệu. Theo luận văn của Linh (2013), việc xem xét cấu trúc hình học của dữ liệu văn bản giúp cải thiện đáng kể hiệu suất phân loại. Các thử nghiệm cho thấy LapSSvMFs và LapSSWatsons hoạt động tốt hơn so với SSvMFs và SSWatsons.

4.1. Mã hóa thông tin cấu trúc hình học vào mô hình

Việc mã hóa thông tin cấu trúc hình học vào mô hình xác suất có thể được thực hiện bằng cách sử dụng một hàm điều chuẩn (regularization function). Hàm điều chuẩn này phạt các mô hình không phù hợp với cấu trúc hình học của dữ liệu. Ví dụ: một hàm điều chuẩn có thể phạt các mô hình gán các nhãn khác nhau cho các tài liệu tương tự. Việc lựa chọn hàm điều chuẩn phù hợp phụ thuộc vào các đặc tính cụ thể của dữ liệu văn bản. Các phương pháp dựa trên Laplacian là một lựa chọn phổ biến, vì chúng có thể nắm bắt hiệu quả các mối quan hệ cục bộ trong dữ liệu.

4.2. Lợi ích của việc sử dụng cấu trúc hình học trong phân loại

Việc sử dụng cấu trúc hình học trong phân loại văn bản có thể mang lại nhiều lợi ích. Nó có thể giúp cải thiện độ chính xác, đặc biệt trong các tình huống có dữ liệu nhãn hạn chế. Nó cũng có thể giúp học các biểu diễn tốt hơn của dữ liệu, cho phép mô hình nắm bắt các mối quan hệ phức tạp giữa các tài liệu. Ngoài ra, nó có thể giúp cải thiện khả năng giải thích của mô hình, vì cấu trúc hình học có thể cung cấp thông tin về các mối quan hệ ngữ nghĩa giữa các tài liệu. Nghiên cứu của Linh (2013) chỉ ra rằng việc kết hợp cấu trúc hình học giúp cải thiện hiệu suất của thuật toán phân loại.

V. Kết Quả Thực Nghiệm Đánh Giá Hiệu Năng LapSSvMFs Watsons

Luận văn trình bày kết quả thực nghiệm đánh giá hiệu năng của LapSSvMFs và LapSSWatsons trên nhiều bộ dữ liệu văn bản khác nhau. Các kết quả cho thấy rằng các phương pháp đề xuất hoạt động tốt hơn so với các phương pháp khác, bao gồm các phương pháp học có giám sát và học bán giám sát. Các thử nghiệm được thực hiện trên cả dữ liệu đơn nhãn và đa nhãn, cho thấy tính linh hoạt của các phương pháp. Các kết quả thực nghiệm hỗ trợ cho luận điểm rằng việc xem xét cấu trúc hình học của dữ liệu văn bản giúp cải thiện hiệu suất phân loại. Theo kết quả từ luận văn của Linh, LapSSWatsons, Labeled-LDA và SVM sử dụng độ đo Micro-F1 và Macro-F1 trong 8 datasets cho thấy LapSSWatsons có kết quả tốt hơn.

5.1. So sánh hiệu năng với các thuật toán phân loại khác

Để đánh giá hiệu năng của LapSSvMFs và LapSSWatsons, chúng được so sánh với một số thuật toán phân loại văn bản khác, bao gồm Naive Bayes, SVM, Label Propagation (LP) và Labeled-LDA. Các thuật toán này đại diện cho các cách tiếp cận khác nhau để phân loại văn bản, từ học có giám sát đến học bán giám sát. Việc so sánh với các thuật toán này cho phép đánh giá xem các phương pháp đề xuất có thực sự cải thiện hiệu năng hay không. Các độ đo hiệu năng phổ biến, chẳng hạn như accuracy, precision, recall và F1-score, được sử dụng để so sánh các thuật toán.

5.2. Phân tích kết quả trên dữ liệu đơn nhãn và đa nhãn

Các thử nghiệm được thực hiện trên cả dữ liệu phân loại đơn nhãn (single-label classification) và phân loại đa nhãn (multi-label classification). Trong phân loại đơn nhãn, mỗi tài liệu được gán một nhãn duy nhất. Trong phân loại đa nhãn, mỗi tài liệu có thể được gán nhiều nhãn. Việc phân tích kết quả trên cả hai loại dữ liệu cho phép đánh giá tính linh hoạt của các phương pháp đề xuất. Các độ đo hiệu năng khác nhau có thể được sử dụng cho dữ liệu đơn nhãn và đa nhãn. Chẳng hạn, Micro-F1 và Macro-F1 thường được sử dụng để đánh giá hiệu năng trên dữ liệu đa nhãn.

VI. Tương Lai Phân Loại Văn Bản Học Sâu và Mô Hình Xác Suất

Phân loại văn bản vẫn là một lĩnh vực nghiên cứu năng động. Các hướng nghiên cứu trong tương lai bao gồm việc kết hợp học sâu (Deep Learning) với mô hình xác suất, phát triển các phương pháp học bán giám sát hiệu quả hơn và khám phá các cách mới để biểu diễn cấu trúc hình học của dữ liệu văn bản. Sự kết hợp giữa học sâu và mô hình xác suất có tiềm năng tạo ra các hệ thống phân loại văn bản mạnh mẽ hơn. Nghiên cứu của Linh (2013) đặt nền móng cho các nghiên cứu trong tương lai về phân loại văn bản sử dụng mô hình xác suất và học bán giám sát.

6.1. Tiềm năng của học sâu trong phân loại văn bản

Học sâu đã đạt được những thành công đáng kể trong nhiều lĩnh vực, bao gồm cả phân loại văn bản. Các mô hình mạng nơ-ron tích chập (Convolutional Neural Networks - CNNs) và mạng nơ-ron hồi quy (Recurrent Neural Networks - RNNs) có thể học các biểu diễn phức tạp của văn bản và đạt được hiệu năng vượt trội. Các kỹ thuật word embeddings (Word2Vec, GloVe, BERT) cho phép biểu diễn các từ và câu dưới dạng các vector số, nắm bắt các mối quan hệ ngữ nghĩa. Việc kết hợp học sâu với mô hình xác suất có tiềm năng tạo ra các hệ thống phân loại văn bản mạnh mẽ và linh hoạt hơn.

6.2. Phát triển các phương pháp học bán giám sát hiệu quả hơn

Phát triển các phương pháp học bán giám sát hiệu quả hơn vẫn là một mục tiêu quan trọng trong phân loại văn bản. Các phương pháp hiện tại vẫn còn nhiều hạn chế, chẳng hạn như sự phụ thuộc vào các giả định mạnh mẽ về cấu trúc của dữ liệu. Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các phương pháp ít phụ thuộc hơn vào các giả định này, hoặc vào việc khai thác thông tin từ dữ liệu chưa được gán nhãn một cách hiệu quả hơn. Việc kết hợp các kỹ thuật tăng cường dữ liệu (data augmentation) với học bán giám sát cũng có thể cải thiện hiệu năng. Trong tương lai, các phương pháp học bán giám sát có thể ứng dụng các mô hình Language Model Pre-trained như BERT

23/05/2025

Bạn đang xem trước tài liệu:

Phân loại văn bản sử dụng mô hình xá suất trên đa tạp văn bản

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân loại văn bản là một kỹ thuật thiết yếu trong lĩnh vực khai phá thông tin và học máy, đặc biệt trong bối cảnh dữ liệu văn bản ngày càng phong phú và đa dạng trên Internet. Theo ước tính, các tập dữ liệu văn bản thường có số chiều cao và thưa, gây khó khăn cho các phương pháp phân loại truyền thống. Vấn đề chính đặt ra là làm thế nào khai thác hiệu quả cả dữ liệu có nhãn và dữ liệu không nhãn để nâng cao độ chính xác phân loại, đồng thời giảm thiểu chi phí gán nhãn tốn kém và mất thời gian. Mục tiêu nghiên cứu của luận văn là đề xuất các phương pháp phân loại văn bản bán giám sát mới dựa trên mô hình trộn các phân phối xác suất trên đa tạp văn bản, cụ thể là phân phối von Mises Fisher (vMF) và phân phối Watson, nhằm tận dụng cấu trúc hình học của không gian văn bản để cải thiện hiệu năng phân loại đơn nhãn và đa nhãn.

Phạm vi nghiên cứu tập trung vào các tập dữ liệu văn bản tiếng Anh phổ biến như 20-newsgroups, CLUTO toolkit và bộ dữ liệu đa nhãn từ Yahoo, với các thí nghiệm được thực hiện trong khoảng thời gian gần đây. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác phân loại, đặc biệt trong điều kiện dữ liệu có nhãn hạn chế, đồng thời cung cấp các thuật toán có khả năng xử lý dữ liệu mới mà không cần huấn luyện lại toàn bộ mô hình, góp phần thúc đẩy ứng dụng trong khai phá dữ liệu văn bản và các hệ thống tìm kiếm thông tin.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Phân phối von Mises Fisher (vMF): Là phân phối xác suất trên hình cầu (d-1 chiều) trong không gian $\mathbb{R}^d$, phù hợp với dữ liệu có số chiều cao và thưa như vector tf-idf chuẩn hóa. Phân phối này được mô tả bởi tham số trung bình hướng $\mu$ và tham số độ tập trung $\kappa$, giúp mô hình hóa sự tập trung của dữ liệu quanh một hướng nhất định.
Phân phối Watson: Là phân phối phức tạp hơn vMF, cũng trên hình cầu, nhưng thích hợp hơn với dữ liệu có nhiễu. Phân phối Watson cho phép $\kappa$ có thể âm, mô hình hóa dữ liệu lưỡng cực và có khả năng biểu diễn đa nhãn hiệu quả hơn.

Các khái niệm chính bao gồm:

Học bán giám sát (Semi-supervised learning): Kết hợp dữ liệu có nhãn và không nhãn để xây dựng bộ phân loại hiệu quả hơn khi dữ liệu có nhãn hạn chế.
Mô hình trộn (Mixture models): Sử dụng các phân phối xác suất để mô hình hóa dữ liệu thuộc nhiều cụm hoặc chủ đề khác nhau.
Cấu trúc hình học đa tạp (Manifold structure): Giả thiết rằng dữ liệu nằm trên một đa tạp hình học, được khai thác thông qua đồ thị láng giềng gần và ma trận Laplacian để tăng cường thông tin cấu trúc trong quá trình học.
Phương pháp suy diễn biến phân (Variational inference): Kỹ thuật xấp xỉ phân phối hậu nghiệm phức tạp, giúp tối ưu hàm log-likelihood trong mô hình học xác suất.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng bao gồm các tập dữ liệu văn bản đơn nhãn như 20-newsgroups, CLUTO toolkit và các tập dữ liệu đa nhãn từ Yahoo với số lượng tài liệu dao động từ khoảng 2.300 đến hơn 14.000, số chiều từ 5.896 đến gần 30.000 từ, và số lượng nhãn từ 3 đến 23.

Phương pháp phân tích chính là xây dựng và phát triển các mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMF và Watson, kết hợp với cấu trúc hình học đa tạp của dữ liệu. Các thuật toán được tối ưu bằng phương pháp suy diễn biến phân, với các bước lặp E (expectation) và M (maximization) để ước lượng tham số mô hình.

Quá trình nghiên cứu được thực hiện theo timeline gồm: thu thập và tiền xử lý dữ liệu, xây dựng mô hình SSvMFs và SSWatsons, phát triển các phiên bản có chuẩn tắc LapSSvMFs và LapSSWatsons tích hợp cấu trúc hình học, thử nghiệm trên các tập dữ liệu thực tế, so sánh với các thuật toán baseline như SVM, Label Propagation (LP), Labeled-LDA, và đánh giá hiệu năng bằng các độ đo accuracy, Micro-F1 và Macro-F1.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu năng phân loại đơn nhãn: Thuật toán LapSSvMFs đạt độ chính xác cao hơn so với SSvMFs, SVM và LP trên các tập dữ liệu classic, NG17-19, la1 và k1b. Ví dụ, trên tập classic, độ chính xác của LapSSvMFs tăng ổn định khi tỷ lệ dữ liệu có nhãn tăng, vượt trội hơn khoảng 5-10% so với SVM và LP.
Khả năng xử lý dữ liệu mới: Khác với thuật toán LP phải học lại toàn bộ khi có dữ liệu mới, LapSSvMFs sử dụng các tham số đã học để phân loại dữ liệu mới mà không cần huấn luyện lại, giúp tiết kiệm thời gian và tài nguyên tính toán.
Phân loại đa nhãn với LapSSWatsons: Thuật toán LapSSWatsons cho kết quả vượt trội hơn so với các phương pháp có giám sát như Labeled-LDA và SVM trên 8 tập dữ liệu đa nhãn của Yahoo, với mức tăng khoảng 10% về Macro-F1 và cải thiện đáng kể Micro-F1 trên 6 trong 8 tập dữ liệu.
Ảnh hưởng của số lượng chủ đề: Khi tăng số lượng chủ đề $K$ từ 30 đến 110, hiệu năng phân loại đa nhãn của LapSSWatsons và các thuật toán liên quan đều tăng, đạt đỉnh tại khoảng $K=90$, cho thấy sự cân bằng giữa khả năng biểu diễn và tránh overfitting.

Thảo luận kết quả

Nguyên nhân chính giúp các phương pháp đề xuất đạt hiệu quả cao là do việc kết hợp mô hình trộn phân phối vMF và Watson với cấu trúc hình học đa tạp của dữ liệu, giúp mã hóa thông tin về mối quan hệ giữa các tài liệu và nhãn một cách hiệu quả. So với các phương pháp truyền thống như SVM hay Labeled-LDA, các mô hình này tận dụng được dữ liệu không nhãn, cải thiện khả năng tổng quát hóa khi dữ liệu có nhãn hạn chế.

Việc sử dụng phân phối Watson trong phân loại đa nhãn giúp mô hình hóa tốt hơn các trường hợp dữ liệu có nhiều nhãn cùng lúc, đồng thời giảm thiểu ảnh hưởng của nhiễu so với phân phối vMF. Các kết quả cũng cho thấy, việc xây dựng đồ thị láng giềng gần và áp dụng chuẩn tắc Laplacian giúp làm mềm hàm mục tiêu, tăng tính ổn định và chính xác của mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác theo tỷ lệ dữ liệu có nhãn, hoặc bảng tổng hợp Micro-F1 và Macro-F1 giữa các thuật toán, giúp minh họa rõ ràng sự vượt trội của các phương pháp đề xuất.

Đề xuất và khuyến nghị

Áp dụng mô hình LapSSvMFs và LapSSWatsons trong hệ thống phân loại văn bản thực tế: Động từ hành động là "triển khai", mục tiêu là nâng cao độ chính xác phân loại đơn nhãn và đa nhãn, thời gian thực hiện trong vòng 6-12 tháng, chủ thể thực hiện là các tổ chức nghiên cứu và doanh nghiệp công nghệ thông tin.
Phát triển công cụ tự động gán nhãn dữ liệu mới dựa trên tham số đã học: Động từ "xây dựng", nhằm giảm thiểu chi phí huấn luyện lại mô hình khi có dữ liệu mới, thời gian 3-6 tháng, chủ thể là các nhóm phát triển phần mềm và trung tâm dữ liệu.
Tích hợp phương pháp điều chỉnh ngưỡng nhãn (threshold tuning) trong phân loại đa nhãn: Động từ "ứng dụng", nhằm tối ưu hiệu quả phân loại đa nhãn, đặc biệt trong các tập dữ liệu có phân bố nhãn không đồng đều, thời gian 2-4 tháng, chủ thể là các nhà nghiên cứu và kỹ sư dữ liệu.
Mở rộng nghiên cứu áp dụng mô hình trộn phân phối Watson cho các loại dữ liệu khác ngoài văn bản: Động từ "khảo sát", nhằm đánh giá khả năng ứng dụng trong hình ảnh, âm thanh hoặc dữ liệu cảm biến, thời gian 12-18 tháng, chủ thể là các viện nghiên cứu đa ngành.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, học máy và khai phá dữ liệu: Nắm bắt các phương pháp học bán giám sát tiên tiến, áp dụng trong phân loại văn bản và dữ liệu đa nhãn.
Chuyên gia phát triển hệ thống tìm kiếm và xử lý ngôn ngữ tự nhiên (NLP): Áp dụng các mô hình phân phối vMF và Watson để cải thiện hiệu quả phân loại và khai thác thông tin.
Doanh nghiệp công nghệ và các trung tâm dữ liệu lớn: Tận dụng các thuật toán phân loại bán giám sát để giảm chi phí gán nhãn và nâng cao chất lượng phân loại trong các ứng dụng thực tế.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Học hỏi kỹ thuật suy diễn biến phân và xây dựng đồ thị láng giềng gần để tích hợp vào các hệ thống phân loại tự động.

Câu hỏi thường gặp

Phân phối von Mises Fisher (vMF) là gì và tại sao lại phù hợp với dữ liệu văn bản?
Phân phối vMF là phân phối xác suất trên hình cầu, mô hình hóa dữ liệu dạng vector chuẩn hóa có số chiều cao và thưa như tf-idf. Nó tương tự như đo độ tương đồng cosin, phù hợp với đặc điểm dữ liệu văn bản.
Tại sao cần sử dụng học bán giám sát thay vì học có giám sát truyền thống?
Vì dữ liệu có nhãn thường ít và tốn kém để thu thập, học bán giám sát tận dụng cả dữ liệu không nhãn sẵn có để cải thiện hiệu quả phân loại mà không cần nhiều nhãn.
Mô hình LapSSvMFs khác gì so với SSvMFs?
LapSSvMFs tích hợp cấu trúc hình học đa tạp của dữ liệu thông qua đồ thị láng giềng gần và chuẩn tắc Laplacian, giúp mã hóa mối quan hệ giữa các tài liệu, từ đó nâng cao độ chính xác phân loại.
Làm thế nào mô hình phân phối Watson hỗ trợ phân loại đa nhãn?
Phân phối Watson cho phép mô hình hóa dữ liệu có nhiều nhãn cùng lúc và xử lý tốt dữ liệu có nhiễu, giúp mô hình hóa mối quan hệ giữa chủ đề và nhãn hiệu quả hơn so với vMF.
Chiến lược điều chỉnh ngưỡng nhãn (threshold tuning) có vai trò gì trong phân loại đa nhãn?
Chiến lược này giúp xác định ngưỡng tối ưu cho từng nhãn dựa trên điểm F1, cải thiện độ chính xác phân loại bằng cách cân bằng giữa độ nhạy và độ đặc hiệu của từng nhãn.

Kết luận

Luận văn đã đề xuất thành công hai phương pháp phân loại văn bản bán giám sát mới: LapSSvMFs cho phân loại đơn nhãn và LapSSWatsons cho phân loại đa nhãn, tận dụng cấu trúc hình học đa tạp của dữ liệu.
Các phương pháp này vượt trội hơn các thuật toán truyền thống như SVM, LP và Labeled-LDA về độ chính xác và khả năng xử lý dữ liệu mới.
Phân phối Watson được chứng minh phù hợp hơn cho bài toán phân loại đa nhãn với dữ liệu có nhiễu và số chiều cao, thưa.
Việc tích hợp chuẩn tắc Laplacian giúp làm mềm hàm mục tiêu, tăng tính ổn định và hiệu quả của mô hình.
Các bước tiếp theo nên tập trung vào triển khai thực tế, mở rộng ứng dụng sang các loại dữ liệu khác và phát triển công cụ hỗ trợ tự động gán nhãn dữ liệu mới.

Hành động ngay hôm nay để áp dụng các phương pháp phân loại bán giám sát tiên tiến này vào dự án của bạn, nâng cao hiệu quả khai phá thông tin và xử lý dữ liệu văn bản!

Trích đoạn nội dung tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- NGÔ VĂN LINH PHÂN LOẠI VĂN BẢN SỬ DỤNG MÔ HÌNH XÁC SUẤT TRÊN ĐA TẠP VĂN BẢN Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : Hà Nội – Năm 2013 17061131808051000000 Ngô Văn Linh Phân loại văn bản Năm 2013 LỜI CAM ĐOAN Tôi - Ngô Văn Linh - xin cam kết Luận văn tốt nghiệp là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS. Nguyễn Thị Kim Anh, Viện CNTT-TT, trường Đại học Bách khoa Hà Nội. Các kết quả nêu trong Luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác Hà Nội, ngày 2 tháng 8 năm 2013 Học viên thực hiện luận văn Ngô Văn Linh 1 Ngô Văn Linh Phân loại văn bản Năm 2013 Lời cảm ơn Đầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo thuộc trường đại học Bách Khoa Hà Nội. Đặc biệt là các thầy giáo, cô giáo thuộc Viện Công nghệ Thông tin và Truyền Thông.

Chính các thầy cô giáo đã trang bị cho em những kiến thức quý báu trong thời gian em học tập và nghiên cứu tại trường. Đồng thời em cũng xin được gửi lời cảm ơn đặc biệt đến PGS.TS Nguyễn Kim Anh. Cô là người đã chỉ dẫn tận tình, cho em những kinh nghiệm quý báu để em có thể hoàn thành luận văn tốt nghiệp này. Cô luôn động viên, giúp đỡ em trong những thời điểm khó khăn bế tắc nhất.

Em xin gửi làm cảm ơn chân thành tới các thầy cô thuộc bộ môn Hệ thống thông tin đã hướng dẫn, chia sẽ kinh nghiệm, thảo luận giúp cho luận văn được hoàn thành. Em cũng xin gửi lời cảm ơn tới các bạn Nguyễn Thế Tâm, Nguyễn Khắc Tới, Lê Hồng Kỳ và các bạn KSTN CNTT K55, K57 đã giúp đỡ, đọc và góp ý em trong quá trình hoàn thành nội dung luận văn. Em xin gửi lời cảm ơn tới gia đình và bạn bè. Lời động viên tinh thần từ gia đình và bạn bè luôn là động lực để em tiến lên phía trước.

2 Ngô Văn Linh Phân loại văn bản Năm 2013 Tóm tắt nội dung Phân loại các tài liệu là một trong những kĩ thuật thiết yếu đối với vấn đề thu thập và khai phá thông tin văn bản. Trong thế giới thực, dữ liệu chưa được gán nhãn là thực sự sẵn có nhưng việc gán nhãn cho chúng thường là công việc đòi hỏi mất thời gian, tốn kém. Luận văn đề xuất hai phương pháp phân loại văn bản mới dựa trên phương pháp học bán giám sát với mô hình trộn của phân phối vMF và phân phối Watson trên cấu trúc hình học các văn bản, được gọi là LapSSvMFs và LapSSWatsons, đây là những thuật toán xét đến cấu trúc hình học của không gian tài liệu để khai thác cả dữ liệu có nhãn và dữ liệu không có nhãn cho bài toán phân loại. Đóng góp chính của luận văn là: 1.

Luận văn đề xuất phương pháp học bán giám sát với mô hình trộn của phân phối vMF (SSvMFs) và phân phối Watson (SSWatsons) để khai thác cả dữ liệu có nhãn và dữ liệu không nhãn cho bài toán phân loại. Luận văn đã phát triển thuật toán suy diễn biến phân cho xác suất hậu nghiệm của các biến ẩn. Luận văn đề xuất 2 phương pháp chuẩn tắc học SSvMFs và SSWatsons với cấu trúc hình học văn bản có mã hóa thông tin về cấu trúc hình học trong phương pháp suy diễn Bayesian. Thử nghiệm chỉ ra rằng các phương pháp đề xuất thu được kết quả tốt hơn các phương pháp khác trong phân loại dữ liệu đơn và đa nhãn.

3 Ngô Văn Linh Phân loại văn bản Năm 2013 Abstract Document classifications is essential to information retrieval and text mining. In real life, unlabeled data is readily available whereas labeled ones are often laborious, expensive and slow to obtain. This thesis proposes two novel document classification algorithms approach based on semi-supervised vMF mixture model and Watson mixture model on document manifold, called Laplacian regularized Semi-Supe- rvised vMF Mixture Model (LapSSvMFs) and Watson Mixture Model (LapSSWatsons), which explicitly considers the manifold structure of document space to exploit efficiently both labeled and unlabeled data for classification. Main contributions in this thesis are as follows: 1.

Thesis proposes Semi-Supervised vMF Mixture Model and Wat- son Mixture Model to exploit both labeled and unlabeled data for document classification. Thesis has developed a mean-field variational inference algorithm for the posterior distribution of the latent variables. Thesis proposes two new regularization frameworks to learn SSv- MFs and SSWatsons with document manifold structure for en- coding manifold information into variational Bayesian method. The experimental results show that proposed methods outperform the state-of-the-art methods applying to labeled and multilabeled text classifications.

4 Ngô Văn Linh Phân loại văn bản Năm 2013 Mục lục 1. Phân loại dữ liệu. Mô hình bài toán phân loại. Biểu diễn mẫu.

Tổ chức luận văn. PHÂN LOẠI ĐƠN NHÃN 18 2. Bài toán phân loại đơn nhãn. Phân phối von Mises Fisher (vMF).

Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMF (SSvMFs). Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMFs trên đa tạp văn bản (LapSSvMFs). Thử nghiệm và đánh giá. Tập dữ liệu thí nghiệm (Datasets).

Các thuật toán sử dụng để so sánh (baselines). Kết quả thí nghiệm. PHÂN LOẠI ĐA NHÃN 35 3. Bài toán phân loại đa nhãn.

Phân phối Watson. Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson (SSWatsons). 38 5 Ngô Văn Linh Phân loại văn bản Năm 2013 3. Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson trên đa tạp văn bản (LapSSWat- sons).

Thử nghiệm và đánh giá. Tập dữ liệu thí nghiệm. Các thuật toán so sánh. Kết quả thí nghiệm.

Ước lượng tham số với SSvMFs 55 B. Ước lượng tham số với SSWatsons 62 6 Ngô Văn Linh Phân loại văn bản Năm 2013 Danh sách các từ viết tắt và thuật ngữ TF-IDF Term Frequency-Inverse Document Frequency DF Document Frequency TC Term Contribution IG Information Gain LDA Latent Dirichlet Allocation PLSI Probabilistic Latent Semantic Indexing FSTM Fully Sparse Topic Model VB Variational Bayesian vMF von Mises Fisher Distribution LP Label Propagation SVM Support Vector Machine Labeled LDA Labeled Latent Dirichlet Allocation SSvMFs Semi-Supervised Mixture Model of vMF Distributions SSWatson Semi-Supervised Mixture Model of Watson Distributions LapSSvMFs SSvMFs on Document Manifold LapSSWatsons SSWatsons on Document Manifold 7 Ngô Văn Linh Phân loại văn bản Năm 2013 Danh sách hình vẽ 1. Các bước của bài toán phân loại. Mô hình đồ thị cho SSvMFs.

Kết quả thử nghiệm trên các tập dữ liệu classic, NG17-19, la1 and k1b. Mô hình đồ thị cho SSWatsons. Kết quả phân loại đa nhãn với các phương pháp LapSSWatsons, SSWatsons, LapSSvMFs, SSvMFs và LP trên 4 datasets: Recre- ation, Education, Health and Arts. Hiệu năng phân loại đa nhãn khi thay đổi số lượng chủ đề.

49 8 Ngô Văn Linh Phân loại văn bản Năm 2013 Danh sách bảng 1. Sơ lược về các tập dữ liệu (với mỗi tập dữ liệu: nd là tổng số lượng văn bản, nw là tổng số lượng từ, k tổng số lớp, nc là trung bình số lượng tài liệu trên một lớp, và độ cân bằng). Thống kê các tập dữ liệu yahoo: m, d, và N định nghĩa là số lượng nhãn, số lượng chiều (từ điển), tổng số lượng tài liệu trong tập dữ liệu sau khi tiền xử lý và “MaxNPI”/“MinNPI” định nghĩa là số lượng maximum/minimum các văn bản thuộc các nhãn lớp (positive instances for each label). Bảng tổng hợp hiệu năng của LapSSWatsons, Labeled-LDA và SVM sử dụng độ đo Micro-F1 và Macro-F1 trong 8 datasets.

46 9 Ngô Văn Linh Phân loại văn bản Năm 2013 1. Phân loại dữ liệu Một số khái niệm cơ bản • Mẫu (pattern): xn là một dữ liệu thuộc tập có N dữ liệu được sử dụng cho thuật toán phân loại. Mẫu thường được biểu diễn dưới dạng một vector d chiều xn = (x n,1, xn,2 ,. Cách biểu diễn này được gọi là biểu diễn vector dựa trên các mô hình lựa chọn đặc trưng và xác định trọng số.

Cụ thể hơn trong bài toán phân loại văn bản thì mẫu ở đây chính là các văn bản. • Mỗi thành phần x n,i được gọi là một đặc trưng (feature) hay thuộc tính (attribute) của x n. • d là số chiều của không gian biểu diễn mẫu. • Tập mẫu có nhãn (labeled data) XN = {x1 , x2 ,.

, xN }, (với N là kích thước tập mẫu) là tập dữ liệu có thông tin về nhãn. • Tập mẫu có không nhãn (unlabeled data) XM = {x1 , x 2 ,. , xM }, (với M là kích thước tập mẫu) là tập dữ liệu không có nhãn. , lK } hoặc đơn giản hơn là L = {1, 2, ., K }: là các nhãn sẽ được gán cho các mẫu để xác định các lớp mà mẫu thuộc vào, với K là số nhãn.

Mục đích của bài toán học có giám sát là học được bộ gán nhãn (vd: một phân lớp, một hàm mục tiêu ) phù hợp tập dữ liệu có nhãn (labeled data) và gán nhãn cho dữ liệu chưa có nhãn (unlabeled data). Trong bài toán học có giám sát, nhãn lớp ở đây có thể là giá trị liên tục (continous-value) hoặc giá trị rời rạc (discrete-value). Bài toán học một hàm mục tiêu có giá trị liên tục được gọi là bài toán hồi quy (regression), bài toán học hàm mục tiêu rời rạc được gọi là bài toán phân loại (classification). Luận văn tập trung vào bài toán học hàm phân loại.

Học không giám sát (unsupervised-learning) và bài toán phân cụm (clustering) Bài toán học không giám sát là bài toán tìm trong tập dữ liệu (không có thông tin nhãn) những đặc điểm như: nhóm, cấu trúc, mối quan hệ giữa các dữ liệu. Trong đó, bài toán phân cụm là một bài toán phổ biến của học không giám sát. Yêu cầu được đặt ra là tìm cách phân cụm tập dữ liệu mà mỗi dữ liệu thuộc trong nhóm (cụm) thường giống nhau (có quan hệ với nhau) và khác với dữ liệu thuộc nhóm khác. Học bán giám sát (semi-supervised learning) Khi tập dữ liệu có nhãn ít và khó thu thập, mà học có giám sát chỉ học ra bộ phân loại trên tập có nhãn, tập dữ liệu có nhãn không đủ đặc trưng cho mỗi nhãn, nên kết quả phân loại thường không thu được kết quả cao.

Khi đó, phương pháp học bán giám sát là phương pháp khai thác cả dữ liệu có nhãn và dữ liệu không nhãn thường được sử dụng thay thế, thu được kết quả tốt trên tập dữ liệu có nhãn ít.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân loại văn bản sử dụng mô hình xác suất trong công nghệ thông tin" cung cấp cái nhìn sâu sắc về cách mà các mô hình xác suất có thể được áp dụng để phân loại văn bản trong lĩnh vực công nghệ thông tin. Tác giả trình bày các phương pháp và kỹ thuật hiện đại, giúp người đọc hiểu rõ hơn về quy trình phân loại, từ đó nâng cao khả năng xử lý và phân tích dữ liệu văn bản.

Bên cạnh đó, tài liệu cũng chỉ ra những lợi ích mà việc áp dụng mô hình xác suất mang lại, như cải thiện độ chính xác trong việc phân loại và tiết kiệm thời gian trong quá trình xử lý thông tin. Để mở rộng kiến thức của bạn về các ứng dụng liên quan, bạn có thể tham khảo thêm các tài liệu như Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer, nơi bạn sẽ tìm thấy thông tin về các mô hình tiên tiến hơn trong phân loại văn bản.

Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin cũng sẽ giúp bạn hiểu rõ hơn về cách mà học sâu có thể cải thiện quy trình rút trích thông tin từ văn bản. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ khoa học máy tính kết hợp học sâu và mô hình ngôn ngữ để nhận dạng giọng nói tiếng việt, một ứng dụng thú vị khác của công nghệ trong việc xử lý ngôn ngữ tự nhiên. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về các khía cạnh khác nhau của công nghệ thông tin.

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#phân loại văn bản

#thuật toán phân loại

#mô hình xác suất

#phân tích dữ liệu văn bản

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ thông tin và ứng dụng

phân tích và xử lý văn bản

Mô hình xác suất trong học máy