Luận văn Topic Modeling và Ứng dụng: Nghiên cứu từ Đại học Bách Khoa Hà Nội

Luận văn về topic modeling: Khám phá mô hình chủ đề, ứng dụng thực tế trong phân tích văn bản, trích xuất thông tin và nhiều lĩnh vực khác.

Trường đại học

Hanoi University of Technology

Chuyên ngành

Information Technology

Người đăng

Ẩn danh

Thể loại

Thesis

2009

75
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

List of Phrases

List of Tables

List of Figures

1. Chapter 1: INTRODUCTION

2. Chapter 2: MODERN PROGRESS IN TOPIC MODELING

2.1. Linear algebra based models

2.2. Discussion and notes

3. Chapter 3: LINEAR ALGEBRA BASED TOPIC MODELS

3.1. Latent Semantic Analysis

3.2. Discussion

4. Chapter 4: PROBABILISTIC TOPIC MODELS

4.1. An overview

4.2. Probabilistic Latent Semantic Analysis

4.3. Latent Dirichlet Allocation

4.4. Hierarchical Latent Dirichlet Allocation

4.5. Bigram Topic Model

5. Chapter 5: SOME APPLICATIONS OF TOPIC MODELS

5.1. Classification

5.2. Analyzing research trends over times

5.3. Semantic representation

5.4. Information retrieval

5.5. Experimenting with some topic models

Tóm tắt

I. Topic Modeling Là Gì Tổng Quan và Ứng Dụng Cơ Bản

Topic Modeling là một phương pháp học máy không giám sát, cho phép khám phá các chủ đề ẩn trong một tập hợp lớn các văn bản. Nó giúp chúng ta hiểu được cấu trúc ngữ nghĩa của dữ liệu văn bản một cách tự động. Các thuật toán topic modeling phổ biến bao gồm Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), probabilistic Latent Semantic Analysis (pLSA)Non-negative Matrix Factorization (NMF). Phương pháp này hữu ích trong nhiều lĩnh vực như phân tích văn bản, khai phá văn bản, xử lý ngôn ngữ tự nhiên (NLP), information retrieval, và data mining. Theo Tian Quang Khoat, 'Topic Modeling and its applications' (2009), 'Topic Modeling has been being a very active area... how to automatically index the documents of a given corpus or database'. Nó không chỉ giúp tóm tắt thông tin mà còn cung cấp cái nhìn sâu sắc về xu hướng chủ đềmối quan hệ giữa các chủ đề. Trong bối cảnh big data, topic modeling trở thành một công cụ mạnh mẽ để xử lý và hiểu lượng lớn dữ liệu văn bản. Nó còn có tiềm năng trong sentiment analysis with topic modeling, giúp phân tích customer feedback analysissocial media analysis. Các thư viện topic modeling python như gensimscikit-learn cung cấp nhiều công cụ để thực hiện topic modeling một cách hiệu quả.

1.1. Khái niệm cơ bản về Mô hình Chủ đề Topic Modeling

Topic modeling là một kỹ thuật thống kê cho việc khám phá và tóm tắt các chủ đề chính trong một bộ sưu tập lớn các văn bản. Nó dựa trên giả định rằng mỗi văn bản là một hỗn hợp của các chủ đề, và mỗi chủ đề là một phân phối xác suất trên các từ. Các mô hình này giúp tự động xác định các chủ đề ẩn, giảm thiểu sự can thiệp của con người. Mục tiêu là tìm ra các chủ đề có ý nghĩa và liên quan đến nhau, đồng thời gán mỗi văn bản cho một hoặc nhiều chủ đề. Việc này đặc biệt hữu ích khi làm việc với dữ liệu văn bản lớn, nơi việc đọc và phân tích thủ công là không khả thi. Latent Dirichlet Allocation (LDA) là một trong những mô hình topic modeling phổ biến nhất. Nó sử dụng phân phối Dirichlet để mô hình hóa sự phân phối chủ đề trong mỗi văn bản và phân phối từ vựng trong mỗi chủ đề. Các mô hình khác như LSANMF sử dụng các phương pháp đại số tuyến tính để phân tách ma trận từ-văn bản thành các thành phần chủ đề.

1.2. Lợi ích và Ứng dụng thực tiễn của Topic Modeling trong NLP

Topic modeling mang lại nhiều lợi ích trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Nó giúp tổ chức và tóm tắt thông tin một cách hiệu quả, tìm kiếm thông tin chính xác hơn, và khám phá các xu hướng tiềm ẩn trong dữ liệu. Các ứng dụng topic modeling trải rộng trên nhiều lĩnh vực, bao gồm: Phân tích phản hồi khách hàng: Xác định các chủ đề chính được thảo luận trong các đánh giá sản phẩm hoặc dịch vụ. Phân tích truyền thông xã hội: Theo dõi các chủ đề thịnh hành và phân tích dư luận trên mạng xã hội. Nghiên cứu khoa học: Khám phá các chủ đề mới nổi và các xu hướng nghiên cứu trong các bài báo khoa học. Phân tích bằng sáng chế: Xác định các lĩnh vực công nghệ quan trọng và các đối thủ cạnh tranh trong ngành. Information Retrieval: Cải thiện khả năng tìm kiếm và gợi ý tài liệu liên quan. Ngoài ra, topic modeling còn có thể kết hợp với các kỹ thuật khác như sentiment analysis để cung cấp cái nhìn toàn diện hơn về dữ liệu văn bản.

II. Thách Thức và Vấn Đề Hiện Tại trong Nghiên Cứu Topic Modeling

Mặc dù topic modeling là một công cụ mạnh mẽ, nó vẫn đối mặt với nhiều thách thức. Một trong những thách thức lớn nhất là lựa chọn số lượng chủ đề phù hợp. Quá ít chủ đề có thể dẫn đến việc bỏ qua các khía cạnh quan trọng của dữ liệu, trong khi quá nhiều chủ đề có thể tạo ra các chủ đề trùng lặp hoặc không có ý nghĩa. Việc evaluation topic modeling cũng là một vấn đề phức tạp. Các metrics topic modeling như perplexitycoherence score được sử dụng để đánh giá chất lượng của các chủ đề, nhưng chúng không phải lúc nào cũng phản ánh chính xác sự hữu ích của các chủ đề đối với người dùng. Ngoài ra, việc xử lý các văn bản ngắn, chẳng hạn như các bài đăng trên mạng xã hội, cũng là một thách thức. Các văn bản ngắn thường chứa ít thông tin, khiến cho việc xác định chủ đề trở nên khó khăn hơn. Theo Tian Quang Khoat, việc tìm kiếm 'the most relevant documents in the semantic manner' vẫn còn là một thách thức lớn.

2.1. Các phương pháp Đánh giá và So sánh hiệu quả Topic Modeling

Việc evaluation topic modeling là rất quan trọng để đảm bảo chất lượng của các chủ đề được tạo ra. Các phương pháp đánh giá thường được chia thành hai loại: đánh giá nội tại và đánh giá ngoại tại. Đánh giá nội tại sử dụng các metrics topic modeling như perplexitycoherence score để đánh giá chất lượng của các chủ đề dựa trên dữ liệu đầu vào. Perplexity đo lường khả năng dự đoán của mô hình đối với dữ liệu mới, trong khi coherence score đo lường mức độ liên kết ngữ nghĩa giữa các từ trong mỗi chủ đề. Đánh giá ngoại tại đánh giá hiệu quả của topic modeling trong một nhiệm vụ cụ thể, chẳng hạn như phân loại văn bản hoặc information retrieval. Phương pháp này thường liên quan đến việc sử dụng các chủ đề được tạo ra để cải thiện hiệu suất của một hệ thống khác. Việc so sánh các mô hình topic modeling khác nhau cũng là một phần quan trọng của quá trình đánh giá. Các mô hình có thể được so sánh dựa trên các metrics đánh giá khác nhau và trên các tập dữ liệu khác nhau để xác định mô hình phù hợp nhất cho một nhiệm vụ cụ thể.

2.2. Vượt qua Giới hạn của Topic Modeling truyền thống Deep Learning

Các mô hình topic modeling truyền thống như LDALSA có một số hạn chế, chẳng hạn như giả định về tính độc lập của các từ và khả năng xử lý ngữ cảnh hạn chế. Deep learning for topic modeling đã nổi lên như một phương pháp hứa hẹn để vượt qua những hạn chế này. Neural topic models sử dụng mạng nơ-ron để học biểu diễn ngữ nghĩa của các văn bảnchủ đề, cho phép mô hình hóa các mối quan hệ phức tạp hơn giữa các từ và chủ đề. Một số mô hình neural topic models phổ biến bao gồm variational autoencoders (VAEs) và generative adversarial networks (GANs). Các mô hình này có thể tạo ra các chủ đề mạch lạc hơn và có ý nghĩa hơn so với các mô hình truyền thống. Ngoài ra, deep learning cũng có thể được sử dụng để cải thiện quá trình evaluation topic modeling. Các mạng nơ-ron có thể được huấn luyện để dự đoán các metrics đánh giá hoặc để đánh giá sự liên quan của các chủ đề đối với các nhiệm vụ cụ thể.

III. Hướng Dẫn Chi Tiết Cách Xây Dựng Mô Hình Topic Modeling Hiệu Quả

Xây dựng một mô hình topic modeling hiệu quả đòi hỏi một quy trình cẩn thận. Đầu tiên, cần phải thu thập và tiền xử lý dữ liệu văn bản. Quá trình tiền xử lý có thể bao gồm việc loại bỏ các từ dừng, chuyển đổi các từ về dạng gốc, và tạo ma trận từ-văn bản. Tiếp theo, cần chọn một thuật toán topic modeling phù hợp với dữ liệu và mục tiêu của dự án. LDA là một lựa chọn phổ biến, nhưng các thuật toán khác như LSANMF cũng có thể phù hợp tùy thuộc vào đặc điểm của dữ liệu. Sau khi chọn thuật toán, cần điều chỉnh các tham số của mô hình, chẳng hạn như số lượng chủ đề. Việc lựa chọn số lượng chủ đề phù hợp là rất quan trọng để đảm bảo chất lượng của các chủ đề được tạo ra. Cuối cùng, cần đánh giá và tinh chỉnh mô hình để cải thiện hiệu suất. Việc này có thể bao gồm việc sử dụng các metrics topic modeling để đánh giá chất lượng của các chủ đề và điều chỉnh các tham số của mô hình để cải thiện hiệu suất.

3.1. Các Bước Tiền Xử Lý Dữ Liệu Văn Bản cho Topic Modeling

Tiền xử lý dữ liệu văn bản là một bước quan trọng để đảm bảo chất lượng của các chủ đề được tạo ra bởi topic modeling. Các bước tiền xử lý thường bao gồm: Loại bỏ các ký tự đặc biệt và dấu câu: Loại bỏ các ký tự không cần thiết để tập trung vào các từ có ý nghĩa. Chuyển đổi tất cả các từ về chữ thường: Đảm bảo rằng các từ giống nhau (ví dụ: 'Word' và 'word') được xử lý như nhau. Loại bỏ các từ dừng: Loại bỏ các từ phổ biến không mang nhiều ý nghĩa, chẳng hạn như 'the', 'a', 'is'. Stemming hoặc Lemmatization: Chuyển đổi các từ về dạng gốc của chúng (ví dụ: 'running' thành 'run'). Tạo ma trận từ-văn bản: Biểu diễn dữ liệu văn bản dưới dạng ma trận, trong đó mỗi hàng đại diện cho một từ và mỗi cột đại diện cho một văn bản. Ma trận này thường được sử dụng làm đầu vào cho các thuật toán topic modeling. Sau khi tiền xử lý dữ liệu, cần kiểm tra lại dữ liệu để đảm bảo rằng nó đã được chuẩn bị đúng cách và sẵn sàng cho topic modeling.

3.2. Lựa chọn Tham Số và Tối ưu hóa Mô hình Topic Modeling

Việc lựa chọn tham số và tối ưu hóa mô hình là rất quan trọng để đạt được kết quả tốt nhất từ topic modeling. Một trong những tham số quan trọng nhất là số lượng chủ đề. Số lượng chủ đề phù hợp phụ thuộc vào dữ liệu và mục tiêu của dự án. Các phương pháp để lựa chọn số lượng chủ đề bao gồm việc sử dụng các metrics topic modeling như perplexitycoherence score, cũng như việc đánh giá các chủ đề một cách thủ công. Ngoài ra, cần điều chỉnh các tham số khác của mô hình, chẳng hạn như các tham số của phân phối Dirichlet trong LDA. Các phương pháp tối ưu hóa mô hình bao gồm việc sử dụng các thuật toán tối ưu hóa như Expectation-Maximization (EM) hoặc Gibbs sampling. Sau khi tối ưu hóa mô hình, cần đánh giá lại mô hình để đảm bảo rằng nó đã được cải thiện.

IV. Ứng Dụng Thực Tế Top Các Bài Toán Giải Quyết Được Nhờ Topic Modeling

Ứng dụng topic modeling rất đa dạng và trải rộng trên nhiều lĩnh vực. Trong phân tích văn bản, nó được sử dụng để tóm tắt các chủ đề chính trong một tập hợp lớn các văn bản. Trong khai phá văn bản, nó được sử dụng để khám phá các xu hướng tiềm ẩn và các mối quan hệ giữa các chủ đề. Trong xử lý ngôn ngữ tự nhiên (NLP), nó được sử dụng để cải thiện hiệu suất của các nhiệm vụ như phân loại văn bảninformation retrieval. Trong lĩnh vực social media analysis, topic modeling giúp phân tích dư luận và theo dõi các xu hướng chủ đề. Trong customer feedback analysis, nó giúp xác định các chủ đề chính được thảo luận trong các đánh giá sản phẩm hoặc dịch vụ. Trong patent analysis, nó giúp xác định các lĩnh vực công nghệ quan trọng và các đối thủ cạnh tranh trong ngành. Theo Tian Quang Khoat, 'Finding and ranking are usually important tasks in IR' và topic modeling có thể hỗ trợ các tác vụ này hiệu quả.

4.1. Topic Modeling trong Phân tích Phản Hồi Khách Hàng Customer Feedback

Topic modeling là một công cụ mạnh mẽ để phân tích phản hồi khách hàng. Nó giúp xác định các chủ đề chính được thảo luận trong các đánh giá sản phẩm hoặc dịch vụ, cho phép các doanh nghiệp hiểu rõ hơn về nhu cầu và mong muốn của khách hàng. Bằng cách phân tích các chủ đề được đề cập trong phản hồi khách hàng, các doanh nghiệp có thể xác định các vấn đề cần giải quyết, cải thiện sản phẩm hoặc dịch vụ, và tăng cường sự hài lòng của khách hàng. Ví dụ, một công ty có thể sử dụng topic modeling để phân tích các đánh giá sản phẩm và xác định rằng khách hàng đang phàn nàn về một tính năng cụ thể. Công ty có thể sử dụng thông tin này để cải thiện tính năng đó và tăng cường sự hài lòng của khách hàng.

4.2. Sử dụng Topic Modeling để Phân tích Xu hướng Nghiên cứu Khoa học

Topic modeling cũng có thể được sử dụng để phân tích xu hướng nghiên cứu khoa học. Bằng cách phân tích các chủ đề được đề cập trong các bài báo khoa học, các nhà nghiên cứu có thể xác định các lĩnh vực nghiên cứu đang phát triển và các xu hướng mới nổi. Điều này có thể giúp các nhà nghiên cứu tập trung vào các lĩnh vực quan trọng nhất và hợp tác với các nhà nghiên cứu khác trong các lĩnh vực liên quan. Ví dụ, một nhà nghiên cứu có thể sử dụng topic modeling để phân tích các bài báo khoa học trong lĩnh vực học máy và xác định rằng deep learning là một lĩnh vực đang phát triển nhanh chóng. Nhà nghiên cứu có thể sử dụng thông tin này để tập trung vào deep learning trong nghiên cứu của mình.

4.3. Ứng dụng Topic Modeling trong phân tích bằng sáng chế patent analysis

Topic modeling có thể được áp dụng để phân tích bằng sáng chế, giúp xác định các lĩnh vực công nghệ quan trọng và các đối thủ cạnh tranh trong ngành. Bằng cách phân tích các chủ đề được đề cập trong các bằng sáng chế, các công ty có thể hiểu rõ hơn về cảnh quan công nghệ và xác định các cơ hội đầu tư và hợp tác tiềm năng. Ví dụ, một công ty có thể sử dụng topic modeling để phân tích các bằng sáng chế trong lĩnh vực năng lượng tái tạo và xác định rằng pin mặt trời là một lĩnh vực đang phát triển mạnh mẽ. Công ty có thể sử dụng thông tin này để đầu tư vào nghiên cứu và phát triển pin mặt trời hoặc hợp tác với các công ty khác trong lĩnh vực này.

V. Top Các Thư Viện và Công Cụ Hỗ Trợ Topic Modeling Hiệu Quả Nhất

Có nhiều thư viện và công cụ hỗ trợ topic modeling có sẵn, mỗi thư viện và công cụ có những ưu điểm và nhược điểm riêng. Gensim là một thư viện topic modeling python phổ biến, cung cấp nhiều thuật toán topic modeling và các công cụ tiền xử lý dữ liệu. Scikit-learn cũng cung cấp một số thuật toán topic modeling, nhưng nó chủ yếu được sử dụng cho các nhiệm vụ machine learning khác. Mallet là một thư viện Java mạnh mẽ, được tối ưu hóa cho topic modeling trên các tập dữ liệu lớn. tmtoolkit là một thư viện topic modeling R, cung cấp nhiều công cụ để phân tích và trực quan hóa các chủ đề. pyLDAvis là một công cụ topic modeling visualization, cho phép trực quan hóa các chủ đề và mối quan hệ giữa chúng.

5.1. Sử dụng Gensim cho Topic Modeling Hướng dẫn từng bước

Gensim là một thư viện topic modeling python mạnh mẽ và dễ sử dụng. Để sử dụng Gensim cho topic modeling, cần thực hiện các bước sau: Cài đặt Gensim: Sử dụng pip để cài đặt Gensim. Chuẩn bị dữ liệu: Tiền xử lý dữ liệu văn bản và tạo ma trận từ-văn bản. Huấn luyện mô hình: Sử dụng thuật toán LDA hoặc một thuật toán topic modeling khác để huấn luyện mô hình. Đánh giá mô hình: Sử dụng các metrics topic modeling như perplexitycoherence score để đánh giá chất lượng của các chủ đề. Trực quan hóa kết quả: Sử dụng pyLDAvis hoặc một công cụ khác để trực quan hóa các chủ đề và mối quan hệ giữa chúng. Gensim cung cấp nhiều tài liệu và ví dụ để giúp người dùng bắt đầu với topic modeling.

5.2. Khám phá PyLDAvis Công cụ Trực Quan Hóa Topic Modeling

pyLDAvis là một công cụ topic modeling visualization mạnh mẽ, cho phép trực quan hóa các chủ đề và mối quan hệ giữa chúng. pyLDAvis sử dụng một biểu đồ tương tác để hiển thị các chủ đề và các từ liên quan đến chúng. Người dùng có thể sử dụng biểu đồ này để khám phá các chủ đề, xác định các chủ đề trùng lặp, và đánh giá chất lượng của các chủ đề. pyLDAvis cũng cung cấp các công cụ để so sánh các mô hình topic modeling khác nhau và để xác định các chủ đề quan trọng nhất trong dữ liệu. pyLDAvis là một công cụ hữu ích cho việc hiểu và giải thích các kết quả topic modeling.

VI. Tương Lai của Topic Modeling Xu Hướng và Nghiên Cứu Tiềm Năng

Tương lai của topic modeling hứa hẹn nhiều phát triển thú vị. Một trong những xu hướng quan trọng là việc tích hợp deep learning for topic modeling. Neural topic models có khả năng vượt qua những hạn chế của các mô hình truyền thống và tạo ra các chủ đề mạch lạc hơn và có ý nghĩa hơn. Một xu hướng khác là việc phát triển các mô hình topic modeling động, cho phép theo dõi sự tiến hóa của các chủ đề theo thời gian (topic evolution, topic trend analysis). Những mô hình này có thể được sử dụng để phân tích các xu hướng xã hội, theo dõi sự thay đổi trong ý kiến công chúng, và dự đoán các sự kiện tương lai. Ngoài ra, việc phát triển các phương pháp evaluation topic modeling tốt hơn cũng là một lĩnh vực nghiên cứu quan trọng.

6.1. Topic Evolution và Phân Tích Xu Hướng Chủ Đề theo Thời Gian

Topic evolution và phân tích xu hướng chủ đề theo thời gian là một lĩnh vực nghiên cứu quan trọng trong topic modeling. Các mô hình topic modeling động cho phép theo dõi sự tiến hóa của các chủ đề theo thời gian, cho phép các nhà nghiên cứu hiểu rõ hơn về cách các chủ đề thay đổi và tương tác với nhau. Các mô hình này có thể được sử dụng để phân tích các xu hướng xã hội, theo dõi sự thay đổi trong ý kiến công chúng, và dự đoán các sự kiện tương lai. Ví dụ, một nhà nghiên cứu có thể sử dụng topic modeling động để theo dõi sự tiến hóa của các chủ đề liên quan đến biến đổi khí hậu và xác định các lĩnh vực nghiên cứu và hành động quan trọng nhất.

6.2. Bertopic Giải pháp Topic Modeling dựa trên Biến Đổi Ngôn Ngữ Transformers

BERTopic là một phương pháp topic modeling mới nổi dựa trên các mô hình biến đổi ngôn ngữ (transformers). Nó tận dụng các mô hình ngôn ngữ tiền huấn luyện như BERT để tạo ra các biểu diễn ngữ nghĩa của các văn bản và sau đó sử dụng các kỹ thuật phân cụm để nhóm các văn bản có ý nghĩa tương tự thành các chủ đề. BERTopic có khả năng tạo ra các chủ đề mạch lạc và có ý nghĩa hơn so với các mô hình truyền thống, đặc biệt là trong các tập dữ liệu lớn và phức tạp. Ngoài ra, BERTopic cũng cung cấp các công cụ để trực quan hóa các chủ đề và để xác định các văn bản quan trọng nhất trong mỗi chủ đề.

11/09/2025

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF TECHNOLOGY TIAN QUANG KIIOAT TOPIC MODELING AND ITS APPLICATIONS MAJOR: INFORMATION TECHNOLOGY ‘THESIS FOR THE DEGREE OF MASTER OF SCIENCE SUPERVISOR: Prof, HO TUBAQ HANOI, 2009 MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF TECHNOLOGY TIESIS FOR TIME DEGREE OF MASTER OF SCIENCE MAJOR: INFORMATION TECHNOLOGY TOPIC MODELING AND ITS APPLICATIONS TILAK QUANG EIIOAT HANOT, 2009 MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF TECHNOLOGY THIÂN QUANG KHOÁT TOPIC MODELING AND ITS APPLICATIONS MAJOR: INFORMATION TECHNOLOGY THESIS FOR THE DEGREE OF MASTER OF SCIENCE SUPERVISOR: Prof. HOTU BAO TIANGI, 2009 LIST OF PHRASES Abbreviation Full name AI Artificial Intelligence ART Author-Recipient-Topic Model AT Author-Topie Model BTM Bigram Topie Model cDTM Continuous Dynamic Topic Model CTM Correlated Topic Model dDTM Discrete Dynamic Topic Model DELSA Dirichlet Enhanced LSA DiscLDA Discriminative LDA EM Expectation Maximization HDP Hierarchical Dirichlet Processes HDP-RE Hierarchical Dirichlet Processes with random effects hLDA. Hierarchical Latent Dirichlet Allocation HMM-LDA. Hidden Markov Model LDA HTMM Hidden Topie Markov Model IG-LDA Incremental Gibbs LDA IR Information Retrieval LDA Latent Dirichlet Allocation LSA Latent Semantic Analysis MBTM Memory Bounded Topic Model MCMC.

Markov Chain Monte Carlo nCRP Nested Chinese restaurant process. NetSTM Network Regularized Statistical Topic Model PF-LDA Particle Filter LDA pLSA Probabilistic Latent Semantic Analysis PLSV Probabilistic Latent Semantic Visualization sLDA Supervised Latent Dirichlet Allocation Spatial LDA Spatial Latent Dirichlet Allocation STM Syntactic Topic Model SVD Singular Value Decomposition TEM Tempered EM algorithm ies ACKNOWLEDGEMENT First and foremost, I would like to present my gratitude to my supervisor, Professor [lo ‘tu Bao, for introducing me to this attractive research area, for his willingness to promptly suppor! me to complete the thesis, and for mary invaluable advices from the starting point of my thesis. 1 would like to sincerely thank Nguyen Phuong Thai and Nguyen Cam ‘fu for sharing some data sets and for pointing me to some sources on the network where I can find the implementations of some topic models Thanks are also to Phung Trung Nghia for spending his valuable days on helping me to load the data for my experiments. Finally, I would like to thank David Bloi and Thomas Griffiths for their insightful discussions on ‘fopic Modeling and for providing the C implementation of one of their Lopic madels.

ies ACKNOWLEDGEMENT First and foremost, I would like to present my gratitude to my supervisor, Professor [lo ‘tu Bao, for introducing me to this attractive research area, for his willingness to promptly suppor! me to complete the thesis, and for mary invaluable advices from the starting point of my thesis. 1 would like to sincerely thank Nguyen Phuong Thai and Nguyen Cam ‘fu for sharing some data sets and for pointing me to some sources on the network where I can find the implementations of some topic models Thanks are also to Phung Trung Nghia for spending his valuable days on helping me to load the data for my experiments. Finally, I would like to thank David Bloi and Thomas Griffiths for their insightful discussions on ‘fopic Modeling and for providing the C implementation of one of their Lopic madels. LIST OF TABLES Table 2.

Some sclcctcd Probabilistic topic modc]a. DiselL2A for Classifieatien. Comparison of query likelihood retrieval (QL.), cluster-based retrieval (CBDM) and retrieval with the LDA-based document models (LBIM). The most probable topics from NIPS and Vnlixpress collections.

Finding the lopics ofa document. Finding topics of a report. Selected topics found by IMM-LDA Table 5. Classes of function words found by HMM-LDA.

LIST OF TABLES Table 2. Some sclcctcd Probabilistic topic modc]a. DiselL2A for Classifieatien. Comparison of query likelihood retrieval (QL.), cluster-based retrieval (CBDM) and retrieval with the LDA-based document models (LBIM).

The most probable topics from NIPS and Vnlixpress collections. Finding the lopics ofa document. Finding topics of a report. Selected topics found by IMM-LDA Table 5.

Classes of function words found by HMM-LDA. LIST OF TABLES Table 2. Some sclcctcd Probabilistic topic modc]a. DiselL2A for Classifieatien.

Comparison of query likelihood retrieval (QL.), cluster-based retrieval (CBDM) and retrieval with the LDA-based document models (LBIM). The most probable topics from NIPS and Vnlixpress collections. Finding the lopics ofa document. Finding topics of a report.

Selected topics found by IMM-LDA Table 5. Classes of function words found by HMM-LDA. PLEDGE T promise that the content of Uns thesis was written solely by me. Any of the contont was written based on the reliable references such as published papers in distinguished international conferences and joumals, and books published by widely-known publishers.

Many parts and discussions of the thesis are new, not previously published by any other authors, Chapter 1 INTRODUGTION Information Retrieval (TR) has been being a very active area and has a long history. of TR oflen assaciates wilh increasingly huge corpora such as collections of Web pages, collections of scientific papers over years. Therefore, it poses many hard questions thal have received much allention from researchers, One of the most famous questions that sccm to be never ended is how to automatically index the documents of a given corpus or database. Another substantial question is haw to find the most relevant documents in the semantic manner from the Internet or a given corpus to a given user’s query.

Finding and ranking are usually important tasks in IR. Many tools for supporting these tasks are available now, for example, Google and Yahoo. Ilowever most of these available tocls are only able to search for documents via words mulching instead of semantic matching, Semantics ix well-known to be complicated, so finding and ranking documents in the presence of semantics are extremely hard. Despite of this fact, these lasks however potentially have many important applications, which in my opinion are future web service technologies, for instance, semantic searching, semantic advertising, academic recommending, and intelligent.

controlhng Scmanlics is 4. hol topic not. only in the TR community bul alse i the Artificial Intelligence (AL) community. in particular, in the field of knowledge representation it is crucial to know how to effectively represent natural knowledge gathered from the environment around so thal reusing it or imlegrating new knowledge are sy and efficient, ‘To obtain a good knowledge database, semantics cannot be absent since any word has its own meanings and has semantic relations to some other words.

As we know, a word may have multiple senses and play different roles in LIST OF FIGURES Figure 1.1 Some approaches to representing knowledge.1 Á general view on Topic Modeling.2 Probabilistic lopie models in view of the bag-of-words assumption.3 Viewing generative models in terms of Topics 17 Figure 2.A parametric view on generative models.1 A corpus consisting of § documents 23 Figure 3.2 ‘Au illustration of finding topics by LSA using cosine.3 A geometric illustration of representing items in 2-dimensional space.4 Finding relevant documents using QR-based method 34 Figure 4.1 Graphical model representation of pL8A.2 A geometric interpretation ofpLSA.3 Graphical model representation of LDA 46 Vigure 4.4 A geometric Interpretation o£ LÙA.5 A variational inference algorithm for LDA.6 A goumetric illustration of documeril generation process Figure 4.7 An example o£ hierarchy of topios [#].8 A graphical model representation of BTM 61 Figure 5.1 LDA lor Classification.2 ‘the dynamics of the three hottest and three coldest topics.3 Evolution of topes through decades 66 LIST OF FIGURES Figure 1.1 Some approaches to representing knowledge.1 Á general view on Topic Modeling.2 Probabilistic lopie models in view of the bag-of-words assumption.3 Viewing generative models in terms of Topics 17 Figure 2.A parametric view on generative models.1 A corpus consisting of § documents 23 Figure 3.2 ‘Au illustration of finding topics by LSA using cosine.3 A geometric illustration of representing items in 2-dimensional space.4 Finding relevant documents using QR-based method 34 Figure 4.1 Graphical model representation of pL8A.2 A geometric interpretation ofpLSA.3 Graphical model representation of LDA 46 Vigure 4.4 A geometric Interpretation o£ LÙA.5 A variational inference algorithm for LDA.6 A goumetric illustration of documeril generation process Figure 4.7 An example o£ hierarchy of topios [#].8 A graphical model representation of BTM 61 Figure 5.1 LDA lor Classification.2 ‘the dynamics of the three hottest and three coldest topics.3 Evolution of topes through decades 66 PLEDGE T promise that the content of Uns thesis was written solely by me. Any of the contont was written based on the reliable references such as published papers in distinguished international conferences and joumals, and books published by widely-known publishers. Many parts and discussions of the thesis are new, not previously published by any other authors, LIST OF PHRASES Abbreviation Full name AI Artificial Intelligence ART Author-Recipient-Topic Model AT Author-Topie Model BTM Bigram Topie Model cDTM Continuous Dynamic Topic Model CTM Correlated Topic Model dDTM Discrete Dynamic Topic Model DELSA Dirichlet Enhanced LSA DiscLDA Discriminative LDA EM Expectation Maximization HDP Hierarchical Dirichlet Processes HDP-RE Hierarchical Dirichlet Processes with random effects hLDA. Hierarchical Latent Dirichlet Allocation HMM-LDA.

Hidden Markov Model LDA HTMM Hidden Topie Markov Model IG-LDA Incremental Gibbs LDA IR Information Retrieval LDA Latent Dirichlet Allocation LSA Latent Semantic Analysis MBTM Memory Bounded Topic Model MCMC. Markov Chain Monte Carlo nCRP Nested Chinese restaurant process. NetSTM Network Regularized Statistical Topic Model PF-LDA Particle Filter LDA pLSA Probabilistic Latent Semantic Analysis PLSV Probabilistic Latent Semantic Visualization sLDA Supervised Latent Dirichlet Allocation Spatial LDA Spatial Latent Dirichlet Allocation STM Syntactic Topic Model SVD Singular Value Decomposition TEM Tempered EM algorithm LIST OF TABLES Table 2. Some sclcctcd Probabilistic topic modc]a.

DiselL2A for Classifieatien. Comparison of query likelihood retrieval (QL.), cluster-based retrieval (CBDM) and retrieval with the LDA-based document models (LBIM). The most probable topics from NIPS and Vnlixpress collections. Finding the lopics ofa document.

Finding topics of a report. Selected topics found by IMM-LDA Table 5. Classes of function words found by HMM-LDA. LIST OF FIGURES Figure 1.1 Some approaches to representing knowledge.1 Á general view on Topic Modeling.2 Probabilistic lopie models in view of the bag-of-words assumption.3 Viewing generative models in terms of Topics 17 Figure 2.A parametric view on generative models.1 A corpus consisting of § documents 23 Figure 3.2 ‘Au illustration of finding topics by LSA using cosine.3 A geometric illustration of representing items in 2-dimensional space.4 Finding relevant documents using QR-based method 34 Figure 4.1 Graphical model representation of pL8A.2 A geometric interpretation ofpLSA.3 Graphical model representation of LDA 46 Vigure 4.4 A geometric Interpretation o£ LÙA.5 A variational inference algorithm for LDA.6 A goumetric illustration of documeril generation process Figure 4.7 An example o£ hierarchy of topios [#].8 A graphical model representation of BTM 61 Figure 5.1 LDA lor Classification.2 ‘the dynamics of the three hottest and three coldest topics.3 Evolution of topes through decades 66 LIST OF PHRASES Abbreviation Full name AI Artificial Intelligence ART Author-Recipient-Topic Model AT Author-Topie Model BTM Bigram Topie Model cDTM Continuous Dynamic Topic Model CTM Correlated Topic Model dDTM Discrete Dynamic Topic Model DELSA Dirichlet Enhanced LSA DiscLDA Discriminative LDA EM Expectation Maximization HDP Hierarchical Dirichlet Processes HDP-RE Hierarchical Dirichlet Processes with random effects hLDA.

Hierarchical Latent Dirichlet Allocation HMM-LDA. Hidden Markov Model LDA HTMM Hidden Topie Markov Model IG-LDA Incremental Gibbs LDA IR Information Retrieval LDA Latent Dirichlet Allocation LSA Latent Semantic Analysis MBTM Memory Bounded Topic Model MCMC. Markov Chain Monte Carlo nCRP Nested Chinese restaurant process. NetSTM Network Regularized Statistical Topic Model PF-LDA Particle Filter LDA pLSA Probabilistic Latent Semantic Analysis PLSV Probabilistic Latent Semantic Visualization sLDA Supervised Latent Dirichlet Allocation Spatial LDA Spatial Latent Dirichlet Allocation STM Syntactic Topic Model SVD Singular Value Decomposition TEM Tempered EM algorithm TABLE OF CONTENTS List of Phrases List.

of Tables List of Figures. seissessesisnessierestsnetains stasis Chapter 1 INTRODUCTION. Chapler 2 MODERN PROGRESS IN TOPIC MODELING 2. Lincar algcbra bascđ modkls.

243 Discussion and notes Chapter 3 LINEAR ALGEBRA BASED TOPIC MODELS.2 Lalent Semantic Analysis, 3.ccc~ec 3⁄4 Discussion. Chapter 4 PROBABILISTIC ‘TOPIC MODELS 41 An overview.2 Probabilistic Latent Semantic Analysis. 43% Latent Dirichlet Allocation 44 Hicrarchical Latent Dizichict Allocation, 4.5 Bigram Togic Moáil.s 2 Chapler 5 SOME APPLICATIONS OF TOPIC MODELS 1 Classification. sees uw 2 Analyzing research trends over times.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ