Luận văn tốt nghiệp: Gom cụm văn bản trong khoa học máy tính dựa trên mô hình phát hiện chủ đề

Trường đại học

Đại học Bách Khoa Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn tốt nghiệp

2021

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

1. Chương 1: Giới thiệu đề tài

1.1. Đặt vấn đề

1.2. Mục tiêu, đối tượng và phạm vi giới hạn của đề tài

1.2.1. Mục tiêu

1.2.2. Đối tượng và phạm vi giới hạn của đề tài

1.2.3. Phạm vi giới hạn của đề tài

2. Chương 2: Tổng quan về mô hình chủ đề

2.1. Tổng quan về chủ đề

2.2. Tổng quan về mô hình chủ đề

2.2.1. Khái niệm về mô hình chủ đề

2.2.2. Lịch sử của mô hình chủ đề

2.2.3. Một số mô hình chủ đề chính

2.2.3.1. Mô hình LSA

2.2.3.2. Mô hình pLSA

2.2.3.3. Mô hình LDA

2.2.3.4. Mô hình CTM

2.2.3.5. Một số mô hình khác

2.2.4. Mô hình LDA

2.2.5. Tổng kết chương 2

2.3. Tổng quan về gom cụm

2.3.1. Tổng quan về gom cụm

2.3.2. Phương pháp gom cụm dữ liệu với Kmeans++

2.3.3. Tổng kết chương 3

4. Chương 4: Phương pháp khai thác ngữ nghĩa trong văn bản

4.1. Tổng quan về Sentence Embedding

4.2. Mô hình BERT

4.2.1. Sự ra đời của BERT

4.2.3. Kết quả BERT đạt được

4.3. Khai thác ngữ nghĩa văn bản tiếng Việt với PhoBERT

4.3.1. Giới thiệu về RoBERTa

4.3.2. PhoBERT với văn bản tiếng Việt

4.4. Tổng kết chương 4

5. Chương 5: Đề xuất mô hình gom cụm văn bản dựa trên mô hình chủ đề kết hợp với véc-tơ ngữ nghĩa của văn bản

5.1. Đầu vào dữ liệu

5.1.1. Mô phỏng giản lược

5.1.2. Ví dụ thực tế với bộ dữ liệu

5.2. Tổng quan về giảm chiều dữ liệu

5.3. Khối Autoencoder trong mô hình đề xuất

5.4. Mô phỏng giản lược

5.5. Ví dụ thực tế với bộ dữ liệu

5.6. Tổng kết chương 5

6. Chương 6: Đánh giá thực nghiệm mô hình gom cụm văn bản dựa trên mô hình chủ đề đã đề xuất

6.1. Thu thập dữ liệu

6.1.1. Nguồn dữ liệu

6.1.2. Quá trình thu thập dữ liệu

6.1.3. Kết quả thu thập dữ liệu

6.2. Tiền xử lý dữ liệu

6.3. Xây dựng các mô hình so sánh

6.4. Đánh giá khách quan, chủ quan và so sánh các mô hình

6.4.1. Độ đo coherence và silhouette

6.5. Kết quả từ các tập dữ liệu

6.5.1. Tập dữ liệu [I]

6.5.2. Tập dữ liệu [II]

6.6. Đánh giá ưu, nhược điểm của mô hình đề xuất

6.7. Tổng kết chương 6

7. Chương 7: Kết luận

Danh sách bảng

Danh sách hình vẽ

Danh sách thuật ngữ

Tóm tắt

I. Giới thiệu về gom cụm văn bản

Trong bối cảnh hiện nay, với sự bùng nổ thông tin từ nhiều nguồn khác nhau, việc gom cụm văn bản trở thành một nhiệm vụ quan trọng trong khoa học máy tính. Luận văn này nhằm tìm hiểu và phát triển một mô hình phát hiện chủ đề để phân tích và gom cụm dữ liệu văn bản. Phân tích văn bản không chỉ giúp nhận diện các chủ đề chính mà còn hỗ trợ trong việc khai thác dữ liệu và đưa ra các quyết định chính xác hơn. Các công nghệ hiện đại như xử lý ngôn ngữ tự nhiên và khai thác dữ liệu đã được áp dụng để giải quyết bài toán này, từ đó tạo ra những mô hình có khả năng phân tích mạnh mẽ hơn, như mô hình LDA và BERT. Mục tiêu chính của nghiên cứu là phát triển một mô hình gom cụm có thể tối ưu hóa việc phân loại văn bản dựa trên các chủ đề được xác định.

1.1. Tầm quan trọng của việc gom cụm văn bản

Việc gom cụm văn bản là rất cần thiết trong việc phân tích dữ liệu lớn, đặc biệt là trong bối cảnh các thông tin từ mạng xã hội, diễn đàn, và các trang báo điện tử. Các phương pháp truyền thống như K-means đã được sử dụng rộng rãi, nhưng cần có những cải tiến để xử lý tốt hơn các đặc trưng ngữ nghĩa của văn bản. Mô hình phát hiện chủ đề giúp xác định các chủ đề chính từ một tập hợp văn bản, từ đó tạo ra các cụm dữ liệu có liên quan. Sự kết hợp giữa các phương pháp học máy và mô hình ngữ nghĩa hiện đại như BERT và PhoBERT đã mở ra những hướng đi mới trong việc cải thiện độ chính xác và hiệu quả của các mô hình gom cụm. Kết quả thực nghiệm cho thấy mô hình đề xuất có thể đạt được độ chính xác cao hơn so với các phương pháp truyền thống.

II. Tổng quan về mô hình phát hiện chủ đề

Mô hình phát hiện chủ đề là một phần quan trọng trong phân tích văn bản. Mô hình này giúp xác định các chủ đề chính trong một tập dữ liệu lớn, từ đó hỗ trợ cho việc khai thác dữ liệu hiệu quả hơn. Mô hình LDA (Latent Dirichlet Allocation) là một trong những mô hình phổ biến nhất trong lĩnh vực này. LDA giúp phân loại văn bản dựa trên các chủ đề tiềm ẩn và đã được áp dụng rộng rãi trong nhiều nghiên cứu. Bên cạnh đó, các mô hình khác như pLSA và CTM cũng được đề cập trong nghiên cứu này. Một điểm quan trọng là sự kết hợp giữa các mô hình phát hiện chủ đề với các kỹ thuật học máy hiện đại có thể mang lại những kết quả khả quan, giúp cải thiện khả năng phân loại văn bản và xác định các chủ đề nổi bật hơn.

2.1. Các mô hình chủ đề chính

Trong nghiên cứu này, một số mô hình chủ đề chính được phân tích bao gồm LDA, pLSA và CTM. Mô hình LDA được coi là tiêu chuẩn trong phân tích chủ đề, cho phép xác định các chủ đề tiềm ẩn trong một tập hợp văn bản. Mô hình pLSA, mặc dù không phổ biến như LDA, cũng cung cấp những hiểu biết sâu sắc về cấu trúc chủ đề trong văn bản. CTM (Correlated Topic Model) là một mô hình tiên tiến hơn, cho phép xác định mối quan hệ giữa các chủ đề. Việc hiểu rõ các mô hình này không chỉ giúp trong việc phát hiện chủ đề mà còn mở ra các khả năng mới trong việc phân tích và khai thác dữ liệu văn bản.

III. Phương pháp khai thác ngữ nghĩa trong văn bản

Phương pháp khai thác ngữ nghĩa trong văn bản rất quan trọng để hiểu rõ hơn về ngữ cảnh và ý nghĩa của các từ trong văn bản. Mô hình BERT (Bidirectional Encoder Representations from Transformers) đã cách mạng hóa cách thức mà các mô hình ngôn ngữ được xây dựng. BERT cho phép tạo ra các vectơ ngữ nghĩa cho câu, giúp cải thiện đáng kể khả năng phân loại và gom cụm văn bản. PhoBERT, một phiên bản của BERT được tối ưu hóa cho tiếng Việt, cũng đã được nghiên cứu và áp dụng trong luận văn này. Việc sử dụng các mô hình ngữ nghĩa hiện đại giúp nâng cao độ chính xác trong việc phân loại và gom cụm văn bản, từ đó tạo ra những ứng dụng thực tiễn trong nhiều lĩnh vực khác nhau.

3.1. Mô hình BERT và ứng dụng của nó

Mô hình BERT đã mở ra một kỷ nguyên mới trong việc xử lý ngôn ngữ tự nhiên. BERT sử dụng kiến trúc Transformer để tạo ra các biểu diễn ngữ nghĩa cho các câu, cho phép mô hình hiểu được ngữ cảnh và mối quan hệ giữa các từ. Điều này rất quan trọng trong việc phân tích văn bản, vì nó giúp xác định được ý nghĩa của một từ trong ngữ cảnh cụ thể. Việc áp dụng BERT trong nghiên cứu này đã chứng minh được khả năng cải thiện độ chính xác trong việc gom cụm văn bản, đặc biệt khi kết hợp với các mô hình phát hiện chủ đề. PhoBERT đã được phát triển để tối ưu hóa cho tiếng Việt, mang lại những kết quả khả quan trong việc xử lý và phân tích văn bản tiếng Việt.

IV. Đề xuất mô hình gom cụm văn bản

Mô hình gom cụm văn bản được đề xuất trong luận văn này là sự kết hợp giữa mô hình phát hiện chủ đề và các vectơ ngữ nghĩa từ BERT và PhoBERT. Mô hình này nhằm mục tiêu cải thiện khả năng phân loại và gom cụm dữ liệu văn bản. Việc sử dụng AutoEncoder để giảm chiều dữ liệu trước khi áp dụng các thuật toán gom cụm như K-means++ giúp giữ lại những đặc trưng quan trọng của văn bản. Kết quả thực nghiệm cho thấy mô hình đề xuất có thể đạt được độ chính xác cao hơn so với các phương pháp truyền thống, từ đó mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên.

4.1. Kết hợp mô hình phát hiện chủ đề và vectơ ngữ nghĩa

Kết hợp mô hình phát hiện chủ đề với vectơ ngữ nghĩa là một bước tiến quan trọng trong việc gom cụm văn bản. Mô hình đề xuất sử dụng thông tin từ LDA để xác định các chủ đề chính, sau đó áp dụng BERT và PhoBERT để tạo ra các vectơ ngữ nghĩa cho từng văn bản. Sự kết hợp này giúp cải thiện độ chính xác trong việc phân loại và gom cụm văn bản. Kết quả thực nghiệm cho thấy mô hình đề xuất có khả năng nhận diện các chủ đề nổi bật và cải thiện hiệu suất so với các phương pháp truyền thống. Điều này mở ra những cơ hội mới cho việc áp dụng trong thực tiễn, đặc biệt là trong các lĩnh vực cần phân tích dữ liệu lớn.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn tốt nghiệp khoa học máy tính gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu số hiện nay, việc xử lý và phân tích lượng lớn văn bản trên các trang báo mạng, diễn đàn và mạng xã hội trở thành một thách thức lớn đối với các nhà khoa học dữ liệu và chuyên gia phân tích. Theo ước tính, chỉ trong khoảng thời gian từ tháng 3 đến tháng 6 năm 2021, bộ dữ liệu thu thập được đã vượt quá 10.000 bài viết tiếng Việt, phản ánh sự đa dạng và phong phú của thông tin. Vấn đề đặt ra là làm thế nào để gom cụm các văn bản này thành các chủ đề lớn, từ đó giúp nhận diện xu hướng dư luận, hỗ trợ doanh nghiệp và chính phủ trong việc ra quyết định dựa trên dữ liệu thực tế.

Mục tiêu nghiên cứu của luận văn là xây dựng một mô hình gom cụm văn bản dựa trên mô hình phát hiện chủ đề kết hợp với vector ngữ cảnh, nhằm cải thiện độ chính xác và hiệu quả so với các phương pháp truyền thống. Phạm vi nghiên cứu tập trung vào dữ liệu tiếng Việt thu thập trong hơn 3 tháng, với phân tích chi tiết sự thay đổi chủ đề trong hai tháng 4 và 5 năm 2021. Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao chất lượng phân cụm văn bản mà còn mở ra hướng đi mới cho các ứng dụng xử lý ngôn ngữ tự nhiên (XLNNTN) trong thực tiễn, như phân tích xu hướng dư luận, đề xuất nội dung, và hỗ trợ các tác vụ trí tuệ nhân tạo.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: mô hình phát hiện chủ đề và phương pháp khai thác ngữ nghĩa trong văn bản.

Mô hình phát hiện chủ đề (Topic Model): Tập trung vào mô hình Latent Dirichlet Allocation (LDA), một mô hình sinh xác suất dựa trên phân phối Dirichlet, cho phép mô tả mỗi văn bản như một hỗn hợp của nhiều chủ đề và mỗi chủ đề là phân phối của các từ. LDA được lựa chọn vì tính phổ biến, khả năng học trực tuyến và hiệu quả trong việc phát hiện các chủ đề tiềm ẩn trong tập văn bản lớn. Ngoài ra, các mô hình khác như Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (pLSA) và Correlated Topic Model (CTM) cũng được tham khảo để đánh giá ưu nhược điểm.
Phương pháp khai thác ngữ nghĩa (Semantic Embedding): Sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) và phiên bản PhoBERT dành cho tiếng Việt, nhằm tạo ra vector nhúng câu (sentence embedding) có khả năng biểu diễn ngữ cảnh hai chiều, giúp mô hình gom cụm nhận diện được các đặc trưng ngữ nghĩa sâu sắc hơn. Kỹ thuật AutoEncoder được áp dụng để giảm chiều vector, giữ lại các đặc trưng quan trọng nhất trước khi tiến hành gom cụm.

Các khái niệm chính bao gồm: chủ đề ẩn (latent topic), phân phối Dirichlet, vector nhúng ngữ cảnh, học không giám sát (unsupervised learning), và thuật toán gom cụm Kmeans++.

Phương pháp nghiên cứu

Nghiên cứu kết hợp hai phương pháp chính:

Nghiên cứu lý thuyết: Tổng hợp và phân tích các công trình khoa học, sách, luận văn liên quan đến mô hình phát hiện chủ đề, kỹ thuật embedding và thuật toán gom cụm.
Nghiên cứu thực nghiệm:
- Thu thập dữ liệu văn bản tiếng Việt từ các trang tin tức điện tử và mạng xã hội trong khoảng thời gian từ tháng 3 đến tháng 6 năm 2021, với hơn 10.000 bài viết được xử lý.
- Tiền xử lý dữ liệu nhằm loại bỏ các bài viết không chứa thông tin hữu ích (hơn 95% dữ liệu sau xử lý được đánh giá phù hợp).
- Xây dựng mô hình kết hợp LDA và PhoBERT để tạo vector đặc trưng cho văn bản.
- Sử dụng AutoEncoder để giảm chiều vector, giữ lại đặc trưng chính.
- Áp dụng thuật toán Kmeans++ để gom cụm các vector nhúng.
- Đánh giá mô hình dựa trên các chỉ số coherence và silhouette, so sánh với các phương pháp gom cụm truyền thống như TF-IDF, LDA đơn thuần, BERT và PhoBERT.

Cỡ mẫu thực nghiệm gồm hai tập dữ liệu chính, phân tích sự phân bố chủ đề theo tuần trong hai tháng 4 và 5 năm 2021, giúp đánh giá tính ổn định và khả năng phát hiện chủ đề nổi bật theo thời gian.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả gom cụm vượt trội: Mô hình kết hợp LDA và PhoBERT với AutoEncoder và Kmeans++ cho kết quả gom cụm chính xác hơn so với các phương pháp chỉ sử dụng TF-IDF, LDA, BERT hoặc PhoBERT riêng lẻ. Độ đo silhouette trung bình của mô hình đề xuất đạt khoảng 0.65, cao hơn 15-20% so với các phương pháp truyền thống.
Khả năng phát hiện chủ đề nổi bật theo thời gian: Qua phân tích dữ liệu trong hai tháng 4 và 5 năm 2021, mô hình đã xác định được 11 chủ đề chính, trong đó một số chủ đề có trọng số xuất hiện chiếm tới 30-40% tổng số bài viết trong tuần, phản ánh sự quan tâm lớn của dư luận. Sự thay đổi trọng số các chủ đề theo tuần cho thấy mô hình có khả năng theo dõi xu hướng dư luận hiệu quả.
Giảm chiều dữ liệu hiệu quả: AutoEncoder giúp giảm chiều vector từ hàng trăm xuống còn khoảng 50 chiều, giữ lại hơn 90% thông tin đặc trưng, giúp tăng tốc độ xử lý và cải thiện chất lượng gom cụm.
Khó khăn trong việc phân biệt nội dung tương tự: Mặc dù mô hình kết hợp nhiều đặc trưng, vẫn tồn tại trường hợp hai văn bản có phân phối LDA tương tự nhưng nội dung thực tế khác biệt, cho thấy cần cải tiến thêm trong việc khai thác đặc trưng ngữ cảnh.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình đề xuất tận dụng được ưu điểm của LDA trong việc phát hiện các từ khóa quan trọng đóng góp cho chủ đề, đồng thời sử dụng PhoBERT để sinh vector ngữ cảnh, khắc phục hạn chế của LDA trong việc nhận diện ngữ nghĩa sâu sắc. Việc giảm chiều bằng AutoEncoder giúp loại bỏ nhiễu và giữ lại đặc trưng chính, từ đó thuật toán Kmeans++ gom cụm hiệu quả hơn.

So sánh với các nghiên cứu trước đây, mô hình đề xuất cho thấy sự tiến bộ rõ rệt trong việc xử lý dữ liệu tiếng Việt, đặc biệt trong bối cảnh dữ liệu đa dạng và phong phú. Kết quả có thể được trình bày qua biểu đồ silhouette và bảng so sánh độ đo coherence giữa các mô hình, minh họa sự vượt trội của mô hình đề xuất.

Tuy nhiên, hạn chế về tài nguyên phần cứng và thời gian huấn luyện trên nền tảng Google Colab đã ảnh hưởng đến khả năng thử nghiệm các mô hình học sâu phức tạp hơn. Ngoài ra, việc lựa chọn số lượng chủ đề cố định trong LDA cũng có thể gây ra hiện tượng trùng lặp hoặc chủ đề quá chung chung.

Đề xuất và khuyến nghị

Tối ưu hóa mô hình AutoEncoder: Nâng cao chất lượng huấn luyện AutoEncoder hoặc thay thế bằng các mô hình học sâu như mạng nơ-ron tích chập (CNN) hoặc mạng tuần tự (RNN) để cải thiện khả năng giữ lại đặc trưng ngữ cảnh, từ đó nâng cao độ chính xác gom cụm. Thời gian thực hiện: 6-12 tháng; chủ thể: nhóm nghiên cứu và phát triển.
Mở rộng bộ dữ liệu và đa dạng hóa nguồn thu thập: Thu thập thêm dữ liệu từ các nguồn khác nhau như mạng xã hội, blog, diễn đàn để tăng tính đại diện và độ phong phú của dữ liệu, giúp mô hình học được nhiều đặc trưng hơn. Thời gian: liên tục; chủ thể: bộ phận thu thập dữ liệu.
Áp dụng mô hình học sâu cải tiến trong xử lý ngôn ngữ tự nhiên: Nghiên cứu và thử nghiệm các mô hình Transformer mới hơn hoặc các kiến trúc kết hợp để khai thác sâu hơn ngữ cảnh và mối quan hệ giữa các chủ đề. Thời gian: 12-18 tháng; chủ thể: nhóm nghiên cứu AI.
Phát triển hệ thống giám sát xu hướng dư luận tự động: Xây dựng công cụ trực quan hóa và cảnh báo dựa trên kết quả gom cụm để hỗ trợ doanh nghiệp và cơ quan quản lý theo dõi nhanh các chủ đề nóng, từ đó đưa ra quyết định kịp thời. Thời gian: 6 tháng; chủ thể: phòng phát triển sản phẩm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, đặc biệt lĩnh vực xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức sâu về mô hình phát hiện chủ đề, kỹ thuật embedding và gom cụm, đồng thời có các thực nghiệm cụ thể với dữ liệu tiếng Việt.
Chuyên gia phân tích dữ liệu và doanh nghiệp: Các giải pháp gom cụm văn bản giúp nhận diện xu hướng thị trường, dư luận xã hội, hỗ trợ ra quyết định chiến lược dựa trên dữ liệu thực tế.
Cơ quan quản lý nhà nước và tổ chức nghiên cứu xã hội: Công cụ gom cụm và phân tích chủ đề giúp theo dõi dư luận, phát hiện các vấn đề xã hội nổi bật, từ đó xây dựng chính sách phù hợp.
Phát triển sản phẩm công nghệ và ứng dụng AI: Luận văn là cơ sở để phát triển các hệ thống đề xuất nội dung, chatbot, hệ thống phân loại tự động, đặc biệt trong môi trường tiếng Việt.

Câu hỏi thường gặp

Mô hình LDA hoạt động như thế nào trong gom cụm văn bản?
LDA mô hình hóa mỗi văn bản như một hỗn hợp của nhiều chủ đề, mỗi chủ đề là phân phối xác suất của các từ. Qua đó, LDA giúp phát hiện các chủ đề tiềm ẩn trong tập văn bản, làm cơ sở để gom cụm các văn bản có chủ đề tương đồng.
Tại sao cần kết hợp LDA với PhoBERT trong mô hình gom cụm?
LDA chỉ dựa trên thống kê từ khóa nên không khai thác được ngữ cảnh sâu sắc. PhoBERT tạo vector nhúng ngữ cảnh hai chiều, giúp mô hình nhận diện được ý nghĩa và mối quan hệ ngữ nghĩa giữa các từ, từ đó cải thiện độ chính xác gom cụm.
AutoEncoder có vai trò gì trong mô hình đề xuất?
AutoEncoder giúp giảm chiều vector đặc trưng, giữ lại các thông tin quan trọng nhất, loại bỏ nhiễu và giảm độ phức tạp tính toán, giúp thuật toán gom cụm hoạt động hiệu quả hơn.
Thuật toán Kmeans++ khác gì so với Kmeans truyền thống?
Kmeans++ cải tiến bước khởi tạo trung tâm cụm bằng cách chọn các điểm trung tâm một cách thông minh, giúp giảm sai số và tăng tốc độ hội tụ, tránh bị kẹt ở các cực trị cục bộ.
Mô hình đề xuất có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Việt không?
Về nguyên tắc, mô hình có thể áp dụng cho các ngôn ngữ khác nếu có mô hình embedding ngữ cảnh tương ứng (như BERT cho tiếng Anh). Tuy nhiên, cần điều chỉnh và huấn luyện lại trên dữ liệu đặc thù của từng ngôn ngữ.

Kết luận

Luận văn đã xây dựng thành công mô hình gom cụm văn bản kết hợp LDA và PhoBERT, cải thiện đáng kể độ chính xác so với các phương pháp truyền thống.
Mô hình sử dụng AutoEncoder để giảm chiều vector, giúp tăng hiệu quả gom cụm với thuật toán Kmeans++.
Thực nghiệm trên bộ dữ liệu tiếng Việt hơn 10.000 bài viết trong 3 tháng cho thấy khả năng phát hiện chủ đề và theo dõi xu hướng dư luận hiệu quả.
Hạn chế về tài nguyên và thời gian nghiên cứu đã giới hạn việc thử nghiệm các mô hình học sâu phức tạp hơn, mở ra hướng nghiên cứu tiếp theo.
Đề xuất các giải pháp nâng cao mô hình và phát triển ứng dụng thực tiễn nhằm hỗ trợ doanh nghiệp, cơ quan quản lý và nghiên cứu khoa học.

Khuyến khích các nhà nghiên cứu và chuyên gia phát triển mô hình dựa trên nền tảng này, đồng thời mở rộng ứng dụng trong các lĩnh vực xử lý ngôn ngữ tự nhiên và phân tích dữ liệu lớn.

Bài luận văn tốt nghiệp mang tiêu đề "Gom cụm văn bản trong khoa học máy tính dựa trên mô hình phát hiện chủ đề" của tác giả Nguyễn Văn Quyền Lâm, dưới sự hướng dẫn của TS. Lê Thanh Vân và TS. Nguyễn Đức Dũng, trình bày một phương pháp mới trong việc gom cụm văn bản, ứng dụng trong lĩnh vực khoa học máy tính. Năm 2021, tại Đại học Bách Khoa Thành phố Hồ Chí Minh, tác giả đã nghiên cứu và phát triển mô hình phát hiện chủ đề giúp cải thiện khả năng phân tích và xử lý dữ liệu văn bản. Bài viết không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật gom cụm mà còn chỉ ra những ứng dụng thực tiễn trong việc tối ưu hóa quy trình xử lý thông tin.

Để mở rộng thêm kiến thức về các ứng dụng trong khoa học máy tính, bạn có thể tham khảo bài viết Luận văn thạc sĩ về gom cụm chuỗi thời gian trong khoa học máy tính theo xu hướng, nơi nghiên cứu các phương pháp gom cụm trong chuỗi thời gian. Bài viết này sẽ giúp bạn hiểu thêm về cách áp dụng các kỹ thuật tương tự trong các lĩnh vực khác nhau.

Ngoài ra, bạn cũng có thể tìm hiểu về Luận văn thạc sĩ về việc xác định chỉ dẫn địa lý cho bưởi Tân Triều thông qua viễn thám và GIS, đây là một ứng dụng khác của công nghệ thông tin trong việc phân tích dữ liệu địa lý, liên quan đến việc xử lý và phân tích thông tin.

Cuối cùng, bài viết Luận văn thạc sĩ: Ứng dụng cây quyết định trong phân tích và đánh giá chi phí CNTT cũng mang lại những góc nhìn bổ ích về ứng dụng của các mô hình phân tích trong lĩnh vực công nghệ thông tin, từ đó giúp bạn có thêm cái nhìn tổng quát hơn về các phương pháp phân tích dữ liệu.

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#phân tích văn bản

#thuật toán gom cụm

#khai thác dữ liệu

#gom cụm văn bản

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Nghiên cứu khoa học máy tính

Học máy và ứng dụng

Phân tích và khai thác dữ liệu