Luận văn tốt nghiệp: Gom cụm văn bản trong khoa học máy tính dựa trên mô hình phát hiện chủ đề

2021

97
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu về gom cụm văn bản

Trong bối cảnh hiện nay, với sự bùng nổ thông tin từ nhiều nguồn khác nhau, việc gom cụm văn bản trở thành một nhiệm vụ quan trọng trong khoa học máy tính. Luận văn này nhằm tìm hiểu và phát triển một mô hình phát hiện chủ đề để phân tích và gom cụm dữ liệu văn bản. Phân tích văn bản không chỉ giúp nhận diện các chủ đề chính mà còn hỗ trợ trong việc khai thác dữ liệu và đưa ra các quyết định chính xác hơn. Các công nghệ hiện đại như xử lý ngôn ngữ tự nhiênkhai thác dữ liệu đã được áp dụng để giải quyết bài toán này, từ đó tạo ra những mô hình có khả năng phân tích mạnh mẽ hơn, như mô hình LDA và BERT. Mục tiêu chính của nghiên cứu là phát triển một mô hình gom cụm có thể tối ưu hóa việc phân loại văn bản dựa trên các chủ đề được xác định.

1.1. Tầm quan trọng của việc gom cụm văn bản

Việc gom cụm văn bản là rất cần thiết trong việc phân tích dữ liệu lớn, đặc biệt là trong bối cảnh các thông tin từ mạng xã hội, diễn đàn, và các trang báo điện tử. Các phương pháp truyền thống như K-means đã được sử dụng rộng rãi, nhưng cần có những cải tiến để xử lý tốt hơn các đặc trưng ngữ nghĩa của văn bản. Mô hình phát hiện chủ đề giúp xác định các chủ đề chính từ một tập hợp văn bản, từ đó tạo ra các cụm dữ liệu có liên quan. Sự kết hợp giữa các phương pháp học máy và mô hình ngữ nghĩa hiện đại như BERT và PhoBERT đã mở ra những hướng đi mới trong việc cải thiện độ chính xác và hiệu quả của các mô hình gom cụm. Kết quả thực nghiệm cho thấy mô hình đề xuất có thể đạt được độ chính xác cao hơn so với các phương pháp truyền thống.

II. Tổng quan về mô hình phát hiện chủ đề

Mô hình phát hiện chủ đề là một phần quan trọng trong phân tích văn bản. Mô hình này giúp xác định các chủ đề chính trong một tập dữ liệu lớn, từ đó hỗ trợ cho việc khai thác dữ liệu hiệu quả hơn. Mô hình LDA (Latent Dirichlet Allocation) là một trong những mô hình phổ biến nhất trong lĩnh vực này. LDA giúp phân loại văn bản dựa trên các chủ đề tiềm ẩn và đã được áp dụng rộng rãi trong nhiều nghiên cứu. Bên cạnh đó, các mô hình khác như pLSA và CTM cũng được đề cập trong nghiên cứu này. Một điểm quan trọng là sự kết hợp giữa các mô hình phát hiện chủ đề với các kỹ thuật học máy hiện đại có thể mang lại những kết quả khả quan, giúp cải thiện khả năng phân loại văn bản và xác định các chủ đề nổi bật hơn.

2.1. Các mô hình chủ đề chính

Trong nghiên cứu này, một số mô hình chủ đề chính được phân tích bao gồm LDA, pLSA và CTM. Mô hình LDA được coi là tiêu chuẩn trong phân tích chủ đề, cho phép xác định các chủ đề tiềm ẩn trong một tập hợp văn bản. Mô hình pLSA, mặc dù không phổ biến như LDA, cũng cung cấp những hiểu biết sâu sắc về cấu trúc chủ đề trong văn bản. CTM (Correlated Topic Model) là một mô hình tiên tiến hơn, cho phép xác định mối quan hệ giữa các chủ đề. Việc hiểu rõ các mô hình này không chỉ giúp trong việc phát hiện chủ đề mà còn mở ra các khả năng mới trong việc phân tích và khai thác dữ liệu văn bản.

III. Phương pháp khai thác ngữ nghĩa trong văn bản

Phương pháp khai thác ngữ nghĩa trong văn bản rất quan trọng để hiểu rõ hơn về ngữ cảnh và ý nghĩa của các từ trong văn bản. Mô hình BERT (Bidirectional Encoder Representations from Transformers) đã cách mạng hóa cách thức mà các mô hình ngôn ngữ được xây dựng. BERT cho phép tạo ra các vectơ ngữ nghĩa cho câu, giúp cải thiện đáng kể khả năng phân loại và gom cụm văn bản. PhoBERT, một phiên bản của BERT được tối ưu hóa cho tiếng Việt, cũng đã được nghiên cứu và áp dụng trong luận văn này. Việc sử dụng các mô hình ngữ nghĩa hiện đại giúp nâng cao độ chính xác trong việc phân loại và gom cụm văn bản, từ đó tạo ra những ứng dụng thực tiễn trong nhiều lĩnh vực khác nhau.

3.1. Mô hình BERT và ứng dụng của nó

Mô hình BERT đã mở ra một kỷ nguyên mới trong việc xử lý ngôn ngữ tự nhiên. BERT sử dụng kiến trúc Transformer để tạo ra các biểu diễn ngữ nghĩa cho các câu, cho phép mô hình hiểu được ngữ cảnh và mối quan hệ giữa các từ. Điều này rất quan trọng trong việc phân tích văn bản, vì nó giúp xác định được ý nghĩa của một từ trong ngữ cảnh cụ thể. Việc áp dụng BERT trong nghiên cứu này đã chứng minh được khả năng cải thiện độ chính xác trong việc gom cụm văn bản, đặc biệt khi kết hợp với các mô hình phát hiện chủ đề. PhoBERT đã được phát triển để tối ưu hóa cho tiếng Việt, mang lại những kết quả khả quan trong việc xử lý và phân tích văn bản tiếng Việt.

IV. Đề xuất mô hình gom cụm văn bản

Mô hình gom cụm văn bản được đề xuất trong luận văn này là sự kết hợp giữa mô hình phát hiện chủ đề và các vectơ ngữ nghĩa từ BERT và PhoBERT. Mô hình này nhằm mục tiêu cải thiện khả năng phân loại và gom cụm dữ liệu văn bản. Việc sử dụng AutoEncoder để giảm chiều dữ liệu trước khi áp dụng các thuật toán gom cụm như K-means++ giúp giữ lại những đặc trưng quan trọng của văn bản. Kết quả thực nghiệm cho thấy mô hình đề xuất có thể đạt được độ chính xác cao hơn so với các phương pháp truyền thống, từ đó mở ra hướng nghiên cứu mới trong lĩnh vực xử lý ngôn ngữ tự nhiên.

4.1. Kết hợp mô hình phát hiện chủ đề và vectơ ngữ nghĩa

Kết hợp mô hình phát hiện chủ đề với vectơ ngữ nghĩa là một bước tiến quan trọng trong việc gom cụm văn bản. Mô hình đề xuất sử dụng thông tin từ LDA để xác định các chủ đề chính, sau đó áp dụng BERT và PhoBERT để tạo ra các vectơ ngữ nghĩa cho từng văn bản. Sự kết hợp này giúp cải thiện độ chính xác trong việc phân loại và gom cụm văn bản. Kết quả thực nghiệm cho thấy mô hình đề xuất có khả năng nhận diện các chủ đề nổi bật và cải thiện hiệu suất so với các phương pháp truyền thống. Điều này mở ra những cơ hội mới cho việc áp dụng trong thực tiễn, đặc biệt là trong các lĩnh vực cần phân tích dữ liệu lớn.

09/01/2025
Luận văn tốt nghiệp khoa học máy tính gom cụm văn bản dựa trên mô hình phát hiện chủ đề
Bạn đang xem trước tài liệu : Luận văn tốt nghiệp khoa học máy tính gom cụm văn bản dựa trên mô hình phát hiện chủ đề

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn tốt nghiệp mang tiêu đề "Gom cụm văn bản trong khoa học máy tính dựa trên mô hình phát hiện chủ đề" của tác giả Nguyễn Văn Quyền Lâm, dưới sự hướng dẫn của TS. Lê Thanh Vân và TS. Nguyễn Đức Dũng, trình bày một phương pháp mới trong việc gom cụm văn bản, ứng dụng trong lĩnh vực khoa học máy tính. Năm 2021, tại Đại học Bách Khoa Thành phố Hồ Chí Minh, tác giả đã nghiên cứu và phát triển mô hình phát hiện chủ đề giúp cải thiện khả năng phân tích và xử lý dữ liệu văn bản. Bài viết không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật gom cụm mà còn chỉ ra những ứng dụng thực tiễn trong việc tối ưu hóa quy trình xử lý thông tin.

Để mở rộng thêm kiến thức về các ứng dụng trong khoa học máy tính, bạn có thể tham khảo bài viết Luận văn thạc sĩ về gom cụm chuỗi thời gian trong khoa học máy tính theo xu hướng, nơi nghiên cứu các phương pháp gom cụm trong chuỗi thời gian. Bài viết này sẽ giúp bạn hiểu thêm về cách áp dụng các kỹ thuật tương tự trong các lĩnh vực khác nhau.

Ngoài ra, bạn cũng có thể tìm hiểu về Luận văn thạc sĩ về việc xác định chỉ dẫn địa lý cho bưởi Tân Triều thông qua viễn thám và GIS, đây là một ứng dụng khác của công nghệ thông tin trong việc phân tích dữ liệu địa lý, liên quan đến việc xử lý và phân tích thông tin.

Cuối cùng, bài viết Luận văn thạc sĩ: Ứng dụng cây quyết định trong phân tích và đánh giá chi phí CNTT cũng mang lại những góc nhìn bổ ích về ứng dụng của các mô hình phân tích trong lĩnh vực công nghệ thông tin, từ đó giúp bạn có thêm cái nhìn tổng quát hơn về các phương pháp phân tích dữ liệu.