Luận án tiến sĩ khoa học máy tính: Ứng dụng kỹ thuật gom cụm trong khai phá luồng văn bản

Trường đại học

Đại học Lạc Hồng

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2021

140
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Luận án tiến sĩ 'Khai phá luồng văn bản với kỹ thuật gom cụm trong khoa học máy tính' tập trung vào việc giải quyết các thách thức trong khai phá dữ liệuphân tích văn bản trong bối cảnh dữ liệu lớn. Luận án đề xuất các phương pháp mới để gom cụm luồng văn bản, đặc biệt là các văn bản ngắn, bằng cách sử dụng kỹ thuật gom cụm dựa trên đồ thị từmô hình hỗn hợp. Mục tiêu chính là cải thiện độ chính xác và tốc độ xử lý trong việc phân loại và phát hiện chủ đề từ các luồng văn bản liên tục.

1.1 Tổng quan về đề tài

Luận án đặt ra bài toán gom cụm luồng văn bản trong bối cảnh dữ liệu lớn, nơi các văn bản đến liên tục và có tính chất thay đổi nhanh chóng. Các phương pháp truyền thống không hiệu quả với các văn bản ngắn và luồng dữ liệu động. Luận án đề xuất mô hình GOW-Stream để giải quyết các thách thức này, kết hợp đồ thị từmô hình hỗn hợp để nâng cao hiệu quả.

1.2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của luận án là phát triển các phương pháp gom cụm hiệu quả cho luồng văn bản, đặc biệt là các văn bản ngắn. Phạm vi nghiên cứu bao gồm việc áp dụng kỹ thuật gom cụm dựa trên đồ thị từmô hình hỗn hợp, cũng như phát hiện các cụm từ xu thế trong luồng văn bản.

II. Các nghiên cứu liên quan

Luận án tổng hợp và so sánh các phương pháp tiếp cận hiện có trong gom cụm luồng văn bản, bao gồm các mô hình dựa trên mô hình chủ đề, mô hình hỗn hợp động, và biểu diễn không gian vectơ. Các phương pháp này được đánh giá về hiệu quả và hạn chế trong việc xử lý các văn bản ngắn và luồng dữ liệu động.

2.1 Phương pháp tiếp cận dựa trên mô hình chủ đề

Các mô hình dựa trên mô hình chủ đề như LDADTM được sử dụng rộng rãi trong gom cụm văn bản. Tuy nhiên, chúng gặp hạn chế khi xử lý các văn bản ngắn do thiếu thông tin ngữ cảnh.

2.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động

Các mô hình hỗn hợp động như DPMMMStream được đề xuất để xử lý các luồng văn bản động. Tuy nhiên, chúng thường bỏ qua các mối quan hệ ngữ nghĩa giữa các từ trong văn bản.

III. Gom cụm luồng văn bản theo ngữ nghĩa dựa trên đồ thị từ

Luận án đề xuất mô hình GOW-Stream, kết hợp đồ thị từmô hình hỗn hợp để gom cụm các luồng văn bản ngắn. Mô hình này xem xét cả mối quan hệ đồng hiện giữa các từ và đạt được độ chính xác cao hơn so với các phương pháp truyền thống.

3.1 Biểu diễn văn bản bằng đồ thị từ

Mô hình GOW-Stream sử dụng đồ thị từ để biểu diễn các văn bản, cho phép nắm bắt các mối quan hệ ngữ nghĩa giữa các từ. Điều này giúp cải thiện độ chính xác trong việc gom cụm các văn bản ngắn.

3.2 Thực nghiệm và kết quả

Các thử nghiệm trên các bộ dữ liệu tiêu chuẩn cho thấy GOW-Stream đạt được độ chính xác cao hơn so với các mô hình hiện có như DTMMStream, đồng thời duy trì tốc độ xử lý nhanh.

IV. Phát hiện cụm từ xu thế trên luồng văn bản

Luận án đề xuất hệ thống TKES để phát hiện các cụm từ xu thế trong luồng văn bản. Hệ thống này sử dụng thuật toán Kleinberg để phát hiện các sự nổi bật của từ khóa và các cụm từ tiêu biểu.

4.1 Thuật toán phát hiện sự nổi bật

Hệ thống TKES sử dụng thuật toán Kleinberg để phát hiện các sự nổi bật của từ khóa trong luồng văn bản. Thuật toán này đã được chứng minh hiệu quả trong nhiều lĩnh vực.

4.2 Kết quả thực nghiệm

Các thử nghiệm cho thấy hệ thống TKES có khả năng phát hiện các cụm từ xu thế một cách chính xác và hiệu quả, đặc biệt trong các luồng văn bản liên tục và động.

V. Kết luận và hướng phát triển

Luận án đã đề xuất các phương pháp hiệu quả để gom cụm luồng văn bản và phát hiện cụm từ xu thế. Các kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải thiện hiệu quả của các hệ thống khai phá dữ liệuphân tích văn bản trong bối cảnh dữ liệu lớn.

5.1 Các kết quả đạt được

Luận án đã phát triển thành công mô hình GOW-Stream và hệ thống TKES, đạt được độ chính xác cao trong việc gom cụm và phát hiện các cụm từ xu thế.

5.2 Hướng phát triển tương lai

Các hướng phát triển tương lai bao gồm việc cải tiến mô hình GOW-Stream để xử lý các luồng dữ liệu đa ngôn ngữ và tích hợp các kỹ thuật học máy tiên tiến hơn.

01/03/2025

Luận án tiến sĩ "Khai phá luồng văn bản với kỹ thuật gom cụm trong khoa học máy tính" tập trung vào việc áp dụng các kỹ thuật gom cụm để phân tích và khai thác thông tin từ các luồng văn bản lớn. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp khai thác dữ liệu mà còn chỉ ra cách thức mà các kỹ thuật này có thể được áp dụng để cải thiện hiệu quả trong việc xử lý và phân tích thông tin. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc hiểu rõ hơn về các thuật toán và ứng dụng của chúng trong thực tiễn.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa, nơi bạn sẽ tìm thấy các kỹ thuật phân cụm khác nhau và cách chúng được áp dụng trong khai phá dữ liệu. Ngoài ra, Luận văn thạc sĩ khoa học máy tính khai phá luật trên chuỗi thời gian dựa trên tỷ số thay đổi và giải thuật fpgrowth sẽ giúp bạn hiểu rõ hơn về việc khai thác luật trong các chuỗi thời gian, một khía cạnh quan trọng trong phân tích dữ liệu. Cuối cùng, bạn cũng có thể tìm hiểu về Luận án tiến sĩ khai phá dữ liệu tuần tự để dự đoán hành vi truy cập web, tài liệu này sẽ cung cấp cái nhìn sâu sắc về cách khai thác dữ liệu để dự đoán hành vi người dùng trong môi trường trực tuyến. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và ứng dụng các kỹ thuật khai phá dữ liệu trong nhiều lĩnh vực khác nhau.