Luận Văn Thạc Sĩ Về Phân Cụm Dựa Trên Tri Thức Theo Từng Cặp

Luận văn thạc sĩ phân cụm dựa trên tri thức theo từng cặp khám phá các phương pháp phân tích dữ liệu hiệu quả và ứng dụng thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. LỜI NÓI ĐẦU

2. PHÂN CỤM DỮ LIỆU

2.1. Phân cụm là gì

2.2. Một số phương pháp phân cụm dữ liệu cơ bản

2.2.1. Phương pháp phân hoạch

2.2.2. Thuật toán k-Means

2.2.3. Phương pháp phân cấp

2.2.3.1. Thuật toán Chameleon

2.2.4. Phương pháp dựa trên mật độ

3. PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP

3.1. Phân cụm dựa trên ràng buộc

3.2. Phân loại các ràng buộc

3.3. Các phương pháp phân cụm dựa trên ràng buộc

3.4. Phương pháp S3C2

3.4.1. Giới thiệu sơ lược

3.4.2. Chi tiết mô hình

3.4.3. Đánh giá mô hình

3.5. Chương trình

3.6. Dữ liệu thử nghiệm

3.6.1. Dữ liệu hoa Iris

3.6.2. Dữ liệu chữ số viết tay MNIST

3.7. Thử nghiệm trên bộ dữ liệu hoa Iris

3.7.1. Kịch bản thử nghiệm

3.7.2. Kết quả thử nghiệm

3.8. Thử nghiệm trên bộ dữ liệu MNIST

3.8.1. Kịch bản thử nghiệm

3.8.2. Kết quả thử nghiệm

3.9. Nhận xét thử nghiệm

4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phân Cụm Dữ Liệu Dựa Trên Tri Thức

Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai thác dữ liệu, giúp chia nhỏ các tập dữ liệu thành các nhóm tương tự nhau. Trong bối cảnh hiện đại, việc áp dụng phân cụm dữ liệu dựa trên tri thức theo từng cặp đã trở thành một xu hướng nổi bật. Phương pháp này không chỉ cải thiện độ chính xác mà còn giúp giải thích kết quả phân cụm một cách rõ ràng hơn. Bài viết này sẽ đi sâu vào các khái niệm cơ bản và ứng dụng của phương pháp này.

1.1. Khái Niệm Phân Cụm Dữ Liệu Là Gì

Phân cụm dữ liệu là quá trình phân chia một tập hợp các đối tượng thành các nhóm sao cho các đối tượng trong cùng một nhóm có sự tương đồng cao hơn với nhau so với các nhóm khác. Kỹ thuật này được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh thông minh, nhận dạng mẫu và bảo mật.

1.2. Tại Sao Nên Sử Dụng Phân Cụm Dựa Trên Tri Thức

Việc sử dụng tri thức trong phân cụm giúp cải thiện chất lượng phân cụm bằng cách cung cấp thông tin bổ sung về các đối tượng. Điều này đặc biệt hữu ích trong các bài toán phức tạp, nơi mà dữ liệu có thể không rõ ràng hoặc có nhiều biến thể.

II. Thách Thức Trong Phân Cụm Dữ Liệu Hiện Nay

Mặc dù phân cụm dữ liệu đã có nhiều tiến bộ, nhưng vẫn tồn tại nhiều thách thức cần giải quyết. Các vấn đề như độ phức tạp tính toán, khả năng mở rộng và độ chính xác của các thuật toán phân cụm vẫn là những vấn đề nóng bỏng trong nghiên cứu. Đặc biệt, việc phân cụm dữ liệu lớn đòi hỏi các phương pháp hiệu quả và tối ưu hơn.

2.1. Độ Phức Tạp Tính Toán Trong Phân Cụm

Nhiều thuật toán phân cụm hiện tại gặp khó khăn trong việc xử lý dữ liệu lớn do độ phức tạp tính toán cao. Điều này dẫn đến thời gian xử lý lâu và yêu cầu tài nguyên tính toán lớn, gây khó khăn cho việc áp dụng trong thực tế.

2.2. Độ Chính Xác Của Kết Quả Phân Cụm

Độ chính xác của các kết quả phân cụm thường phụ thuộc vào chất lượng dữ liệu đầu vào. Nếu dữ liệu có nhiều nhiễu hoặc không đầy đủ, kết quả phân cụm có thể không phản ánh đúng thực tế, dẫn đến quyết định sai lầm trong các ứng dụng thực tiễn.

III. Phương Pháp Phân Cụm Dựa Trên Tri Thức Theo Từng Cặp

Phương pháp phân cụm dựa trên tri thức theo từng cặp, hay còn gọi là S3C2, là một trong những phương pháp tiên tiến nhất hiện nay. Phương pháp này sử dụng các ràng buộc theo từng cặp để cải thiện độ chính xác của phân cụm. S3C2 đã cho thấy hiệu quả vượt trội trong nhiều bài toán thực tế.

3.1. Giới Thiệu Về Phương Pháp S3C2

S3C2 là một phương pháp phân cụm bán giám sát, sử dụng mạng nơ-ron để xử lý và phân tích dữ liệu. Phương pháp này cho phép người dùng cung cấp thông tin bổ sung dưới dạng ràng buộc, giúp cải thiện chất lượng phân cụm.

3.2. Cách Thức Hoạt Động Của S3C2

Phương pháp S3C2 hoạt động bằng cách sử dụng các ràng buộc must-link và cannot-link để xác định mối quan hệ giữa các đối tượng. Điều này giúp tạo ra các cụm chính xác hơn và dễ dàng hơn trong việc giải thích kết quả.

IV. Ứng Dụng Thực Tiễn Của Phân Cụm Dựa Trên Tri Thức

Phân cụm dựa trên tri thức theo từng cặp đã được áp dụng trong nhiều lĩnh vực khác nhau, từ kinh doanh đến y tế. Các ứng dụng này không chỉ giúp cải thiện hiệu quả công việc mà còn mang lại giá trị thực tiễn cao cho người dùng.

4.1. Ứng Dụng Trong Kinh Doanh

Trong lĩnh vực kinh doanh, phân cụm giúp phân loại khách hàng thành các nhóm tương tự, từ đó phát triển các chiến lược marketing hiệu quả hơn. Việc áp dụng phân cụm dữ liệu giúp tối ưu hóa quy trình quản lý quan hệ khách hàng (CRM).

4.2. Ứng Dụng Trong Y Tế

Trong y tế, phân cụm dữ liệu giúp phân tích các triệu chứng và bệnh lý, từ đó hỗ trợ bác sĩ trong việc chẩn đoán và điều trị. Việc áp dụng phương pháp này đã cho thấy nhiều kết quả khả quan trong việc phát hiện sớm các bệnh nguy hiểm.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Phân cụm dữ liệu dựa trên tri thức theo từng cặp là một phương pháp hứa hẹn trong việc xử lý và phân tích dữ liệu. Với sự phát triển không ngừng của công nghệ, phương pháp này sẽ tiếp tục được cải tiến và mở rộng ứng dụng trong nhiều lĩnh vực khác nhau. Tương lai của phân cụm dữ liệu sẽ còn nhiều điều thú vị đang chờ đón.

5.1. Tương Lai Của Phân Cụm Dữ Liệu

Với sự phát triển của trí tuệ nhân tạo và học máy, phân cụm dữ liệu sẽ ngày càng trở nên chính xác và hiệu quả hơn. Các nghiên cứu mới sẽ tiếp tục tìm kiếm các phương pháp tối ưu hơn để xử lý dữ liệu lớn.

5.2. Các Hướng Nghiên Cứu Mới

Các hướng nghiên cứu mới trong lĩnh vực phân cụm dữ liệu sẽ tập trung vào việc cải thiện độ chính xác và khả năng mở rộng của các thuật toán. Việc tích hợp các công nghệ mới như học sâu và mạng nơ-ron sẽ mở ra nhiều cơ hội mới cho lĩnh vực này.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phân cụm dựa trên tri thức theo từng cặp

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong kỷ nguyên công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu sinh ra ngày càng lớn, đòi hỏi các kỹ thuật khai phá dữ liệu hiệu quả để xử lý và phân tích. Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu, giúp chia tập dữ liệu thành các nhóm sao cho các đối tượng trong cùng một cụm có sự tương đồng cao hơn so với các đối tượng ở các cụm khác. Theo ước tính, phân cụm được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh thông minh, nhận dạng mẫu, sinh học, bảo mật và mạng xã hội. Tuy nhiên, phân cụm truyền thống thường dựa trên học không giám sát, dẫn đến kết quả khó giải thích và không tận dụng được tri thức nền tảng có sẵn.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá phương pháp phân cụm bán giám sát dựa trên tri thức theo từng cặp, cụ thể là phương pháp S3C2 sử dụng mạng nơ-ron nhân tạo và học sâu để cải thiện chất lượng phân cụm. Nghiên cứu tập trung vào việc sử dụng các ràng buộc must-link và cannot-link giữa các cặp đối tượng để nâng cao hiệu quả phân cụm, đồng thời thực hiện thử nghiệm trên hai bộ dữ liệu tiêu biểu: bộ dữ liệu hoa Iris và bộ dữ liệu chữ số viết tay MNIST. Phạm vi nghiên cứu bao gồm việc xây dựng mô hình mạng nơ-ron Siamese, huấn luyện và đánh giá mô hình trên các tập dữ liệu thực nghiệm trong khoảng thời gian đến năm 2020 tại Đại học Công nghệ, Đại học Quốc gia Hà Nội.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác và khả năng ứng dụng của phân cụm bán giám sát, đặc biệt trong các bài toán có dữ liệu lớn, đa chiều và phức tạp, góp phần thúc đẩy phát triển các hệ thống khai phá dữ liệu thông minh và ứng dụng trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Phân cụm dữ liệu (Clustering): Quá trình phân chia tập dữ liệu thành các cụm sao cho các đối tượng trong cùng một cụm có sự tương đồng cao hơn so với các đối tượng ở cụm khác. Các phương pháp phân cụm cơ bản gồm phân hoạch (k-Means), phân cấp (Chameleon), dựa trên mật độ (DBSCAN) và dựa trên lưới (STING).
Phân cụm bán giám sát (Semi-Supervised Clustering): Kỹ thuật phân cụm sử dụng thêm tri thức nền tảng dưới dạng các ràng buộc must-link và cannot-link giữa các cặp đối tượng để cải thiện chất lượng phân cụm.
Mạng nơ-ron nhân tạo (Artificial Neural Networks): Mô hình tính toán lấy cảm hứng từ cấu trúc sinh học của não bộ, gồm các kiến trúc như perceptron đơn lớp, mạng truyền tới nhiều tầng (multilayer feed-forward networks) với các hàm kích hoạt như sigmoid, softmax.
Mạng nơ-ron Siamese (Siamese Neural Networks - SNN): Mạng gồm hai nhánh chia sẻ trọng số, dùng để học biểu diễn và so sánh các cặp đối tượng, phù hợp cho bài toán phân loại nhị phân các cặp must-link hoặc cannot-link.
Hàm mất mát (Loss functions): Bao gồm hàm mất mát contrastive cho mạng LabNet và hàm mất mát misclassification cho mạng CluNet, giúp tối ưu hóa quá trình huấn luyện mạng.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng hai bộ dữ liệu chuẩn gồm bộ dữ liệu hoa Iris (150 mẫu, 4 thuộc tính, 3 cụm) và bộ dữ liệu MNIST (70,000 mẫu ảnh chữ số viết tay, 28×28 pixel, 10 cụm).
Phương pháp phân tích: Xây dựng mô hình phân cụm bán giám sát S3C2 gồm hai mạng nơ-ron Siamese: LabNet để phân loại nhị phân các cặp dữ liệu thành must-link hoặc cannot-link, và CluNet để gán cụm dựa trên các cặp đã gán nhãn. Huấn luyện LabNet với thuật toán RMSprop, learning rate 0.2-0.5, max epoch 100; huấn luyện CluNet với thuật toán Adam, learning rate 0.001, 2000 epoch.
Chọn mẫu: Các cặp dữ liệu được gán nhãn must-link hoặc cannot-link được sinh ngẫu nhiên với số lượng thay đổi theo từng kịch bản thử nghiệm (từ 30 đến 5000 cặp tùy bộ dữ liệu). Mỗi kịch bản được chạy nhiều lần độc lập để lấy kết quả trung bình.
Timeline nghiên cứu: Thực hiện từ đầu năm 2020 đến tháng 9 năm 2020, bao gồm xây dựng mô hình, cài đặt chương trình bằng Python 3.7, chạy thử nghiệm và đánh giá kết quả.
Đánh giá: Sử dụng các chỉ số đánh giá chất lượng phân cụm gồm Normalized Mutual Information (NMI), Adjusted Rand Index (ARI) và Rand Index (RI). Thời gian chạy cũng được đo đạc để đánh giá hiệu năng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân cụm trên bộ dữ liệu Iris: Với số lượng cặp dữ liệu gán nhãn từ 30 đến 160, phương pháp S3C2 đạt chỉ số RI trung bình trên 0.9, trong khi các phương pháp khác như SSGC, SSDBSCAN, SSK-Means, MCSSGC chỉ đạt khoảng 0.6. Thời gian chạy trung bình mỗi lần khoảng 31 giây.
Hiệu quả phân cụm trên bộ dữ liệu MNIST: Khi số lượng cặp gán nhãn tăng từ 100 đến 5000, chỉ số NMI, ARI và RI đều tăng rõ rệt, với NMI đạt trên 0.8 khi có 2000 cặp. Thời gian chạy trung bình mỗi lần khoảng 412 giây. So sánh với các phương pháp d-graph, DCPR, IDEC, S3C2 cho kết quả tốt hơn hoặc tương đương.
Khả năng mở rộng và linh hoạt: Phương pháp S3C2 hoạt động hiệu quả trên cả dữ liệu nhỏ, ít chiều (Iris) và dữ liệu lớn, nhiều chiều (MNIST), với cùng kiến trúc mạng và siêu tham số, cho thấy tính linh hoạt cao.
Tác động của số lượng cặp gán nhãn: Kết quả phân cụm cải thiện rõ rệt khi số lượng cặp dữ liệu được gán nhãn must-link hoặc cannot-link tăng lên, đặc biệt với dữ liệu phức tạp và kích thước lớn.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy phương pháp S3C2 tận dụng hiệu quả tri thức theo từng cặp để cải thiện chất lượng phân cụm so với các phương pháp phân cụm bán giám sát truyền thống. Việc sử dụng mạng nơ-ron Siamese trong LabNet giúp mở rộng số lượng cặp được gán nhãn, khắc phục nhược điểm của các phương pháp khác khi số lượng tri thức ban đầu hạn chế. Mạng CluNet sử dụng các xác suất có điều kiện để gán cụm, giúp mô hình hóa phân cụm như một bài toán phân loại có giám sát, nâng cao độ chính xác.

So với các phương pháp phân cụm dựa trên mật độ, phân hoạch hay phân cấp, S3C2 cho phép xử lý dữ liệu đa chiều, phức tạp và có kích thước lớn hiệu quả hơn. Biểu đồ kết quả phân cụm (NMI, ARI, RI) minh họa rõ sự vượt trội của S3C2, đồng thời thời gian chạy hợp lý cho thấy tính khả thi trong ứng dụng thực tế.

Các kết quả cũng phù hợp với các nghiên cứu gần đây về phân cụm bán giám sát sử dụng mạng nơ-ron và học sâu, khẳng định xu hướng ứng dụng trí tuệ nhân tạo trong khai phá dữ liệu. Tuy nhiên, việc huấn luyện mạng nơ-ron đòi hỏi tài nguyên tính toán và thời gian, đặc biệt với dữ liệu lớn, cần được cân nhắc trong triển khai thực tế.

Đề xuất và khuyến nghị

Tăng cường thu thập tri thức theo cặp: Khuyến nghị các tổ chức và nhà nghiên cứu thu thập và cung cấp nhiều cặp dữ liệu được gán nhãn must-link và cannot-link để nâng cao chất lượng phân cụm, đặc biệt với dữ liệu lớn và phức tạp. Mục tiêu tăng số lượng cặp gán nhãn lên ít nhất 10% mỗi năm.
Ứng dụng mô hình S3C2 trong các hệ thống khai phá dữ liệu: Đề xuất triển khai phương pháp S3C2 trong các hệ thống phân tích dữ liệu doanh nghiệp, ngân hàng, y tế để cải thiện phân nhóm khách hàng, phát hiện gian lận, phân loại hình ảnh. Thời gian thực hiện trong vòng 6-12 tháng, do các nhóm phát triển phần mềm và chuyên gia dữ liệu phối hợp.
Tối ưu hóa hiệu năng huấn luyện mạng nơ-ron: Khuyến nghị nghiên cứu và áp dụng các kỹ thuật tăng tốc huấn luyện như sử dụng GPU, thuật toán tối ưu mới, giảm chiều dữ liệu để giảm thời gian huấn luyện mạng LabNet và CluNet, nhằm đáp ứng yêu cầu xử lý dữ liệu lớn trong thời gian thực.
Mở rộng nghiên cứu với các loại dữ liệu khác: Đề xuất nghiên cứu áp dụng phương pháp S3C2 cho các loại dữ liệu phi cấu trúc như văn bản, âm thanh, video để đánh giá tính hiệu quả và khả năng mở rộng của mô hình. Thời gian nghiên cứu dự kiến 1-2 năm, do các nhóm nghiên cứu chuyên sâu về học máy và xử lý dữ liệu đa phương tiện thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Hệ thống Thông tin, Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về phân cụm bán giám sát, mạng nơ-ron Siamese và ứng dụng học sâu trong khai phá dữ liệu, hỗ trợ phát triển các đề tài nghiên cứu và luận văn.
Chuyên gia phân tích dữ liệu và kỹ sư học máy: Cung cấp phương pháp và mô hình thực nghiệm để áp dụng trong các dự án phân tích dữ liệu lớn, phân nhóm khách hàng, nhận dạng mẫu, giúp nâng cao hiệu quả và độ chính xác của hệ thống.
Doanh nghiệp và tổ chức sử dụng khai phá dữ liệu: Giúp hiểu rõ các kỹ thuật phân cụm tiên tiến, từ đó lựa chọn và triển khai các giải pháp phù hợp nhằm tối ưu hóa quản lý khách hàng, phát hiện gian lận, cải thiện dịch vụ.
Nhà phát triển phần mềm và kỹ sư AI: Cung cấp kiến thức về thiết kế, huấn luyện mạng nơ-ron Siamese, xây dựng mô hình phân cụm bán giám sát, hỗ trợ phát triển các ứng dụng AI trong lĩnh vực khai phá dữ liệu và trí tuệ nhân tạo.

Câu hỏi thường gặp

Phân cụm bán giám sát khác gì so với phân cụm không giám sát?
Phân cụm bán giám sát sử dụng thêm tri thức nền tảng như các ràng buộc must-link và cannot-link giữa các cặp đối tượng để cải thiện chất lượng phân cụm, trong khi phân cụm không giám sát chỉ dựa trên tính tương đồng dữ liệu mà không có thông tin bổ sung.
Mạng nơ-ron Siamese được sử dụng như thế nào trong phương pháp S3C2?
Mạng Siamese trong LabNet học để phân loại nhị phân các cặp điểm dữ liệu thành must-link hoặc cannot-link dựa trên khoảng cách Euclide giữa các biểu diễn học được, từ đó mở rộng số lượng cặp được gán nhãn cho quá trình phân cụm.
Các chỉ số NMI, ARI, RI phản ánh điều gì về chất lượng phân cụm?
NMI đo mức độ tương đồng giữa phân cụm và nhãn thực tế, ARI điều chỉnh Rand Index để loại bỏ ảnh hưởng ngẫu nhiên, RI đo tỷ lệ cặp điểm được phân loại đúng. Giá trị càng gần 1 cho thấy phân cụm càng chính xác.
Phương pháp S3C2 có thể áp dụng cho dữ liệu lớn và phức tạp không?
Có, thử nghiệm trên bộ dữ liệu MNIST với 70,000 mẫu và 10 cụm cho thấy S3C2 hoạt động hiệu quả, đặc biệt khi số lượng cặp gán nhãn tăng lên, tuy nhiên cần tài nguyên tính toán phù hợp để huấn luyện mạng nơ-ron.
Làm thế nào để lựa chọn số lượng cặp dữ liệu gán nhãn must-link và cannot-link?
Số lượng cặp gán nhãn nên đủ để mạng LabNet học tốt, thường bắt đầu từ vài trăm đến vài nghìn cặp tùy kích thước và độ phức tạp dữ liệu. Việc sinh ngẫu nhiên và đa dạng các cặp giúp cải thiện khả năng tổng quát của mô hình.

Kết luận

Phương pháp phân cụm bán giám sát S3C2 sử dụng mạng nơ-ron Siamese hiệu quả trong việc tận dụng tri thức theo từng cặp để nâng cao chất lượng phân cụm trên dữ liệu đa dạng và phức tạp.
Thử nghiệm trên bộ dữ liệu Iris và MNIST cho thấy S3C2 vượt trội so với nhiều phương pháp phân cụm tiên tiến khác về độ chính xác (NMI, ARI, RI) và tính linh hoạt.
Mô hình gồm hai mạng LabNet và CluNet giúp mở rộng số lượng cặp được gán nhãn và phân cụm chính xác hơn, phù hợp với các bài toán có dữ liệu lớn và số cụm nhiều.
Thời gian huấn luyện và chạy thử nghiệm hợp lý, cho thấy tính khả thi trong ứng dụng thực tế với các hệ thống khai phá dữ liệu hiện đại.
Đề xuất tiếp tục nghiên cứu tối ưu hóa hiệu năng, mở rộng ứng dụng cho các loại dữ liệu phi cấu trúc và phát triển các giải pháp khai phá dữ liệu thông minh dựa trên mô hình này.

Các nhà nghiên cứu và chuyên gia phân tích dữ liệu nên áp dụng và phát triển thêm phương pháp S3C2 trong các dự án thực tế, đồng thời mở rộng nghiên cứu để nâng cao hiệu quả và khả năng ứng dụng của phân cụm bán giám sát dựa trên mạng nơ-ron.

Chủ đề

Phân cụm dữ liệu và ứng dụng

Các phương pháp phân cụm cơ bản

Nghiên cứu về phân cụm bán giám sát

Mô hình S3C2 trong phân cụm