Phương Pháp Phân Cụm Dựa Trên Tri Thức Theo Từng Cặp Hiệu Quả

I. Phương pháp phân cụm

Phương pháp phân cụm là một kỹ thuật quan trọng trong lĩnh vực khai phá dữ liệu, giúp chia tập dữ liệu thành các cụm dựa trên độ tương tự giữa các đối tượng. Phân cụm dựa trên tri thức là một hướng tiếp cận mới, sử dụng thông tin bổ trợ như ràng buộc hoặc tập giống để nâng cao chất lượng phân cụm. Phân cụm theo từng cặp là một phương pháp hiệu quả, tập trung vào việc xác định mối quan hệ giữa các cặp dữ liệu để tạo ra các cụm chính xác hơn.

1.1. Phân cụm dữ liệu

Phân cụm dữ liệu là quá trình chia tập dữ liệu thành các cụm sao cho các đối tượng trong cùng một cụm có độ tương tự cao hơn so với các đối tượng ở cụm khác. Phương pháp này được ứng dụng rộng rãi trong nhiều lĩnh vực như kinh doanh thông minh, nhận dạng mẫu, và tìm kiếm web. Phân cụm thông minh sử dụng các thuật toán tiên tiến để tối ưu hóa quá trình phân cụm, đặc biệt là trong xử lý dữ liệu lớn.

1.2. Phân cụm dựa trên tri thức

Phân cụm dựa trên tri thức là phương pháp sử dụng thông tin bổ trợ như ràng buộc hoặc tập giống để cải thiện chất lượng phân cụm. Tri thức trong phân cụm có thể được biểu diễn dưới dạng các ràng buộc như must-link hoặc cannot-link, giúp xác định mối quan hệ giữa các cặp dữ liệu. Phương pháp này đặc biệt hiệu quả trong các bài toán phân cụm bán giám sát.

II. Phân cụm theo từng cặp

Phân cụm theo từng cặp là phương pháp tập trung vào việc xác định mối quan hệ giữa các cặp dữ liệu để tạo ra các cụm chính xác hơn. Phân cụm dựa trên cặp sử dụng các ràng buộc để xác định liệu hai đối tượng có thuộc cùng một cụm hay không. Phương pháp này đặc biệt hiệu quả trong các bài toán phân cụm dữ liệu lớn, nơi mà việc xử lý thông tin từng cặp giúp giảm thiểu độ phức tạp tính toán.

2.1. Phân cụm dựa trên ràng buộc

Phân cụm dựa trên ràng buộc là phương pháp sử dụng các ràng buộc như must-link hoặc cannot-link để xác định mối quan hệ giữa các cặp dữ liệu. Phân cụm dựa trên logic và phân cụm dựa trên mối quan hệ là hai hướng tiếp cận chính trong phương pháp này. Các ràng buộc này giúp cải thiện chất lượng phân cụm bằng cách hướng dẫn thuật toán tập trung vào các mối quan hệ quan trọng giữa các đối tượng.

2.2. Phân cụm dựa trên ngữ nghĩa

Phân cụm dựa trên ngữ nghĩa là phương pháp sử dụng thông tin ngữ nghĩa để xác định mối quan hệ giữa các đối tượng. Phân cụm dựa trên trí tuệ nhân tạo và phân cụm dựa trên mô hình là hai hướng tiếp cận chính trong phương pháp này. Phương pháp này đặc biệt hiệu quả trong các bài toán phân cụm dữ liệu lớn, nơi mà việc xử lý thông tin ngữ nghĩa giúp cải thiện độ chính xác của kết quả phân cụm.

III. Phân cụm hiệu quả

Phân cụm hiệu quả là phương pháp tập trung vào việc tối ưu hóa quá trình phân cụm để đạt được kết quả chính xác và nhanh chóng. Phân cụm tối ưu sử dụng các thuật toán tiên tiến để giảm thiểu thời gian tính toán và cải thiện chất lượng phân cụm. Phân cụm dựa trên học máy và phân cụm dựa trên thuật toán là hai hướng tiếp cận chính trong phương pháp này.

3.1. Phân cụm dựa trên học máy

Phân cụm dựa trên học máy là phương pháp sử dụng các mô hình học máy để tự động hóa quá trình phân cụm. Phân cụm dựa trên trí tuệ nhân tạo và phân cụm dựa trên mô hình là hai hướng tiếp cận chính trong phương pháp này. Phương pháp này đặc biệt hiệu quả trong các bài toán phân cụm dữ liệu lớn, nơi mà việc tự động hóa giúp giảm thiểu thời gian tính toán và cải thiện độ chính xác của kết quả phân cụm.

3.2. Phân cụm dựa trên thuật toán

Phân cụm dựa trên thuật toán là phương pháp sử dụng các thuật toán tiên tiến để tối ưu hóa quá trình phân cụm. Phân cụm dựa trên thống kê và phân cụm dựa trên quy tắc là hai hướng tiếp cận chính trong phương pháp này. Phương pháp này đặc biệt hiệu quả trong các bài toán phân cụm dữ liệu lớn, nơi mà việc tối ưu hóa thuật toán giúp giảm thiểu thời gian tính toán và cải thiện chất lượng phân cụm.

Tổng quan nghiên cứu

Trong kỷ nguyên công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu sinh ra ngày càng lớn, đòi hỏi các kỹ thuật khai phá dữ liệu hiệu quả để xử lý và phân tích. Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu, giúp nhóm các đối tượng tương tự vào cùng một cụm, phục vụ nhiều lĩnh vực như kinh doanh thông minh, nhận dạng mẫu, sinh học và bảo mật. Tuy nhiên, phân cụm truyền thống thường dựa trên học không giám sát, dẫn đến kết quả khó giải thích và không chính xác khi thiếu thông tin bổ trợ.

Luận văn tập trung nghiên cứu phương pháp phân cụm dựa trên tri thức theo từng cặp, cụ thể là phương pháp S3C2 (Semi-Supervised Siamese Classifiers for Clustering) sử dụng mạng nơ-ron nhân tạo và học sâu để cải thiện chất lượng phân cụm. Phương pháp này tận dụng các ràng buộc must-link và cannot-link giữa các cặp dữ liệu, giúp tăng độ chính xác phân cụm ngay cả khi số lượng ràng buộc ban đầu rất ít. Thời gian nghiên cứu tập trung vào năm 2020, với thử nghiệm trên hai bộ dữ liệu tiêu biểu: Iris (150 mẫu, 4 thuộc tính) và MNIST (70.000 mẫu ảnh chữ số viết tay, 28×28 pixel).

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả phân cụm bán giám sát, đặc biệt với dữ liệu lớn và phức tạp, góp phần phát triển các ứng dụng trong khai phá dữ liệu lớn và trí tuệ nhân tạo. Các chỉ số đánh giá như Normalized Mutual Information (NMI), Adjusted Rand Index (ARI) và Rand Index (RI) được sử dụng để đo lường chất lượng phân cụm, cho thấy phương pháp S3C2 vượt trội so với các thuật toán hiện có.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Phân cụm dữ liệu (Clustering): Quá trình phân chia tập dữ liệu thành các cụm sao cho các đối tượng trong cùng cụm có tính tương tự cao hơn so với các đối tượng ở cụm khác. Các phương pháp phân cụm cơ bản gồm phân hoạch (k-Means), phân cấp (Chameleon), dựa trên mật độ (DBSCAN) và dựa trên lưới (STING).
Phân cụm bán giám sát (Semi-Supervised Clustering): Kết hợp thông tin tri thức dưới dạng ràng buộc must-link (cặp điểm cùng cụm) và cannot-link (cặp điểm khác cụm) để cải thiện chất lượng phân cụm.
Mạng nơ-ron nhân tạo (Artificial Neural Networks): Mô hình tính toán lấy cảm hứng từ cấu trúc sinh học của não bộ, gồm các nơ-ron nhân tạo kết nối qua các trọng số. Mạng đa lớp truyền tới nhiều tầng (Multilayer Feed-forward Networks) với các hàm kích hoạt phi tuyến như sigmoid, softmax được sử dụng để học các biểu diễn phức tạp.
Mạng Siamese Neural Networks (SNN): Mạng gồm hai nhánh chia sẻ trọng số, dùng để học biểu diễn và so sánh cặp dữ liệu, phù hợp cho bài toán phân loại nhị phân như xác định must-link hay cannot-link.
Hàm mất mát (Loss Functions): Bao gồm hàm contrastive loss cho mạng LabNet và hàm misclassification loss cho mạng CluNet, giúp tối ưu hóa quá trình huấn luyện mạng nơ-ron.

Phương pháp nghiên cứu

Nguồn dữ liệu: Hai bộ dữ liệu tiêu chuẩn được sử dụng là Iris (150 mẫu, 4 thuộc tính) và MNIST (70.000 mẫu ảnh chữ số viết tay, 28×28 pixel).
Phương pháp phân tích: Phương pháp S3C2 gồm hai giai đoạn chính:
1. LabNet: Mạng Siamese được huấn luyện để phân loại nhị phân các cặp điểm dữ liệu thành must-link hoặc cannot-link dựa trên các ràng buộc ban đầu. Mạng sử dụng hàm contrastive loss và thuật toán tối ưu RMSprop.
2. CluNet: Mạng Siamese thứ hai được huấn luyện dựa trên các cặp đã gán nhãn từ LabNet để dự đoán cụm cho từng điểm dữ liệu. Mạng sử dụng hàm misclassification loss và thuật toán tối ưu Adam.
Timeline nghiên cứu: Thực hiện từ đầu năm 2020 đến tháng 9/2020, bao gồm giai đoạn xây dựng mô hình, cài đặt chương trình bằng Python 3.7, thử nghiệm trên hai bộ dữ liệu, đánh giá và so sánh kết quả.
Cỡ mẫu và chọn mẫu: Toàn bộ dữ liệu Iris và MNIST được sử dụng. Các cặp dữ liệu được gán nhãn must-link hoặc cannot-link được sinh ngẫu nhiên với số lượng thay đổi theo từng kịch bản thử nghiệm (từ 30 đến 160 cặp cho Iris, từ 100 đến 5000 cặp cho MNIST).
Đánh giá: Sử dụng các chỉ số NMI, ARI, RI để đánh giá chất lượng phân cụm, đồng thời đo thời gian chạy để đánh giá hiệu năng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân cụm trên bộ dữ liệu Iris:
- Với số lượng cặp gán nhãn từ 30 đến 160, phương pháp S3C2 đạt chỉ số RI trung bình trên 0.9, ARI và NMI cũng tăng theo số lượng cặp gán nhãn.
- Thời gian chạy trung bình mỗi lần khoảng 31 giây trên cấu hình máy tính tiêu chuẩn.
Hiệu quả phân cụm trên bộ dữ liệu MNIST:
- Khi số lượng cặp gán nhãn tăng từ 100 đến 5000, chỉ số NMI, ARI, RI đều tăng rõ rệt, đạt giá trị cao nhất khi có 5000 cặp.
- Thời gian chạy trung bình mỗi lần khoảng 412 giây, phù hợp với kích thước và độ phức tạp của dữ liệu.
So sánh với các phương pháp khác:
- Trên Iris, S3C2 vượt trội hơn các phương pháp SSGC, SSDBSCAN, SSK-Means, MCSSGC với chỉ số RI khoảng 0.9 so với khoảng 0.6 của các phương pháp còn lại.
- Trên MNIST, S3C2 đạt NMI cao hơn so với d-graph, DCPR, IDEC, đặc biệt khi số lượng cặp gán nhãn lớn.
Khả năng mở rộng và linh hoạt:
- Mô hình S3C2 có thể áp dụng chung kiến trúc mạng cho cả dữ liệu nhỏ (Iris) và dữ liệu lớn, phức tạp (MNIST).
- Phương pháp khắc phục được nhược điểm của các phương pháp phân cụm phân loại khác khi số lượng ràng buộc ban đầu ít.

Thảo luận kết quả

Kết quả cho thấy việc sử dụng mạng nơ-ron Siamese trong S3C2 để gán nhãn cho các cặp dữ liệu chưa gán nhãn giúp tăng số lượng ràng buộc, từ đó cải thiện đáng kể chất lượng phân cụm. Việc tách bài toán phân cụm thành hai giai đoạn (gán nhãn cặp và phân cụm) giúp giảm độ phức tạp và tăng hiệu quả học.

So với các phương pháp truyền thống như k-Means, DBSCAN hay các phương pháp bán giám sát khác, S3C2 tận dụng tốt hơn thông tin tri thức theo từng cặp, đặc biệt trong trường hợp dữ liệu lớn và số lượng ràng buộc hạn chế. Các biểu đồ kết quả phân cụm có thể được trình bày dưới dạng đường biểu diễn chỉ số NMI, ARI, RI theo số lượng cặp gán nhãn, hoặc bảng so sánh kết quả giữa các phương pháp.

Tuy nhiên, thời gian chạy trên dữ liệu lớn như MNIST vẫn còn khá cao, cho thấy cần tối ưu thêm về mặt thuật toán hoặc phần cứng để ứng dụng thực tế hiệu quả hơn.

Đề xuất và khuyến nghị

Tăng cường thu thập và gán nhãn ràng buộc: Khuyến nghị các nhà nghiên cứu và thực hành thu thập thêm các cặp dữ liệu có ràng buộc must-link và cannot-link để nâng cao chất lượng phân cụm, đặc biệt với dữ liệu lớn.
Tối ưu hóa mô hình và thuật toán: Đề xuất phát triển các kỹ thuật tối ưu hóa mạng nơ-ron và thuật toán huấn luyện để giảm thời gian chạy, tăng khả năng mở rộng cho các bộ dữ liệu siêu lớn.
Ứng dụng đa lĩnh vực: Khuyến khích áp dụng phương pháp S3C2 trong các lĩnh vực như quản lý khách hàng, nhận dạng mẫu, phân tích hình ảnh y tế, nơi dữ liệu phức tạp và có thể tận dụng tri thức theo cặp.
Phát triển giao diện trực quan: Đề xuất xây dựng các công cụ trực quan hóa kết quả phân cụm và mạng nơ-ron để hỗ trợ người dùng đánh giá và điều chỉnh mô hình dễ dàng hơn.
Nghiên cứu mở rộng: Khuyến nghị nghiên cứu thêm về việc kết hợp các loại ràng buộc khác như ràng buộc trên cụm hoặc trên thước đo tương tự để nâng cao hiệu quả phân cụm.

Đối tượng nên tham khảo luận văn

Nghiên cứu sinh và học viên cao học ngành Hệ thống Thông tin, Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về phân cụm bán giám sát và ứng dụng mạng nơ-ron, hỗ trợ phát triển đề tài nghiên cứu liên quan.
Chuyên gia và kỹ sư dữ liệu (Data Scientists, Data Engineers): Cung cấp phương pháp mới để xử lý dữ liệu lớn, cải thiện chất lượng phân cụm trong các dự án khai phá dữ liệu và trí tuệ nhân tạo.
Doanh nghiệp và tổ chức ứng dụng công nghệ thông tin: Giúp nâng cao hiệu quả phân tích khách hàng, nhận dạng mẫu, quản lý dữ liệu phức tạp, từ đó tối ưu hóa chiến lược kinh doanh và vận hành.
Giảng viên và nhà đào tạo: Tài liệu tham khảo để xây dựng giáo trình, bài giảng về phân cụm dữ liệu, mạng nơ-ron và học máy, cập nhật các phương pháp tiên tiến trong lĩnh vực.

Câu hỏi thường gặp

Phân cụm bán giám sát khác gì so với phân cụm không giám sát?
Phân cụm bán giám sát sử dụng thêm thông tin tri thức như ràng buộc must-link và cannot-link để hướng dẫn quá trình phân cụm, giúp kết quả chính xác hơn so với phân cụm không giám sát chỉ dựa trên tính tương tự dữ liệu.
Mạng Siamese Neural Networks (SNN) có vai trò gì trong phương pháp S3C2?
SNN được dùng để học biểu diễn và phân loại nhị phân các cặp dữ liệu thành must-link hoặc cannot-link, từ đó mở rộng số lượng ràng buộc cho quá trình phân cụm, giúp cải thiện chất lượng phân cụm.
Phương pháp S3C2 có thể áp dụng cho những loại dữ liệu nào?
S3C2 phù hợp với dữ liệu có kích thước và số chiều lớn, phức tạp như ảnh chữ số viết tay MNIST, cũng như dữ liệu nhỏ hơn như Iris, miễn là có thể biểu diễn dưới dạng vector và có ràng buộc theo cặp.
Các chỉ số NMI, ARI, RI dùng để đánh giá phân cụm có ý nghĩa gì?
NMI đo lường sự tương đồng giữa phân cụm và nhãn thực tế, ARI điều chỉnh Rand Index để loại bỏ ảnh hưởng ngẫu nhiên, RI đo tỷ lệ cặp điểm được phân loại đúng. Các chỉ số càng gần 1 càng cho thấy phân cụm chính xác.
Thời gian chạy của phương pháp S3C2 có phù hợp với ứng dụng thực tế không?
Trên dữ liệu nhỏ như Iris, thời gian chạy trung bình khoảng 31 giây là hợp lý. Với dữ liệu lớn như MNIST, thời gian khoảng 6-7 phút mỗi lần chạy, cần tối ưu thêm để ứng dụng trong môi trường thời gian thực hoặc dữ liệu siêu lớn.

Kết luận

Phương pháp phân cụm dựa trên tri thức theo từng cặp S3C2 sử dụng mạng nơ-ron Siamese hiệu quả trong việc cải thiện chất lượng phân cụm bán giám sát.
Thử nghiệm trên bộ dữ liệu Iris và MNIST cho thấy S3C2 vượt trội so với nhiều phương pháp phân cụm tiên tiến khác về độ chính xác (NMI, ARI, RI).
Mô hình có tính linh hoạt cao, áp dụng được cho dữ liệu có kích thước và độ phức tạp khác nhau với cùng kiến trúc mạng.
Thời gian chạy phù hợp với dữ liệu nhỏ và trung bình, cần tối ưu để mở rộng cho dữ liệu lớn hơn.
Đề xuất tiếp tục phát triển các giải pháp tối ưu hóa, mở rộng ứng dụng và tích hợp thêm các loại ràng buộc khác để nâng cao hiệu quả phân cụm.

Hành động tiếp theo: Các nhà nghiên cứu và chuyên gia dữ liệu nên áp dụng và thử nghiệm phương pháp S3C2 trong các dự án thực tế, đồng thời phát triển các công cụ hỗ trợ để khai thác tối đa tiềm năng của phương pháp này.

Luận Văn: Phân Cụm Dựa Trên Tri Thức Theo Từng Cặp - Giải Pháp Tối Ưu

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

DANH SÁCH HÌNH VẼ

1. CHƯƠNG 1: PHÂN CỤM DỮ LIỆU

1.1. Phân cụm là gì

1.2. Một số phương pháp phân cụm dữ liệu cơ bản

1.2.1. Phương pháp phân hoạch

1.2.1.1. Thuật toán k-Means

1.2.2. Phương pháp phân cấp

1.2.2.1. Thuật toán Chameleon

1.2.3. Phương pháp dựa trên mật độ

2. CHƯƠNG 2: PHÂN CỤM DỰA TRÊN TRI THỨC THEO TỪNG CẶP

2.1. Phân cụm dựa trên ràng buộc

2.2. Phân loại các ràng buộc

2.3. Các phương pháp phân cụm dựa trên ràng buộc

2.4. Phương pháp S3C2

2.4.1. Giới thiệu sơ lược

2.4.2. Chi tiết mô hình

2.4.3. Đánh giá mô hình

3. CHƯƠNG 3: CHƯƠNG TRÌNH VÀ THỬ NGHIỆM

3.1. Dữ liệu thử nghiệm

3.1.1. Dữ liệu hoa Iris

3.1.2. Dữ liệu chữ số viết tay MNIST

3.2. Thử nghiệm trên bộ dữ liệu hoa Iris

3.2.1. Kịch bản thử nghiệm

3.2.2. Kết quả thử nghiệm

3.3. Thử nghiệm trên bộ dữ liệu MNIST

3.3.1. Kịch bản thử nghiệm

3.3.2. Kết quả thử nghiệm

3.4. Nhận xét thử nghiệm

4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Phương pháp phân cụm

1.1. Phân cụm dữ liệu

1.2. Phân cụm dựa trên tri thức

II. Phân cụm theo từng cặp

2.1. Phân cụm dựa trên ràng buộc

2.2. Phân cụm dựa trên ngữ nghĩa

III. Phân cụm hiệu quả

3.1. Phân cụm dựa trên học máy

3.2. Phân cụm dựa trên thuật toán

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Đỗ Văn Việt

Người hướng dẫn: PGS. Hoàng Xuân Huấn

Trường học: Đại học Công nghệ - Đại học Quốc gia Hà Nội

Chuyên ngành: Hệ thống thông tin

Đề tài: Phương Pháp Phân Cụm Dựa Trên Tri Thức Theo Từng Cặp Hiệu Quả

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận