Tổng quan nghiên cứu

Trong kỷ nguyên công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu sinh ra ngày càng lớn, đòi hỏi các kỹ thuật khai phá dữ liệu hiệu quả để xử lý và phân tích. Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu, giúp nhóm các đối tượng tương tự vào cùng một cụm, phục vụ nhiều lĩnh vực như kinh doanh thông minh, nhận dạng mẫu, sinh học và bảo mật. Tuy nhiên, phân cụm truyền thống thường dựa trên học không giám sát, dẫn đến kết quả khó giải thích và không chính xác khi thiếu thông tin bổ trợ.

Luận văn tập trung nghiên cứu phương pháp phân cụm dựa trên tri thức theo từng cặp, cụ thể là phương pháp S3C2 (Semi-Supervised Siamese Classifiers for Clustering) sử dụng mạng nơ-ron nhân tạo và học sâu để cải thiện chất lượng phân cụm. Phương pháp này tận dụng các ràng buộc must-link và cannot-link giữa các cặp dữ liệu, giúp tăng độ chính xác phân cụm ngay cả khi số lượng ràng buộc ban đầu rất ít. Thời gian nghiên cứu tập trung vào năm 2020, với thử nghiệm trên hai bộ dữ liệu tiêu biểu: Iris (150 mẫu, 4 thuộc tính) và MNIST (70.000 mẫu ảnh chữ số viết tay, 28×28 pixel).

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả phân cụm bán giám sát, đặc biệt với dữ liệu lớn và phức tạp, góp phần phát triển các ứng dụng trong khai phá dữ liệu lớn và trí tuệ nhân tạo. Các chỉ số đánh giá như Normalized Mutual Information (NMI), Adjusted Rand Index (ARI) và Rand Index (RI) được sử dụng để đo lường chất lượng phân cụm, cho thấy phương pháp S3C2 vượt trội so với các thuật toán hiện có.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Phân cụm dữ liệu (Clustering): Quá trình phân chia tập dữ liệu thành các cụm sao cho các đối tượng trong cùng cụm có tính tương tự cao hơn so với các đối tượng ở cụm khác. Các phương pháp phân cụm cơ bản gồm phân hoạch (k-Means), phân cấp (Chameleon), dựa trên mật độ (DBSCAN) và dựa trên lưới (STING).

  • Phân cụm bán giám sát (Semi-Supervised Clustering): Kết hợp thông tin tri thức dưới dạng ràng buộc must-link (cặp điểm cùng cụm) và cannot-link (cặp điểm khác cụm) để cải thiện chất lượng phân cụm.

  • Mạng nơ-ron nhân tạo (Artificial Neural Networks): Mô hình tính toán lấy cảm hứng từ cấu trúc sinh học của não bộ, gồm các nơ-ron nhân tạo kết nối qua các trọng số. Mạng đa lớp truyền tới nhiều tầng (Multilayer Feed-forward Networks) với các hàm kích hoạt phi tuyến như sigmoid, softmax được sử dụng để học các biểu diễn phức tạp.

  • Mạng Siamese Neural Networks (SNN): Mạng gồm hai nhánh chia sẻ trọng số, dùng để học biểu diễn và so sánh cặp dữ liệu, phù hợp cho bài toán phân loại nhị phân như xác định must-link hay cannot-link.

  • Hàm mất mát (Loss Functions): Bao gồm hàm contrastive loss cho mạng LabNet và hàm misclassification loss cho mạng CluNet, giúp tối ưu hóa quá trình huấn luyện mạng nơ-ron.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Hai bộ dữ liệu tiêu chuẩn được sử dụng là Iris (150 mẫu, 4 thuộc tính) và MNIST (70.000 mẫu ảnh chữ số viết tay, 28×28 pixel).

  • Phương pháp phân tích: Phương pháp S3C2 gồm hai giai đoạn chính:

    1. LabNet: Mạng Siamese được huấn luyện để phân loại nhị phân các cặp điểm dữ liệu thành must-link hoặc cannot-link dựa trên các ràng buộc ban đầu. Mạng sử dụng hàm contrastive loss và thuật toán tối ưu RMSprop.

    2. CluNet: Mạng Siamese thứ hai được huấn luyện dựa trên các cặp đã gán nhãn từ LabNet để dự đoán cụm cho từng điểm dữ liệu. Mạng sử dụng hàm misclassification loss và thuật toán tối ưu Adam.

  • Timeline nghiên cứu: Thực hiện từ đầu năm 2020 đến tháng 9/2020, bao gồm giai đoạn xây dựng mô hình, cài đặt chương trình bằng Python 3.7, thử nghiệm trên hai bộ dữ liệu, đánh giá và so sánh kết quả.

  • Cỡ mẫu và chọn mẫu: Toàn bộ dữ liệu Iris và MNIST được sử dụng. Các cặp dữ liệu được gán nhãn must-link hoặc cannot-link được sinh ngẫu nhiên với số lượng thay đổi theo từng kịch bản thử nghiệm (từ 30 đến 160 cặp cho Iris, từ 100 đến 5000 cặp cho MNIST).

  • Đánh giá: Sử dụng các chỉ số NMI, ARI, RI để đánh giá chất lượng phân cụm, đồng thời đo thời gian chạy để đánh giá hiệu năng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân cụm trên bộ dữ liệu Iris:

    • Với số lượng cặp gán nhãn từ 30 đến 160, phương pháp S3C2 đạt chỉ số RI trung bình trên 0.9, ARI và NMI cũng tăng theo số lượng cặp gán nhãn.

    • Thời gian chạy trung bình mỗi lần khoảng 31 giây trên cấu hình máy tính tiêu chuẩn.

  2. Hiệu quả phân cụm trên bộ dữ liệu MNIST:

    • Khi số lượng cặp gán nhãn tăng từ 100 đến 5000, chỉ số NMI, ARI, RI đều tăng rõ rệt, đạt giá trị cao nhất khi có 5000 cặp.

    • Thời gian chạy trung bình mỗi lần khoảng 412 giây, phù hợp với kích thước và độ phức tạp của dữ liệu.

  3. So sánh với các phương pháp khác:

    • Trên Iris, S3C2 vượt trội hơn các phương pháp SSGC, SSDBSCAN, SSK-Means, MCSSGC với chỉ số RI khoảng 0.9 so với khoảng 0.6 của các phương pháp còn lại.

    • Trên MNIST, S3C2 đạt NMI cao hơn so với d-graph, DCPR, IDEC, đặc biệt khi số lượng cặp gán nhãn lớn.

  4. Khả năng mở rộng và linh hoạt:

    • Mô hình S3C2 có thể áp dụng chung kiến trúc mạng cho cả dữ liệu nhỏ (Iris) và dữ liệu lớn, phức tạp (MNIST).

    • Phương pháp khắc phục được nhược điểm của các phương pháp phân cụm phân loại khác khi số lượng ràng buộc ban đầu ít.

Thảo luận kết quả

Kết quả cho thấy việc sử dụng mạng nơ-ron Siamese trong S3C2 để gán nhãn cho các cặp dữ liệu chưa gán nhãn giúp tăng số lượng ràng buộc, từ đó cải thiện đáng kể chất lượng phân cụm. Việc tách bài toán phân cụm thành hai giai đoạn (gán nhãn cặp và phân cụm) giúp giảm độ phức tạp và tăng hiệu quả học.

So với các phương pháp truyền thống như k-Means, DBSCAN hay các phương pháp bán giám sát khác, S3C2 tận dụng tốt hơn thông tin tri thức theo từng cặp, đặc biệt trong trường hợp dữ liệu lớn và số lượng ràng buộc hạn chế. Các biểu đồ kết quả phân cụm có thể được trình bày dưới dạng đường biểu diễn chỉ số NMI, ARI, RI theo số lượng cặp gán nhãn, hoặc bảng so sánh kết quả giữa các phương pháp.

Tuy nhiên, thời gian chạy trên dữ liệu lớn như MNIST vẫn còn khá cao, cho thấy cần tối ưu thêm về mặt thuật toán hoặc phần cứng để ứng dụng thực tế hiệu quả hơn.

Đề xuất và khuyến nghị

  1. Tăng cường thu thập và gán nhãn ràng buộc: Khuyến nghị các nhà nghiên cứu và thực hành thu thập thêm các cặp dữ liệu có ràng buộc must-link và cannot-link để nâng cao chất lượng phân cụm, đặc biệt với dữ liệu lớn.

  2. Tối ưu hóa mô hình và thuật toán: Đề xuất phát triển các kỹ thuật tối ưu hóa mạng nơ-ron và thuật toán huấn luyện để giảm thời gian chạy, tăng khả năng mở rộng cho các bộ dữ liệu siêu lớn.

  3. Ứng dụng đa lĩnh vực: Khuyến khích áp dụng phương pháp S3C2 trong các lĩnh vực như quản lý khách hàng, nhận dạng mẫu, phân tích hình ảnh y tế, nơi dữ liệu phức tạp và có thể tận dụng tri thức theo cặp.

  4. Phát triển giao diện trực quan: Đề xuất xây dựng các công cụ trực quan hóa kết quả phân cụm và mạng nơ-ron để hỗ trợ người dùng đánh giá và điều chỉnh mô hình dễ dàng hơn.

  5. Nghiên cứu mở rộng: Khuyến nghị nghiên cứu thêm về việc kết hợp các loại ràng buộc khác như ràng buộc trên cụm hoặc trên thước đo tương tự để nâng cao hiệu quả phân cụm.

Đối tượng nên tham khảo luận văn

  1. Nghiên cứu sinh và học viên cao học ngành Hệ thống Thông tin, Khoa học Máy tính: Luận văn cung cấp kiến thức chuyên sâu về phân cụm bán giám sát và ứng dụng mạng nơ-ron, hỗ trợ phát triển đề tài nghiên cứu liên quan.

  2. Chuyên gia và kỹ sư dữ liệu (Data Scientists, Data Engineers): Cung cấp phương pháp mới để xử lý dữ liệu lớn, cải thiện chất lượng phân cụm trong các dự án khai phá dữ liệu và trí tuệ nhân tạo.

  3. Doanh nghiệp và tổ chức ứng dụng công nghệ thông tin: Giúp nâng cao hiệu quả phân tích khách hàng, nhận dạng mẫu, quản lý dữ liệu phức tạp, từ đó tối ưu hóa chiến lược kinh doanh và vận hành.

  4. Giảng viên và nhà đào tạo: Tài liệu tham khảo để xây dựng giáo trình, bài giảng về phân cụm dữ liệu, mạng nơ-ron và học máy, cập nhật các phương pháp tiên tiến trong lĩnh vực.

Câu hỏi thường gặp

  1. Phân cụm bán giám sát khác gì so với phân cụm không giám sát?
    Phân cụm bán giám sát sử dụng thêm thông tin tri thức như ràng buộc must-link và cannot-link để hướng dẫn quá trình phân cụm, giúp kết quả chính xác hơn so với phân cụm không giám sát chỉ dựa trên tính tương tự dữ liệu.

  2. Mạng Siamese Neural Networks (SNN) có vai trò gì trong phương pháp S3C2?
    SNN được dùng để học biểu diễn và phân loại nhị phân các cặp dữ liệu thành must-link hoặc cannot-link, từ đó mở rộng số lượng ràng buộc cho quá trình phân cụm, giúp cải thiện chất lượng phân cụm.

  3. Phương pháp S3C2 có thể áp dụng cho những loại dữ liệu nào?
    S3C2 phù hợp với dữ liệu có kích thước và số chiều lớn, phức tạp như ảnh chữ số viết tay MNIST, cũng như dữ liệu nhỏ hơn như Iris, miễn là có thể biểu diễn dưới dạng vector và có ràng buộc theo cặp.

  4. Các chỉ số NMI, ARI, RI dùng để đánh giá phân cụm có ý nghĩa gì?
    NMI đo lường sự tương đồng giữa phân cụm và nhãn thực tế, ARI điều chỉnh Rand Index để loại bỏ ảnh hưởng ngẫu nhiên, RI đo tỷ lệ cặp điểm được phân loại đúng. Các chỉ số càng gần 1 càng cho thấy phân cụm chính xác.

  5. Thời gian chạy của phương pháp S3C2 có phù hợp với ứng dụng thực tế không?
    Trên dữ liệu nhỏ như Iris, thời gian chạy trung bình khoảng 31 giây là hợp lý. Với dữ liệu lớn như MNIST, thời gian khoảng 6-7 phút mỗi lần chạy, cần tối ưu thêm để ứng dụng trong môi trường thời gian thực hoặc dữ liệu siêu lớn.

Kết luận

  • Phương pháp phân cụm dựa trên tri thức theo từng cặp S3C2 sử dụng mạng nơ-ron Siamese hiệu quả trong việc cải thiện chất lượng phân cụm bán giám sát.
  • Thử nghiệm trên bộ dữ liệu Iris và MNIST cho thấy S3C2 vượt trội so với nhiều phương pháp phân cụm tiên tiến khác về độ chính xác (NMI, ARI, RI).
  • Mô hình có tính linh hoạt cao, áp dụng được cho dữ liệu có kích thước và độ phức tạp khác nhau với cùng kiến trúc mạng.
  • Thời gian chạy phù hợp với dữ liệu nhỏ và trung bình, cần tối ưu để mở rộng cho dữ liệu lớn hơn.
  • Đề xuất tiếp tục phát triển các giải pháp tối ưu hóa, mở rộng ứng dụng và tích hợp thêm các loại ràng buộc khác để nâng cao hiệu quả phân cụm.

Hành động tiếp theo: Các nhà nghiên cứu và chuyên gia dữ liệu nên áp dụng và thử nghiệm phương pháp S3C2 trong các dự án thực tế, đồng thời phát triển các công cụ hỗ trợ để khai thác tối đa tiềm năng của phương pháp này.