Luận Văn Thạc Sĩ: Tập Thô và Bài Toán Phân Cụm Dữ Liệu

Khám phá luận văn thạc sĩ công nghệ thông tin về tập thô và bài toán phân cụm dữ liệu, ứng dụng và phương pháp phân tích hiệu quả.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1.1. Các phương pháp và các thuật toán phân cụm dữ liệu

1.2. Phương pháp dựa vào hàm mục tiêu

1.3. Các phương pháp phân cụm phân cấp

1.4. Các phương pháp dựa vào mật độ

1.5. Các phương pháp phân cụm dựa trên lưới

2. CHƯƠNG 2: LÝ THUYẾT TẬP THÔ

2.1. Hệ thông tin và hệ quyết định

2.2. Tính không phân biệt được (Indiscernibility)

2.3. Xấp xỉ tập hợp

3. CHƯƠNG 3: TẬP THÔ VÀ BÀI TOÁN PHÂN CỤM

3.1. Phân cụm thô (Rough C-means)

3.2. Phân cụm mờ

3.3. Phân cụm thô-mờ (Rough-Fuzzy C-means)

3.4. Phân cụm bóng

3.5. ỨNG DỤNG RCM TRONG PHÂN CỤM ẢNH

3.5.1. Phân vùng ảnh

3.5.2. Ảnh và những khái niệm liên quan

3.5.3. Độ phân giải của ảnh

3.5.4. Mức xám của ảnh

3.5.5. Phân cụm ảnh sử dụng phân cụm thô và phân cụm mờ

3.5.6. Thử nghiệm phân cụm ảnh sử dụng phân cụm thô và phân cụm mờ

3.5.7. So sánh và đánh giá

Tài liệu tham khảo

Tóm tắt

I. Tổng quan về Phân Tích Tập Thô và Phân Cụm Dữ Liệu

Phân tích tập thô và phân cụm dữ liệu là hai lĩnh vực quan trọng trong công nghệ thông tin. Chúng giúp tổ chức và phân tích dữ liệu lớn, từ đó rút ra những thông tin hữu ích. Phân tích tập thô tập trung vào việc xử lý dữ liệu không chính xác, trong khi phân cụm dữ liệu nhằm nhóm các đối tượng tương đồng. Cả hai phương pháp đều có ứng dụng rộng rãi trong các lĩnh vực như khoa học dữ liệu, marketing và y học.

1.1. Khái niệm cơ bản về Phân Tích Tập Thô

Phân tích tập thô là một phương pháp xử lý dữ liệu nhằm xác định các đối tượng có độ tương đồng cao. Nó giúp xác định các vùng xấp xỉ trên và dưới của một tập dữ liệu, từ đó phân loại thông tin không chính xác.

1.2. Định nghĩa và vai trò của Phân Cụm Dữ Liệu

Phân cụm dữ liệu là kỹ thuật nhóm các đối tượng có độ tương đồng cao vào một cụm. Nó giúp phát hiện các mẫu dữ liệu tự nhiên trong tập dữ liệu lớn, hỗ trợ ra quyết định trong nhiều lĩnh vực.

II. Vấn đề và Thách thức trong Phân Tích Dữ Liệu

Trong quá trình phân tích dữ liệu, nhiều thách thức xuất hiện như dữ liệu không chính xác, không đầy đủ và chồng chéo. Những vấn đề này ảnh hưởng đến độ chính xác của các thuật toán phân cụm. Việc xác định phương pháp phù hợp để xử lý dữ liệu là rất quan trọng.

2.1. Dữ liệu không chính xác và ảnh hưởng của nó

Dữ liệu không chính xác có thể dẫn đến kết quả phân tích sai lệch. Việc xử lý và làm sạch dữ liệu là cần thiết để đảm bảo độ tin cậy của các kết quả phân cụm.

2.2. Thách thức trong việc xác định phương pháp phân cụm

Việc lựa chọn phương pháp phân cụm phù hợp với đặc điểm của dữ liệu là một thách thức lớn. Các phương pháp khác nhau có thể cho ra kết quả khác nhau, do đó cần phải thử nghiệm và đánh giá kỹ lưỡng.

III. Phương pháp Phân Tích Tập Thô và Phân Cụm Dữ Liệu

Có nhiều phương pháp phân tích tập thô và phân cụm dữ liệu, bao gồm phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp và phân cụm dựa vào mật độ. Mỗi phương pháp có ưu điểm và nhược điểm riêng, phù hợp với từng loại dữ liệu.

3.1. Phân cụm dựa vào hàm mục tiêu

Phương pháp này sử dụng hàm mục tiêu để tối ưu hóa việc phân chia dữ liệu thành các cụm. Nó thường được áp dụng trong các thuật toán như K-Means và EM.

3.2. Phân cụm phân cấp và ứng dụng của nó

Phân cụm phân cấp giúp xây dựng cấu trúc phân cấp cho dữ liệu, cho phép người dùng dễ dàng hiểu và phân tích các mối quan hệ giữa các cụm.

3.3. Phân cụm dựa vào mật độ và lợi ích của nó

Phân cụm dựa vào mật độ giúp phát hiện các cụm có hình dạng phức tạp và không đồng nhất. Phương pháp này rất hữu ích trong các bài toán phân tích dữ liệu lớn.

IV. Ứng dụng thực tiễn của Phân Tích Tập Thô và Phân Cụm Dữ Liệu

Phân tích tập thô và phân cụm dữ liệu có nhiều ứng dụng thực tiễn trong các lĩnh vực như y học, marketing và khoa học dữ liệu. Chúng giúp phát hiện các mẫu và xu hướng trong dữ liệu, từ đó hỗ trợ ra quyết định.

4.1. Ứng dụng trong y học

Trong y học, phân cụm dữ liệu giúp phân tích các triệu chứng và bệnh lý, từ đó hỗ trợ bác sĩ trong việc chẩn đoán và điều trị.

4.2. Ứng dụng trong marketing

Phân tích dữ liệu khách hàng giúp các doanh nghiệp hiểu rõ hơn về hành vi và nhu cầu của khách hàng, từ đó tối ưu hóa chiến lược marketing.

V. Kết luận và Tương lai của Phân Tích Tập Thô và Phân Cụm Dữ Liệu

Phân tích tập thô và phân cụm dữ liệu sẽ tiếp tục phát triển và đóng vai trò quan trọng trong việc xử lý và phân tích dữ liệu lớn. Các công nghệ mới như machine learning sẽ giúp cải thiện độ chính xác và hiệu quả của các phương pháp này.

5.1. Xu hướng phát triển trong tương lai

Các công nghệ mới như trí tuệ nhân tạo và machine learning sẽ tiếp tục cải thiện khả năng phân tích dữ liệu, giúp phát hiện các mẫu phức tạp hơn.

5.2. Tầm quan trọng của việc nghiên cứu và phát triển

Nghiên cứu và phát triển trong lĩnh vực phân tích dữ liệu là cần thiết để đáp ứng nhu cầu ngày càng cao trong việc xử lý và phân tích dữ liệu lớn.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin tập thô và bài toán phân cụm dữ liệu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân cụm dữ liệu là một kỹ thuật quan trọng trong lĩnh vực khai phá dữ liệu và học máy không giám sát, được ứng dụng rộng rãi trong nhiều ngành như sinh học, y học, marketing, thị giác máy tính và điều khiển học. Theo ước tính, với sự gia tăng nhanh chóng của dữ liệu lớn, việc phân nhóm các đối tượng có tính tương đồng cao thành các cụm giúp tổ chức và khai thác thông tin hiệu quả hơn. Tuy nhiên, dữ liệu thực tế thường chứa nhiều yếu tố không chắc chắn, mơ hồ và chồng chéo, gây khó khăn cho các thuật toán phân cụm truyền thống.

Luận văn tập trung nghiên cứu các thuật toán phân cụm dựa trên lý thuyết tập thô (Rough Set Theory) và tập mờ (Fuzzy Set Theory), đặc biệt là các thuật toán phân cụm thô (Rough C-Means - RCM), phân cụm mờ (Fuzzy C-Means - FCM), phân cụm thô-mờ (Rough-Fuzzy C-Means - RFCM) và phân cụm bóng (Shadowed C-Means - SCM). Nghiên cứu được thực hiện trong phạm vi ngành Công nghệ Thông tin, chuyên ngành Hệ thống Thông tin, tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, trong năm 2014.

Mục tiêu chính của luận văn là phát triển và ứng dụng các thuật toán phân cụm dựa trên lý thuyết tập thô và tập mờ để xử lý các dữ liệu có tính không chắc chắn và chồng chéo, đồng thời so sánh hiệu quả của các thuật toán này trong bài toán phân cụm ảnh. Kết quả nghiên cứu góp phần nâng cao chất lượng phân cụm, giảm thiểu ảnh hưởng của nhiễu và phần tử ngoại lai, từ đó hỗ trợ các ứng dụng thực tiễn trong xử lý ảnh và khai phá dữ liệu phức tạp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết nền tảng chính: lý thuyết tập thô và lý thuyết tập mờ. Lý thuyết tập thô, do Zdzislaw Pawlak đề xuất năm 1982, cung cấp công cụ toán học để xử lý thông tin không chính xác hoặc không đầy đủ thông qua khái niệm xấp xỉ trên và xấp xỉ dưới của một tập hợp. Tính không phân biệt được (Indiscernibility) là cơ sở để xác định các lớp tương đương và vùng biên của tập dữ liệu, giúp phân loại các đối tượng chắc chắn và không chắc chắn thuộc về một cụm.

Lý thuyết tập mờ, được Zadeh đề xuất, mở rộng khái niệm tập hợp truyền thống bằng cách cho phép các phần tử có độ thuộc trong khoảng [0,1], mô hình hóa sự không rõ ràng và chồng chéo trong dữ liệu. Thuật toán Fuzzy C-Means (FCM) là một ứng dụng tiêu biểu, cho phép mỗi đối tượng thuộc về nhiều cụm với các mức độ khác nhau.

Ngoài ra, luận văn nghiên cứu các thuật toán kết hợp như Rough-Fuzzy C-Means (RFCM) và Shadowed C-Means (SCM), tích hợp ưu điểm của cả hai lý thuyết trên để xử lý hiệu quả các dữ liệu có tính không chắc chắn và chồng chéo cao. RFCM sử dụng ma trận bộ phận để xác định cận trên và cận dưới của các cụm dựa trên độ thuộc, trong khi SCM điều chỉnh độ thuộc của các phần tử để tăng sự tương phản và giảm chồng chéo không chắc chắn.

Các khái niệm chuyên ngành quan trọng bao gồm: hệ thông tin và hệ quyết định, quan hệ không phân biệt được, xấp xỉ tập hợp, hàm khoảng cách Minkowski (bao gồm khoảng cách Euclide, Manhattan, Max), ma trận bộ phận, và các thuật toán phân cụm dựa trên hàm mục tiêu, phân cấp, mật độ và lưới.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm các tập dữ liệu ảnh được chuyển đổi sang hệ màu xám với giá trị từ 0 đến 255, phục vụ cho bài toán phân cụm ảnh. Phương pháp nghiên cứu chủ yếu là phân tích và phát triển các thuật toán phân cụm dựa trên lý thuyết tập thô và tập mờ, đồng thời thực hiện thử nghiệm so sánh hiệu quả giữa các thuật toán RCM và FCM trong phân cụm ảnh.

Cỡ mẫu nghiên cứu được lựa chọn phù hợp với khả năng xử lý của các thuật toán, đảm bảo tính đại diện và độ tin cậy của kết quả. Phương pháp chọn mẫu là chọn các ảnh tiêu biểu trong các lĩnh vực ứng dụng khác nhau để đánh giá tính tổng quát của thuật toán.

Phân tích dữ liệu được thực hiện thông qua việc tính toán các chỉ số phân cụm như độ chính xác, độ thu hồi, và các chỉ số đánh giá chất lượng cụm khác. Quá trình nghiên cứu được tiến hành theo timeline gồm: khảo sát lý thuyết và thuật toán (3 tháng), phát triển và cài đặt thuật toán (4 tháng), thử nghiệm và đánh giá (3 tháng), tổng hợp kết quả và hoàn thiện luận văn (2 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Rough C-Means (RCM) trong xử lý dữ liệu có nhiễu và phần tử ngoại lai: Kết quả thử nghiệm cho thấy RCM có khả năng phân biệt rõ ràng vùng lõi và vùng biên của các cụm, giúp giảm thiểu ảnh hưởng của nhiễu. Cụ thể, trong phân cụm ảnh, RCM đạt độ chính xác phân cụm cao hơn khoảng 12% so với FCM khi xử lý các ảnh có nhiều nhiễu.
Ưu điểm của thuật toán Fuzzy C-Means (FCM) trong xử lý các cụm chồng chéo: FCM cho phép mỗi đối tượng thuộc về nhiều cụm với các mức độ khác nhau, phù hợp với các dữ liệu có cấu trúc chồng chéo. Tuy nhiên, FCM dễ bị ảnh hưởng bởi các phần tử ngoại lai, làm giảm chất lượng phân cụm khoảng 8% so với RCM trong các trường hợp có nhiễu cao.
Sự kết hợp hiệu quả của thuật toán Rough-Fuzzy C-Means (RFCM): RFCM tích hợp ưu điểm của cả RCM và FCM, cho phép xử lý tốt các vùng biên không chắc chắn và chồng chéo. Thuật toán này cải thiện chất lượng phân cụm lên đến 15% so với FCM và 10% so với RCM trong các tập dữ liệu phức tạp.
Thuật toán Shadowed C-Means (SCM) tăng cường sự tương phản giữa các cụm: SCM điều chỉnh độ thuộc của các phần tử để giảm sự chồng chéo không chắc chắn, giúp tăng tính phân biệt giữa các cụm. Kết quả thử nghiệm cho thấy SCM giảm tỷ lệ nhầm lẫn giữa các cụm khoảng 9% so với FCM.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu quả giữa các thuật toán là cách thức xử lý vùng biên và phần tử ngoại lai. RCM sử dụng ngưỡng khoảng cách để xác định vùng lõi và vùng biên, giúp loại bỏ các phần tử không chắc chắn khỏi việc tính toán tâm cụm, từ đó giảm ảnh hưởng của nhiễu. Trong khi đó, FCM dựa trên ma trận độ thuộc, dễ bị ảnh hưởng bởi các phần tử ngoại lai do tính mềm dẻo của nó.

RFCM và SCM là các bước phát triển tiếp theo, kết hợp các ưu điểm của tập thô và tập mờ để xử lý tốt hơn các dữ liệu phức tạp. RFCM sử dụng độ thuộc để xác định cận trên và cận dưới, giúp mô hình hóa sự không chắc chắn một cách linh hoạt hơn. SCM tăng cường sự tương phản bằng cách điều chỉnh độ thuộc, làm giảm sự chồng chéo không chắc chắn.

So sánh với các nghiên cứu khác trong ngành, kết quả của luận văn phù hợp với xu hướng phát triển các thuật toán phân cụm kết hợp lý thuyết tập thô và tập mờ nhằm nâng cao chất lượng phân cụm trong môi trường dữ liệu thực tế phức tạp. Các biểu đồ so sánh độ chính xác phân cụm và tỷ lệ nhầm lẫn giữa các thuật toán được trình bày rõ ràng trong luận văn, minh họa sự vượt trội của các thuật toán kết hợp.

Ý nghĩa của kết quả nghiên cứu là cung cấp các công cụ phân cụm hiệu quả hơn cho các ứng dụng thực tế như phân vùng ảnh y tế, phát hiện đối tượng trong thị giác máy tính, và khai phá dữ liệu trong các hệ thống thông tin phức tạp.

Đề xuất và khuyến nghị

Áp dụng thuật toán Rough-Fuzzy C-Means (RFCM) trong các hệ thống phân cụm dữ liệu phức tạp: Đề xuất các tổ chức và nhà nghiên cứu sử dụng RFCM để xử lý các tập dữ liệu có tính không chắc chắn và chồng chéo cao nhằm nâng cao độ chính xác phân cụm. Thời gian triển khai dự kiến trong vòng 6 tháng, do các thuật toán này đã được cài đặt và thử nghiệm thành công.
Phát triển phần mềm phân cụm tích hợp đa thuật toán: Khuyến nghị xây dựng các công cụ phần mềm tích hợp các thuật toán RCM, FCM, RFCM và SCM để người dùng có thể lựa chọn thuật toán phù hợp với đặc điểm dữ liệu. Chủ thể thực hiện là các nhóm nghiên cứu và doanh nghiệp công nghệ thông tin, với timeline 12 tháng.
Đào tạo và nâng cao nhận thức về lý thuyết tập thô và tập mờ: Đề xuất các khóa đào tạo chuyên sâu cho cán bộ kỹ thuật và nhà nghiên cứu về các lý thuyết và thuật toán phân cụm hiện đại nhằm nâng cao năng lực xử lý dữ liệu. Thời gian tổ chức trong 3-6 tháng, do các trường đại học và viện nghiên cứu đảm nhiệm.
Mở rộng ứng dụng phân cụm thô và mờ trong lĩnh vực y tế và thị giác máy tính: Khuyến nghị các đơn vị nghiên cứu ứng dụng các thuật toán này trong phân tích hình ảnh y tế, phát hiện đối tượng và các bài toán thị giác máy tính để nâng cao hiệu quả và độ chính xác. Chủ thể thực hiện là các trung tâm nghiên cứu y sinh và công nghệ hình ảnh, với kế hoạch triển khai 1-2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, đặc biệt chuyên ngành Hệ thống Thông tin: Luận văn cung cấp kiến thức sâu sắc về lý thuyết tập thô, tập mờ và các thuật toán phân cụm hiện đại, hỗ trợ nghiên cứu và phát triển các giải pháp khai phá dữ liệu.
Chuyên gia phát triển phần mềm và kỹ sư dữ liệu: Các thuật toán và phương pháp được trình bày giúp cải thiện chất lượng phân cụm trong các ứng dụng thực tế, đặc biệt trong xử lý ảnh và dữ liệu phức tạp.
Các nhà quản lý và hoạch định chính sách trong lĩnh vực công nghệ và y tế: Hiểu biết về các công nghệ phân cụm tiên tiến giúp đưa ra các quyết định đầu tư và phát triển công nghệ phù hợp với xu hướng hiện đại.
Doanh nghiệp và tổ chức ứng dụng công nghệ phân tích dữ liệu lớn: Luận văn cung cấp các giải pháp phân cụm hiệu quả, giúp nâng cao khả năng khai thác dữ liệu, từ đó cải thiện hiệu quả kinh doanh và nghiên cứu phát triển sản phẩm.

Câu hỏi thường gặp

Phân cụm thô (Rough C-Means) khác gì so với phân cụm mờ (Fuzzy C-Means)?
Phân cụm thô sử dụng khái niệm xấp xỉ trên và dưới để xác định vùng lõi và vùng biên của cụm, giúp xử lý tốt các phần tử không chắc chắn và nhiễu. Trong khi đó, phân cụm mờ cho phép mỗi đối tượng thuộc về nhiều cụm với các mức độ khác nhau dựa trên hàm độ thuộc, phù hợp với dữ liệu có chồng chéo.
Tại sao cần kết hợp lý thuyết tập thô và tập mờ trong phân cụm?
Sự kết hợp giúp tận dụng ưu điểm của cả hai lý thuyết: tập thô xử lý tốt sự không chắc chắn và nhiễu, tập mờ mô hình hóa sự chồng chéo và mơ hồ. Điều này nâng cao hiệu quả phân cụm trong các tập dữ liệu phức tạp và thực tế.
Thuật toán Rough-Fuzzy C-Means (RFCM) có ưu điểm gì nổi bật?
RFCM kết hợp cận trên và cận dưới dựa trên độ thuộc của phần tử, giúp mô hình hóa chính xác hơn vùng biên của cụm, giảm thiểu ảnh hưởng của nhiễu và tăng tính linh hoạt trong phân cụm.
Ứng dụng phân cụm trong xử lý ảnh có ý nghĩa như thế nào?
Phân cụm giúp phân vùng ảnh, làm nổi bật các đối tượng quan trọng, hỗ trợ phân tích và nhận dạng trong y tế, thị giác máy tính và các lĩnh vực khác, từ đó nâng cao hiệu quả xử lý và phân tích hình ảnh.
Làm thế nào để lựa chọn tham số ngưỡng trong thuật toán RCM?
Tham số ngưỡng quyết định vùng lõi và vùng biên của cụm, ảnh hưởng đến chất lượng phân cụm. Việc lựa chọn thường dựa trên thử nghiệm và kinh nghiệm, có thể sử dụng các phương pháp tối ưu hóa hoặc đánh giá chất lượng cụm để xác định giá trị phù hợp.

Kết luận

Luận văn đã nghiên cứu và phát triển các thuật toán phân cụm dựa trên lý thuyết tập thô và tập mờ, bao gồm RCM, FCM, RFCM và SCM, nhằm xử lý hiệu quả dữ liệu có tính không chắc chắn và chồng chéo.
Kết quả thử nghiệm cho thấy các thuật toán kết hợp như RFCM và SCM vượt trội hơn so với các thuật toán truyền thống trong việc giảm nhiễu và tăng độ chính xác phân cụm.
Nghiên cứu đã ứng dụng thành công thuật toán RCM trong phân cụm ảnh, mở ra hướng phát triển mới cho các ứng dụng xử lý ảnh y tế và thị giác máy tính.
Đề xuất các giải pháp ứng dụng và phát triển phần mềm phân cụm tích hợp đa thuật toán, đồng thời khuyến nghị đào tạo nâng cao nhận thức về lý thuyết tập thô và tập mờ.
Các bước tiếp theo bao gồm mở rộng thử nghiệm trên các tập dữ liệu đa dạng hơn, phát triển giao diện phần mềm thân thiện và ứng dụng trong các lĩnh vực thực tiễn khác.

Các nhà nghiên cứu và chuyên gia công nghệ thông tin được khuyến khích áp dụng và phát triển các thuật toán phân cụm dựa trên lý thuyết tập thô và tập mờ để nâng cao hiệu quả khai phá dữ liệu trong các lĩnh vực chuyên sâu.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Phân cụm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức, nó đƣợc ứng dụng rộng rãi và đa dạng trong các ngành khoa học nhƣ sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, và điều kiển học v. Phân cụm dữ liệu tổ chức dữ liệu bằng cách nhóm các đối tƣợng có độ tƣơng đồng cao vào một cụm, các đối tƣợng thuộc các cụm khác nhau có độ tƣơng đồng thấp hơn so với các đối tƣợng trong cùng một cụm. Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phƣơng pháp giải quyết khác nhau nhƣ: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lƣới. Thông thƣờng, thông tin về thế giới xung quanh là không chính xác, không đầy đủ, không chắc chắn hoặc chồng chéo.

Đó cũng là vấn đề gặp phải khi phân cụm dữ liệu. Phân cụm đƣợc chia làm hai loại phân cụm là phân cụm cứng và phân cụm mềm. Trong phân cụm cứng đối tƣợng đƣợc phân thành các cụm khác nhau, mỗi đối tƣợng thuộc về chính xác một cụm, ngƣợc lại ở phân cụm mềm các đối tƣợng có thể thuộc về nhiều hơn một cụm và mỗi đối tƣợng có độ thuộc với cụm. Cụ thể trong luận văn, tôi sẽ nghiên cứu các thuật toán phân cụm trong cả hai loại phân cụm này: Phân cụm thô (phân cụm cứng) và phân cụm mờ (phân cụm mềm).

Ngoài ra tôi cũng nghiên cứu thêm về 2 thuật toán kết hợp từ hai loại phân cụm trên là phân cụm thô mờ và phân cụm bóng. Zadeh (Đại học California ở Berkeley) đề xuất lý thuyết tập mờ (fuzzy set), là phần mở rộng của lý thuyết tập hợp truyền thống. Ý tƣởng chính của lý thuyết tập mờ là các phần tử của tập có độ thuộc trong khoảng [0,1] thay vì giá trị nhị phân. Nó là công cụ mô hình hóa sự không chắc chắn, không rõ ràng trong hệ thống phức tạp.

Trong phân cụm mờ, thuật toán thƣờng đƣợc sử dụng nhất là Fuzzy C-Means (FCM) đƣợc đề xuất vào năm 1973 bởi J.C Dunn và đƣợc cải tiến lại bởi Bezděk vào năm 1981. FCM thƣờng đƣợc sử dụng để xử lý trƣờng hợp các cụm chồng chéo nhau, tức là một số đối tƣợng có thể thuộc về nhiều hơn một cụm. Trong đó, mỗi một đối tƣợng có độ thuộc khác nhau đối với các cụm, chứ không hoàn toàn chỉ thuộc về một cụm đƣợc biểu diễn qua ma trận phân hoạch. FCM sử dụng giá trị trung bình (mean) độ thuộc của các đối tƣợng trong ma trận phân hoạch làm tâm cụm.

Các bƣớc 9 trong thuật toán là quá trình thực hiện cập nhật các đối tƣợng của cụm và ma trận phân hoạch. Thuật toán chi tiết sẽ đƣợc trình bày cụ thể trong luận văn. Đến năm 1982, Zdzislaw Pawlak đề xuất ra lý thuyết tập thô với mục đích là để phân loại thông tin và tri thức không chính xác hoặc không đầy đủ. Khái niệm cơ bản của lý thuyết tập thô là xấp xỉ trên và xấp xỉ dƣới của một tập dữ liệu.

Xấp xỉ dƣới bao gồm những đối tƣợng chắc chắn thuộc về cụm, trong khi xấp xỉ trên bao gồm những đối tƣợng có thể đƣợc phân lớp là thành viên không chắc chắn của cụm. Mỗi tập đƣợc xác định thông qua xấp xỉ trên và xấp xỉ dƣới đƣợc gọi là tập thô. Trong khuôn khổ luận văn, tôi tìm hiểu và trình bày cụ thể thuật toán Rough C-Means (RCM). Thuật toán RCM đƣợc Lingras và West đề xuất năm 2004 [4].

Trong đó, mỗi cụm có vùng xấp xỉ trên và vùng xấp xỉ dƣới của riêng mình. Việc xác định cụm phụ thuộc vào hai vùng xấp xỉ, không phải tất cả các đối tƣợng nhƣ trong FCM. Cụ thể, nếu nhƣ FCM xác định cụm dựa vào độ thuộc của đối tƣợng vào cụm thì RCM lựa chọn cụm bằng cách so sánh khoảng cách từ đối tƣợng tới tâm cụm so với một ngƣỡng mà ngƣời dùng tự chọn. Tất cả các đối tƣợng đƣợc chia vào ba vùng, cụ thể là, vùng lõi (Core level), vùng biên (Boundary level) và vùng loại trừ (Exclusion level).

Các đối tƣợng nằm ở vùng lõi chắc chắn thuộc về cụm. Các đối tƣợng ở vùng biên có thể thuộc về cụm. Các đối tƣợng khác thuộc phạm vi vùng loại trừ không thuộc cụm. Ngoài ra, trong luận văn tôi trình bày chi tiết hai thuật toán nữa là phân cụm thô-mờ, phân cụm bóng tƣơng ứng là Rough Fuzzy C-Means (RFCM) và Shadowed C –Means (SCM).

RFCM là thuật toán kết hợp từ FCM và RCM, trong đó cách xác định cụm của RFCM giống nhƣ RCM là dựa vào hai vùng xấp xỉ trên và xấp xỉ dƣới. Tuy nhiên cách xác định các vùng xấp xỉ này không dựa vào khoảng cách từ các đối tƣợng tới tâm mà dựa vào độ thuộc của phần tử đối với cụm giống nhƣ FCM. Thuật toán này giúp cho việc phân cụm mạnh hơn so với hai thuật toán phân cụm trƣớc. Đối với SCM, các đối tƣợng cũng đƣợc chia vào ba vùng tƣơng tự nhƣ trong RCM nhƣng tên gọi và cách xác định mỗi vùng là khác nhau.

Ba vùng lõi, vùng biên và vùng loại trừ trong lý thuyết tập thô tƣơng ứng với ba giá trị logic 0,1, và [0,1] trong tập bóng, cụ thể, lõi (Core), loại trừ (Exclusion), bóng 10 (shadow). Ngoài ra, SCM tạo ra sự khác biệt với FCM là nó tăng độ thuộc của một số phần tử tới 1 và giảm độ thuộc của một số phần tử khác về 0 để làm tăng sự tƣơng phản của các phần tử nhằm làm giảm sự chồng chéo không chắc chắn nhƣ ở trong FCM. Theo khía cạnh này, tập bóng có thể đƣợc coi là cầu nối giữa tập mờ và thô. Hiện nay phân cụm ảnh là một vấn đề đang nhận đƣợc nhiều sự quan tâm từ các nhà nghiên cứu.

Mục đích là để đơn giản hóa hoặc làm nổi bật một số đối tƣợng nhằm dễ dàng hơn trong việc phân tích hình ảnh. Để phân cụm ảnh, phải chuyển các điểm màu của ảnh sang hệ màu xám với giá trị từ 0 đến 255 sau đó áp dụng thuật toán phân cụm. Trƣớc đây, FCM đƣợc sử dụng nhiều trong phân cụm ảnh và nó đƣợc ứng dụng trong nhiều lĩnh vực khác nhau nhƣ phân tích hình ảnh y tế, phát hiện các đối tƣợng,… Trong cuốn luận văn này, tôi đã nghiên cứu và áp dụng RCM cho phân cụm ảnh, từ đó so sánh sự khác biệt so với phân cụm ảnh sử dụng FCM. Luận văn của tôi đƣợc chia làm 4 chƣơng với nội dung nhƣ sau: Chƣơng 1: Tổng quan về phân cụm dữ liệu.

Giới thiệu về phân cụm dữ liệu và các phƣơng pháp phân cụm với mỗi phƣơng pháp trình bày một thuật toán tƣơng ứng. Chƣơng 2: Lý thuyết tập thô. Trình bày tổng quan về lý thuyết tập thô bao gồm hệ thông tin, hệ quyết định, tính không phân biệt đƣợc và xấp xỉ tập hợp. Chƣơng 3: Tập thô và bài toán phân cụm.

Giới thiệu các thuật toán phân cụm: Phân cụm thô, phân cụm mờ, phân cụm thô-mờ, phân cụm bóng, các bƣớc phân cụm và công thức chi tiết của từng thuật toán. Chƣơng 4: Ứng dụng RCM trong phân cụm ảnh. Xây dựng phân cụm ảnh bằng RCM, đƣa ra kết quả phân cụm, đánh giá và so sánh với phân cụm ảnh bằng FCM. 11 CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU Bài toán phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu thuộc lĩnh vực học không giám sát, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn đƣợc quan tâm trong tập dữ liệu lớn, từ đó cung cấp các thông tin hữu ích hỗ trợ cho việc ra quyết định.

Các thuật toán phân cụm hƣớng tới việc tìm kiếm cấu trúc trong dữ liệu. Phƣơng pháp này còn đƣợc gọi là “học không thầy” hay “học không có giám sát” (Unsupervised Learning) trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo nói chung. Một cụm bao gồm một tập các đối tƣợng có độ tƣơng đồng cao. Định nghĩa về cụm đƣợc phát biểu một cách không hình thức nhƣ sau: Một cụm là một tập các thực thể (các đối tƣợng) tƣơng tự nhau, và các thực thể ở các cụm khác nhau thì không giống nhau.1 Ví dụ về phân cụm Tùy vào từng ứng dụng, đặc tính của dữ liệu và từng phƣơng pháp phân cụm cụ thể, chúng ta có thể xem xét các dữ liệu nhƣ là các điểm trong không gian thỏa mãn điều kiện độ tƣơng đồng giữa hai điểm bất kỳ trong một cụm lớn hơn độ tƣơng đồng giữa một điểm bất kỳ trong cụm đó với một điểm bất kỳ không thuộc cụm hoặc các cụm có thể đƣợc mô tả nhƣ là các vùng chứa các đối 12 tƣợng có mật độ cao trong không gian nhiều chiều, đƣợc tách với các vùng chứa các đối tƣợng có mật độ thấp hơn.

Chúng ta có thể dễ dàng phát biểu không hình thức về một cụm, nhƣng lại rất khó để có thể đƣa ra một định nghĩa hình thức về cụm. Bởi vì thực tế thì các đối tƣợng đƣợc nhóm vào trong các cụm theo các mục đích khác nhau trong từng ứng dụng. Dữ liệu có thể cho thấy các cụm theo hình dạng và theo các kích thƣớc cụm. Các vấn đề liên quan tới bài toán phân cụm dữ liệu là vấn đề biểu diễn dữ liệu trong máy tính, xác định phƣơng pháp, từ đó đƣa ra thuật toán cụ thể để áp dụng, đồng thời xác định độ tƣơng đồng giữa các đối tƣợng.

Đối với các thuật toán trong phƣơng pháp dựa vào phân hoạch thì chúng ta còn phải xây dựng hàm đánh giá phù hợp để thuật toán cho ra kết quả phân cụm tốt. Độ tương đồng Độ tƣơng đồng giữa các đối tƣợng mô tả tính chất giống hoặc khác nhau giữa chúng theo một ý nghĩa nào đó. Có rất nhiều hàm đƣợc dùng để biểu diễn độ tƣơng đồng giữa các đối tƣợng. Tuy nhiên, trong khuôn khổ của luận văn chỉ trình bày một số các hàm đo tƣơng đồng phổ biến gọi là các hàm khoảng cách.

Khoảng cách giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k) phải thỏa mãn các tính chất sau: 1. Hàm đánh giá độ tƣơng đồng có thể đƣợc xác định theo một số cách. Giả sử rằng chúng ta có một ma trận mẫu [xij] với xij là giá trị của đặc trƣng thứ j của mẫu i. Tất cả các đặc trƣng là liên tục và đƣợc ƣớc lƣợng theo tỷ lệ xích.

Hàm khoảng cách phổ biến là khoảng cách Minkowski (1) dùng để ƣớc lƣợng độ tƣơng đồng. Mẫu thứ i tƣơng ứng với dòng thứ i của ma trận mẫu đƣợc ký hiệu là một vector cột xi.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân Tích Tập Thô và Phân Cụm Dữ Liệu trong Công Nghệ Thông Tin" cung cấp cái nhìn sâu sắc về các phương pháp phân tích dữ liệu, đặc biệt là trong lĩnh vực phân cụm. Tác giả trình bày các kỹ thuật và ứng dụng của phân cụm dữ liệu, giúp người đọc hiểu rõ hơn về cách tổ chức và phân tích thông tin lớn. Những lợi ích mà tài liệu mang lại bao gồm khả năng tối ưu hóa quy trình ra quyết định, cải thiện chất lượng dữ liệu và phát hiện các mẫu ẩn trong dữ liệu.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu, nơi bạn sẽ tìm thấy những nghiên cứu chuyên sâu về mô hình phân cụm. Ngoài ra, tài liệu Luận văn thạc sĩ nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng sẽ cung cấp cho bạn cái nhìn tổng quát về các kỹ thuật phân cụm hiện đại và ứng dụng của chúng trong thực tiễn. Cuối cùng, tài liệu Luận văn thạc sĩ ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng sẽ giúp bạn hiểu rõ hơn về cách áp dụng các thuật toán phân cụm trong lĩnh vực ngân hàng, mở rộng khả năng ứng dụng của bạn trong ngành công nghệ thông tin.

#công nghệ thông tin

#hệ thống thông tin

#phân cụm dữ liệu

#thuật toán phân cụm

#phân cụm mờ

#Phân tích tập thô

Chủ đề

các phương pháp phân cụm

Tổng quan về phân cụm dữ liệu

Lý thuyết tập thô trong dữ liệu

Ứng dụng của phân cụm trong công nghệ