Luận văn: Phân cụm mờ với Đại số gia tử và ứng dụng - Đinh Khắc Đông

Người đăng

Ẩn danh
75
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu về Phân cụm mờ và Đại số gia tử

Phân cụm mờ là một phương pháp quan trọng trong lĩnh vực khai phá dữ liệuhọc máy, cho phép mỗi điểm dữ liệu thuộc về nhiều cụm với các độ thuộc khác nhau. Phương pháp này đã được ứng dụng rộng rãi trong các bài toán ra quyết định và phân tích dữ liệu đa chiều. Tuy nhiên, thuật toán FCM truyền thống (Fuzzy C-Means) gặp nhiều hạn chế khi áp dụng vào các bài toán thực tế phức tạp. Đại số gia tử (Hedge Algebra - HA) với cấu trúc ngôn ngữ tự nhiên của miền ngôn ngữ cung cấp một giải pháp mới để cải tiến hiệu suất phân cụm. Sự kết hợp giữa phân cụm mờ và đại số gia tử hứa hẹn mang lại những cải tiến đáng kể cho các ứng dụng thực tiễn.

1.1. Định nghĩa phân cụm mờ

Phân cụm mờ (Fuzzy Clustering) là kỹ thuật phân nhóm dữ liệu dựa trên lý thuyết tập hợp mờ, cho phép các phần tử có độ thuộc từ 0 đến 1. Khác với phân cụm cứng, phương pháp này cho phép một điểm dữ liệu thuộc vào nhiều cụm cùng lúc. Thuật toán Fuzzy C-Means là phương pháp phổ biến nhất, tối ưu hóa hàm mục tiêu để tìm ra các tâm cụm tối ưu và độ thuộc tương ứng của từng dữ liệu.

1.2. Khái niệm Đại số gia tử

Đại số gia tử (Hedge Algebra) là cấu trúc toán học biểu diễn ngôn ngữ tự nhiên, do GS. Nguyễn Cát Hỗ phát triển. Nó cung cấp các hàm độ đo tính mờ và ánh xạ định lượng ngữ nghĩa để lượng hóa các giá trị ngôn ngữ. ĐSGT đối xứng và tuyến tính được sử dụng để cải tiến thuật toán phân cụm mờ, giúp tăng độ chính xác và khả năng xử lý dữ liệu ngoại lai.

II. Các hạn chế của Thuật toán FCM truyền thống

Thuật toán Fuzzy C-Means truyền thống đã được nghiên cứu rộng rãi, nhưng vẫn tồn tại nhiều hạn chế ảnh hưởng đến chất lượng phân cụm trong các bài toán thực tế. Những yếu điểm này bao gồm độ nhạy cao với dữ liệu ngoại lai, khó khăn trong việc xác định số lượng cụm tối ưu, và hiệu suất giảm khi xử lý dữ liệu có cấu trúc phức tạp. Ngoài ra, việc cập nhật tâm cụm không phân biệt được tầm quan trọng của từng điểm dữ liệu, dẫn đến kết quả phân cụm không ổn định. Các nghiên cứu cũng chỉ ra rằng FCM dễ bị ảnh hưởng bởi dữ liệu nhiễu và khó khăn trong việc tối ưu hóa các tham số.

2.1. Tác động của dữ liệu ngoại lai

Dữ liệu ngoại lai (outliers) có tác động lớn đến thuật toán FCM truyền thống vì tất cả các điểm dữ liệu đều được xem xét ngang nhau trong quá trình cập nhật tâm cụm. Những điểm dữ liệu bất thường có thể kéo lệch vị trí tâm cụm, làm giảm chất lượng kết quả. Đây là một trong những hạn chế lớn nhất khi ứng dụng phân cụm mờ vào các bài toán thực tiễn.

2.2. Vấn đề về tối ưu hóa tham số

Thuật toán FCM yêu cầu xác định nhiều tham số trước khi chạy, bao gồm số cụm k, hệ số mờ m, và các tiêu chí hội tụ. Việc lựa chọn tham số không phù hợp dẫn đến kết quả phân cụm kém. Phương pháp truyền thống thiếu cơ chế tự động để tối ưu hóa các tham số này, gây khó khăn trong ứng dụng thực tế.

III. Phương pháp cải tiến sử dụng Đại số gia tử

Để khắc phục những hạn chế của thuật toán FCM truyền thống, luận văn đề xuất phương pháp phân cụm mờ với đại số gia tử dựa trên cấu trúc ngôn ngữ của ĐSGT. Phương pháp cải tiến này sử dụng độ đo tính mờ của các giá trị ngôn ngữ làm trọng số cho mỗi mẫu trong quá trình cập nhật tâm cụm. Cụ thể, các phần tử có độ thuộc nhỏ hơn phần tử trung hòa của ĐSGT sẽ được loại bỏ hoặc giảm trọng số, giúp giảm thiểu tác động của dữ liệu ngoại lai. Ngoài ra, các tham số của đại số gia tử được sử dụng làm tham số huấn luyện trong quá trình học có giám sát, cho phép tối ưu hóa tự động.

3.1. Sử dụng độ đo tính mờ làm trọng số

Trong phương pháp cải tiến, độ đo tính mờ (fuzziness measure) của các giá trị ngôn ngữ trong cấu trúc ĐSGT được sử dụng để gán trọng số cho từng mẫu dữ liệu. Trọng số này phản ánh mức độ mờ và độ tin cậy của dữ liệu, cho phép thuật toán phân cụm xử lý các điểm dữ liệu một cách khác biệt tùy thuộc vào đặc tính của chúng, cải thiện đáng kể chất lượng kết quả.

3.2. Sử dụng phần tử trung hòa làm ngưỡng

Phần tử trung hòa trong cấu trúc ĐSGT được sử dụng làm ngưỡng trong quá trình cập nhật tâm cụm. Chỉ những điểm dữ liệu có độ thuộc lớn hơn hoặc bằng phần tử trung hòa mới được tính vào tâm cụm, từ đó giảm thiểu tác động của dữ liệu ngoại lai và cải tiến độ ổn định của phân cụm mờ.

IV. Ứng dụng và kết quả thực nghiệm

Thuật toán phân cụm mờ với đại số gia tử đã được triển khai và thử nghiệm trên các bài toán phân cụm dữ liệu giả tạodữ liệu thực tế đa chiều để đánh giá hiệu suất. Kết quả thực nghiệm cho thấy phương pháp cải tiến vượt trội hơn FCM truyền thống về độ chính xác, ổn định và khả năng xử lý dữ liệu ngoại lai. Các mệnh đề về tính duy nhất của trạng số và tính tổng quát của thuật toán được chứng minh toán học, khẳng định giá trị lý thuyết. Phương pháp này có tiềm năng ứng dụng trong các lĩnh vực như khai phá dữ liệu, ra quyết định, và học máy.

4.1. Kết quả trên dữ liệu giả tạo

Trên các bộ dữ liệu giả tạo được thiết kế để kiểm tra các trường hợp đặc biệt, phương pháp cải tiến hiển thị khả năng phân cụm vượt trội. Thuật toán có thể chính xác xác định các cụm ngay cả khi dữ liệu chứa nhiều điểm ngoại lai, và tham số ĐSGT cho phép điều chỉnh linh hoạt hành vi của thuật toán.

4.2. Ứng dụng thực tế và triển vọng

Kết quả thực nghiệm trên dữ liệu thực tế đa chiều chứng tỏ hiệu quả của phân cụm mờ với đại số gia tử trong các bài toán thực tế. Phương pháp có thể được áp dụng rộng rãi trong phân tích dữ liệu, nhận dạng hình ảnh, xử lý tín hiệu, và nhiều ứng dụng machine learning khác, mở ra triển vọng mới cho nghiên cứu và phát triển.

28/12/2025
Luận văn phân cụm mờ với đại số gia tử và ứng dụng