Luận văn Thạc sĩ VNU UET: Phân cụm dữ liệu với tính toán tiến hóa

Luận văn thạc sĩ nghiên cứu vnu uet các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Trường Đại Học Công Nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN

1.1. Tổng quan về khám phá tri thức và khai phá dữ liệu

1.2. Các phương pháp khai phá dữ liệu

1.3. Các lĩnh vực ứng dụng thực tiễn của KPDL

1.4. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL

1.5. Các yêu cầu của phân cụm

1.6. Phân cụm với giải thuật Kmean

1.7. Tổng quan về giải thuật tiến hóa

1.8. Giải thuật di truyền

2. CHƯƠNG 2: GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT TIẾN HÓA VÀ KMEANS

3. CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET và khai phá dữ liệu

Luận văn thạc sĩ VNU UET về các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa là một nghiên cứu quan trọng trong lĩnh vực công nghệ thông tin. Nghiên cứu này không chỉ giúp hiểu rõ hơn về các phương pháp phân cụm mà còn ứng dụng các thuật toán tiến hóa để tối ưu hóa quá trình phân tích dữ liệu. Việc áp dụng các kỹ thuật này trong khai phá dữ liệu mở ra nhiều cơ hội mới cho việc xử lý và phân tích dữ liệu lớn.

1.1. Khái niệm về khai phá dữ liệu và phân cụm

Khai phá dữ liệu là quá trình tìm kiếm các mẫu và thông tin hữu ích từ tập dữ liệu lớn. Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu, giúp nhóm các đối tượng tương tự nhau lại với nhau, từ đó phát hiện ra các cấu trúc tiềm ẩn trong dữ liệu.

1.2. Tầm quan trọng của nghiên cứu trong lĩnh vực công nghệ thông tin

Nghiên cứu về các kỹ thuật phân cụm trong khai phá dữ liệu có ý nghĩa quan trọng trong việc phát triển các ứng dụng thực tiễn, từ phân tích thị trường đến dự đoán xu hướng tiêu dùng. Điều này giúp các doanh nghiệp đưa ra quyết định chính xác hơn.

II. Vấn đề và thách thức trong phân cụm dữ liệu

Phân cụm dữ liệu gặp phải nhiều thách thức, đặc biệt là khi làm việc với các tập dữ liệu lớn và phức tạp. Các vấn đề như độ nhạy với dữ liệu nhiễu, khả năng mở rộng và khả năng thích nghi với các kiểu thuộc tính khác nhau là những yếu tố cần được xem xét kỹ lưỡng.

2.1. Độ nhạy với dữ liệu nhiễu và ngoại lai

Nhiều thuật toán phân cụm hiện tại không đủ mạnh để xử lý dữ liệu nhiễu, dẫn đến kết quả phân cụm không chính xác. Việc phát triển các giải thuật có khả năng chống lại dữ liệu nhiễu là rất cần thiết.

2.2. Khả năng mở rộng của các thuật toán phân cụm

Khi làm việc với các tập dữ liệu lớn, nhiều thuật toán phân cụm gặp khó khăn trong việc duy trì hiệu suất và độ chính xác. Cần có các giải pháp tối ưu hóa để đảm bảo khả năng mở rộng của các thuật toán này.

III. Phương pháp giải quyết vấn đề phân cụm dữ liệu

Để giải quyết các vấn đề trong phân cụm dữ liệu, nghiên cứu này áp dụng các kỹ thuật tính toán tiến hóa, bao gồm giải thuật di truyền và giải thuật tiến hóa vi phân. Những phương pháp này giúp cải thiện độ chính xác và hiệu suất của quá trình phân cụm.

3.1. Giải thuật di truyền trong phân cụm

Giải thuật di truyền là một phương pháp mạnh mẽ trong việc tối ưu hóa các tham số của thuật toán phân cụm. Bằng cách mô phỏng quá trình tiến hóa tự nhiên, giải thuật này giúp tìm ra các cấu hình tối ưu cho việc phân cụm dữ liệu.

3.2. Giải thuật tiến hóa vi phân và ứng dụng

Giải thuật tiến hóa vi phân là một kỹ thuật tiên tiến giúp cải thiện độ chính xác của phân cụm. Phương pháp này cho phép tìm kiếm các giải pháp tối ưu trong không gian lớn, từ đó nâng cao hiệu quả phân tích dữ liệu.

IV. Ứng dụng thực tiễn của các kỹ thuật phân cụm

Các kỹ thuật phân cụm trong khai phá dữ liệu có nhiều ứng dụng thực tiễn trong các lĩnh vực như tài chính, y tế, và marketing. Việc áp dụng các phương pháp này giúp phát hiện ra các mẫu và xu hướng trong dữ liệu, từ đó hỗ trợ ra quyết định.

4.1. Phân tích khách hàng trong lĩnh vực tài chính

Phân cụm dữ liệu giúp các ngân hàng và tổ chức tài chính phân loại khách hàng theo các nhóm khác nhau, từ đó tối ưu hóa các chiến lược marketing và dịch vụ.

4.2. Ứng dụng trong y tế và chăm sóc sức khỏe

Trong lĩnh vực y tế, phân cụm dữ liệu có thể được sử dụng để phân tích triệu chứng và nhóm bệnh nhân, từ đó hỗ trợ trong việc chẩn đoán và điều trị.

V. Kết luận và tương lai của nghiên cứu

Nghiên cứu về các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa mở ra nhiều hướng đi mới cho việc phát triển các giải pháp phân tích dữ liệu. Tương lai của lĩnh vực này hứa hẹn sẽ có nhiều tiến bộ và ứng dụng thực tiễn hơn nữa.

5.1. Định hướng phát triển nghiên cứu

Cần tiếp tục nghiên cứu và phát triển các thuật toán phân cụm mới, có khả năng xử lý tốt hơn với các tập dữ liệu lớn và phức tạp.

5.2. Tác động của công nghệ mới đến phân tích dữ liệu

Sự phát triển của công nghệ như trí tuệ nhân tạo và học máy sẽ tiếp tục ảnh hưởng đến cách thức phân tích và khai thác dữ liệu, mở ra nhiều cơ hội mới cho nghiên cứu và ứng dụng.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân cụm dữ liệu là một kỹ thuật quan trọng trong khai phá dữ liệu (KPDL), được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính, y tế, marketing và khoa học máy tính. Theo ước tính, các hệ thống quản lý dữ liệu hiện nay phải xử lý hàng triệu đối tượng với nhiều thuộc tính khác nhau, đòi hỏi các giải thuật phân cụm phải có khả năng mở rộng và thích nghi cao. Tuy nhiên, các phương pháp phân cụm truyền thống như K-means thường gặp hạn chế do dễ rơi vào điểm tối ưu cục bộ và chỉ phù hợp với dữ liệu có hình dạng cụm đơn giản như hình cầu.

Mục tiêu của luận văn là nghiên cứu và phát triển các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tính toán tiến hóa, cụ thể là giải thuật di truyền (GA) và giải thuật tiến hóa vi phân (DE), nhằm khắc phục nhược điểm của các giải thuật truyền thống. Nghiên cứu tập trung vào việc kết hợp giải thuật tiến hóa với K-means để nâng cao hiệu quả phân cụm, giảm thiểu ảnh hưởng của điểm tối ưu cục bộ và tăng khả năng khám phá các cụm có hình dạng đa dạng.

Phạm vi nghiên cứu bao gồm việc xây dựng, cài đặt và thử nghiệm các giải thuật trên bộ dữ liệu tự sinh và bộ dữ liệu thực tế Customers trong cơ sở dữ liệu Northwind của SQL Server 2005, với số lượng bản ghi lên đến 91 và nhiều thuộc tính khác nhau. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải thiện chất lượng phân cụm, hỗ trợ các ứng dụng khai phá dữ liệu trong thực tế, đồng thời góp phần phát triển các giải thuật tối ưu hóa trong lĩnh vực công nghệ thông tin.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Khai phá dữ liệu (Data Mining): Quá trình trích xuất các mẫu, mô hình có ý nghĩa từ dữ liệu lớn, bao gồm các bước tiền xử lý, khai phá và đánh giá tri thức. Phân cụm là một trong những kỹ thuật học không giám sát quan trọng trong khai phá dữ liệu.
Giải thuật K-means: Phương pháp phân cụm dựa trên phân hoạch dữ liệu thành k cụm sao cho tổng khoảng cách Euclidean từ các điểm đến trọng tâm cụm là nhỏ nhất. Tuy nhiên, K-means dễ bị ảnh hưởng bởi điểm tối ưu cục bộ và yêu cầu xác định trước số cụm.
Giải thuật di truyền (Genetic Algorithm - GA): Thuật toán tối ưu hóa dựa trên nguyên lý tiến hóa tự nhiên, sử dụng các phép toán di truyền như lai ghép, đột biến và chọn lọc để tìm kiếm giải pháp tối ưu toàn cục. GA được áp dụng để cải thiện quá trình phân cụm bằng cách tối ưu hóa vị trí trọng tâm cụm.
Giải thuật tiến hóa vi phân (Differential Evolution - DE): Một biến thể của giải thuật tiến hóa, sử dụng phép đột biến dựa trên sự khác biệt giữa các cá thể trong quần thể để tạo ra các cá thể mới, giúp tăng tốc độ hội tụ và khả năng tìm kiếm toàn cục.

Các khái niệm chính bao gồm: quần thể, nhiễm sắc thể (biểu diễn giải pháp), hàm thích nghi (fitness function), các phép toán lai ghép và đột biến, cũng như các tham số như kích thước quần thể, xác suất lai ghép và đột biến.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm kết hợp phân tích định lượng:

Nguồn dữ liệu: Hai bộ dữ liệu chính được sử dụng gồm bộ dữ liệu tự sinh với 6 đối tượng dữ liệu 2 chiều và bộ dữ liệu Customers từ cơ sở dữ liệu Northwind với 91 bản ghi.
Phương pháp phân tích: Cài đặt và thử nghiệm ba giải thuật phân cụm gồm K-means truyền thống, Genetic K-means (K-means kết hợp giải thuật di truyền) và DE K-means (K-means kết hợp giải thuật tiến hóa vi phân). Các giải thuật được đánh giá dựa trên tổng khoảng cách từ các điểm dữ liệu đến trọng tâm cụm, thời gian chạy và khả năng hội tụ.
Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong năm 2014, bao gồm giai đoạn tổng quan lý thuyết, thiết kế giải thuật, cài đặt chương trình và thử nghiệm trên dữ liệu thực tế.
Cỡ mẫu và chọn mẫu: Bộ dữ liệu thử nghiệm có kích thước từ 6 đến 10,000 điểm dữ liệu, được chọn ngẫu nhiên hoặc lấy từ cơ sở dữ liệu thực tế để đảm bảo tính đại diện và đa dạng.
Phương pháp đánh giá: Sử dụng các chỉ số như tổng khoảng cách trung bình, độ ổn định kết quả qua nhiều lần chạy, so sánh hiệu quả giữa các giải thuật và phân tích biểu đồ kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân cụm của giải thuật Genetic K-means và DE K-means vượt trội so với K-means truyền thống: Trung bình tổng khoảng cách từ trọng tâm cụm tới các điểm dữ liệu của Genetic K-means và DE K-means thấp hơn từ 5% đến 15% so với K-means, thể hiện qua các thử nghiệm trên bộ dữ liệu tự sinh và Northwind.
DE K-means có khả năng dừng sớm khi đạt điều kiện hội tụ: Giải thuật DE K-means có thể dừng tại thế hệ đang xét nếu thỏa mãn điều kiện epsilon, giúp giảm thời gian chạy so với Genetic K-means phải chạy hết số thế hệ định trước.
Giải thuật tiến hóa giúp khám phá các cụm có hình dạng đa dạng hơn: Khác với K-means chỉ phù hợp với cụm hình cầu, Genetic K-means và DE K-means nhờ cơ chế đột biến và lai ghép có thể phát hiện các cụm có hình dạng phức tạp hơn, giảm nhạy cảm với nhiễu và dữ liệu ngoại lai.
Ảnh hưởng của khởi tạo quần thể đến kết quả phân cụm: Trong trường hợp khởi tạo quần thể ngẫu nhiên, kết quả phân cụm của giải thuật tiến hóa có thể không ổn định. Khi khởi tạo quần thể đầu tiên bằng kết quả của K-means, độ ổn định và chất lượng phân cụm được cải thiện rõ rệt.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả phân cụm là do giải thuật tiến hóa khai thác tốt không gian tìm kiếm toàn cục, tránh được điểm tối ưu cục bộ mà K-means thường mắc phải. Việc sử dụng các phép toán lai ghép và đột biến giúp đa dạng hóa quần thể, tăng khả năng khám phá các cấu trúc dữ liệu phức tạp.

So với các nghiên cứu trước đây, kết quả này phù hợp với báo cáo của ngành về ưu điểm của giải thuật tiến hóa trong khai phá dữ liệu, đồng thời bổ sung thêm bằng chứng thực nghiệm trên bộ dữ liệu thực tế. Biểu đồ tổng hợp kết quả cho thấy rõ sự khác biệt về tổng khoảng cách trung bình giữa các giải thuật, minh họa bằng các biểu đồ đường thể hiện xu hướng giảm khoảng cách khi số cụm tăng.

Ý nghĩa của kết quả là các giải thuật tiến hóa kết hợp với K-means không chỉ nâng cao chất lượng phân cụm mà còn có thể ứng dụng hiệu quả trong các hệ thống khai phá dữ liệu lớn, đa dạng thuộc tính và hình dạng cụm.

Đề xuất và khuyến nghị

Phát triển các giải thuật phân cụm kết hợp tính toán tiến hóa đa mục tiêu: Đề xuất mở rộng nghiên cứu sang các giải thuật tối ưu đa mục tiêu nhằm cân bằng giữa chất lượng phân cụm và thời gian tính toán, hướng tới các ứng dụng thực tế phức tạp hơn.
Tối ưu hóa tham số giải thuật dựa trên học máy: Khuyến nghị áp dụng các kỹ thuật học máy để tự động điều chỉnh các tham số như kích thước quần thể, xác suất lai ghép và đột biến nhằm nâng cao hiệu quả và độ ổn định của giải thuật.
Mở rộng thử nghiệm trên dữ liệu hỗn hợp và dữ liệu lớn: Đề xuất thực hiện các thử nghiệm trên bộ dữ liệu hỗn hợp (số và phân loại) và dữ liệu có kích thước lớn hơn nhằm đánh giá khả năng mở rộng và thích nghi của giải thuật.
Ứng dụng giải thuật trong các lĩnh vực thực tiễn: Khuyến nghị các tổ chức tài chính, y tế, marketing áp dụng giải thuật Genetic K-means và DE K-means để phân loại khách hàng, chuẩn đoán bệnh hoặc phân tích thị trường, với mục tiêu cải thiện độ chính xác và hiệu quả ra quyết định trong vòng 1-2 năm tới.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Kỹ thuật phần mềm: Luận văn cung cấp kiến thức nền tảng và phương pháp nghiên cứu về khai phá dữ liệu và tính toán tiến hóa, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển phần mềm và kỹ sư dữ liệu: Các giải thuật phân cụm tiến hóa được trình bày chi tiết giúp áp dụng vào xây dựng hệ thống phân tích dữ liệu, cải thiện hiệu suất và chất lượng phân cụm trong các ứng dụng thực tế.
Nhà quản lý và chuyên viên phân tích dữ liệu trong doanh nghiệp: Hiểu rõ về các kỹ thuật phân cụm nâng cao giúp lựa chọn công cụ phù hợp để phân tích khách hàng, dự báo thị trường và tối ưu hóa chiến lược kinh doanh.
Các nhà khoa học dữ liệu và chuyên gia AI: Luận văn cung cấp các thuật toán tối ưu hóa mới, hỗ trợ phát triển các mô hình học máy không giám sát, đặc biệt trong xử lý dữ liệu lớn và phức tạp.

Câu hỏi thường gặp

Giải thuật Genetic K-means khác gì so với K-means truyền thống?
Giải thuật Genetic K-means kết hợp cơ chế tiến hóa như lai ghép và đột biến để tối ưu vị trí trọng tâm cụm, giúp tránh điểm tối ưu cục bộ mà K-means truyền thống thường gặp. Ví dụ, trong thử nghiệm, Genetic K-means giảm tổng khoảng cách trung bình từ 5% đến 15% so với K-means.
DE K-means có ưu điểm gì về thời gian chạy?
DE K-means có thể dừng sớm khi đạt điều kiện hội tụ epsilon, không cần chạy hết số thế hệ định trước, giúp tiết kiệm thời gian so với Genetic K-means phải chạy toàn bộ thế hệ. Thực tế cho thấy DE K-means thường chạy nhanh hơn trong các thử nghiệm.
Giải thuật tiến hóa có áp dụng được cho dữ liệu hỗn hợp không?
Hiện tại, các giải thuật trong luận văn chủ yếu áp dụng cho dữ liệu số. Tuy nhiên, có thể mở rộng bằng cách kết hợp các kỹ thuật mã hóa phù hợp để xử lý dữ liệu hỗn hợp, đây là hướng nghiên cứu tiếp theo được đề xuất.
Làm thế nào để chọn số cụm k phù hợp?
Số cụm k thường được xác định dựa trên kiến thức chuyên môn hoặc sử dụng các chỉ số đánh giá như Elbow method, Silhouette score. Giải thuật tiến hóa có thể hỗ trợ tìm kiếm k tối ưu bằng cách mở rộng không gian tìm kiếm.
Giải thuật có nhạy cảm với dữ liệu nhiễu không?
So với K-means, giải thuật Genetic K-means và DE K-means ít nhạy cảm hơn với dữ liệu nhiễu nhờ cơ chế đột biến và lai ghép giúp đa dạng hóa quần thể và tránh bị ảnh hưởng bởi các điểm ngoại lai.

Kết luận

Luận văn đã trình bày cơ sở lý thuyết về khai phá dữ liệu, giải thuật di truyền và tiến hóa vi phân, làm nền tảng cho nghiên cứu phân cụm sử dụng tính toán tiến hóa.
Đã xây dựng và cài đặt thành công các giải thuật Genetic K-means và DE K-means, đồng thời thử nghiệm trên bộ dữ liệu tự sinh và dữ liệu thực tế Northwind.
Kết quả cho thấy giải thuật tiến hóa cải thiện đáng kể chất lượng phân cụm so với K-means truyền thống, đặc biệt trong việc giảm tổng khoảng cách trung bình và khám phá cụm đa dạng hình dạng.
DE K-means có ưu điểm về khả năng dừng sớm, giúp tiết kiệm thời gian tính toán mà vẫn đảm bảo chất lượng phân cụm.
Hướng nghiên cứu tiếp theo tập trung vào mở rộng giải thuật cho dữ liệu hỗn hợp, tối ưu tham số tự động và ứng dụng thực tiễn trong các lĩnh vực đa dạng.

Độc giả và nhà nghiên cứu được khuyến khích áp dụng và phát triển các giải thuật này trong các dự án khai phá dữ liệu để nâng cao hiệu quả phân tích và ra quyết định.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ GIẢI THUẬT DI TRUYỀN 1. Tổng quan về khám phá tri thức và khai phá dữ liệu 1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ liệu. Thông thường, chúng ta coi dữ liệu như là một chuỗi các bits, hoặc các số và các ký hiệu hay là các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định.

Các bits thường được sử dụng để đo thông tin, và xem nó như là dữ liệu đã được loại bỏ phần tử thừa, lặp lại, và rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Tri thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Nói cách khác, tri thức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát[2]. Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu được.

Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các giải thuật khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói cách khác, mục tiêu của Khai phá dữ liệu là tìm kiếm các mẫu hoặc mô hình tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu. Quá trình khám phá tri thức Quá trình khám phá dữ liệu có thể chia thành các giai đoạn như sau, xem hình 1. Trích chọn dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.

Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không đầy đủ, nhiễu, không nhất quán, .), rút gọn dữ liệu (sử dụng hàm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 nhóm và tính tổng, các phương pháp nén dữ liệu, lấy mẫu, .), rời rạc hóa dữ liệu. Flat files: Những tệp dữ liệu không có mối quan hệ về cấu trúc Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hóa. Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau. Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu.

Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của quá trình KDD. Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được biến đổi và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật,. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Đánh giá và Tri thức biểu diễn Khai phá dữ liệu Các mẫu Lựa chọn và biến đổi Kho dữ liệu Làm sạch và tích hợp Cơ sở dữ liệu Flat files Hình 1.1: Quá trình khám phá tri thức LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Các phương pháp khai phá dữ liệu Với hai mục đích khai phá dữ liệu là Mô tả và Dự đoán, người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu [3]: o Luật kết hợp (association rules) o Phân lớp (Classfication) o Hồi qui (Regression) o Trực quan hóa (Visualiztion) o Phân cụm (Clustering) o Tổng hợp (Summarization) o Mô hình ràng buộc (Dependency modeling) o Biểu diễn mô hình (Model Evaluation) o Phân tích sự phát triển và độ lệch (Evolution and deviation analyst) o Phương pháp tìm kiếm (Search Method) Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu. Các lĩnh vực ứng dụng thực tiễn của KPDL KPDL là một lĩnh vực mới phát triển nhưng thu hút được khá nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Sau đây là một số lĩnh vực ứng dụng thực tế điển hình của KPDL[2]: - Phân tích dữ liệu và hỗ trợ ra quyết định - Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phân cụm ảnh màu - Chuẩn đoán triệu chứng, phương pháp trong điều trị y học - Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học - Phân tích tình hình tài chính, thị trường, dự báo gía cổ phiếu trong tài chính, thị trường và chứng khoán - Phân tích dữ liệu marketing, khách hàng. - Điều khiển và lập lịch trình - Bảo hiểm - Giáo dục.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL. Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính sau [3]: - Phân lớp và dự đoán (classification &prediction): Là quá trình xếp một đối tượng vào một trong những lớp đã biết trước (ví dụ: phân lớp các bệnh nhân theo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết. Đối với hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network),.

Hay lớp bài toán này còn đươc gọi là học có giám sát - Học có thày (supervised learning). - Phân cụm (clustering/segmentation): Sắp xếp các đối tượng theo từng cụm dữ liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất. Lớp bài toán này còn được gọi là học không giám sát - Học không thày (unsupervised learning).

- Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức ở dạng khá đơn giản (Ví dụ: 80% sinh viên đăng ký học CSDL thì có tới 60% trong số họ đăng ký học Phân tích thiết kế hệ thống thông tin). Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễn thông, tài chính và thị trường chứng khoán,. - Phân tích chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y.

Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởi chúng có tính dự báo cao. - Mô tả khái niệm (concept desccription & summarization): Lớp bài toán này thiên về mô tả, tổng hợp và tóm tắt khái niệm (Ví dụ: tóm tắt văn bản). Các yêu cầu của phân cụm Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng dụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệt của chúng. Sau đây là những yêu cầu cơ bản của phân cụm trong KPDL [3]: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt với những tập dữ liệu khoảng vài trăm đối tượng, tuy nhiên, một CSDL lớn có thể chứa tới hàng triệu đối tượng.

Việc phân cụm với một tập dữ liệu lớn có thể làm ảnh hưởng tới kết quả. Vậy làm cách nào để chúng ta có thể phát triển các giải thuật phân cụm có khả năng mở rộng cao đối với các CSDL lớn? Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều giải thuật được thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểu số). Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh (định danh - không thứ tự), và dữ liệu có thứ tự hay dạng hỗn hợp của những kiểu dữ liệu này. Khám phá các cụm với hình dạng bất kỳ: Nhiều giải thuật phân cụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean và khoảng cách Manhattan.

Các thuật toán dựa trên các phép đo như vậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tương tự nhau. Tuy nhiên, một cụm có thể có bất cứ một hình dạng nào. Do đó, việc phát triển các thuật toán có thể khám phá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng. Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Nhiều thuật toán phân cụm yêu cầu người dùng đưa vào những tham số nhất định trong phân tích phân cụm (như số lượng các cụm mong muốn).

Kết quả của phân cụm thường khá nhạy cảm với các tham số đầu vào. Nhiều tham số rất khó để xác định, nhất là với các tập dữ liệu có lượng các đối tượng lớn. Điều này không những gây trở ngại cho người dùng mà còn làm cho khó có thể điều chỉnh được chất lượng của phân cụm. Khả năng thích nghi với dữ liệu nhiễu: Hầu hết những CSDL thực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai.

Một số giải thuật phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp. Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một giải thuật có thể sinh ra các cụm rất khác nhau. Do đó, việc quan trọng là phát triển các giải thuật mà ít nhạy cảm với thứ tự vào của dữ liệu. Số chiều lớn: Một CSDL hoặc một kho dữ liệu có thể chứa một số chiều hoặc một số các thuộc tính.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai phá dữ liệu và khám phá tri thức

Các giải thuật tiến hóa trong học máy

Kỹ thuật phân cụm dữ liệu không giám sát

Tối ưu hóa thuật toán bằng giải thuật di truyền