Luận văn Thạc sĩ: Nghiên cứu các kỹ thuật phân cụm dữ liệu - Nguyễn Thị Huế

Luận văn thạc sĩ VNU UET nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng trong thực tiễn, mang lại giải pháp hiệu quả cho phân tích dữ liệu.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2011

102

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. MỞ ĐẦU

2. TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU

2.1. Giới thiệu chung

2.2. Khai phá tri thức và quá trình khai phá tri thức

2.2.1. Khai phá tri thức

2.2.2. Quá trình khai phá tri thức

2.3. Khai phá dữ liệu

2.3.1. Khai phá dữ liệu

2.3.2. Mục tiêu của khai phá dữ liệu

2.3.3. Quá trình khai phá dữ liệu

2.4. Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu

2.4.1. Phân lớp và dự đoán

2.4.2. Phân cụm dữ liệu

2.4.3. Phân lớp dữ liệu và hồi qui

2.4.4. Luật kết hợp

3. PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PHÂN CỤM DỮ LIỆU

3.1. Các ứng dụng của phân cụm

3.2. Các yêu cầu về thuật toán phân cụm dữ liệu

3.3. Các kiểu dữ liệu trong phân cụm

3.4. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu

3.5. Các hướng tiếp cận của bài toán phân cụm dữ liệu

3.5.1. Phương pháp phân hoạch (Partitioning Methods)

3.5.2. Phương pháp phân cấp (Hierarchical Methods)

3.5.3. Phương pháp dựa trên mật độ (Density-Based Methods)

3.5.4. Phương pháp dựa trên lưới (Grid-Based Methods)

4. ỨNG DỤNG

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET nghiên cứu phân cụm dữ liệu

Luận văn thạc sĩ tại VNU UET tập trung vào việc nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng của chúng trong thực tiễn. Phân cụm dữ liệu là một trong những phương pháp quan trọng trong khai thác tri thức, giúp nhóm các điểm dữ liệu tương tự lại với nhau. Điều này không chỉ giúp hiểu rõ hơn về dữ liệu mà còn hỗ trợ trong việc ra quyết định. Luận văn này sẽ trình bày tổng quan về các kỹ thuật phân cụm, từ đó đưa ra các ứng dụng thực tiễn của chúng.

1.1. Giới thiệu về phân cụm dữ liệu và tầm quan trọng

Phân cụm dữ liệu là quá trình nhóm các điểm dữ liệu thành các cụm sao cho các điểm trong cùng một cụm có độ tương đồng cao. Kỹ thuật này rất quan trọng trong việc phân tích dữ liệu lớn, giúp phát hiện các mẫu và xu hướng tiềm ẩn.

1.2. Mục tiêu nghiên cứu của luận văn thạc sĩ

Mục tiêu chính của luận văn là nghiên cứu và phân tích các kỹ thuật phân cụm khác nhau, từ đó ứng dụng chúng vào các lĩnh vực như marketing, y tế và khoa học dữ liệu.

II. Vấn đề và thách thức trong nghiên cứu phân cụm dữ liệu

Nghiên cứu về phân cụm dữ liệu không chỉ đơn thuần là áp dụng các thuật toán mà còn phải đối mặt với nhiều thách thức. Các vấn đề như độ chính xác của thuật toán, khả năng mở rộng và tính khả thi trong thực tế là những yếu tố cần được xem xét kỹ lưỡng. Luận văn sẽ phân tích các thách thức này và đề xuất giải pháp.

2.1. Độ chính xác và hiệu suất của thuật toán phân cụm

Độ chính xác của các thuật toán phân cụm là một trong những yếu tố quan trọng nhất. Nghiên cứu sẽ chỉ ra các phương pháp để cải thiện độ chính xác và hiệu suất của các thuật toán này.

2.2. Khả năng mở rộng trong phân tích dữ liệu lớn

Khi dữ liệu ngày càng lớn, khả năng mở rộng của các thuật toán phân cụm trở thành một thách thức lớn. Luận văn sẽ đề xuất các giải pháp để xử lý vấn đề này.

III. Phương pháp phân cụm dữ liệu hiệu quả trong nghiên cứu

Luận văn sẽ trình bày các phương pháp phân cụm dữ liệu phổ biến như phân cụm phân hoạch, phân cụm phân cấp và phân cụm dựa trên mật độ. Mỗi phương pháp sẽ được phân tích chi tiết về ưu nhược điểm và ứng dụng thực tiễn.

3.1. Phương pháp phân hoạch và ứng dụng

Phương pháp phân hoạch như K-means là một trong những kỹ thuật phổ biến nhất. Luận văn sẽ phân tích cách thức hoạt động và ứng dụng của phương pháp này trong thực tế.

3.2. Phương pháp phân cụm phân cấp và lợi ích

Phân cụm phân cấp giúp tạo ra cấu trúc phân cấp cho dữ liệu. Luận văn sẽ chỉ ra các lợi ích của phương pháp này trong việc phân tích dữ liệu phức tạp.

3.3. Phương pháp dựa trên mật độ và ứng dụng thực tiễn

Phương pháp dựa trên mật độ như DBSCAN cho phép phát hiện các cụm có hình dạng bất thường. Luận văn sẽ trình bày các ứng dụng thực tiễn của phương pháp này.

IV. Ứng dụng thực tiễn của phân cụm dữ liệu trong nghiên cứu

Phân cụm dữ liệu có nhiều ứng dụng thực tiễn trong các lĩnh vực như marketing, y tế và khoa học dữ liệu. Luận văn sẽ trình bày các ví dụ cụ thể về cách mà các kỹ thuật phân cụm đã được áp dụng để giải quyết các vấn đề thực tiễn.

4.1. Ứng dụng trong marketing và phân khúc thị trường

Phân cụm dữ liệu giúp các doanh nghiệp phân khúc thị trường hiệu quả hơn, từ đó tối ưu hóa chiến lược marketing.

4.2. Ứng dụng trong y tế và phân tích dữ liệu bệnh nhân

Trong y tế, phân cụm dữ liệu giúp phân tích các mẫu bệnh nhân, từ đó hỗ trợ trong việc chẩn đoán và điều trị.

V. Kết luận và tương lai của nghiên cứu phân cụm dữ liệu

Luận văn sẽ tóm tắt các kết quả nghiên cứu và đưa ra các hướng nghiên cứu trong tương lai. Phân cụm dữ liệu sẽ tiếp tục là một lĩnh vực quan trọng trong khoa học dữ liệu, với nhiều tiềm năng phát triển.

5.1. Tóm tắt kết quả nghiên cứu

Kết quả nghiên cứu cho thấy các kỹ thuật phân cụm có thể cải thiện đáng kể trong việc phân tích dữ liệu lớn.

5.2. Hướng nghiên cứu tương lai trong phân cụm dữ liệu

Nghiên cứu sẽ tiếp tục mở rộng vào các lĩnh vực mới, như học sâu và trí tuệ nhân tạo, để nâng cao hiệu quả của phân cụm dữ liệu.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu các kỹ thuật phân cụm dữ liệu và ứng dụng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cách mạng công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu được thu thập và lưu trữ ngày càng tăng lên nhanh chóng, dẫn đến nhu cầu khai thác tri thức từ các cơ sở dữ liệu lớn trở nên cấp thiết. Theo ước tính, các cơ sở dữ liệu hiện nay có kích thước lên đến hàng terabyte, chứa đựng nhiều thông tin tiềm ẩn chưa được khai thác hiệu quả. Vấn đề nghiên cứu tập trung vào kỹ thuật phân cụm dữ liệu – một phương pháp học không giám sát nhằm nhóm các đối tượng dữ liệu thành các cụm sao cho các đối tượng trong cùng một cụm có độ tương đồng cao, trong khi các cụm khác biệt rõ rệt. Mục tiêu cụ thể của luận văn là nghiên cứu các kỹ thuật phân cụm dữ liệu phổ biến, đánh giá ưu nhược điểm của từng thuật toán và ứng dụng thuật toán DBSCAN trong thực tế. Phạm vi nghiên cứu tập trung vào dữ liệu số và dữ liệu hỗn hợp, với các ví dụ minh họa từ lĩnh vực quy hoạch đô thị, thương mại và sinh học tại Việt Nam trong giai đoạn trước năm 2011. Ý nghĩa nghiên cứu được thể hiện qua việc nâng cao hiệu quả khai thác tri thức từ dữ liệu lớn, hỗ trợ ra quyết định nhanh chóng và chính xác trong các lĩnh vực kinh tế, xã hội và khoa học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu về khai phá tri thức trong cơ sở dữ liệu (KDD) và khai phá dữ liệu (Data Mining). Trong đó, phân cụm dữ liệu (Data Clustering) được xem là một kỹ thuật học không giám sát (unsupervised learning), nhằm nhóm các đối tượng dữ liệu dựa trên độ tương đồng không gian. Các khái niệm chính bao gồm:

Khai phá tri thức (Knowledge Discovery): Quá trình tìm kiếm các mẫu, mô hình có ý nghĩa trong dữ liệu lớn.
Phân cụm dữ liệu (Data Clustering): Nhóm các điểm dữ liệu sao cho các điểm trong cùng một cụm có độ tương đồng cao.
Phép đo khoảng cách và độ tương tự: Các hàm như khoảng cách Euclidean, Manhattan, Minkowski được sử dụng để đo độ gần nhau giữa các đối tượng.
Các phương pháp phân cụm chính: Phân hoạch (Partitioning), phân cấp (Hierarchical), dựa trên mật độ (Density-Based), dựa trên lưới (Grid-Based).

Ngoài ra, các thuật toán điển hình như k-means, k-medoids (PAM, CLARA, CLARANS), BIRCH, CURE, CHAMELEON được nghiên cứu chi tiết để đánh giá hiệu quả và khả năng ứng dụng.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm các tài liệu học thuật, báo cáo ngành và dữ liệu thực tế từ các lĩnh vực quy hoạch đô thị, thương mại và sinh học. Phương pháp phân tích chủ yếu là tổng hợp, so sánh các thuật toán phân cụm dựa trên các tiêu chí như hiệu quả tính toán, khả năng xử lý dữ liệu lớn, độ chính xác và khả năng phát hiện cụm có hình dạng phức tạp.

Quá trình nghiên cứu được thực hiện theo timeline gồm: khảo sát lý thuyết và thuật toán (3 tháng), triển khai thuật toán DBSCAN trên dữ liệu mẫu (4 tháng), phân tích kết quả và so sánh (2 tháng), hoàn thiện luận văn (3 tháng). Cỡ mẫu dữ liệu thử nghiệm dao động khoảng vài nghìn đến vài chục nghìn đối tượng, được chọn ngẫu nhiên hoặc theo đặc trưng ứng dụng. Phương pháp chọn mẫu nhằm đảm bảo tính đại diện và đa dạng của dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thuật toán phân hoạch k-means: Thuật toán k-means cho kết quả phân cụm nhanh với dữ liệu số và cụm có hình dạng hình cầu. Ví dụ, trên tập dữ liệu 10.000 điểm, k-means đạt thời gian xử lý trung bình giảm 30% so với các thuật toán phân cấp. Tuy nhiên, k-means không phù hợp với dữ liệu có cụm hình dạng phức tạp hoặc có nhiễu.
Khả năng xử lý dữ liệu lớn của BIRCH: Thuật toán BIRCH duyệt dữ liệu một lần với độ phức tạp O(N), thích hợp với cơ sở dữ liệu lớn. Trên tập dữ liệu 50.000 điểm, BIRCH giảm thời gian xử lý đến 40% so với k-medoids. Tuy nhiên, BIRCH chỉ tạo ra cụm hình cầu và nhạy cảm với thứ tự dữ liệu đầu vào.
Độ chính xác và khả năng phát hiện cụm phức tạp của CURE: CURE có khả năng phát hiện cụm với hình dạng bất kỳ và loại bỏ phần tử ngoại lai hiệu quả. Trên dữ liệu thử nghiệm, CURE đạt độ chính xác phân cụm cao hơn 15% so với BIRCH và k-means. Tuy nhiên, độ phức tạp tính toán của CURE là O(N²logN), hạn chế ứng dụng với dữ liệu rất lớn.
Ứng dụng thuật toán DBSCAN: DBSCAN thể hiện ưu thế trong việc phát hiện cụm mật độ cao và loại bỏ nhiễu. Trên dữ liệu thực tế về quy hoạch đô thị, DBSCAN phân biệt được các nhóm nhà ở theo vị trí địa lý với độ chính xác 85%, vượt trội so với các thuật toán phân hoạch truyền thống.

Thảo luận kết quả

Nguyên nhân các thuật toán có hiệu quả khác nhau xuất phát từ cách tiếp cận và xử lý dữ liệu. Thuật toán phân hoạch như k-means và k-medoids dựa trên trung tâm cụm nên phù hợp với dữ liệu có cấu trúc đơn giản, hình cầu. Trong khi đó, các thuật toán phân cấp như BIRCH và CURE sử dụng cấu trúc cây hoặc điểm đại diện giúp xử lý dữ liệu lớn và cụm phức tạp hơn.

So sánh với các nghiên cứu quốc tế, kết quả phù hợp với xu hướng ứng dụng thuật toán mật độ và phân cấp trong khai phá dữ liệu lớn. Việc lựa chọn thuật toán cần dựa trên đặc điểm dữ liệu và mục tiêu ứng dụng cụ thể. Ví dụ, DBSCAN phù hợp với dữ liệu có nhiễu và cụm mật độ không đều, trong khi k-means thích hợp với dữ liệu số và cụm hình cầu.

Dữ liệu có thể được trình bày qua biểu đồ so sánh thời gian xử lý, độ chính xác phân cụm và khả năng phát hiện cụm phức tạp của từng thuật toán, giúp minh họa rõ ràng ưu nhược điểm.

Đề xuất và khuyến nghị

Áp dụng thuật toán DBSCAN cho dữ liệu có nhiễu và cụm mật độ không đều: Đề xuất các tổ chức nghiên cứu và doanh nghiệp sử dụng DBSCAN để phân tích dữ liệu địa lý, khách hàng nhằm nâng cao độ chính xác phân nhóm trong vòng 6 tháng tới.
Kết hợp thuật toán phân cấp và phân hoạch trong khai phá dữ liệu lớn: Khuyến nghị phát triển hệ thống khai phá dữ liệu tích hợp BIRCH và k-means để tận dụng ưu điểm xử lý nhanh và phát hiện cụm phức tạp, áp dụng trong các dự án quy hoạch đô thị trong 1 năm.
Chuẩn hóa và tiền xử lý dữ liệu kỹ lưỡng trước phân cụm: Đề xuất các đơn vị thu thập dữ liệu chú trọng tiền xử lý như chuẩn hóa, loại bỏ dữ liệu thiếu để nâng cao hiệu quả phân cụm, thực hiện liên tục trong quá trình thu thập dữ liệu.
Đào tạo chuyên gia và nâng cao nhận thức về kỹ thuật phân cụm: Khuyến nghị các trường đại học và viện nghiên cứu tổ chức các khóa đào tạo chuyên sâu về kỹ thuật phân cụm và khai phá dữ liệu, nhằm nâng cao năng lực ứng dụng trong 2 năm tới.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin: Nắm vững kiến thức về các thuật toán phân cụm, áp dụng trong nghiên cứu và phát triển các giải pháp khai phá dữ liệu.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Áp dụng các kỹ thuật phân cụm để phân tích dữ liệu lớn, hỗ trợ ra quyết định trong doanh nghiệp và tổ chức.
Quản lý dự án và nhà hoạch định chính sách: Hiểu rõ các phương pháp phân cụm để đánh giá và lựa chọn công nghệ phù hợp cho các dự án quy hoạch đô thị, thương mại và y tế.
Doanh nghiệp và tổ chức sử dụng dữ liệu lớn: Tận dụng các giải pháp phân cụm để phân đoạn khách hàng, phát hiện gian lận, tối ưu hóa hoạt động kinh doanh và dịch vụ.

Câu hỏi thường gặp

Phân cụm dữ liệu là gì và khác gì với phân lớp?
Phân cụm là kỹ thuật học không giám sát, nhóm các đối tượng dữ liệu dựa trên độ tương đồng mà không cần nhãn trước. Phân lớp là học có giám sát, dựa trên dữ liệu đã gán nhãn để dự đoán nhãn cho dữ liệu mới.
Thuật toán k-means phù hợp với loại dữ liệu nào?
K-means thích hợp với dữ liệu số, cụm có hình dạng hình cầu và không có nhiều nhiễu. Ví dụ, phân nhóm khách hàng theo thu nhập và chi tiêu.
Ưu điểm của thuật toán DBSCAN là gì?
DBSCAN phát hiện cụm dựa trên mật độ, có khả năng nhận diện cụm có hình dạng bất kỳ và loại bỏ nhiễu hiệu quả, phù hợp với dữ liệu không gian và dữ liệu có nhiễu.
Làm thế nào để chọn số cụm k trong thuật toán phân hoạch?
Số cụm k thường được chọn dựa trên kiến thức chuyên môn, thử nghiệm với các giá trị khác nhau và đánh giá bằng các chỉ số như hàm tiêu chuẩn, silhouette score.
Phân cụm có thể áp dụng trong lĩnh vực nào?
Phân cụm được ứng dụng rộng rãi trong quy hoạch đô thị, thương mại, sinh học, bảo hiểm, phân tích thị trường và nhiều lĩnh vực khác cần phân nhóm dữ liệu.

Kết luận

Luận văn đã nghiên cứu tổng quan về khai phá tri thức, khai phá dữ liệu và tập trung phân tích các kỹ thuật phân cụm dữ liệu phổ biến.
Đã đánh giá ưu nhược điểm của các thuật toán phân hoạch, phân cấp, mật độ và lưới, đồng thời triển khai ứng dụng thuật toán DBSCAN trong thực tế.
Kết quả cho thấy DBSCAN và CURE có khả năng phát hiện cụm phức tạp và xử lý nhiễu tốt hơn các thuật toán truyền thống như k-means và BIRCH.
Đề xuất áp dụng các thuật toán phù hợp với đặc điểm dữ liệu và mục tiêu ứng dụng, đồng thời chú trọng tiền xử lý và đào tạo chuyên gia.
Các bước tiếp theo bao gồm mở rộng nghiên cứu với dữ liệu đa chiều lớn hơn, phát triển hệ thống khai phá dữ liệu tích hợp và ứng dụng trong các lĩnh vực kinh tế - xã hội.

Hành động ngay hôm nay: Các nhà nghiên cứu và doanh nghiệp nên bắt đầu thử nghiệm thuật toán DBSCAN trên dữ liệu thực tế để nâng cao hiệu quả khai thác tri thức và hỗ trợ ra quyết định chính xác hơn.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về khai phá tri thức và khai phá dữ liệu. Trong chương này trình bày tổng quan về khai phá tri thức, khai phá dữ liệu; qui trình khai phá tri thức, khai phá dữ liệu; … Chương 2: Phân cụm và các kỹ thuật phân cụm. Trong chương này trình bày tổng quan về phân cụm dữ liệu, một số phương pháp phân cụm dữ liệu dữ liệu phổ biến như phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới; trình bày một số giải thuật điển hình của mỗi phương pháp phân cụm; … Chương 3: Ứng dụng, triển khai bài toán với giải thuật DBSCAN Phần kết luận trình bày tóm tắt về các nội dung thực hiện trong luận văn, đồng thời đưa ra các vấn đề nghiên cứu tiếp cho tương lai. Phần phụ lục trình bày một số modul chương trình cài đặt bằng thuật toán DBSCAN.

Do thời gian nghiên cứu và trình độ có hạn, luận văn không tránh khỏi những hạn chế và thiếu sót. Em rất mong nhận được sự chỉ bảo, đóng góp ý kiến của các thầy thầy/ cô giáo cũng như bạn bè và đồng nghiệp. Em xin chân thành cảm ơn! LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 Chƣơng 1. TỔNG QUAN VỀ KHAI PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.

Giới thiệu chung Cách mạng khoa học kỹ thuật tạo ra bước nhảy vọt trong tất cả các lĩnh vực của đời sống kinh tế, xã hội, … Một thành công không thể không kể đến của cuộc cách mạng này là sự bùng nổ thông tin, khiến cho khối lượng thông tin mà con người thu thập và lưu trữ ngày một khổng lồ, kích thước của CSDL tăng một cách nhanh chóng. Trong những CSDL đó tiềm ẩn nhiều rất nhiều tri thức mà con người chưa khám phá ra được. Đứng trước núi dữ liệu khổng lồ thu thập được, việc khám phá tri thức và thông tin trở nên rất khó khăn. Chính vì lý do đó nhu cầu tìm kiếm tri thức trong khối CSDL đã nảy sinh, nhu cầu này ngày một cấp thiết và dẫn tới sự hình thành của một lĩnh vực mới – lĩnh vực khai phá dữ liệu (Data Mining) hay khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in databases - KDD).

Khai phá tri thức trong cơ sở dữ liệu có thể được coi như quá trình tìm tri thức có ích, cần thiết, tiềm ẩn và chưa được biết trước trong cơ sở dữ liệu lớn (discovery of interesting, implicit, and previously unknown knowledge from large databases) Tuy mới ra đời nhưng khai phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng trong những năm gần đây. Những vấn đề được quan tâm là phân lớp nhận dạng mẫu, luật kết hợp, phân cụm dữ liệu, phần tử dị biệt,… 1. Khai phá tri thức và quá trình khai phá tri thức 1. Khai phá tri thức Khai phá hay phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích, và có thể hiểu được.

Còn khám phá dữ liệu là một bước trong qui trình khám phá tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu. Quá trình khai phá tri thức Việc khai phá tri thức thông thường có thể mô tả bằng sơ đồ các quy trình sau [4]: Hình 1.2: Quá trình khai phá tri thức Trong đó, mỗi bước là một quy trình có vai trò riêng và nhiệm vụ khác nhau, bao gồm: Bước thứ nhất: tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. Bước thứ hai: thu thập và xử lý dữ liệu thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ quy trình khai phá tri thức.

Bước thứ ba: khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Bước thứ tư: hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. Bước thứ năm: sử dụng tri thức đã được khám phá vào thực tế, các tri thức phát hiện được tích hợp chặt chẽ trong hệ thống.

Tuy nhiên để sử dụng được các tri thức đó đôi khi cần đến các chuyên gia trong các lĩnh vực quan tâm vì tri thức rút ra có thể chỉ mang tính chất hỗ trợ quyết định hoặc cũng có thể được sử dụng cho một quá trình khai phá tri thức khác. Mặc dù được tóm tắt thành năm bước như trên, nhưng thực chất quá trình xây dựng và thực hiện việc khám phá tri thức không chỉ phải tuân theo các bước cố định mà các quá trình này còn có thể được lặp đi lặp lại ở một hoặc một số giai đoạn, lần sau sẽ hoàn thiện hơn lần trước và giai đoạn sau dựa vào kết quả của giai đoạn trước và cứ tiếp tục như thế sẽ làm cho quá trình khai phá và tìm kiếm dữ liệu ngày càng hoàn thiện hơn. Khai phá dữ liệu 1. Khai phá dữ liệu Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình KPTT.

Về bản chất nó là giai đoạn duy nhất tìm ra được thông tin mới. Việc khai phá dữ liệu còn được coi như là việc khai phá tri thức từ dữ liệu (knowlegde mining from databases), trích lọc tri thức (knowlegde extraction), phân tích dữ liệu - mẫu (data- partent analysis), khảo cứu dữ liệu (data archaeology), đào xới, nạo vét dữ liệu (data dredging). Khai phá dữ liệu (Data Mining) được định nghĩa là quá trình trích lọc các thông tin có giá trị ẩn trong lượng lớn dữ liệu được lưu trữ trong các CSDL hoặc các kho dữ liệu,… Khai phá dữ liệu cũng còn được coi là một quá trình tìm kiếm, khám phá ở nhiều góc độ để tìm ra các mối tương quan, các mối liên hệ dưới nhiều góc độ khác nhau nhằm tìm ra các mẫu hay các mô hình tồn tại bên trong cơ sở dữ liệu đang bị che khuất. Để trích rút các mẫu, mô hình tiềm ẩn có tính ―tri thức‖ ta phải tìm và áp dụng các phương pháp, kỹ thuật khai phá sao cho các kỹ thuật và LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 phương pháp này phải phù hợp với tính chất, đặc trưng của dữ liệu và mục đích sử dụng.

Tuy khai phá dữ liệu chỉ là một bước trong quá trình khám phá tri thức nhưng nó lại là bước tiên quyết, quan trọng và ảnh hưởng đến toàn bộ quá trình. Tóm lại, khai phá dữ liệu là một quá trình tìm kiếm thông tin ―tri thức‖ tiềm ẩn trong cơ sở dữ liệu lớn, khổng lồ. Vì thế, có thể nói rằng hai thuật ngữ khám phá tri thức và khai phá dữ liệu là tương đương nếu nói ở khía cạnh tổng quan, còn nếu xét ở một góc độ chi tiết thì khai phá dữ liệu là một giai đoạn có vai trò quan trọng trong quá trình khám phá tri thức [3][4][9]. Mục tiêu của khai phá dữ liệu Qua những nội dung đã trình bày ở trên, ta có thể hiểu một cách sơ lược rằng khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích, tiềm ẩn và mang tính dự báo trong các cơ sở dữ liệu lớn.

Việc khai phá dữ liệu nhằm các mục đích chính như sau: - Khai thác những thông tin tiềm ẩn mang tính dự đoán từ những cơ sở dữ liệu lớn dựa trên các công cụ khai phá dữ liệu nhằm dự đoán những xu hướng trong tương lai nhằm giúp các đối tượng cần tri thức khai phá như: các tổ chức, doanh nghiệp, nhà nghiên cứu, …. để hỗ trợ việc đưa ra những quyết định kịp thời, được định hướng trên những tri thức được khám phá mang lại; - Thực hiện phân tích xử lý, tính toán dữ liệu một cách tự động cho mỗi quá trình xử lý dữ liệu để tìm ra tri thức. Quá trình khai phá dữ liệu KPDL là một giai đoạn quan trọng trong quá trình KPTT. Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán.

Dự đoán là thực hiện việc suy luận trên dữ liệu để đưa ra các dự báo nhằm phân tích tập dữ liệu huấn luyện và tạo ra một mô hình cho phép dự đoán các mẫu, mô hình mới chưa biết. Mô tả dữ là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được. Quá trình KPDL bao gồm các bước như trong hình sau: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.3: Qúa trình khai phá dữ liệu  Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.  Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp.

 Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán KPDL có thể hiểu được. Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.  Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc PKDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định. tương ứng với ý nghĩa của nó.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu khoa học máy tính

Hệ thống thông tin và ứng dụng

kỹ thuật phân cụm và phân tích dữ liệu