Khám Phá Dữ Liệu Dựa Trên Mật Độ Luận Văn Tại Đại Học

I. Tổng Quan Về Khám Phá Dữ Liệu Luận Văn ĐHQGHN

Bài viết này giới thiệu tổng quan về khám phá dữ liệu (Data Mining) trong bối cảnh luận văn tại Đại học Quốc gia Hà Nội. Data Mining là quá trình trích xuất thông tin hữu ích từ lượng lớn dữ liệu. Nó bao gồm các bước như làm sạch dữ liệu, tích hợp dữ liệu, chọn lọc dữ liệu, khai thác dữ liệu, đánh giá tri thức và biểu diễn tri thức. Kỹ thuật này ngày càng quan trọng do sự bùng nổ dữ liệu và nhu cầu phân tích thông tin để đưa ra quyết định sáng suốt. Theo tài liệu gốc, triết học Á Đông cho rằng mọi thứ đều có lý, nhưng lý đó có thể không được thể hiện rõ ràng hoặc bị bỏ qua. Khai phá dữ liệu giúp chúng ta tìm ra những lý lẽ ẩn sâu trong dữ liệu.

1.1. Điều Gì Dẫn Đến Kỹ Thuật Data Mining ĐHQGHN

Sự phát triển của Data Mining xuất phát từ nhu cầu khai thác dữ liệu của doanh nghiệp và sự cho phép của kỹ thuật. Môi trường doanh nghiệp thay đổi và sự quan tâm của nhà quản lý thúc đẩy nhu cầu này. Đồng thời, sự phát triển về mặt kỹ thuật của công nghệ thông tin tạo điều kiện thực hiện. Nhu cầu khai thác dữ liệu ngày càng tăng do xã hội thông tin phát triển, lượng thông tin khổng lồ và áp lực đưa ra quyết định dựa trên thông tin. Sự cạnh tranh gay gắt đòi hỏi doanh nghiệp phải có quyết định sáng suốt dựa trên nền tảng thông tin và dự đoán.

1.2. Định Nghĩa và Ứng Dụng Data Mining Tại ĐHQGHN

Data Mining được hiểu là một tiến trình nhằm mục tiêu dự đoán những kiến thức mới có khả năng hữu dụng và tối thiểu là có thể hiểu được trong dữ liệu. Nó là công nghệ tri thức giúp khai thác thông tin hữu ích từ các kho lưu trữ dữ liệu hiện có trong hệ thống công nghệ thông tin. Data Mining được ứng dụng trong nhiều lĩnh vực như marketing, đánh giá tổng quát, phân tích ảnh hưởng, phân tích sản phẩm, duy trì khách hàng, dự đoán nhu cầu, phân tích dữ liệu và hỗ trợ ra quyết định, dự báo trong điều trị y học, hóa học, vật lý học.

II. Phương Pháp Phân Cụm Dữ Liệu Luận Văn ĐHQGHN

Phân cụm dữ liệu (Clustering) là quá trình nhóm các đối tượng vật lý hoặc trừu tượng thành các nhóm hay các lớp đối tượng giống nhau. Một cụm là một tập đối tượng dữ liệu trong đó các đối tượng trong cùng một cụm thì giống nhau và khác các đối tượng thuộc cụm khác. Phân cụm thường được kết hợp với các phương pháp khác. Ví dụ, phân cụm có thể được sử dụng để tìm hiểu vì sao và độ sáng của một ngôi sao.

2.1. Ứng Dụng Phân Cụm Dữ Liệu Trong Nghiên Cứu Khoa Học

Phân cụm là một lĩnh vực hoạt động quan trọng của con người. Nó được ứng dụng trong nhiều lĩnh vực như nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh và nghiên cứu thị trường. Bằng các phân cụm, chúng ta có thể nhận ra được các miền dày đặc hoặc thưa thớt. Do vậy, phát hiện ra được sự phân bố các mẫu và có thể thấy được sự tương quan giữa các thuộc tính của dữ liệu. Trong kinh doanh, phân cụm có thể giúp các nhà nghiên cứu thị trường phát hiện ra các nhóm khách hàng khác nhau và đặc tính của từng nhóm khách hàng này dựa vào dữ liệu mua bán.

2.2. Các Vấn Đề Nghiên Cứu Trong Phân Cụm Dữ Liệu

Có rất nhiều vấn đề nghiên cứu về phân cụm trong các lĩnh vực khác nhau như: khai phá dữ liệu, thống kê, học máy, công nghệ cơ sở dữ liệu không gian, sinh học và nghiên cứu thị trường. Do kích thước cơ sở dữ liệu tăng lên rất nhanh, gần đây phân cụm dữ liệu đã thực sự trở thành chủ đề đáng quan tâm trong nghiên cứu khai phá dữ liệu. Trong lĩnh vực thống kê, phân cụm đã được nghiên cứu phát triển trong nhiều năm, tập trung chủ yếu vào phân cụm dựa vào khoảng cách. Các công cụ phân cụm dựa trên một số phương pháp như k-mean, k-medoids đã được xây dựng trong nhiều hệ thống phần mềm thống kê như S-plus, SPSS và SAS.

III. Thuật Toán Phân Cụm Dựa Trên Mật Độ DBSCAN ĐHQGHN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán phân cụm dựa trên mật độ. Nó nhóm các điểm dữ liệu gần nhau và đánh dấu các điểm nằm một mình là nhiễu. DBSCAN có thể tìm các cụm có hình dạng bất kỳ và không yêu cầu chỉ định số lượng cụm trước. Thuật toán này đặc biệt hữu ích khi dữ liệu chứa nhiều nhiễu và các cụm có mật độ khác nhau.

3.1. Các Khái Niệm Cơ Bản Của Thuật Toán DBSCAN

DBSCAN dựa trên các khái niệm như điểm lõi (core point), điểm biên (border point) và điểm nhiễu (noise point). Điểm lõi là điểm có ít nhất một số lượng điểm lân cận tối thiểu (MinPts) trong một bán kính nhất định (Eps). Điểm biên là điểm nằm trong vùng lân cận của một điểm lõi nhưng không phải là điểm lõi. Điểm nhiễu là điểm không phải là điểm lõi cũng không phải là điểm biên.

3.2. Ưu Điểm Và Hạn Chế Của Thuật Toán DBSCAN

Ưu điểm của DBSCAN bao gồm khả năng tìm các cụm có hình dạng bất kỳ, không yêu cầu chỉ định số lượng cụm trước và khả năng xử lý nhiễu. Hạn chế của DBSCAN là độ phức tạp tính toán cao và khó khăn trong việc xác định các tham số Eps và MinPts phù hợp. Việc lựa chọn tham số không phù hợp có thể dẫn đến kết quả phân cụm không chính xác.

IV. Tìm Kiếm Phần Tử Ngoại Lai Dựa Trên Số LOF Tại ĐHQGHN

Phần tử ngoại lai (Outlier) là các điểm dữ liệu khác biệt đáng kể so với phần lớn các điểm dữ liệu khác. Việc tìm kiếm phần tử ngoại lai có vai trò quan trọng trong nhiều ứng dụng như phát hiện gian lận, phát hiện xâm nhập và phát hiện lỗi. LOF (Local Outlier Factor) là một phương pháp đánh giá mức độ ngoại lai của một điểm dữ liệu dựa trên mật độ lân cận của nó.

4.1. Định Nghĩa Về Phần Tử Ngoại Lai Địa Phương LOF

LOF đo lường mức độ mà một điểm dữ liệu có mật độ thấp hơn so với các điểm lân cận của nó. Điểm có LOF cao được coi là phần tử ngoại lai. LOF dựa trên các khái niệm như k-distance, reachability distance và local reachability density. k-distance của một điểm là khoảng cách đến điểm lân cận thứ k của nó. Reachability distance của một điểm p so với một điểm o là khoảng cách lớn nhất giữa khoảng cách từ p đến o và k-distance của o. Local reachability density của một điểm là nghịch đảo của trung bình reachability distance từ các điểm lân cận của nó đến điểm đó.

4.2. Tính Chất Của Phần Tử Ngoại Lai Trong Dữ Liệu

Số LOF của những đối tượng nằm sâu trong cụm gần bằng 1. Giới hạn LOF của một đối tượng lân cận đến được trải trên nhiều cụm. Ảnh hưởng của tham số MinPts đến LOF. Xác định miền của MinPts.

V. Kinh Nghiệm Xây Dựng Ứng Dụng Data Mining Thực Tế

Chương này trình bày kinh nghiệm ứng dụng kỹ thuật Data Mining trong thực tiễn của IBM và xem xét các khía cạnh của ứng dụng dự đoán khuấy động do IBM thực hiện cho các công ty viễn thông trên thế giới. Trong quá trình thực hiện đề tài, tác giả đã cố gắng rất nhiều, nhưng do lần đầu tiên mới làm quen với kỹ thuật Data Mining, hơn nữa do thời gian có hạn, và bản thân tác giả gặp phải khó khăn về sức khỏe nên kết quả đạt được không tránh khỏi những khiếm khuyết.

5.1. Các Phạm Trù Ứng Dụng Data Mining Trong Thực Tiễn

Khai phá dữ liệu khám phá (Discovery data mining). Khai phá dữ liệu đoán trước. Phương pháp tổng quát xây dựng ứng dụng. Định nghĩa mô hình dữ liệu. Chuẩn bị dữ liệu nguồn. Lựa chọn kỹ thuật Mining. Thể hiện, làm rõ và đánh giá kết quả. Sử dụng những kết quả đó.

5.2. Đề Xuất Hướng Phát Triển Ứng Dụng Data Mining

Đề xuất hướng phát triển ứng dụng Data Mining trong tương lai. Tài liệu tham khảo. Trong quá trình thực hiện đề tài, tác giả đã cố gắng rất nhiều, nhưng do lần đầu tiên mới làm quen với kỹ thuật Data Mining, hơn nữa do thời gian có hạn, và bản thân tác giả gặp phải khó khăn về sức khỏe nên kết quả đạt được không tránh khỏi những khiếm khuyết.

Khám Phá Dữ Liệu Dựa Trên Mật Độ Luận Văn Tại Đại Học Quốc Gia Hà Nội

LỜI NÓI ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ DATA MINING

1.1. I- ĐIỀU KIỆN DẪN ĐẾN KỸ THUẬT DATA MINING

1.2. II- DATA MINING LÀ GÌ

2. CHƯƠNG 2: THUẬT TOÁN PHÂN CỤM DỮ LIỆU

2.1. I- KHÁI QUÁT VỀ PHÂN CỤM DỮ LIỆU

2.2. II- KHÁI QUÁT VỀ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU

2.3. III- PHƯƠNG PHÁP PHÂN CỤM DỰA VÀO MẬT ĐỘ DBSCAN

3. CHƯƠNG 3: TÌM KIẾM PHẦN TỬ NGOẠI LAI DỰA VÀO SỐ LOF

3.1. I- ĐỊNH NGHĨA VỀ PHẦN TỬ NGOẠI LAI ĐỊA PHƯƠNG

3.2. II- TÍNH CHẤT CỦA PHẦN TỬ NGOẠI LAI

3.3. III- ẢNH HƯỞNG CỦA THAM SỐ MINPTS

4. CHƯƠNG 4: TÌM HIỂU KINH NGHIỆM XÂY DỰNG ỨNG DỤNG DATA MINING TRONG THỰC TIỄN

4.1. I- PHẠM TRÙ ỨNG DỤNG DATA MINING

4.2. II- PHƯƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG

4.3. III – ÁP DỤNG THỰC TIỄN

TÀI LIỆU THAM KHẢO

I. Tổng Quan Về Khám Phá Dữ Liệu Luận Văn ĐHQGHN

1.1. Điều Gì Dẫn Đến Kỹ Thuật Data Mining ĐHQGHN

1.2. Định Nghĩa và Ứng Dụng Data Mining Tại ĐHQGHN

II. Phương Pháp Phân Cụm Dữ Liệu Luận Văn ĐHQGHN

2.1. Ứng Dụng Phân Cụm Dữ Liệu Trong Nghiên Cứu Khoa Học

2.2. Các Vấn Đề Nghiên Cứu Trong Phân Cụm Dữ Liệu

III. Thuật Toán Phân Cụm Dựa Trên Mật Độ DBSCAN ĐHQGHN

3.1. Các Khái Niệm Cơ Bản Của Thuật Toán DBSCAN

3.2. Ưu Điểm Và Hạn Chế Của Thuật Toán DBSCAN

IV. Tìm Kiếm Phần Tử Ngoại Lai Dựa Trên Số LOF Tại ĐHQGHN

4.1. Định Nghĩa Về Phần Tử Ngoại Lai Địa Phương LOF

4.2. Tính Chất Của Phần Tử Ngoại Lai Trong Dữ Liệu

V. Kinh Nghiệm Xây Dựng Ứng Dụng Data Mining Thực Tế

5.1. Các Phạm Trù Ứng Dụng Data Mining Trong Thực Tiễn

5.2. Đề Xuất Hướng Phát Triển Ứng Dụng Data Mining

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phan Thị Hồng Thu Trang

Người hướng dẫn: TS. Hòang Xuân Huấn

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Khoa học máy tính

Đề tài: Khám Phá Dữ Liệu Dựa Trên Mật Độ Luận Văn Tại Đại Học Quốc Gia Hà Nội

Loại tài liệu: luận văn

Năm xuất bản: 2004

Địa điểm: Hà Nội

Có thể bạn quan tâm