Đồ án: Phương pháp tìm dạng phổ biến đóng 2 chiều, 3 chiều và ứng dụng

Đồ án nghiên cứu phương pháp tìm dạng phổ biến đóng 2 chiều 3 chiều và ứng dụng, thiết kế chi tiết, tính toán kỹ thuật theo tiêu chuẩn, đánh giá tính khả thi dự án.

Chuyên ngành

Khai Phá Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Đồ Án

Phí lưu trữ

30 Point

Mục lục chi tiết

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

DANH MỤC TỪ VIẾT TẮT

LỜI MỞ ĐẦU

1. CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL

1.1. Giới thiệu chung về khai phá tri thức và khai phá dữ liệu

1.2. Quá trình khai phá tri thức

1.3. Quá trình khai thác dữ liệu

1.4. Các phƣơng pháp khai phá dữ liệu

1.5. Các lĩnh vực ứng dụng thực tiễn của khai phá dữ liệu

1.6. Các hƣớng tiếp cận trong khai phá dữ liệu

1.7. Phân loại các hệ khai phá dữ liệu

1.8. Các thách thức - khó khăn trong KPTT và KPDL

2. CHƢƠNG 2: PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN

2.1. Giới thiệu một số thuật toán khai phá tập phổ biến

2.1.1. Thuật toán Apriori

2.1.2. Thuật toán Freespan

3. CHƢƠNG 3: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN

3.1. Phƣơng pháp khai phá tập phổ biến đóng trong không gian 2 chiều

3.2. Phƣơng pháp khai phá tập phổ biến đóng trong không gian 3 chiều

4. CHƢƠNG 4: CÀI ĐẶT THUẬT TOÁN THỬ NGHIỆM

4.1. Giới thiệu về chƣơng trình

4.2. Giao diện chƣơng trình

4.3. Các thành phần và chức năng trong chƣơng trình

4.4. Kết quả thực nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Khai Phá Tri Thức và Khai Phá Dữ Liệu

Ngày nay, cuộc cách mạng số hóa tạo ra lượng dữ liệu khổng lồ. Các công cụ quản trị dữ liệu truyền thống không còn đủ sức phân tích. Khai phá dữ liệu (Data Mining) nổi lên như một giải pháp để khai thác thông tin hữu ích từ các tập dữ liệu lớn. Khai phá tri thức (KPTT) và Khai phá dữ liệu (KPDL) là hai lĩnh vực nghiên cứu và ứng dụng trọng tâm. Dữ liệu thô được coi là chuỗi bits, các số, ký hiệu. Thông tin là dữ liệu đã được loại bỏ phần thừa, lặp lại và rút gọn. Tri thức là thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng. KPTT là quy trình nhận biết các mẫu trong dữ liệu. KPDL là bước trong quá trình khám phá tri thức, sử dụng các thuật toán chuyên dụng để tìm ra các mẫu ẩn trong CSDL. Mục tiêu của KPDL là tìm kiếm các mẫu hoặc mô hình tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu. Các mẫu này có thể là luật kết hợp, cây quyết định, hoặc các mô hình phức tạp khác. Quá trình này đòi hỏi sự kết hợp của nhiều kỹ thuật, bao gồm thống kê, học máy, và trực quan hóa dữ liệu.

1.1. Giới Thiệu Khai Phá Tri Thức KPTT và Khai Phá Dữ Liệu KPDL

Điện tử và truyền thông là bản chất của khoa học điện tử, dữ liệu, thông tin và tri thức là tiêu điểm của KPTT và KPDL. Dữ liệu là chuỗi các bits, hoặc các số, các ký hiệu. Các bits thường được sử dụng để đo thông tin. Tri thức được xem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, đã được nhận thức, khám phá hoặc nghiên cứu. KPTT là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu. KPDL là một bước trong quá trình khám phá tri thức, gồm các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu.

1.2. Các Bước Cơ Bản Trong Quá Trình Khai Phá Tri Thức

Quá trình KPTT bao gồm các bước sau: (1) Làm sạch dữ liệu: Loại bỏ dữ liệu nhiễu và không nhất quán. (2) Tích hợp dữ liệu: Kết hợp dữ liệu từ nhiều nguồn. (3) Lựa chọn dữ liệu: Chọn dữ liệu phù hợp với nhiệm vụ phân tích. (4) Chuyển đổi dữ liệu: Chuyển đổi dữ liệu về dạng thích hợp cho việc khai phá. (5) Khai phá dữ liệu: Áp dụng các phương pháp thông minh để trích rút mẫu dữ liệu. (6) Đánh giá mẫu: Xác định lợi ích thực sự, độ quan trọng của các mẫu. (7) Biểu diễn tri thức: Sử dụng kỹ thuật biểu diễn và hiển thị để đưa tri thức cho người dùng.

II. Các Thách Thức và Hướng Tiếp Cận Trong Khai Phá Dữ Liệu

Khai phá dữ liệu đối mặt với nhiều thách thức, bao gồm kích thước dữ liệu lớn, mức độ nhiễu cao, dữ liệu bị thiếu, số chiều lớn, và quan hệ phức tạp giữa các trường. Các hướng tiếp cận bao gồm phân lớp và dự đoán, luật kết hợp, khai phá chuỗi theo thời gian, phân cụm, mô tả khái niệm, và khai phá tập phổ biến. KPDL được phân loại dựa trên kiểu dữ liệu được khai phá (CSDL quan hệ, kho dữ liệu, CSDL không gian, CSDL đa phương tiện...), dạng tri thức được khám phá (tóm tắt, luật kết hợp, phân lớp, phân cụm...), kỹ thuật được áp dụng (hướng CSDL, OLAP, machine learning...), và lĩnh vực được áp dụng (bán lẻ, truyền thông, tin-sinh, y học, tài chính...).

2.1. Các Thách Thức và Khó Khăn Trong Khai Phá Tri Thức KPTT và Khai Phá Dữ Liệu KPDL

KPTT và KPDL liên quan đến nhiều ngành, nhiều lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn hơn. Các cơ sở dữ liệu lớn, các tập dữ liệu cần xử lý có kích thước cực lớn, mức độ nhiễu cao hoặc dữ liệu bị thiếu, số chiều lớn, thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp, quan hệ giữa các trường phức tạp.

2.2. Các Hướng Tiếp Cận Chính Trong Khai Phá Dữ Liệu Tổng Quan

Các hướng tiếp cận của KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau. Phân lớp và dự đoán, xếp một đối tượng vào một trong những lớp đã biết trước. Luật kết hợp là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Khai phá chuỗi theo thời gian tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Phân cụm xếp các đối tượng theo từng cụm. Mô tả khái niệm thiên về mô tả, tổng hợp và tóm tắt khái niệm. Khai phá tập phổ biến thiên về mô tả, tổng hợp và tóm tắt khái niệm.

III. Phương Pháp Khai Phá Tập Phổ Biến Đóng Trong Không Gian 2D

Khai phá tập phổ biến đóng đã được đề xuất để xác định tất cả các tập mục, tập thuộc tính mà thường xuyên xuất hiện trong các bản ghi của bộ dữ liệu. Số lượng các FCPs nhỏ hơn rất nhiều so với số lượng tập thường xuyên được khai phá ở chương 2 do vậy các thuật toán khai phá tập phổ biến đóng thường nhanh và hiệu quả cao hơn các thuật toán khai phá tập phổ biến. Một vài thuật toán khai phá FCP hiệu quả đã được đề xuất như: A-Close, Closet, Closet++, MAFIA, CHARM, D- Miner…

3.1. Tổng Quan Về Phương Pháp Khai Phá Tập Phổ Biến Đóng Trong Không Gian 2D

Trình bày Khung cho phép chúng ta khai phá FCPS từ bộ dữ liệu dày đặc một cách hiệu quả và cải tiến. Khung này bao gồm hai phần. Phần đầu tiên, không gian khai thác được phân chia thành một số không gian con nhỏ. Phần thứ hai, từng không gian con được khai thác độc lập để trả lại FCPS. Nhiệm vụ quan trọng trong giai đoạn này là để tỉa đi các FCPS dự thừa và giảm sai sót. Một khung như vậy có hai lợi thế quan trọng. Đầu tiên, là các không gian con có thể được khai phá độc lập. Thứ hai, chương trình dễ dàng làm việc song song mà không cần quá trình đồng bộ hóa. Dựa vào Khung này, chúng ta đề xuất hai thuật toán, C-Miner và B-Miner.

3.2. Thuật Toán C Miner Phân Tích Chi Tiết Quy Trình Thực Hiện

Thuật toán C-Miner được chia làm 2 giai đoạn: Giai đoạn phân vùng không gian khai phá và giai đoạn khai phá không gian con để tạo ra các tập phổ biến đóng. Giai đoạn phân vùng không gian khai phá của C-Miner bao gồm 4 bước: Bước 1: Các dòng tương đồng nhau trong dữ liệu gốc O được nhóm lại bằng một phương pháp phân cụm. Bước 2: Các dòng trong cùng cụm được kết hợp tạo thành dòng rút gọn mới gọi là cụm dòng. Bước 3: C-Miner áp dụng chiến lược liệt kê các dòng rút gọn trên ma trận rút gọn O’ để phân chia không gian O thành các không gian con. Bước 4, mỗi không gian rút gọn, các cụm dòng được giải nén để tạo lại các dòng ban đầu.

3.3. Thuật Toán B Miner Phân Tích Chi Tiết Quy Trình Thực Hiện

B-Miner dựa trên cơ sở đối tượng các dòng cơ bản. Thuật toán B-Miner cũng bao gồm 2 giai đoạn: Giai đoạn phân vùng không gian khai phá và giai đoạn khai phá không gian con để tạo ra FCPS. B-Miner phân vùng không gian O = R x C trong hai bước: phân vùng tập dòng và phân vùng tập cột. Trong bước đầu tiên, tập dòng R được phân chia thành một vài nhóm dòng khác nhau, được định nghĩa là các nhóm dòng cơ sở (BRGs). Trong bước thứ hai, bằng cách chiếu trên mỗi BRGs, tập cột C = {c1,c2,…,cm} phân chia thành q nhóm cột, định nghĩa là nhóm cột cơ bản (BCGs). Mỗi không gian con được tạo thành từ ba yếu tố: BRG, LRS, và BCG.

IV. Phương Pháp Khai Phá Tập Phổ Biến Đóng Trong Không Gian 3D

Với những tiến bộ mới đây trong công nghệ microarray, tập hợp gen, tập hợp các mẫu có thể được biểu diễn trong suốt một dãy các điểm thời gian. Điều này mang lại kết quả là dữ liệu 3D microarray mẫu-gen- thời gian. Mô hình mới cung cấp mối quan hệ chắc chắn giữa mẫu-gen-thời gian có giá trị hơn trong vấn đề nghiên cứu gen. Ngay cả trong phân tích thị trường truyền thống, điều này thường để lấy một số thông tin của người tiêu dùng về một số khía cạnh, ví dụ: dữ liệu khu vực-thời gian-món hàng mà các cửa hàng bán hàng tại các địa điểm nhất định trong một thời gian nhất định.

4.1. Tổng Quan Về Phương Pháp Khai Phá Tập Phổ Biến Đóng Trong Không Gian 3D

Trong chương này, chúng ta giải quyết vấn đề của khai phá các FCCs từ bộ dữ liệu 3D. Các FCCs cung cấp các mối quan hệ ba chiều đóng. Nghĩa là, chúng ta xác định các mẫu tối đa trong một bối cảnh 3D. Các mẫu 3D là tối đa trong đó sự gia tăng kích thước bất kỳ của 1 chiều sẽ làm giảm trực tiếp ít nhất một trong hai kích thước khác, nghĩa là, không có sự mở rộng nào hơn nữa trong không gian bất kỳ có thể được thực hiện trên mẫu.

4.2. Thuật Toán Khai Phá Lát Đại Diện RSM Chi Tiết Các Giai Đoạn

Trong Khung này, bất kỳ thuật toán khai phá FCP 2D đều có thể được áp dụng để làm việc trên các bộ dữ liệu 3D. Khung này dựa trên ý tưởng là các tập dữ liệu 3D O = H x R x C được biểu diễn như là O = H x slicerxc. Do đó, bất kỳ chiều nào H nào đều có thể được liệt kê đầu tiên. Sau đó, trên mỗi kết hợp của các lát, thuật toán FCP 2D có thể được áp dụng trên hai yếu tố khác như R và C. Cuối cùng, một chiến lược xử lý được áp dụng vào kết quả để loại bỏ các khối lập phương hở từ liệt kê khía cạnh H.

4.3. Thuật Toán CubeMiner Giải Pháp Khai Phá FCCs Trực Tiếp Từ Dữ Liệu 3D

Trong khi RSM có lợi thế là nó có thể tái sử dụng các thuật toán khai phá FCP hiện tại, số lát 2D có thể là rất lớn. Trong phần này, chúng ta trình bày một phương pháp mới mà khai phá FCCs trực tiếp từ bộ dữ liệu 3D. CubeMiner là một thuật toán mới để khai phá FCC (H0; R0, C0) dựa trên các ràng buộc. Nó xây dựng các tập H’, R’, và C’ và sử dụng các ràng buộc ngưỡng hỗ trợ đơn điệu đồng thời trên H, R, và C để rút gọn không gian tìm kiếm.

V. Ứng Dụng và Cài Đặt Thực Nghiệm Khai Phá Tập Phổ Biến Đóng

Ứng dụng khai phá tập phổ biến đóng được sử dụng để chứng minh, minh họa cho các thuật toán đã được nêu ở trên. Một chương trình khai phá tập phổ biến đóng trong không gian 2 chiều áp dụng thuật toán C-Miner. Chƣơng trình đƣợc xây dựng bằng ngôn ngữ VB. Đầu vào là một bộ dữ liệu 2 chiều do ngƣời dùng thiết lập. Đầu ra sẽ là các tập phổ biến đóng trong không gian 2 chiều đã cho.

5.1. Giới Thiệu về Chƣơng Trình Thử Nghiệm

Chương trình được xây dựng bằng ngôn ngữ VB. Đầu vào là một bộ dữ liệu 2 chiều do ngƣời dùng thiết lập. Đầu ra sẽ là các tập phổ biến đóng trong không gian 2 chiều đã cho.

5.2. Giao Diện và Chức Năng trong Chƣơng Trình

Chƣơng trình bao gồm một form chính: dùng để nhập dữ liệu , xử lý và hiển thị kết quả. Các thành phần gồm Ô textbox để nhập tên mục, nút Add Item, nút Del Item, một ListView để biểu diễn các tập mục trong bộ dữ liệu, các nút add transaction, edit transaction, delete, clear all, Group Trấnctions gồm 1 ListView, 2 textbox để nhập giá trị min_support và min_len, nút Open, nút View ,nút Solve, nút Reset, 3 ListView bên phải biểu diễn cho Ma trận dữ liệu, Tập cắt và Tập FCP khai phá đƣợc.

VI. Kết Luận và Hướng Phát Triển Của Khai Phá Dữ Liệu Không Gian

Đồ án giới thiệu tổng quan về KPTT và KPDL, các hướng tiếp cận chính, các lĩnh vực ứng dụng thực tế. Đề cập đến một số phương pháp khai phá dữ liệu dạng đóng được ứng dụng trong nhiều lĩnh vực như phân tích thị trường, phân tích sinh học, đặc biệt là các thuật toán C-Miner và B-Miner trong khai phá bộ dữ liệu 2 chiều và RSM và CubeMiner trong khai phá bộ dữ liệu 3 chiều.Hướng đi tiếp theo là xây dựng chương trình thực nghiệm đối với các thuật toán B-Miner, RSM và CubeMiner đối với dữ liệu là các cơ sở dữ liệu thực tế.

6.1. Tóm Tắt Kết Quả Nghiên Cứu và Ứng Dụng

Đồ án đã giới thiệu đƣợc tổng quát về KPTT và KPDL, các hƣớng tiếp cận chính trong KPTT, các lĩnh vực ứng dụng KPTT trong thực tế. Ngoài ra đồ án còn đề cập đến một số phƣơng pháp khai phá dữ liệu dạng đóng đƣợc ứng dụng trong nhiều lĩnh vực thực tế hiện nay (phân tích thị trƣờng, phân tính sinh học,…). Cụ thể là các thuật toán C-Miner và B-Miner trong khai phá bộ dữ liệu 2 chiều, và RSM và CubeMiner trong khai phá bộ dữ liệu 3 chiều.

6.2. Hướng Phát Triển Tiềm Năng Trong Tương Lai

Hướng đi tiếp theo là xây dựng chương trình thực nghiệm đối với các thuật toán B-Miner, RSM và CubeMiner đối với dữ liệu là các cơ sở dữ liệu thực tế.

22/09/2025

Bạn đang xem trước tài liệu:

Đồ án phương pháp tìm dạng phổ biến đóng 2 chiều 3 chiều và ứng dụng

Tải đầy đủ

Trích đoạn nội dung tài liệu

LỜI MỞ ĐẦU Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lƣu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh. Số lƣợng dữ liệu khổng lồ đƣợc tập trung và lƣu trữ trong cơ sở dữ liệu trên các thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang,… Tốc độ tăng dữ liệu quá lớn. Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn đƣợc nữa. Dữ liệu sau khi phục vụ cho một mục đích nào đó đƣợc lƣu lại trong kho dữ liệu và theo ngày tháng khối lƣợng dữ liệu đƣợc lƣu trữ ngày càng lớn.

Trong khối lƣợng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chƣa biết. Từ khối lƣợng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích. Một hƣớng tiếp cận có khả năng giúp các công ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining). Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng nhƣ các hoạt động thực tế, trong đó khai phá dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con ngƣời.

KPDL đã giúp ngƣời sử dụng thu đƣợc những tri thức hữu ích từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác. Đề tài đề cập đến các khái niệm và vấn đề cơ bản trong KPTT và KPDL, ngoài ra Đề tài còn đề cập đến một số phƣơng pháp khai phá dữ liệu dạng đóng đƣợc áp dụng trong nhiều lĩnh vực thực tiễn. Cấu trúc đồ án: Chƣơng 1 giới thiệu tổng quan về KPTT và KPDL. Chƣơng 2 Tìm hiểu phƣơng pháp khai phá tập phổ biến.

Chƣơng 3 Tìm hiểu phƣơng pháp khai phá tập phổ biến đóng trong không gian. Chƣơng 4 Cài đặt chƣơng trình thử nghiệm. TÀI LIỆU THAM KHẢO. 6 CHƢƠNG 1: TỔNG QUAN VỀ KPTT VÀ KPDL.1 Giới thiệu chung về khai phá tri thức và khai phá dữ liệu.

- Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đó là khai phá tri thức và khai phá dữ liệu. - Thông thƣờng, chúng ta coi dữ liệu nhƣ là một chuỗi các bits, hoặc các số và các ký hiệu hay là các “đối tƣợng” với một ý nghĩa nào đó khi đƣợc gửi cho một chƣơng trình dƣới một dạng nhất định. Các bits thƣờng đƣợc sử dụng để đo thông tin, và xem nó nhƣ là dữ liệu đã đƣợc loại bỏ phần tử thừa, lặp lại, và rút gọn tới mức tối thiểu để đặc trƣng một cách cơ bản cho dữ liệu. Tri thức đƣợc xem nhƣ là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, đã đƣợc nhận thức, khám phá, hoặc nghiên cứu.

Nói cách khác, tri thức có thể đƣợc coi là dữ liệu ở mức độ cao của sự trừu tƣợng và tổng quát. - Khái phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và có thể hiểu đƣợc. - Khai phá dữ liệu là một bƣớc trong quá trình khám phá tri thức, gồm các thuật toán khai thác dữ liệu chuyên dùng dƣới một số qui định về hiệu quả tính toán chấp nhận đƣợc để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói cách khác, mục tiêu của Khai phá dữ liệu là tìm kiếm các mẫu hoặc mô hình tồn tại trong CSDL nhƣng ẩn trong khối lƣợng lớn dữ liệu.2 Quá trình khai phá tri thức.

Bao gồm các bƣớc sau: - Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán. - Tích hợp dữ liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể đƣợc tổ hợp lại. - Lựa chọn dữ liệu (Data Selection): Lựa chọn những dữ liệu phù hợp với nhiệm vụ phân tích trích rút từ cơ sở dữ liệu. - Chuyển đổi dữ liệu (Data Transformation): Dữ liệu đƣợc chuyển đổi hay đƣợc hợp nhất về dạng thích hợp cho việc khai phá.

- Khai phá dữ liệu (Data Mining): Đây là một tiến trình cốt yếu trong đó các phƣơng pháp thông minh đƣợc áp dụng nhằm trích rút ra mẫu dữ liệu. - Đánh giá mẫu (Pattern Evaluation): Dựa trên một độ đo nào đó xác định lợi ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức. - Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn này các kỹ thuật biểu diễn và hiển thị đƣợc sử dụng để đƣa tri thức lấy ra cho ngƣời dùng.1: Quá trình KPTT.3 Quá trình khai thác dữ liệu. - KPDL là một giai đoạn quan trọng trong quá trình KPTT.

Về bản chất, nó là giai đoạn duy nhất tìm ra đƣợc thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán. - Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con ngƣời có thể hiểu đƣợc. - Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật đƣợc phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán đƣợc những giá trị chƣa biết hoặc những giá trị tƣơng lai của các biến quan tâm. Quá trình KPDL bao gồm các bƣớc chính đƣợc thể hiện nhƣ Hình 1.2: Quá trình KPDL.

Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết. Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp. Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán KPDL có thể hiểu đƣợc. Đây là một quá trình rất khó.

8 khăn, có thể gặp phải rất nhiều các vƣớng mắc nhƣ: dữ liệu phải đƣợc sao ra nhiều bản (nếu đƣợc chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), vv. Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc PKDL để tìm đƣợc các mẫu có ý nghĩa, các mẫu này đƣợc biểu diễn dƣới dạng luật kết hợp, cây quyết định. tƣơng ứng với ý nghĩa của nó.4 Các phƣơng pháp khai phá dữ liệu. Với hai mục đích khai phá dữ liệu là Mô tả và Dự đoán, ngƣời ta thƣờng sử dụng các phƣơng pháp sau cho khai phá dữ liệu: Luật kết hợp (association rules) Phân lớp (Classfication) Hồi qui (Regression) Trực quan hóa (Visualiztion) Phân cụm (Clustering) Tổng hợp (Summarization) Mô hình ràng buộc (Dependency modeling) Biểu diễn mô hình (Model Evaluation) Phân tích sự phát triển và độ lệch (Evolution and deviation analyst) Phƣơng pháp tìm kiếm (Search Method) Tập phổ biến đóng(Frequent Closed Patterns) Có nhiều phƣơng pháp khai phá dữ liệu đƣợc nghiên cứu ở trên, trong đó có ba phƣơng pháp đƣợc các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu.5 Các lĩnh vực ứng dụng thực tiễn của khai phá dữ liệu.3: Các lĩnh vực ứng dụng KPDL.6 Các hƣớng tiếp cận trong khai phá dữ liệu.

Các hƣớng tiếp cận của KPDL có thể đƣợc phân chia theo chức năng hay lớp các bài toán khác nhau. Sau đây là một số hƣớng tiếp cận chính. Phân lớp và dự đoán (classification & prediction): xếp một đối tƣợng vào một trong những lớp đã biết trƣớc. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.

Hƣớng tiếp cận này thƣờng sử dụng một số kỹ thuật của machine learning. 9 nhƣ cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network),. Phân lớp còn đƣợc gọi là học có giám sát (học có thầy supervised learning). Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản.

Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp đƣợc ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị trƣờng chứng khoán,. Khai phá chuỗi theo thời gian (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng có thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và thị trƣờng chứng khoán vì nó có tính dự báo cao.

Phân cụm (clustering/segmentation): xếp các đối tƣợng theo từng cụm (số lƣợng cũng nhƣ tên của cụm chƣa đƣợc biết trƣớc. Phân cụm còn đƣợc gọi là học không giám sát (học không có thầy – unsupervised learning). Mô tả khái niệm (concept description & summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.

Khai phá tập phổ biến (mining frequent pattern): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.7 Phân loại các hệ khai phá dữ liệu. - KPDL là một công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu khác nhau nhƣ CSDL, kỹ thuật máy học (machine learning), giải thuật, trực quan hóa (visualization),. Chúng ta có thể phân loại các hệ thống KPDL dựa trên các tiêu chí khác nhau.

- Phân loại dựa trên kiểu dữ liệu đƣợc khai phá: CSDL quan hệ (relational database), kho dữ liệu (data warehouse), CSDL giao dịch (transactional database), CSDL hƣớng đối tƣợng, CSDL không gian (spatial database), CSDL đa phƣơng tiện (multimedia database), CSDL Text và WWW,. - Phân loại dựa trên dạng tri thức đƣợc khám phá: tóm tắt và mô tả (summarization & description), luật kết hợp (association rules), phân lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential mining),. - Phân loại dựa trên kỹ thuật đƣợc áp dụng: hƣớng CSDL (database-oriented), phân tích trực tuyến (OnLine Analytical Processing – OLAP), machine learning (cây quyết định, mạng nơ ron nhân tạo, k-min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô, tập mờ,. - Phân loại dựa trên lĩnh vực đƣợc áp dụng: kinh doanh bán lẻ (retail), truyền thông (telecommunication), tin-sinh (bio-informatics), y học (medical treatment), tài chính & thị trƣờng chứng khoán (finance & stock market), Web mining, .8 Các thách thức - khó khăn trong KPTT và KPDL.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ