Luận văn: Các Phương Pháp Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Luận văn thạc sĩ về khai phá dữ liệu sinh luật. Nghiên cứu các phương pháp kết hợp trong lĩnh vực công nghệ thông tin (mã số 1.01.10).

Trường đại học

Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội

Chuyên ngành

Khai Phá Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2007

Phí lưu trữ

30 Point

Mục lục chi tiết

Lời cảm ơn

1. Chương 1: Tổng quan về khai phá dữ liệu (KPDL)

1.1. Các hướng tiếp cận chính trong KPDL

1.2. Một số phương pháp KPDL phổ biến

1.2.1. Phương pháp suy diễn và quy nạp

1.2.2. Cây quyết định và luật

1.2.3. Phát hiện các luật kết hợp

1.2.4. Phân nhóm và phân đoạn

1.2.5. Giải thuật di truyền

1.3. Lựa chọn các kỹ thuật khai phá

1.4. Các dạng CSDL thường được sử dụng để KPDL

1.5. Một số ứng dụng của KPDL

2. Chương 2: Một số vấn đề cơ bản về Luật kết hợp

2.1. Định nghĩa luật kết hợp

2.2. Ví dụ về luật kết hợp

2.3. Các định nghĩa và tính chất

2.3.1. Các định nghĩa cơ bản

2.3.2. Một số tính chất của tập mục phổ biến

2.3.3. Một số tính chất của luật kết hợp

2.4. Các loại luật kết hợp và hướng tiếp cận

2.4.1. Luật kết hợp nhị phân

2.4.2. Luật kết hợp định lượng

2.4.3. Khai phá luật kết hợp định lượng

2.4.4. Luật kết hợp đơn chiều

2.4.5. Luật kết hợp đa chiều

2.4.6. Luật kết hợp đa mức

2.4.7. Khai phá luật kết hợp đa mức

2.4.8. Luật kết hợp với thuộc tính có trọng số

2.4.9. Luật kết hợp mờ

2.4.10. Luật kết hợp đóng

3. Chương 3: Một số phương pháp KPDL sinh luật kết hợp

3.1. Thuật toán Apriori

3.2. Nâng cao hiệu quả của thuật toán Apriori

3.2.1. Sử dụng kỹ thuật băm

3.2.2. Rút gọn số giao dịch sau mỗi lần quét CSDL

3.3. Sinh luật kết hợp từ tập mục phổ biến

3.3.1. Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến

3.3.2. Thuật toán nhanh hơn sinh luật kết hợp từ tập mục phổ biến

3.4. Thuật toán FP-Growth

3.5. Thuật toán Charm

3.5.1. Một số khái niệm

3.5.2. Toán tử đóng và tập đóng

3.5.3. Cây tìm kiếm “tập mục – tập định danh” và Lớp tương đương

3.5.4. Sinh luật kết hợp từ tập mục đóng phổ biến

3.6. Thuật toán Closet

4. Chương 4: Xây dựng ứng dụng minh hoạ

4.1. Phân tích và Thiết kế hệ thống

4.2. Cài đặt và Đánh giá

Danh sách tài liệu tham khảo tiếng Việt

Danh sách tài liệu tham khảo tiếng Anh

Danh sách WebSites tham khảo

Tóm tắt

I. Tổng Quan Luận Văn Khám Phá Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Khai phá dữ liệu (KPDL) đã trở thành một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính và công nghệ tri thức. Trong đó, khai phá luật kết hợp là một nội dung quan trọng, thậm chí có chuyên gia khẳng định đây là mục tiêu cơ bản của khai phá dữ liệu. Luận văn này tập trung vào một số phương pháp khai phá dữ liệu sinh luật kết hợp, xây dựng dựa trên nền của các nghiên cứu chính yếu trong lĩnh vực này. KPDL là quá trình tìm kiếm, phát hiện các tri thức tiềm ẩn và hữu dụng trong CSDL nhất định. Tri thức ở đây là các thông tin mang tính chất quy luật và hữu ích cho người dùng. KPDL là bước quan trọng nhất trong quá trình KDD (Knowledge Discovery in Database), bao gồm thu thập dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, và đánh giá/biểu diễn tri thức. Các hướng tiếp cận chính trong KPDL bao gồm phân lớp/dự đoán, khai phá luật kết hợp, phân tích chuỗi theo thời gian, phân cụm và mô tả khái niệm. Các kỹ thuật khai phá dữ liệu được thừa kế từ CSDL, máy học, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê và tính toán hiệu năng cao. KPDL đã được ứng dụng thành công trong thương mại, tài chính, sinh học, y học, giáo dục, viễn thông…

Ví dụ, máy tính có thể tự phát hiện ra các kết luận như: “Khách hàng ở độ tuổi 18-22 khi mua hoa và quà lưu niệm thường mua thêm thiệp” hay “Khi giá dầu thô tăng đột biến thì chỉ số chứng khoán giảm”. Đây chính là sức mạnh của KPDL và khai phá luật kết hợp.

1.1. Giới Thiệu Các Phương Pháp Khai Phá Dữ Liệu Phổ Biến

Các phương pháp KPDL phổ biến bao gồm phương pháp suy diễn và quy nạp, cây quyết định và luật, phát hiện các luật kết hợp, phân nhóm và phân đoạn, mạng Neural, và giải thuật di truyền. Phương pháp suy diễn rút ra thông tin từ CSDL dựa trên các quan hệ trong dữ liệu, còn phương pháp quy nạp tìm kiếm, tạo mẫu và sinh ra tri thức. Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng nếu P thì Q, trong đó P là mệnh đề đúng với một phần dữ liệu trong CSDL và Q là mệnh đề dự đoán. Khai phá luật kết hợp là một hướng tiếp cận quan trọng trong KPDL. Mục tiêu là tìm tất cả các luật X => B sao cho tần số xuất hiện của luật không nhỏ hơn ngưỡng 𝜎min và độ tin cậy của luật không nhỏ hơn ngưỡng 𝜃min. Các luật kết hợp được khai phá từ các tập mục phổ biến này dựa trên 𝜃min.

1.2. Ứng Dụng Thực Tiễn Của Khai Phá Dữ Liệu Trong Các Lĩnh Vực

KPDL có nhiều ứng dụng thực tiễn, bao gồm phân tích dữ liệu và hỗ trợ quyết định, điều trị trong y học, text mining & web mining, tin-sinh (bioinformatics), tài chính và thị trường chứng khoán. Ví dụ, KPDL có thể giúp tìm kiếm mối liên hệ giữa triệu chứng, chuẩn đoán và phương pháp điều trị trong y học, hoặc phân lớp, tóm tắt văn bản và phân lớp các trang WEB. Trong tin-sinh, KPDL có thể tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền. Trong tài chính, KPDL có thể phân tích tình hình tài chính và dự báo giá của các cổ phiếu trong thị trường chứng khoán. KPDL là một lĩnh vực đầy tiềm năng và hứa hẹn mang lại nhiều giá trị trong tương lai.

II. Bài Toán Khai Phá Luật Kết Hợp Định Nghĩa Và Các Tính Chất

Khai phá luật kết hợp là một hướng tiếp cận quan trọng trong KPDL, được đề xuất lần đầu tiên năm 1993. Một ví dụ về luật kết hợp là: “Tại siêu thị 10% giao dịch là khách hàng mua bia và lạc. Nếu một người mua bia thì chắc đến 70% rằng người đó sẽ mua thêm lạc”. Ở đây, “mua bia” là vế trái, còn “mua lạc” là vế phải của luật. 10% là độ hỗ trợ của luật, và 70% là độ tin cậy của luật. Luật kết hợp có dạng: r: X => Y (s, c), với X, Y là các tập mục thoả mãn điều kiện XY = Ø, X là tiền đề, Y là kết quả của luật, s là độ hỗ trợ, c là độ tin cậy của luật. Bài toán khai phá dữ liệu luật kết hợp là: Cho một CSDL D, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf, hãy tìm kiếm tất cả các luật kết hợp r dạng X => Y (s, c) thoả mãn cả 2 điều kiện: s(r) = s(X  Y)  minsup và conf(r) = conf(X => Y) = s(X  Y) / s(X)  minconf. Các thuật toán thường chia bài toán thành 2 pha: tìm tập mục phổ biến, và sinh các luật tin cậy từ các tập phổ biến.

2.1. Các Định Nghĩa Cơ Bản Về Luật Kết Hợp Cần Nắm Vững

Cho tập các mục I = {i1, i2, …, in} và tập các giao dịch T = {t1, t2, …, tm}. Trong đó i (1< = n) là một mục (item) hay một thuộc tính (property), t (1100 % W Có, AW 100  % C Có. Một số tính chất quan trọng của tập mục phổ biến là: Độ hỗ trợ của tập con (Nếu X  Y thì sup(X)  sup(Y)), một tập chứa tập không phổ biến thì nó cũng không phổ biến, và mọi tập con của một tập phổ biến cũng là tập phổ biến.

2.2. Phân Loại Các Luật Kết Hợp Theo Nhiều Tiêu Chí Khác Nhau

Có nhiều loại luật kết hợp, bao gồm luật kết hợp nhị phân, luật kết hợp định lượng, luật kết hợp đơn chiều, luật kết hợp đa chiều, luật kết hợp đa mức, luật kết hợp với thuộc tính có trọng số, luật kết hợp mờ, và luật kết hợp đóng. Luật kết hợp nhị phân chỉ quan tâm đến sự xuất hiện hay không xuất hiện của các mục. Luật kết hợp định lượng quan tâm đến định lượng của từng mục trong luật. Luật kết hợp đơn chiều chỉ tham chiếu đến 1 chiều của dữ liệu, còn luật kết hợp đa chiều có thể tham chiếu đến nhiều hơn 1 chiều của dữ liệu. Luật kết hợp đa mức dựa trên mức độ trừu tượng chứa trong luật. Các loại luật kết hợp khác nhau phù hợp với các ứng dụng khác nhau.

III. Thuật Toán Apriori Cách Tiếp Cận Và Các Bước Triển Khai

Thuật toán Apriori được Rakesh Agrawal, Tomaz Imielinski, Arun Swanmi đề xuất năm 1993, là một thuật toán kinh điển trong khai phá luật kết hợp. Thuật toán này sử dụng chiến lược đi từ dưới lên (bottom-up) và tìm kiếm theo chiều rộng (breath-first search). Trong thuật toán này chúng ta sẽ duyệt nhiều lần CSDL. Trong lần duyệt thứ nhất, chúng ta tính độ hỗ trợ của các mục riêng biệt và xác định các mục phổ biến trong chúng. Trong các lần duyệt thứ k, chúng ta bắt đầu với tập hạt giống là tập các tập mục phổ biến đã tìm thấy trong lần duyệt trước để sinh ra các tập mục ứng cử. Duyệt CSDL để xác định độ hỗ trợ cho từng tập mục ứng cử. Lọc ra các tập mục có độ hỗ trợ lớn hơn minsup ta thu được tập hạt giống cho lần duyệt tiếp theo. Tính chất quan trọng được sử dụng là: Tất cả các tập con khác rỗng của tập mục phổ biến phải là tập mục phổ biến.

3.1. Chi Tiết Các Bước Thực Hiện Thuật Toán Apriori Cơ Bản

Thuật toán Apriori gồm các bước sau: (1) Tìm các tập 1-mục phổ biến. (2) Trong mỗi lần lặp k, sinh các ứng cử từ tập các (k-1)-mục phổ biến. (3) Quét CSDL để tính độ hỗ trợ cho các ứng cử. (4) Lọc lấy các ứng cử thoả mãn ngưỡng hỗ trợ tối thiểu. (5) Lặp lại các bước trên cho đến khi không còn ứng cử nào được sinh ra. Bước kết nối: Để tìm Ck ta kết nối Lk-1 với chính nó. Bước tỉa: Ta cần tìm Lk là tập tất cả các tập k-mục phổ biến. Ta khẳng định Lk Ck và do vậy chỉ cần quét CSDL để xác định độ hỗ trợ cho các tập mục trong Ck và so sánh với minsup là nhận được Lk. Tuy nhiên, Ck có thể rất lớn, và do đó khối lượng tính rất lớn. Để rút gọn kích thước của Ck, tính chất Apriori được áp dụng.

3.2. Nâng Cao Hiệu Quả Thuật Toán Apriori Kỹ Thuật Băm

Để nâng cao hiệu quả của thuật toán Apriori, có thể sử dụng kỹ thuật băm. Bước tỉa (dòng (6) của thủ tục Apriori_Gen) đòi hỏi kiểm tra tất cả các tập con (k-1)- mục của tập k-mục ứng cử có phải là tập phổ biến không, tức là có mặt trong Lk-1 không. Để có thể kiểm tra nhanh chóng, ta lưu Lk-1 vào bảng băm (Hash table). Bước tìm các ứng cử (dòng (5) của thuật toán Apriori) yêu cầu tìm tất cả các ứng cử c được chứa trong giao dịch t khi biết tập các ứng cử Ck. Một giải pháp hiệu quả được đề xuất đó là sử dụng một cấu trúc dữ liệu đặc biệt là cây băm (Hash tree) để lưu tập các ứng cử Ck. Cây băm là cây có thứ tự có cấu trúc như sau [101]: + Gốc của cây có độ sâu là 1. + Nút trong: Chứa một bảng băm với B cụm (bucket), mỗi cụm có giá trị định danh thuộc đoạn [0, B-1]. Mỗi cụm lại trỏ tới một nút khác. Nút trong ở độ sâu d trỏ tới các nút con ở độ sâu d+1. Trên các cung đi từ nút cha tới nút con được gán nhãn tương ứng với định danh của cụm.

3.3. Rút Gọn Số Giao Dịch Sau Mỗi Lần Quét Cơ Sở Dữ Liệu

Một giao dịch không chứa bất kỳ tập k-mục phổ biến nào thì cũng không thể chứa bất kỳ tập (k+1)-mục phổ biến. Do đó, ta có thể đánh dấu giao dịch này để loại bỏ không duyệt nó trong lần duyệt tiếp sau. Kỹ thuật phân hoạch (Partitioning) và lấy mẫu (Sampling) cũng có thể được sử dụng để nâng cao hiệu quả của thuật toán Apriori. Trong phân hoạch, CSDL được chia thành n vùng. Trong lấy mẫu, một mẫu S được lấy ngẫu nhiên từ CSDL D và các tập mục phổ biến được tìm kiếm trong S thay vì D.

IV. Thuật Toán FP Growth Giải Pháp Không Sinh Ứng Cử Hiệu Quả

Thuật toán FP-Growth giúp giải quyết cơ bản các vấn đề của Apriori. Đây là một thuật toán không sinh ứng cử và hiệu quả hơn thuật toán Apriori với 3 kỹ thuật chính sau: + Thực hiện mở rộng cấu trúc cây prefix, được gọi là cây mẫu phổ biến (Frequent pattern tree hay gọi tắt là FP-tree) dùng để nén CSDL. + Phương pháp thực hiện khai phá phát triển (growth) từng đoạn dựa trên FP-tree. + Kỹ thuật tìm kiếm được dùng ở đây là dựa trên chiến lược chia để chế ngự (divide and conquer), phân rã nhiệm vụ khai phá thành tập các nhiệm vụ nhỏ hơn với giới hạn các mẫu trong các CSDL nhằm thu gọn không gian tìm kiếm.

4.1. Xây Dựng Cây FP Tree Nén Dữ Liệu Để Tăng Tốc Độ Khai Phá

Thuật toán FP-Growth được thực hiện như sau: (1) Duyệt CSDL để tìm độ hỗ trợ của từng mục và bỏ những mục không thoả minsup. (2) Sắp các mục còn lại theo thứ tự giảm dần của độ hỗ trợ ta thu được danh sách L. (3) Duyệt CSDL lần thứ 2, với mỗi giao dịch t ta chỉ xét các mục thuộc L và sắp xếp các mục trong t theo thứ tự như xuất hiện trong L và lưu kết quả vào cây FP-tree. Cây FP-tree (T) có các đặc điểm sau: Gốc của cây có nhãn null, các đường đi trên cây biểu diễn quan hệ cha con, các liên kết trên cây liên kết các mục xuất hiện có tên giống nhau, mỗi nút bao gồm tên mục, con trỏ về nút cha, danh sách đường đi đến các nút tiếp theo, liên kết đến nút tiếp theo trong cây có cùng tên.

4.2. Khai Phá Các Tập Mục Phổ Biến Từ Cây FP Tree

Ý tưởng ở đây là khai phá phát triển (growth): nếu A là một tập mục phổ biến trong D, và ký hiệu TDB|A là CSDL phụ thuộc mẫu A, giả sử BTDB|A thì (AB) là tập mục phổ biến khi và chỉ khi B là phổ biến trong TDB|A, và ta lặp lại giải thuật với (AB). Với mỗi mục x (x{p,m,b,a,c,f}) ta xây dựng CSDL phụ thuộc mẫu (Conditional pattern base) tương ứng, ký hiệu TDB|x. Xuất phát từ x trong bảng Header ta dùng liên kết để tìm tất cả các nút N có N. Từ N ta lần ngược lên cha của nó và cứ như vậy cho đến khi gặp gốc (null) ta sẽ thu được đường đi từ gốc tới N.

4.3. Ưu Điểm Của Thuật Toán FP Growth So Với Apriori

Thuật toán FP-Growth nhanh hơn và tốt hơn thuật toán Apriori đặc biệt đối với các CSDL lớn và dày, đó là do những ưu điểm sau đây: (1) Thuật toán FP-Growth sử dụng chiến lược chia để chế ngự (divide and conquer) và áp dụng ý tưởng khai phá phát triển (growth), hoàn toàn không sinh ứng cử. (2) Sử dụng cấu trúc dữ liệu đặc biệt FP-tree để nén dữ liệu và tăng tốc khai phá trong khi vẫn duy trì đầy đủ thông tin cho khai thác các mẫu phổ biến. (3) Áp dụng tốt cho cả mẫu phổ biến ngắn hay dài, CSDL thưa hay dày. Chỉ quét CSDL đúng 2 lần. Thời gian xây dựng cây FP-tree là O(n) với n là số lượng giao dịch.

V. Thuật Toán Charm Tìm Tập Mục Đóng Phổ Biến Hiệu Quả

Thuật toán Charm là một thuật toán hiệu quả để tìm các tập mục đóng phổ biến (closed frequent itemsets). Thay vì khai phá tất cả các tập mục phổ biến, Charm chỉ tìm các tập mục đóng phổ biến, giúp giảm đáng kể số lượng tập mục được khai phá. Các thuật toán như Apriori đòi hỏi phải duyệt CSDL nhiều lần và trong các tập mục phổ biến được sinh ra có nhiều tập mục không cần thiết (hay tập mục dư thừa - redundant itemsets). Charm cải thiện đáng kể về mặt tốc độ so với thuật toán kinh điển trước đó như Apriori hay FP-Growth.

5.1. Các Khái Niệm Cơ Bản Cần Thiết Để Hiểu Charm

Để hiểu thuật toán Charm, cần nắm vững các khái niệm cơ bản như: Tập các mục đơn (Itemset), tập các định danh của các giao dịch (Tidset). Nếu mục i xuất hiện trong giao dịch t ta viết (i, t) hoặc i t. Tập XI gọi là tập mục và YT là tập các định danh. Để thuận tiện, ta ký hiệu tập mục {A,C,W} là ACW và tập định danh {1,2,5} là 125.

5.2. Tìm Tập Mục Đóng Phổ Biến Thay Vì Tất Cả Tập Mục

Giải pháp là chỉ cần khai phá các tập mục đóng phổ biến (closed itemsets) ở pha 1, không cần khai phá tất cả các tập phổ biến. Số lượng các tập mục đóng phổ biến khai phá được sẽ nhiều hơn số tập mục phổ biến cực đại nhưng nó vẫn nhỏ hơn rất nhiều so với số tập mục phổ biến. Tuy nhiên, mỗi tập mục đóng phổ biến lại xác định cho tập tất cả các tập mục phổ biến là tập con của nó. Vì vậy từ tập mục đóng phổ biến ta có thể sinh tất cả các luật cần thiết.

24/09/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ một số phương pháp khai phá dữ liệu sinh luật kết hợp luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về khai phá dữ liệu (KPDL) 1. Khái niệm KPDL (Data Mining) là quá trình tìm kiếm, phát hiện các tri thức tiềm ẩn và hữu dụng trong CDSL nhất định. Trong đó tri thức được ngầm hiểu là các thông tin mang tính chất quy luật và hữu ích đối với người sử dụng. KPDL là bước quan trọng nhất trong quá trình Khai phá tri thức (KDD – Knowledge Discovery in Database) - gồm 5 bước như sau [006]: + Thu thập dữ liệu (Data colection): là bước thu thập, trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (Databases, Data marts, Data warehouses, Data repositories) ban đầu theo một số tiêu chí nhất định.

+ Tiền xử lý dữ liệu (Data preprocessing): là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, …), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, …), rời rạc hoá dữ liệu (rời rạc hoá dựa vào histograms, entropy, phân khoảng, …). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. + Biến đổi dữ liệu (Data Transformation): đây là bước chuẩn hoá và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. + KPDL (Data mining): đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của máy học) nhằm để khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu.

Đây được xem là bước quan trọng nhất và tốn nhiều thời gian nhất của toàn quá trình KDD. + Đánh giá và biểu diễn tri thức (Knowledge presentation and evaluation): chuyển hoặc biểu diễn những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên về một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, …. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Trích chọn Tiền xử lý Biến đổi DL Dữ liệu thô DL DL Tri thức Đánh giá và Khai phá DL Biểu diễn TT Hình 1.1: Các bước trong quá trình KDD.

Một số phương pháp khai phá dữ liệu sinh luật kết hợp TIEU LUAN MOI download : skknchat@gmail. Các hướng tiếp cận chính trong KPDL Các hướng tiếp cận trong KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau, dưới đây là một số hướng tiếp cận chính: + Phân lớp và Dự đoán (Classification and Prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân theo dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (Decision tree), mạng nơron nhân tạo (Neural network), ….

Phân lớp và dự đoán còn được gọi là học có giám sát (Supervised learning). + Khai phá luật kết hợp (Association rules mining): khai phá các tri thức dạng luật kết hợp. Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm đậu phộng”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, … + Phân tích chuỗi theo thời gian (Sequential/Temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.

Phương pháp này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. + Phân cụm (Clustering/Segmentation): xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không giám sát (Unsupervised learning). + Mô tả khái niệm (Concept description and summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm.

Ví dụ: tóm tắt văn bản. Một số phương pháp KPDL phổ biến 1. Phương pháp suy diễn và quy nạp + Phương pháp suy diễn: Rút ra thông tin là kết quả logic từ các thông tin nằm trong CSDL dựa trên các quan hệ trong dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ.

Mẫu chiết suất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. + Phương pháp quy nạp: Các thông tin được suy ra từ CSDL bằng cách nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức đã biết trước. Cây quyết định và luật + Cây quyết định: Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút trong của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau.

Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc tính của đối tượng tới lá. Một số phương pháp khai phá dữ liệu sinh luật kết hợp TIEU LUAN MOI download : skknchat@gmail.com 11 + Tạo luật: Các luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng nếu P thì Q, trong đó P là mệnh đề đúng với một phần dữ liệu trong CSDL và Q là mệnh đề dự đoán. Ví dụ: Ta có mẫu phát hiện được bằng phương pháp tạo luật “Nếu mỗi năm cứ tăng vốn lưu động thêm 20% và vốn cố định tăng 10% thì lợi nhuận trước thuế tăng 25%”.

Cây quyết định là phương pháp dùng trong các bài toán phân loại dữ liệu theo một tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô hình. Phát hiện các luật kết hợp Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác là dạng mẫu của hình thành tri thức.

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Một đầu ra của giải thuật khai phá dữ liệu là tập các luật kết hợp tìm được. Cho một lược đồ R = {A1, A2, …, Ap} với các thuộc tính có miền giá trị {0, 1} và một quan hệ r trên R. Cho W  R, đặt s(W, r) là tần số xuất hiện của W trong r được tính bằng tỉ lệ của các hàng trong r có giá trị 1 tại mỗi cột.

Ta định nghĩa một luật kết hợp trên quan hệ r: X => B với X  R và B  R\X với độ hỗ trợ (tần số xuất hiện) và độ tin cậy: - Độ hỗ trợ  = s(X{B}, r). Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X => B sao cho tần số xuất hiện của luật không nhỏ hơn ngưỡng min cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng min cho trước. Những ngưỡng này thường do người dùng hoặc các chuyên gia trong lĩnh vực xác định. Giải thuật tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập mục thường xuyên xuất hiện (FIS - Frequent ItemSet), đây là các tập mục mà tần số xuất hiện lớn hơn min.

Sau đó các luật kết hợp sẽ được khai phá từ các tập mục phổ biến này dựa trên min. Chúng ta sẽ đi sâu nghiên cứu về Luật kết hợp trong Chương 2 và Chương 3. Phân nhóm và phân đoạn Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm.

Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các tham số của các thành phần. Kỹ thuật này được gọi là kỹ thuật phân hoạch tối ưu. Một số phương pháp khai phá dữ liệu sinh luật kết hợp TIEU LUAN MOI download : skknchat@gmail.com 12 Một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm. Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu.

Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng. Mạng Neural Mạng neural là một phương pháp khai phá dữ liệu phát triển dựa trên cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người. Mạng neural có thể đưa ra các kết luận từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được.

Một trong những ưu điểm phải kể đến của mạng neural là khả năng tạo ra các mô hình dự đoán do có độ chính xác cao, có thể áp dụng được cho nhiều các bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo,…. Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu của mạng. Mạng neural có thể sử dụng các hàm số bất kỳ chứ không chỉ đơn giản là sử dụng các hàm biểu tượng để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của nó. Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầu quá trình học như các kỹ thuật khác.

Tuy nhiên để có thể sử dụng mạng neural có hiệu quả cần xác định các yếu tố khi thiết kế mạng như: - Mô hình mạng (kiến trúc) là gì ? - Mạng cần bao nhiêu tầng và bao nhiêu nút ?

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ