Luận Văn Thạc Sĩ Về Phương Pháp Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Luận văn thạc sĩ VNU UET trình bày các phương pháp khai phá dữ liệu sinh luật kết hợp với công nghệ thông tin, mang lại nhiều ứng dụng thực tiễn.

Trường đại học

Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2007

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU (KPDL)

1.1. Các hướng tiếp cận chính trong KPDL

1.2. Một số phương pháp KPDL phổ biến

1.2.1. Phương pháp suy diễn và quy nạp

1.2.2. Cây quyết định và luật

1.2.3. Phát hiện các luật kết hợp

1.2.4. Phân nhóm và phân đoạn

1.2.5. Giải thuật di truyền

1.2.6. Lựa chọn các kỹ thuật khai phá

1.2.7. Các dạng CSDL thường được sử dụng để KPDL

1.2.8. Một số ứng dụng của KPDL

2. CHƯƠNG 2: MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ LUẬT KẾT HỢP

2.1. Định nghĩa luật kết hợp

2.2. Ví dụ về luật kết hợp

2.3. Các định nghĩa và tính chất

2.3.1. Các định nghĩa cơ bản

2.3.2. Một số tính chất của tập mục phổ biến

2.3.3. Một số tính chất của luật kết hợp

2.4. Các loại luật kết hợp và hướng tiếp cận

2.4.1. Luật kết hợp nhị phân

2.4.2. Luật kết hợp định lượng

2.4.3. Khai phá luật kết hợp định lượng

2.4.4. Luật kết hợp đơn chiều

2.4.5. Luật kết hợp đa chiều

2.4.6. Luật kết hợp đa mức

2.4.7. Khai phá luật kết hợp đa mức

2.4.8. Luật kết hợp với thuộc tính có trọng số

2.4.9. Luật kết hợp mờ

2.4.10. Luật kết hợp đóng

3. CHƯƠNG 3: MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU SINH LUẬT KẾT HỢP

3.1. Thuật toán Apriori

3.2. Nâng cao hiệu quả của thuật toán Apriori

3.2.1. Sử dụng kỹ thuật băm

3.2.2. Rút gọn số giao dịch sau mỗi lần quét CSDL

3.3. Sinh luật kết hợp từ tập mục phổ biến

3.3.1. Thuật toán đơn giản sinh luật kết hợp từ tập mục phổ biến

3.3.2. Thuật toán nhanh hơn sinh luật kết hợp từ tập mục phổ biến

3.4. Thuật toán FP-Growth

3.5. Thuật toán Charm

3.5.1. Một số khái niệm

3.5.2. Toán tử đóng và tập đóng

3.5.3. Cây tìm kiếm “tập mục – tập định danh” và Lớp tương đương

3.5.4. Sinh luật kết hợp từ tập mục đóng phổ biến

3.6. Thuật toán Closet

4. CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG MINH HOẠ

4.1. Phân tích và Thiết kế hệ thống

4.2. Cài đặt và Đánh giá

DANH SÁCH TÀI LIỆU THAM KHẢO TIẾNG VIỆT

DANH SÁCH TÀI LIỆU THAM KHẢO TIẾNG ANH

DANH SÁCH WEBSITES THAM KHẢO

Tóm tắt

I. Tổng quan về Phương Pháp Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Phương pháp khai phá dữ liệu sinh luật kết hợp là một lĩnh vực quan trọng trong khoa học dữ liệu. Nó giúp phát hiện các mối quan hệ giữa các biến trong tập dữ liệu lớn. Khai thác thông tin từ dữ liệu lớn không chỉ giúp doanh nghiệp đưa ra quyết định chính xác mà còn tối ưu hóa quy trình làm việc.

1.1. Khái niệm Khai Phá Dữ Liệu

Khai phá dữ liệu (KPDL) là quá trình tìm kiếm tri thức từ dữ liệu lớn. Nó bao gồm nhiều kỹ thuật khác nhau, trong đó có khai phá luật kết hợp. KPDL giúp phát hiện các mẫu và mối quan hệ trong dữ liệu.

1.2. Lịch sử Phát Triển Khai Phá Dữ Liệu

KPDL đã phát triển mạnh mẽ từ những năm 1990. Các thuật toán như Apriori và FP-Growth đã được giới thiệu, giúp cải thiện hiệu quả khai thác dữ liệu. Những nghiên cứu này đã mở ra nhiều ứng dụng trong các lĩnh vực khác nhau.

II. Vấn Đề và Thách Thức Trong Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Mặc dù có nhiều lợi ích, việc khai phá dữ liệu sinh luật kết hợp cũng gặp phải nhiều thách thức. Các vấn đề như dữ liệu không đầy đủ, nhiễu và tính chính xác của các luật kết hợp cần được giải quyết.

2.1. Dữ Liệu Không Đầy Đủ và Nhiễu

Dữ liệu không đầy đủ có thể dẫn đến kết quả không chính xác. Nhiễu trong dữ liệu cũng làm giảm độ tin cậy của các luật kết hợp. Việc xử lý dữ liệu trước khi khai thác là rất quan trọng.

2.2. Độ Chính Xác Của Các Luật Kết Hợp

Độ chính xác của các luật kết hợp phụ thuộc vào nhiều yếu tố, bao gồm chất lượng dữ liệu và thuật toán sử dụng. Cần có các phương pháp đánh giá để đảm bảo tính chính xác của các luật được phát hiện.

III. Phương Pháp Khai Phá Dữ Liệu Sinh Luật Kết Hợp Hiệu Quả

Có nhiều phương pháp khai phá dữ liệu sinh luật kết hợp, mỗi phương pháp có ưu và nhược điểm riêng. Các thuật toán như Apriori, FP-Growth và Charm là những phương pháp phổ biến nhất.

3.1. Thuật Toán Apriori

Thuật toán Apriori là một trong những phương pháp khai phá luật kết hợp đầu tiên. Nó sử dụng nguyên tắc hỗ trợ để tìm kiếm các tập mục phổ biến trong dữ liệu. Apriori có thể gặp khó khăn với dữ liệu lớn do số lượng phép toán cần thiết.

3.2. Thuật Toán FP Growth

FP-Growth là một cải tiến của Apriori, giúp giảm thiểu số lần quét dữ liệu. Nó sử dụng cấu trúc cây để lưu trữ thông tin, từ đó tìm kiếm các luật kết hợp một cách hiệu quả hơn.

3.3. Thuật Toán Charm

Thuật toán Charm là một phương pháp khác để khai phá luật kết hợp. Nó tập trung vào việc tìm kiếm các tập mục đóng phổ biến, giúp cải thiện hiệu suất khai thác dữ liệu.

IV. Ứng Dụng Thực Tiễn Của Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Khai phá dữ liệu sinh luật kết hợp có nhiều ứng dụng trong thực tiễn. Từ thương mại điện tử đến y tế, các luật kết hợp giúp doanh nghiệp và tổ chức đưa ra quyết định chính xác hơn.

4.1. Ứng Dụng Trong Thương Mại Điện Tử

Trong thương mại điện tử, khai phá luật kết hợp giúp xác định các sản phẩm thường được mua cùng nhau. Điều này giúp tối ưu hóa chiến lược marketing và tăng doanh thu.

4.2. Ứng Dụng Trong Y Tế

Trong lĩnh vực y tế, khai phá dữ liệu giúp phát hiện các mối liên hệ giữa triệu chứng và bệnh. Điều này hỗ trợ bác sĩ trong việc chẩn đoán và điều trị bệnh.

V. Kết Luận và Tương Lai Của Khai Phá Dữ Liệu Sinh Luật Kết Hợp

Khai phá dữ liệu sinh luật kết hợp là một lĩnh vực đang phát triển mạnh mẽ. Với sự tiến bộ của công nghệ, các phương pháp khai thác dữ liệu sẽ ngày càng hiệu quả hơn. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều giá trị cho các ngành công nghiệp.

5.1. Xu Hướng Phát Triển

Xu hướng phát triển trong khai phá dữ liệu sinh luật kết hợp sẽ tập trung vào việc cải thiện độ chính xác và hiệu suất của các thuật toán. Công nghệ mới như học sâu (Deep Learning) cũng sẽ được áp dụng.

5.2. Thách Thức Tương Lai

Mặc dù có nhiều tiềm năng, lĩnh vực này cũng đối mặt với các thách thức như bảo mật dữ liệu và đạo đức trong khai thác thông tin. Cần có các quy định rõ ràng để đảm bảo việc sử dụng dữ liệu một cách hợp lý.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet một số phương pháp khai phá dữ liệu sinh luật kết hợp luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, với sự phát triển mạnh mẽ của các hệ quản trị cơ sở dữ liệu (HQTCSDL), các doanh nghiệp và tổ chức có thể lưu trữ hàng triệu hồ sơ khách hàng, hợp đồng, số liệu kinh doanh và tài liệu khác. Tuy nhiên, việc khai thác hiệu quả các dữ liệu này để phát hiện tri thức tiềm ẩn vẫn là một thách thức lớn. Theo ước tính, khoảng 80% nhu cầu khai thác thông tin có thể được đáp ứng bằng các truy vấn SQL truyền thống, nhưng để phát hiện các mối quan hệ phức tạp như “Khách hàng tuổi 18-22 khi mua hoa thường mua thêm thiệp” hay “Giá dầu thô tăng thì chỉ số chứng khoán giảm” đòi hỏi các kỹ thuật khai phá dữ liệu tiên tiến hơn.

Khai phá dữ liệu (KPDL) đã trở thành một lĩnh vực nghiên cứu trọng điểm trong khoa học máy tính và công nghệ tri thức, với nhiều ứng dụng trong thương mại, tài chính, y học, sinh học và giáo dục. Trong đó, khai phá luật kết hợp (Association Rules Mining) là một nội dung quan trọng, được xem là mục tiêu cơ bản của KPDL. Luận văn tập trung nghiên cứu một số phương pháp khai phá dữ liệu sinh luật kết hợp, nhằm nâng cao hiệu quả khai thác tri thức từ các cơ sở dữ liệu lớn.

Mục tiêu nghiên cứu là phân tích, đánh giá và triển khai các thuật toán khai phá luật kết hợp phổ biến như Apriori, FP-Growth, Charm và Closet, đồng thời xây dựng ứng dụng minh họa trên cơ sở dữ liệu đơn hàng thực tế. Phạm vi nghiên cứu tập trung vào các thuật toán khai phá luật kết hợp trong giai đoạn 2000-2007, với dữ liệu thực tế từ các hệ thống quản lý bán hàng và giao dịch. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ ra quyết định, tối ưu hóa hoạt động kinh doanh và phát triển các hệ thống khai phá dữ liệu hiệu quả.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Khai phá dữ liệu (Data Mining): Quá trình tìm kiếm và phát hiện các tri thức tiềm ẩn trong cơ sở dữ liệu lớn, bao gồm các bước thu thập, tiền xử lý, biến đổi, khai phá và đánh giá tri thức. KPDL là bước quan trọng nhất trong quá trình Khai phá tri thức (KDD).
Luật kết hợp (Association Rules): Là các luật dạng “Nếu P thì Q” với độ hỗ trợ (support) và độ tin cậy (confidence) được xác định dựa trên tần suất xuất hiện trong dữ liệu. Luật kết hợp mạnh là luật thoả mãn ngưỡng độ hỗ trợ và độ tin cậy tối thiểu do người dùng đặt ra.
Các thuật toán khai phá luật kết hợp: Bao gồm Apriori (dựa trên sinh ứng cử và kiểm tra), FP-Growth (không sinh ứng cử, sử dụng cấu trúc cây FP-tree), Charm và Closet (khai phá tập mục đóng phổ biến). Các thuật toán này tận dụng tính chất của tập mục phổ biến để giảm không gian tìm kiếm và tăng tốc độ khai phá.
Các khái niệm chính: Tập mục phổ biến (Frequent Itemset), tập mục đóng (Closed Itemset), tập mục cực đại (Maximal Itemset), luật kết hợp nhị phân, định lượng, đa chiều, đa mức, có trọng số, mờ và đóng.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng các cơ sở dữ liệu giao dịch thực tế, ví dụ như dữ liệu đơn hàng bán hàng, dữ liệu điều tra dân số, với kích thước mẫu khoảng vài nghìn đến vài chục nghìn giao dịch.
Phương pháp phân tích: Áp dụng các thuật toán khai phá luật kết hợp như Apriori, FP-Growth, Charm và Closet để tìm các tập mục phổ biến và sinh luật kết hợp mạnh. So sánh hiệu quả về thời gian xử lý, số lượng luật sinh ra và khả năng nén dữ liệu giữa các thuật toán.
Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong vòng 12 tháng, bao gồm các giai đoạn tổng quan lý thuyết, triển khai thuật toán, xây dựng ứng dụng minh họa, đánh giá và hoàn thiện luận văn.
Phương pháp chọn mẫu: Lấy mẫu ngẫu nhiên từ cơ sở dữ liệu lớn để kiểm thử thuật toán, đồng thời áp dụng kỹ thuật phân hoạch dữ liệu và lấy mẫu để giảm chi phí tính toán.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Apriori: Thuật toán Apriori có khả năng tìm tập mục phổ biến chính xác, tuy nhiên chi phí tính toán cao do phải sinh và kiểm tra nhiều tập ứng cử. Ví dụ, với cơ sở dữ liệu gồm 9 giao dịch và 5 mục, Apriori phải sinh và kiểm tra đến 2^lmax - 1 tập ứng cử, trong đó lmax là độ dài tập mục phổ biến lớn nhất.
Ưu điểm của thuật toán FP-Growth: FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu, chỉ cần quét cơ sở dữ liệu 2 lần, giảm đáng kể chi phí tính toán. Trong thực tế, FP-Growth nhanh hơn Apriori từ 10 đến 100 lần khi xử lý các cơ sở dữ liệu lớn và dày đặc.
Tính ưu việt của thuật toán Charm và Closet: Các thuật toán này khai phá tập mục đóng phổ biến, giảm số lượng tập mục cần xử lý so với Apriori và FP-Growth. Điều này giúp giảm thiểu số lượng luật kết hợp dư thừa, tăng hiệu quả khai phá và dễ dàng kiểm soát kết quả.
Ứng dụng khai phá luật kết hợp đa mức: Việc áp dụng ngưỡng độ hỗ trợ giảm dần theo mức trừu tượng giúp phát hiện các luật kết hợp có ý nghĩa ở nhiều cấp độ khác nhau, từ tổng quát đến chi tiết. Ví dụ, với ngưỡng minsup 10% ở mức cao và 5% ở mức thấp, các luật như “Máy tính để bàn => Máy in đen trắng” được phát hiện hiệu quả hơn.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu quả giữa các thuật toán là cách thức xử lý không gian tìm kiếm và số lần quét cơ sở dữ liệu. Apriori sinh ứng cử nhiều và quét dữ liệu nhiều lần, dẫn đến chi phí lớn khi dữ liệu dày hoặc mẫu dài. FP-Growth và các thuật toán khai phá tập mục đóng tận dụng cấu trúc dữ liệu đặc biệt và tính chất toán học để giảm chi phí này.

So sánh với các nghiên cứu khác, kết quả phù hợp với báo cáo của ngành khi FP-Growth được đánh giá là thuật toán khai phá luật kết hợp hiệu quả nhất trong các trường hợp dữ liệu lớn và phức tạp. Việc áp dụng khai phá luật kết hợp đa mức và có trọng số mở rộng phạm vi ứng dụng, giúp khai thác tri thức sâu sắc hơn trong các lĩnh vực như thương mại điện tử, y học và tài chính.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh thời gian xử lý, số lượng luật sinh ra và độ nén dữ liệu giữa các thuật toán, cũng như bảng thống kê các luật kết hợp phổ biến theo từng mức trừu tượng.

Đề xuất và khuyến nghị

Áp dụng thuật toán FP-Growth cho các hệ thống khai phá dữ liệu lớn: Động từ hành động là “triển khai”, mục tiêu giảm thời gian xử lý xuống dưới 50% so với Apriori, trong vòng 6 tháng, do các nhóm phát triển phần mềm và phân tích dữ liệu thực hiện.
Sử dụng khai phá luật kết hợp đa mức với ngưỡng minsup giảm dần: Đề xuất “thiết lập” các ngưỡng minsup phù hợp theo từng cấp độ trừu tượng để tăng độ chính xác và ý nghĩa của luật, áp dụng trong vòng 3 tháng, do các chuyên gia phân tích dữ liệu và nhà quản lý dự án thực hiện.
Phát triển hệ thống khai phá luật kết hợp có trọng số và mờ: “Nghiên cứu và tích hợp” các thuật toán khai phá luật kết hợp có trọng số và mờ để xử lý dữ liệu phức tạp, nâng cao chất lượng tri thức khai phá, trong vòng 12 tháng, do nhóm nghiên cứu khoa học dữ liệu và AI đảm nhiệm.
Xây dựng công cụ trực quan hóa kết quả khai phá: “Phát triển” giao diện trực quan giúp người dùng dễ dàng hiểu và đánh giá các luật kết hợp, hỗ trợ ra quyết định nhanh chóng, trong vòng 4 tháng, do nhóm phát triển phần mềm và thiết kế UX/UI thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, công nghệ thông tin: Học hỏi các thuật toán khai phá dữ liệu tiên tiến, áp dụng vào nghiên cứu và phát triển các hệ thống khai phá tri thức.
Chuyên viên phân tích dữ liệu và nhà quản lý doanh nghiệp: Áp dụng các phương pháp khai phá luật kết hợp để phân tích hành vi khách hàng, tối ưu hóa chiến lược kinh doanh và ra quyết định dựa trên dữ liệu.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Tham khảo các thuật toán và kỹ thuật tối ưu để xây dựng các công cụ khai phá dữ liệu hiệu quả, phù hợp với các hệ thống lớn và phức tạp.
Chuyên gia trong lĩnh vực tài chính, y tế và thương mại điện tử: Sử dụng kết quả khai phá luật kết hợp để dự báo xu hướng, phát hiện mối quan hệ ẩn trong dữ liệu, hỗ trợ các quyết định chuyên môn và chiến lược.

Câu hỏi thường gặp

Khai phá luật kết hợp là gì và tại sao quan trọng?
Khai phá luật kết hợp là quá trình tìm kiếm các mối quan hệ dạng “Nếu P thì Q” trong dữ liệu với độ hỗ trợ và độ tin cậy nhất định. Nó giúp phát hiện các mẫu hành vi, xu hướng tiềm ẩn, hỗ trợ ra quyết định trong nhiều lĩnh vực như kinh doanh, y tế và tài chính.
Thuật toán Apriori và FP-Growth khác nhau như thế nào?
Apriori sinh ra nhiều tập ứng cử và quét dữ liệu nhiều lần, trong khi FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và chỉ quét dữ liệu 2 lần, do đó FP-Growth nhanh hơn và hiệu quả hơn khi xử lý dữ liệu lớn và dày.
Làm thế nào để chọn ngưỡng độ hỗ trợ (minsup) và độ tin cậy (minconf)?
Ngưỡng minsup và minconf được xác định dựa trên mục tiêu khai phá và đặc điểm dữ liệu. Ngưỡng quá cao có thể bỏ sót luật quan trọng, ngưỡng quá thấp sinh ra nhiều luật không cần thiết. Thường cần thử nghiệm và điều chỉnh phù hợp với từng ứng dụng cụ thể.
Luật kết hợp đa mức có ưu điểm gì?
Luật kết hợp đa mức khai phá tri thức ở nhiều cấp độ trừu tượng khác nhau, giúp phát hiện các mối quan hệ tổng quát và chi tiết, phù hợp với dữ liệu đa chiều và phức tạp, tăng tính ứng dụng và ý nghĩa của kết quả khai phá.
Có thể áp dụng các thuật toán khai phá luật kết hợp cho dữ liệu phi cấu trúc không?
Các thuật toán truyền thống chủ yếu áp dụng cho dữ liệu cấu trúc như cơ sở dữ liệu quan hệ hoặc giao dịch. Tuy nhiên, với kỹ thuật tiền xử lý và chuyển đổi dữ liệu, có thể áp dụng cho dữ liệu phi cấu trúc như văn bản, hình ảnh thông qua các bước trích xuất đặc trưng và rời rạc hóa.

Kết luận

Khai phá luật kết hợp là phương pháp hiệu quả để phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu lớn, hỗ trợ ra quyết định trong nhiều lĩnh vực.
Thuật toán FP-Growth và các thuật toán khai phá tập mục đóng như Charm, Closet vượt trội hơn Apriori về hiệu suất và khả năng xử lý dữ liệu lớn, dày đặc.
Việc áp dụng khai phá luật kết hợp đa mức và có trọng số giúp nâng cao chất lượng tri thức khai phá, phù hợp với dữ liệu phức tạp và đa chiều.
Luận văn đã triển khai thành công các thuật toán, xây dựng ứng dụng minh họa và so sánh hiệu quả trên dữ liệu thực tế, cung cấp cơ sở cho các nghiên cứu và ứng dụng tiếp theo.
Đề xuất các hướng phát triển tiếp theo bao gồm tích hợp khai phá luật kết hợp mờ, phát triển công cụ trực quan hóa và mở rộng ứng dụng trong các lĩnh vực chuyên sâu.

Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và chuyên gia ứng dụng triển khai các thuật toán hiệu quả trong thực tế, đồng thời phát triển các giải pháp khai phá dữ liệu phù hợp với đặc thù ngành nghề và dữ liệu cụ thể.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về khai phá dữ liệu (KPDL) 1. Khái niệm KPDL (Data Mining) là quá trình tìm kiếm, phát hiện các tri thức tiềm ẩn và hữu dụng trong CDSL nhất định. Trong đó tri thức được ngầm hiểu là các thông tin mang tính chất quy luật và hữu ích đối với người sử dụng. KPDL là bước quan trọng nhất trong quá trình Khai phá tri thức (KDD – Knowledge Discovery in Database) - gồm 5 bước như sau [006]: + Thu thập dữ liệu (Data colection): là bước thu thập, trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (Databases, Data marts, Data warehouses, Data repositories) ban đầu theo một số tiêu chí nhất định.

+ Tiền xử lý dữ liệu (Data preprocessing): là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, …), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, …), rời rạc hoá dữ liệu (rời rạc hoá dựa vào histograms, entropy, phân khoảng, …). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa. + Biến đổi dữ liệu (Data Transformation): đây là bước chuẩn hoá và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. + KPDL (Data mining): đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của máy học) nhằm để khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu.

Đây được xem là bước quan trọng nhất và tốn nhiều thời gian nhất của toàn quá trình KDD. + Đánh giá và biểu diễn tri thức (Knowledge presentation and evaluation): chuyển hoặc biểu diễn những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên về một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, …. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Trích chọn Tiền xử lý Biến đổi DL Dữ liệu thô DL DL Tri thức Đánh giá và Khai phá DL Biểu diễn TT Hình 1.1: Các bước trong quá trình KDD.

Một số phương pháp khai phá dữ liệu sinh luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Các hướng tiếp cận chính trong KPDL Các hướng tiếp cận trong KPDL có thể được phân chia theo chức năng hay lớp các bài toán khác nhau, dưới đây là một số hướng tiếp cận chính: + Phân lớp và Dự đoán (Classification and Prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân theo dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (Decision tree), mạng nơron nhân tạo (Neural network), ….

Phân lớp và dự đoán còn được gọi là học có giám sát (Supervised learning). + Khai phá luật kết hợp (Association rules mining): khai phá các tri thức dạng luật kết hợp. Ví dụ: “60% nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm đậu phộng”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, … + Phân tích chuỗi theo thời gian (Sequential/Temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.

Phương pháp này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. + Phân cụm (Clustering/Segmentation): xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không giám sát (Unsupervised learning). + Mô tả khái niệm (Concept description and summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm.

Ví dụ: tóm tắt văn bản. Một số phương pháp KPDL phổ biến 1. Phương pháp suy diễn và quy nạp + Phương pháp suy diễn: Rút ra thông tin là kết quả logic từ các thông tin nằm trong CSDL dựa trên các quan hệ trong dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ.

Mẫu chiết suất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. + Phương pháp quy nạp: Các thông tin được suy ra từ CSDL bằng cách nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức đã biết trước. Cây quyết định và luật + Cây quyết định: Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút trong của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau.

Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc tính của đối tượng tới lá. Một số phương pháp khai phá dữ liệu sinh luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 + Tạo luật: Các luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng nếu P thì Q, trong đó P là mệnh đề đúng với một phần dữ liệu trong CSDL và Q là mệnh đề dự đoán. Ví dụ: Ta có mẫu phát hiện được bằng phương pháp tạo luật “Nếu mỗi năm cứ tăng vốn lưu động thêm 20% và vốn cố định tăng 10% thì lợi nhuận trước thuế tăng 25%”.

Cây quyết định là phương pháp dùng trong các bài toán phân loại dữ liệu theo một tiêu chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô hình. Phát hiện các luật kết hợp Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác là dạng mẫu của hình thành tri thức.

Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Một đầu ra của giải thuật khai phá dữ liệu là tập các luật kết hợp tìm được. Cho một lược đồ R = {A1, A2, …, Ap} với các thuộc tính có miền giá trị {0, 1} và một quan hệ r trên R. Cho W  R, đặt s(W, r) là tần số xuất hiện của W trong r được tính bằng tỉ lệ của các hàng trong r có giá trị 1 tại mỗi cột.

Ta định nghĩa một luật kết hợp trên quan hệ r: X => B với X  R và B  R\X với độ hỗ trợ (tần số xuất hiện) và độ tin cậy: - Độ hỗ trợ  = s(X{B}, r). Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X => B sao cho tần số xuất hiện của luật không nhỏ hơn ngưỡng min cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng min cho trước. Những ngưỡng này thường do người dùng hoặc các chuyên gia trong lĩnh vực xác định. Giải thuật tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập mục thường xuyên xuất hiện (FIS - Frequent ItemSet), đây là các tập mục mà tần số xuất hiện lớn hơn min.

Sau đó các luật kết hợp sẽ được khai phá từ các tập mục phổ biến này dựa trên min. Chúng ta sẽ đi sâu nghiên cứu về Luật kết hợp trong Chương 2 và Chương 3. Phân nhóm và phân đoạn Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm.

Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của các tham số của các thành phần. Kỹ thuật này được gọi là kỹ thuật phân hoạch tối ưu. Một số phương pháp khai phá dữ liệu sinh luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 Một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm. Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu.

Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng. Mạng Neural Mạng neural là một phương pháp khai phá dữ liệu phát triển dựa trên cấu trúc toán học với khả năng học trên mô hình hệ thần kinh con người. Mạng neural có thể đưa ra các kết luận từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được.

Một trong những ưu điểm phải kể đến của mạng neural là khả năng tạo ra các mô hình dự đoán do có độ chính xác cao, có thể áp dụng được cho nhiều các bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo,…. Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu của mạng. Mạng neural có thể sử dụng các hàm số bất kỳ chứ không chỉ đơn giản là sử dụng các hàm biểu tượng để tính mức tích cực của các nút đầu ra và cập nhật các trọng số của nó. Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầu quá trình học như các kỹ thuật khác.

Tuy nhiên để có thể sử dụng mạng neural có hiệu quả cần xác định các yếu tố khi thiết kế mạng như: - Mô hình mạng (kiến trúc) là gì ?

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai thác dữ liệu và học máy

Phương pháp phân tích dữ liệu

Thuật toán sinh luật kết hợp