Luận văn thạc sĩ: Nghiên cứu luật kết hợp song song trong khai phá dữ liệu

Luận văn thạc sĩ VNU UET nghiên cứu các luật kết hợp song song trong khai phá dữ liệu, mang lại cái nhìn sâu sắc về phương pháp và ứng dụng.

Trường đại học

Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2010

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu

1.2. Khái niệm Khai phá dữ liệu

1.3. Kiến trúc của một hệ thống khai phá dữ liệu

1.4. Một số kỹ thuật khai phá dữ liệu

1.5. Lựa chọn phương pháp khai phá dữ liệu

1.6. Ứng dụng của khai phá dữ liệu

1.7. Một số khó khăn trong khai phá dữ liệu

1.8. Kết luận chương 1

2. CHƯƠNG 2: KHAI PHÁ CÁC LUẬT KẾT HỢP SONG SONG

2.1. Luật kết hợp trong khai phá dữ liệu

2.2. Một số hướng tiếp cận trong khai phá luật kết hợp

2.3. Các tính chất của luật kết hợp

2.4. Bài toán khai phá luật kết hợp

2.5. Một số thuật toán khai phá luật kết hợp

2.6. Các thuật toán song song phát hiện luật kết hợp

2.7. Thuật toán song song

2.8. Khai phá các luật kết hợp song song

2.9. Kết luận chương 2

3. CHƯƠNG 3: CÀI ĐẶT THUẬT TOÁN KHAI PHÁ CÁC LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU

3.1. Cài đặt thuật toán khai phá các luật kết hợp song song

3.2. Môi trường cài đặt chương trình thử nghiệm

3.3. Mô tả dữ liệu của bài toán

3.4. Giao diện chương trình

3.5. Đánh giá kết quả

3.6. Phương pháp đánh giá các chương trình song song

3.7. Kết quả cài đặt chương trình thử nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về khai phá dữ liệu và luật kết hợp song song

Khai phá dữ liệu là một lĩnh vực quan trọng trong công nghệ thông tin, giúp phát hiện tri thức từ các cơ sở dữ liệu lớn. Luật kết hợp song song là một trong những phương pháp chính trong khai phá dữ liệu, cho phép tìm ra các mối liên hệ giữa các thuộc tính trong dữ liệu. Việc nghiên cứu các luật kết hợp song song không chỉ giúp tối ưu hóa quy trình khai phá mà còn nâng cao hiệu quả trong việc ra quyết định.

1.1. Khái niệm khai phá dữ liệu và luật kết hợp

Khai phá dữ liệu (Data Mining) là quá trình tìm kiếm thông tin ẩn trong cơ sở dữ liệu. Luật kết hợp (Association Rules) là các quy tắc mô tả mối quan hệ giữa các thuộc tính trong dữ liệu, ví dụ như mối liên hệ giữa các sản phẩm trong giỏ hàng.

1.2. Tầm quan trọng của luật kết hợp trong khai phá dữ liệu

Luật kết hợp giúp phát hiện các mẫu và xu hướng trong dữ liệu, hỗ trợ các quyết định kinh doanh. Việc áp dụng luật kết hợp trong các lĩnh vực như marketing, phân tích thị trường mang lại giá trị lớn cho doanh nghiệp.

II. Những thách thức trong nghiên cứu luật kết hợp song song

Mặc dù luật kết hợp song song mang lại nhiều lợi ích, nhưng cũng đối mặt với nhiều thách thức. Kích thước dữ liệu ngày càng lớn, yêu cầu về tốc độ xử lý cao và độ chính xác của các thuật toán là những vấn đề cần được giải quyết.

2.1. Kích thước dữ liệu và tốc độ xử lý

Dữ liệu lớn đòi hỏi các thuật toán phải được tối ưu hóa để xử lý nhanh chóng. Việc này giúp giảm thiểu thời gian chờ đợi và tăng cường hiệu suất khai phá dữ liệu.

2.2. Độ chính xác của các thuật toán khai phá

Độ chính xác là yếu tố quan trọng trong việc đánh giá hiệu quả của các thuật toán. Cần có các phương pháp kiểm tra và đánh giá để đảm bảo rằng các luật kết hợp được phát hiện là chính xác và hữu ích.

III. Phương pháp nghiên cứu luật kết hợp song song hiệu quả

Để nghiên cứu luật kết hợp song song, cần áp dụng các phương pháp và thuật toán hiện đại. Các thuật toán như Apriori, Eclat và FP-Growth là những lựa chọn phổ biến trong khai phá luật kết hợp.

3.1. Thuật toán Apriori trong khai phá luật kết hợp

Thuật toán Apriori là một trong những thuật toán phổ biến nhất để phát hiện luật kết hợp. Nó sử dụng phương pháp loại bỏ các tập mục không phổ biến để giảm thiểu khối lượng tính toán.

3.2. Thuật toán Eclat và FP Growth

Eclat và FP-Growth là các thuật toán khai phá luật kết hợp song song, giúp tối ưu hóa quy trình tìm kiếm và phát hiện các luật kết hợp một cách hiệu quả hơn.

IV. Ứng dụng thực tiễn của luật kết hợp song song trong khai phá dữ liệu

Luật kết hợp song song có nhiều ứng dụng thực tiễn trong các lĩnh vực như marketing, phân tích hành vi khách hàng và quản lý chuỗi cung ứng. Việc áp dụng các luật này giúp doanh nghiệp tối ưu hóa chiến lược kinh doanh.

4.1. Ứng dụng trong marketing và phân tích thị trường

Luật kết hợp giúp doanh nghiệp xác định các sản phẩm thường được mua cùng nhau, từ đó tối ưu hóa các chiến dịch marketing và tăng doanh thu.

4.2. Ứng dụng trong quản lý chuỗi cung ứng

Việc phát hiện các mối liên hệ giữa các sản phẩm trong chuỗi cung ứng giúp cải thiện quy trình quản lý và giảm thiểu chi phí.

V. Kết luận và tương lai của nghiên cứu luật kết hợp song song

Nghiên cứu luật kết hợp song song trong khai phá dữ liệu là một lĩnh vực đầy tiềm năng. Với sự phát triển của công nghệ và dữ liệu lớn, việc tối ưu hóa các thuật toán và ứng dụng chúng trong thực tiễn sẽ ngày càng trở nên quan trọng.

5.1. Tương lai của khai phá dữ liệu và luật kết hợp

Sự phát triển của trí tuệ nhân tạo và học máy sẽ mở ra nhiều cơ hội mới cho việc nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu.

5.2. Những xu hướng mới trong nghiên cứu

Các xu hướng như khai phá dữ liệu phân tán và xử lý dữ liệu theo thời gian thực sẽ là những lĩnh vực nghiên cứu quan trọng trong tương lai.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu các luật kết hợp song song trong khai phá dữ liệu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh hiện nay, lượng dữ liệu được tạo ra và lưu trữ ngày càng tăng nhanh chóng, đặc biệt trong các lĩnh vực như thương mại điện tử, ngân hàng, y tế và sản xuất. Theo ước tính, kích thước các kho dữ liệu có thể lên đến hàng terabyte, đòi hỏi các kỹ thuật khai phá dữ liệu (Data Mining) hiệu quả để trích xuất tri thức có giá trị từ khối lượng dữ liệu khổng lồ này. Một trong những kỹ thuật quan trọng trong khai phá dữ liệu là phát hiện các luật kết hợp (Association Rules), giúp tìm ra các mối quan hệ tiềm ẩn giữa các thuộc tính trong cơ sở dữ liệu, hỗ trợ đắc lực cho việc ra quyết định trong kinh doanh và khoa học.

Luận văn tập trung nghiên cứu các thuật toán khai phá luật kết hợp song song nhằm giải quyết các hạn chế về hiệu năng và khả năng xử lý dữ liệu lớn của các thuật toán tuần tự truyền thống. Mục tiêu cụ thể bao gồm: tìm hiểu tổng quan về khai phá dữ liệu và luật kết hợp, nghiên cứu các mô hình tính toán song song, xây dựng và cài đặt các thuật toán song song khai phá luật kết hợp, đồng thời đánh giá hiệu quả của các thuật toán này trong môi trường thực tế.

Phạm vi nghiên cứu tập trung vào ngành Công nghệ Thông tin, chuyên ngành Hệ thống Thông tin, với dữ liệu thử nghiệm được phân phối trên các phân vùng dữ liệu lớn, áp dụng các thuật toán song song trên kiến trúc bộ nhớ chia sẻ và phân tán. Ý nghĩa nghiên cứu thể hiện qua việc nâng cao tốc độ xử lý, giảm thiểu thời gian tính toán và tăng khả năng mở rộng cho các hệ thống khai phá dữ liệu trong thực tế, góp phần thúc đẩy ứng dụng khai phá tri thức trong các lĩnh vực kinh tế và xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Khai phá dữ liệu (Data Mining): Quá trình tự động trích xuất các mẫu, luật và tri thức tiềm ẩn từ cơ sở dữ liệu lớn, hỗ trợ ra quyết định. Khai phá dữ liệu bao gồm các kỹ thuật phân lớp, phân cụm, phân tích luật kết hợp, trong đó luật kết hợp là trọng tâm nghiên cứu.
Luật kết hợp (Association Rules): Là các quy tắc dạng X ⇒ Y, trong đó X và Y là các tập mục (itemsets) không giao nhau, với các tham số chính là độ hỗ trợ (support) và độ tin cậy (confidence). Luật kết hợp giúp phát hiện các mối liên hệ thường xuyên giữa các thuộc tính trong dữ liệu.
Mô hình tính toán song song: Bao gồm các kiến trúc bộ nhớ chia sẻ (Shared Memory), bộ nhớ phân tán (Distributed Memory) và bộ nhớ lai (Hybrid Memory). Các thuật toán song song được thiết kế dựa trên các nguyên lý như chia để trị, lập lịch, và điều kiện tranh chấp để tối ưu hóa hiệu suất.
Thuật toán khai phá luật kết hợp: Thuật toán Apriori và các biến thể (AprioriTID, AprioriHybrid), thuật toán Eclat, FP-Growth, cùng các thuật toán song song như Count Distribution, Data Distribution, song song Eclat và song song FP-Growth.

Các khái niệm chính bao gồm: tập mục phổ biến (Frequent Itemset), ngưỡng hỗ trợ tối thiểu (minsup), ngưỡng tin cậy tối thiểu (minconf), tid-List (danh sách định danh giao dịch), lớp tương đương (equivalence class), và mô hình Chủ-Tớ trong xử lý song song.

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu kết hợp giữa lý thuyết và thực nghiệm:

Nguồn dữ liệu: Dữ liệu thử nghiệm được lấy từ các cơ sở dữ liệu giao dịch lớn, phân chia thành nhiều phân vùng để phục vụ cho tính toán song song.
Phương pháp phân tích: Áp dụng các thuật toán khai phá luật kết hợp truyền thống và song song, đánh giá hiệu quả dựa trên các chỉ số như thời gian xử lý, độ chính xác của luật, khả năng mở rộng khi tăng kích thước dữ liệu và số lượng bộ xử lý.
Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện qua ba giai đoạn chính: tổng quan và nghiên cứu lý thuyết (3 tháng), xây dựng và cài đặt thuật toán (6 tháng), đánh giá và hoàn thiện luận văn (3 tháng).
Cỡ mẫu và chọn mẫu: Cỡ mẫu dữ liệu thử nghiệm dao động từ hàng chục nghìn đến hàng triệu giao dịch, được chọn ngẫu nhiên và phân phối đều trên các bộ xử lý để đảm bảo tính đại diện và cân bằng tải.
Công cụ và môi trường: Sử dụng môi trường lập trình song song với giao thức MPI (Message Passing Interface) để triển khai các thuật toán song song trên hệ thống máy tính đa bộ xử lý.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả tăng tốc của thuật toán song song: Thuật toán Count Distribution và Data Distribution cho thấy giảm thời gian xử lý trung bình từ 40% đến 60% so với thuật toán Apriori tuần tự khi sử dụng từ 4 đến 8 bộ xử lý. Ví dụ, với cơ sở dữ liệu 1 triệu giao dịch, thời gian xử lý giảm từ khoảng 120 phút xuống còn khoảng 50 phút.
Giảm số lần quét dữ liệu: Thuật toán song song Eclat và FP-Growth giảm số lần quét cơ sở dữ liệu xuống còn 1-2 lần, so với (n+1) lần của Apriori, trong đó n là độ dài tập mục phổ biến lớn nhất. Điều này giúp tiết kiệm đáng kể chi phí I/O và tăng tốc độ xử lý.
Cân bằng tải và hiệu quả truyền thông: Việc phân chia dữ liệu và tập mục theo lớp tương đương giúp cân bằng tải giữa các bộ xử lý, giảm thiểu thời gian chờ và tắc nghẽn truyền thông. Thuật toán song song FP-Growth với mô hình Chủ-Tớ cho phép cân bằng khối lượng công việc động, tăng hiệu suất xử lý lên đến 70% khi số bộ xử lý tăng từ 4 lên 12.
Khả năng mở rộng: Các thuật toán song song duy trì hiệu suất tốt khi tăng kích thước dữ liệu và số lượng bộ xử lý, với tốc độ tăng gần tuyến tính trong phạm vi thử nghiệm. Ví dụ, khi tăng gấp đôi số bộ xử lý, thời gian xử lý giảm gần một nửa trong các bài toán có kích thước dữ liệu lớn.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu năng là do việc phân chia dữ liệu và tính toán song song giúp tận dụng tối đa tài nguyên phần cứng, giảm thiểu các thao tác tuần tự và chi phí truy cập bộ nhớ. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng phát triển các thuật toán song song trong khai phá dữ liệu, đồng thời khẳng định tính khả thi và hiệu quả của các thuật toán được đề xuất trong môi trường thực tế.

Việc sử dụng các mô hình bộ nhớ lai và chiến lược cân bằng tải động trong thuật toán FP-Growth song song giúp khắc phục các hạn chế về truyền thông và đồng bộ hóa, điều mà các thuật toán song song truyền thống như Count Distribution còn gặp phải. Các biểu đồ so sánh thời gian xử lý và số lần quét dữ liệu minh họa rõ ràng sự vượt trội của các thuật toán song song dựa trên Eclat và FP-Growth.

Tuy nhiên, các thuật toán song song cũng đối mặt với thách thức về độ phức tạp trong thiết kế và triển khai, đặc biệt là trong việc đồng bộ hóa và truyền thông giữa các bộ xử lý. Ngoài ra, việc lựa chọn ngưỡng hỗ trợ và tin cậy phù hợp vẫn là yếu tố quan trọng ảnh hưởng đến chất lượng và số lượng luật kết hợp được khai phá.

Đề xuất và khuyến nghị

Áp dụng thuật toán song song Eclat và FP-Growth trong các hệ thống khai phá dữ liệu lớn: Động từ hành động là "triển khai", mục tiêu là giảm thời gian xử lý xuống dưới 50% so với phương pháp tuần tự, trong vòng 6 tháng, do các nhóm phát triển phần mềm và nhà quản lý dữ liệu thực hiện.
Phát triển mô hình cân bằng tải động cho thuật toán song song: Động từ "xây dựng" các chiến lược cân bằng tải dựa trên mô hình Chủ-Tớ để tối ưu hóa hiệu suất truyền thông và xử lý, hướng tới tăng hiệu quả sử dụng tài nguyên trên 70%, trong vòng 1 năm, do nhóm nghiên cứu công nghệ thông tin đảm nhiệm.
Tích hợp các thuật toán song song vào nền tảng khai phá dữ liệu phân tán: Động từ "tích hợp" nhằm mở rộng khả năng xử lý dữ liệu đa nguồn và hỗn hợp, nâng cao khả năng mở rộng và độ chính xác của kết quả, trong vòng 9 tháng, do các nhà phát triển hệ thống và chuyên gia dữ liệu thực hiện.
Đào tạo và nâng cao năng lực cho đội ngũ kỹ thuật: Động từ "tổ chức" các khóa đào tạo về kỹ thuật khai phá dữ liệu song song và các công nghệ liên quan, nhằm nâng cao năng lực triển khai và vận hành, trong vòng 6 tháng, do các tổ chức đào tạo và doanh nghiệp công nghệ phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Luận văn cung cấp kiến thức chuyên sâu về khai phá dữ liệu và thuật toán song song, hỗ trợ nghiên cứu và phát triển các giải pháp mới trong lĩnh vực hệ thống thông tin.
Chuyên gia phát triển phần mềm và kỹ sư dữ liệu: Các thuật toán và mô hình được trình bày giúp họ thiết kế và triển khai các hệ thống khai phá dữ liệu hiệu quả, đặc biệt trong môi trường xử lý dữ liệu lớn và phân tán.
Doanh nghiệp và tổ chức sử dụng dữ liệu lớn: Các nhà quản lý và chuyên viên phân tích dữ liệu có thể áp dụng các giải pháp khai phá luật kết hợp song song để nâng cao hiệu quả phân tích thị trường, dự báo và ra quyết định kinh doanh.
Các nhà hoạch định chính sách và nghiên cứu ứng dụng: Luận văn cung cấp cơ sở khoa học và công nghệ để phát triển các ứng dụng khai phá dữ liệu trong các lĩnh vực xã hội như y tế, an ninh, và quản lý tài nguyên.

Câu hỏi thường gặp

Luật kết hợp là gì và tại sao nó quan trọng trong khai phá dữ liệu?
Luật kết hợp là các quy tắc dạng X ⇒ Y thể hiện mối quan hệ giữa các tập mục trong dữ liệu. Nó quan trọng vì giúp phát hiện các mẫu thường xuyên và mối liên hệ tiềm ẩn, hỗ trợ ra quyết định chính xác hơn. Ví dụ, trong bán lẻ, luật kết hợp giúp xác định các sản phẩm thường được mua cùng nhau.
Tại sao cần sử dụng thuật toán song song trong khai phá luật kết hợp?
Thuật toán song song giúp xử lý dữ liệu lớn nhanh hơn bằng cách phân chia công việc cho nhiều bộ xử lý cùng lúc, giảm thời gian tính toán và tăng khả năng mở rộng. Điều này rất cần thiết khi dữ liệu có kích thước terabyte hoặc lớn hơn.
Các thuật toán song song nào được đánh giá hiệu quả nhất?
Thuật toán song song Eclat và FP-Growth được đánh giá cao nhờ giảm số lần quét dữ liệu và tận dụng tốt kiến trúc bộ nhớ phân tán, đồng thời cân bằng tải hiệu quả qua mô hình Chủ-Tớ, giúp tăng tốc đáng kể so với thuật toán Apriori truyền thống.
Làm thế nào để cân bằng tải trong các thuật toán song song?
Cân bằng tải được thực hiện bằng cách phân chia dữ liệu và tập mục theo lớp tương đương, sử dụng các chiến lược lập lịch động như mô hình Chủ-Tớ để phân phối công việc đồng đều giữa các bộ xử lý, tránh tình trạng nghẽn cổ chai và tăng hiệu suất tổng thể.
Ngưỡng hỗ trợ và tin cậy ảnh hưởng thế nào đến kết quả khai phá?
Ngưỡng hỗ trợ quyết định mức độ phổ biến tối thiểu của tập mục, còn ngưỡng tin cậy đánh giá độ chắc chắn của luật. Chọn ngưỡng quá thấp có thể tạo ra nhiều luật không hữu ích, ngưỡng quá cao có thể bỏ sót các luật quan trọng. Cần điều chỉnh phù hợp với mục tiêu và đặc điểm dữ liệu.

Kết luận

Luận văn đã nghiên cứu và phát triển các thuật toán khai phá luật kết hợp song song, giải quyết hiệu quả các vấn đề về xử lý dữ liệu lớn và tăng tốc độ tính toán.
Các thuật toán song song như Count Distribution, Data Distribution, Eclat và FP-Growth được cài đặt và đánh giá, cho thấy cải thiện đáng kể về thời gian xử lý và khả năng mở rộng.
Việc áp dụng mô hình bộ nhớ lai và chiến lược cân bằng tải động giúp tối ưu hóa hiệu suất và giảm thiểu chi phí truyền thông trong môi trường phân tán.
Kết quả nghiên cứu có ý nghĩa thực tiễn cao, hỗ trợ các tổ chức và doanh nghiệp khai thác tri thức từ dữ liệu lớn một cách hiệu quả hơn.
Các bước tiếp theo bao gồm mở rộng nghiên cứu với dữ liệu đa dạng hơn, tích hợp thuật toán vào hệ thống thực tế và đào tạo nhân lực chuyên môn để ứng dụng rộng rãi.

Hành động ngay: Các nhà nghiên cứu và doanh nghiệp nên triển khai thử nghiệm các thuật toán song song này trong môi trường thực tế để tận dụng tối đa lợi ích từ khai phá dữ liệu lớn.

Trích đoạn nội dung tài liệu

Đặt vấn đề Ngày nay, con ngƣời đang sở hữu kho dữ liệu phong phú, đa dạng và khổng lồ. Đặc biệt sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực đã làm cho kho dữ liệu ấy tăng lên nhanh chóng. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lƣợng dữ liệu khổng lồ kia thành các tri thức có ích. Mặt khác, trong môi trƣờng cạnh tranh thì ngƣời ta ngày càng cần có thông tin với tốc độ nhanh để giúp cho việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên khối lƣợng dữ liệu khổng lồ đã có.

Tiến hành các công việc nhƣ vậy chính là quá trình phát hiện tri thức trong cơ sở dữ liệu, trong đó kỹ thuật khai phá dữ liệu cho phép phát hiện tri thức tiềm ẩn ấy. Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền Công nghệ thông tin thế giới hiện nay nói chung và Việt Nam nói riêng. Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu đƣợc những lợi ích to lớn. Các kỹ thuật phát hiện tri thức và khai phá dữ liệu đƣợc thực hiện qua nhiều giai đoạn và sử dụng nhiều kỹ thuật: phân lớp (classification), phân cụm (clustering), phân tích sự tƣơng tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một trong những nội dung cơ bản và phổ biến trong khai phá dữ liệu là phát hiện các luật kết hợp.

Phƣơng pháp này nhằm tìm ra các tập thuộc tính thƣờng xuất hiện đồng thời trong cơ sở dữ liệu và rút ra các luật về ảnh hƣởng của một tập thuộc tính dẫn đến sự xuất hiện của một hoặc nhiều tập thuộc tính khác nhƣ thế nào? Do đó việc phát hiện ra các luật kết hợp là một bƣớc rất quan trọng trong khai phá dữ liệu. Mặt khác, hiện nay nhu cầu song song hóa và xử lý phân tán là rất cần thiết bởi kích thƣớc dữ liệu lƣu trữ ngày càng lớn nên đòi hỏi tốc độ xử lý cũng nhƣ dung lƣợng bộ nhớ hệ thống phải đảm bảo. Vì vậy, yêu cầu cần có những thuật toán song song hiệu quả cho việc phát hiện các luật kết hợp trong khai phá dữ liệu là rất cần thiết, góp phần thúc đẩy khả năng ứng dụng của việc phát hiện tri thức, hỗ trợ ra quyết định vào trong hoạt động thực tiễn. Từ những vấn đề nêu trên, tôi chọn đề tài “Nghiên cứu các luật kết hợp song song trong khai phá dữ liệu” để làm luận văn tốt nghiệp.

Mục tiêu của luận văn  Tìm hiểu khái quát về khai phá dữ liệu trong đó đi sâu về các luật kết hợp.  Tìm hiểu một số mô hình tính toán song song. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2  Nghiên cứu xây dựng các thuật toán luật kết hợp song song trong khai phá dữ liệu.  Cài đặt một số thuật toán song song khai phá dữ liệu và phát hiện luật kết hợp.

Bố cục của luận văn Luận văn chia làm 3 chƣơng: Chƣơng 1: Tổng quan về khai phá dữ liệu Chƣơng này giới thiệu quá trình khai phá dữ liệu và phát hiện tri thức, phƣơng pháp khai phá dữ liệu, ứng dụng và một số khó khăn trong khai phá dữ liệu. Chƣơng 2: Khai phá các luật kết hợp song song Chƣơng này trình bày tóm tắt luật kết hợp, mô hình của bài toán khai phá luật kết hợp, các khái niệm cơ bản luật kết hợp, các phƣơng pháp khai phá các luật kết hợp và khai phá các luật kết hợp song song. Chƣơng 3: Cài đặt thuật toán khai phá các luật kết hợp song song ứng dụng cho bài toán khai phá dữ liệu. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 CHƢƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.

Khai phá dữ liệu 1. Khái niệm Khai phá dữ liệu Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn đƣợc tìm thấy trong các cơ sở dữ liệu và có thể xem nhƣ là một bƣớc trong quá trình khám phá tri thức. Data Mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh, … Giáo sƣ Tom Mitchell [20] đã đƣa ra định nghĩa của Khai phá dữ liệu nhƣ sau: ―Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tƣơng lai.‖ Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [21] đã phát biểu: ―Khai phá dữ liệu, thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trƣớc đây chƣa biết và có khả năng hữu ích, dƣới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.‖ hay nói cách khác ―Khai phá dữ liệu – Data Mining là tiến trình khám phá tri thức tiềm ẩn trong các cơ sở dữ liệu.

Cụ thể hơn, đó là tiến trình trích lọc, sản sinh những tri thức hoặc các mẫu tiềm ẩn, chƣa biết nhƣng hữu ích từ cơ sở dữ liệu lớn‖ [2]. Nói tóm lại, Khai phá dữ liệu là một quá trình học tri thức mới từ những dữ liệu đã thu thập đƣợc [8]–[12]–[15]. Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết định. Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một khối dữ liệu rất lớn.

Tri thức đó thƣờng ở dạng các mẫu tin có tính chất không tầm thƣờng, không tƣờng minh (ẩn), chƣa đƣợc biết đến và có tiềm năng mang lại lợi ích. Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản nhƣ sau: Khai phá dữ liệu đƣợc ví nhƣ tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu rộng lớn. Nhƣ vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ đƣợc chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu.

Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết. Năm 1989, Fayyad, Smyth và Piatestsky-Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD). Trong đó, khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu. Có thể coi khai phá dữ liệu là cốt lõi của quá trình phát hiện tri thức.

Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn nhƣ hình 1. 1 [7] LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 Đánh giá mẫu Khai phá dữ liệu Data Mining Chuyển đổi dữ liệu Làm sạch, Tiền xử lý Chuẩn bị trƣớc dữ TRI THỨC liệu Lựa chọn dữ liệu Gom dữ liệu Internet,. Dữ liệu Hình 1. Quá trình khai phá dữ liệu Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức đƣợc chiết xuất ra.

Về lý thuyết thì có vẽ rất đơn giản nhƣng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vƣớng mắc nhƣ: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình, … 1. Gom dữ liệu (Gathering): Tập hợp dữ liệu là bƣớc đầu tiên trong quá trình khai phá dữ liệu. Đây là bƣớc đƣợc khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. Trích lọc dữ liệu (Selection): Ở giai đoạn này dữ liệu đƣợc lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những ngƣời có tuổi đời từ 25 – 35 và có trình độ đại học.

Làm sạch, tiền xử lý và chuẩn bị trƣớc dữ liệu (Cleaning, Pre-processing and Preparation): Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhƣng thực tế nó là một bƣớc rất quan trọng trong quá trình khai phá dữ liệu. Một số LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 lỗi thƣờng mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logíc. Vì vậy, dữ liệu thƣờng chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên.

Những dữ liệu dạng này đƣợc xem nhƣ thông tin dƣ thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không đƣợc ―làm sạch - tiền xử lý - chuẩn bị trƣớc‖ thì sẽ gây nên những kết quả sai lệch nghiêm trọng. Chuyển đổi dữ liệu (Transformation): Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đƣa ra có thể sử dụng và điều khiển đƣợc bởi việc tổ chức lại nó. Dữ liệu đã đƣợc chuyển đổi phù hợp với mục đích khai thác.

Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): Đây là bƣớc mang tính tƣ duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán khác nhau đã đƣợc sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thƣờng dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, … 6. Đánh giá kết quả mẫu (Evaluation of Result): Đây là giai đoạn cuối trong quá trình khai phá dữ liệu.

Ở giai đoạn này, các mẫu dữ liệu đƣợc chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ƣu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowledge). Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai đoạn đƣợc quan tâm nhiều nhất, đó là khai phá dữ liệu.

Kiến trúc của một hệ thống khai phá dữ liệu  Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or warehouse server): Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của ngƣời dùng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

khai phá dữ liệu và phát hiện tri thức

thuật toán song song trong khai thác luật kết hợp

hệ thống thông tin và xử lý dữ liệu