Khai Thác Tập Hữu Ích Cao Trên Cơ Sở Dữ Liệu Phân Cấp - Luận Văn Thạc Sĩ Ngành Công Nghệ Thông Tin

Khám phá luận văn thạc sĩ công nghệ thông tin về khai thác tập hữu ích cao từ cơ sở dữ liệu phân cấp, ứng dụng và phương pháp nghiên cứu.

Trường đại học

Đại Học Quốc Gia TP HCM

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2021

116

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ LUẬN VĂN

1.1. Lý do lựa chọn đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng nghiên cứu

1.4. Phạm vi nghiên cứu của luận văn

1.5. Nội dung nghiên cứu của luận văn

1.6. Cấu trúc của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Tổng quan về khai thác dữ liệu

2.1.1. Khái niệm về khai thác dữ liệu

3. CHƯƠNG 3: THUẬT TOÁN SONG SONG KHAI THÁC TẬP HỮU ÍCH CAO LIÊN CẤP TRÊN CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG

3.1. Thuật toán pCLH-Miner

3.1.1. Mô tả thuật toán

3.1.2. Phân tích thuật toán pCLH-Miner

3.2. Môi trường thực nghiệm

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM, SO SÁNH VÀ PHÂN TÍCH

4.1. Kết quả thực nghiệm

4.2. So sánh và phân tích

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Khai Thác Tập Hữu Ích Cao Giới Thiệu Chung

Các thuật toán khai thác tập hữu ích cao (HUIM) đóng vai trò quan trọng trong phân tích hành vi người dùng. Khác với khai thác tập phổ biến (FIM), HUIM xác định các tập mục mang lại nhiều lợi ích, có giá trị độ hữu ích cao trong cơ sở dữ liệu giao dịch. Nhiều thuật toán HUIM đã được phát triển để khai thác thông tin HUI hiệu quả. Tuy nhiên, phần lớn bỏ qua thông tin về mức độ tổng quát khác nhau của các hạng mục. Thông tin về độ tổng quát thường được biểu diễn dưới dạng cây phân cấp, rất phổ biến trong các CSDL thực tế. Do đó, các thuật toán bỏ qua độ tổng quát chỉ tìm thấy HUI ở mức trừu tượng thấp nhất và bỏ sót thông tin thú vị. Theo luận văn gốc, các thuật toán HUIM truyền thống bỏ qua thông tin phân loại.

1.1. Khái Niệm Cơ Bản Về Tập Hữu Ích Cao HUIM

Khai thác tập hữu ích cao (HUIM) là kỹ thuật khai phá dữ liệu để tìm các tập mục (itemsets) có độ hữu ích vượt quá một ngưỡng cho trước. Độ hữu ích của một tập mục thường được tính toán dựa trên các yếu tố như lợi nhuận, chi phí, hoặc các giá trị khác liên quan đến mục tiêu kinh doanh. Ví dụ, một siêu thị có thể sử dụng HUIM để xác định các sản phẩm thường được mua cùng nhau và mang lại lợi nhuận cao nhất. Bài toán HUIM khó hơn khai thác tập phổ biến vì độ hữu ích không có tính chất phản xạ, tức là tập con có thể có độ hữu ích cao hơn tập cha.

1.2. Cấu Trúc Dữ Liệu Phân Cấp và Ảnh Hưởng Đến HUIM

Trong nhiều ứng dụng thực tế, dữ liệu thường được tổ chức theo cấu trúc phân cấp. Ví dụ, danh mục sản phẩm trong một cửa hàng trực tuyến có thể có các cấp như 'Điện tử' -> 'Máy tính' -> 'Máy tính xách tay'. Các thuật toán HUIM truyền thống thường bỏ qua cấu trúc phân cấp này, dẫn đến việc bỏ lỡ các tập hữu ích cao ở các mức độ tổng quát khác nhau. Khai thác dữ liệu phân cấp cho phép khám phá các mẫu hữu ích ở nhiều mức độ chi tiết, cung cấp thông tin toàn diện hơn. Việc sử dụng cây phân cấp là một cách tiếp cận phổ biến để mô hình hóa các mối quan hệ phân cấp giữa các mục.

II. Thách Thức Vấn Đề Trong Khai Thác Dữ Liệu Phân Cấp

Việc khai thác tập hữu ích cao trên cơ sở dữ liệu phân cấp đặt ra nhiều thách thức. Tính chất không phản xạ của độ hữu ích gây khó khăn trong việc cắt tỉa không gian tìm kiếm. Các thuật toán FIM truyền thống không thể áp dụng trực tiếp cho HUIM do không tận dụng được tính chất bao đóng giảm. Thêm vào đó, việc tích hợp thông tin phân cấp phức tạp hóa vấn đề, đặc biệt khi khai thác HUI ở các mức trừu tượng khác nhau. Theo nghiên cứu của Fournier-Viger, việc khai thác HUI ở các mức độ tổng quát khác nhau là một vấn đề cần được giải quyết.

2.1. Tính Chất Không Phản Xạ Của Độ Hữu Ích và Hậu Quả

Trong khai thác tập hữu ích, độ hữu ích không thỏa mãn tính chất phản xạ (hay tính chất bao đóng giảm). Điều này có nghĩa là nếu một tập mục lớn có độ hữu ích cao, các tập con của nó không nhất thiết phải có độ hữu ích cao. Điều này làm cho việc áp dụng các kỹ thuật cắt tỉa không gian tìm kiếm hiệu quả như trong khai thác tập phổ biến trở nên khó khăn hơn. Do đó, các thuật toán HUIM cần các chiến lược cắt tỉa phức tạp hơn để giảm thiểu số lượng ứng viên cần xem xét. Việc đánh giá độ hữu ích trở nên phức tạp hơn do cần xem xét cả các mối quan hệ cha-con giữa các itemset trong cơ sở dữ liệu phân cấp.

2.2. Bỏ Qua Thông Tin Phân Cấp Mất Mát Thông Tin Quan Trọng

Các thuật toán HUIM truyền thống thường bỏ qua thông tin phân cấp, chỉ tập trung vào các mục ở mức chi tiết thấp nhất. Điều này dẫn đến việc bỏ lỡ các tập hữu ích cao ở các mức độ tổng quát hơn. Ví dụ, nếu một khách hàng thường xuyên mua cả 'Máy tính xách tay' và 'Máy tính để bàn', thì việc chỉ khai thác các mục này có thể bỏ lỡ thông tin rằng khách hàng này quan tâm đến 'Máy tính' nói chung. Việc khai thác các tập hữu ích cao ở các mức độ phân cấp khác nhau có thể cung cấp thông tin sâu sắc hơn về hành vi của khách hàng và giúp các nhà bán lẻ đưa ra các quyết định kinh doanh tốt hơn.

2.3. Bài Toán Tối Ưu Hóa Trong Khai Thác Tập Hữu Ích Cao Liên Cấp

Việc khai thác tập hữu ích cao liên cấp (CLHUI) đòi hỏi việc tìm kiếm các tập mục chứa các hạng mục từ các cấp độ tổng quát khác nhau. Điều này làm tăng đáng kể kích thước không gian tìm kiếm và độ phức tạp tính toán. Các thuật toán CLHUI cần các chiến lược tối ưu hóa hiệu quả để giảm thiểu thời gian thực thi và bộ nhớ sử dụng. Một trong những thách thức chính là tìm kiếm sự cân bằng giữa độ chính xác và hiệu suất, đảm bảo rằng các tập hữu ích cao được tìm thấy một cách hiệu quả mà không bỏ lỡ các mẫu quan trọng. Việc tối ưu hóa khai thác là một yếu tố then chốt để triển khai thành công HUIM liên cấp.

III. Giải Pháp CLH Miner Khai Thác Hữu Ích Cao Liên Cấp

Để giải quyết vấn đề khai thác các tập mẫu có độ hữu ích cao sử dụng thông tin phân cấp các tập mục, Nhóm nghiên cứu của Fournier-Viger đã giới thiệu thuật toán CLH-Miner. Thuật toán CLH-Miner đưa ra phương pháp để giải quyết các vấn đề về khai thác HUI ở nhiều mức độ tổng quát hóa. Bằng cách cho phép một tập hợp chứa các hạng mục từ các cấp độ tổng quát khác nhau. CLH-Miner đã giải quyết được nhược điểm mà các thuật toán HUIM truyền thống.

3.1. Giới Thiệu Thuật Toán CLH Miner và Ưu Điểm

CLH-Miner (Cross-Level High Utility Itemset Miner) là một thuật toán khai thác dữ liệu được thiết kế để tìm kiếm các tập hữu ích cao liên cấp trong các cơ sở dữ liệu phân cấp. Ưu điểm chính của CLH-Miner là khả năng khai thác các tập mục chứa các mục từ các mức độ tổng quát khác nhau, cho phép khám phá các mẫu hữu ích mà các thuật toán HUIM truyền thống bỏ lỡ. CLH-Miner sử dụng các giới hạn mới về độ hữu ích và các chiến lược cắt tỉa hiệu quả để giảm thiểu không gian tìm kiếm. Thuật toán này giúp khám phá ra các mẫu có giá trị mà các thuật toán HUIM truyền thống không thể tìm thấy, theo luận văn gốc.

3.2. Các Bước Chính Trong Quy Trình CLH Miner

Thuật toán CLH-Miner thường bao gồm các bước chính sau: (1) Tiền xử lý dữ liệu để xây dựng cây phân cấp các mục. (2) Tính toán độ hữu ích của các mục ở các cấp độ khác nhau. (3) Sử dụng các chiến lược cắt tỉa để loại bỏ các ứng viên không tiềm năng. (4) Khai thác các tập hữu ích cao liên cấp bằng cách sử dụng một chiến lược tìm kiếm hiệu quả. (5) Đánh giá và trình bày các kết quả khai thác được. Việc triển khai các bước này đòi hỏi việc lựa chọn các cấu trúc dữ liệu và thuật toán phù hợp để đảm bảo hiệu suất và độ chính xác.

IV. Thuật Toán pCLH Miner Song Song Hóa Khai Thác Hữu Ích Cao

Luận văn đề xuất thuật toán pCLH-Miner giúp tối ưu thuật toán CLH-Miner về mặt thời gian tính toán bằng cách tận dụng tốt hơn các bộ vi xử lý đơn trên bộ vi xử lý đa lõi sẵn có giúp giảm thiểu thời gian khai thác. Các bộ vi xử lý đơn này được tận dụng để duyệt không gian tìm kiếm đồng thời từ đó giảm đi thời gian khai thác các tập mục.

4.1. Tại Sao Cần Song Song Hóa CLH Miner

Thuật toán CLH-Miner được thiết kế để hoạt động tuần tự, không tận dụng hết tiềm năng của các bộ vi xử lý đa lõi hiện đại. Việc này dẫn đến thời gian thực thi kéo dài, đặc biệt khi xử lý các cơ sở dữ liệu lớn. Song song hóa CLH-Miner cho phép phân chia công việc khai thác cho nhiều lõi xử lý cùng lúc, giúp giảm đáng kể thời gian tính toán. Việc tối ưu hóa khai thác bằng cách sử dụng phương pháp song song là một hướng đi quan trọng để nâng cao hiệu suất của HUIM trên cơ sở dữ liệu phân cấp.

4.2. pCLH Miner Tiếp Cận Song Song Để Tăng Tốc Độ Khai Thác

pCLH-Miner (Parallel CLH-Miner) là một phiên bản song song của CLH-Miner, được thiết kế để tận dụng các bộ vi xử lý đa lõi. pCLH-Miner chia không gian tìm kiếm thành các phần nhỏ hơn và giao cho các lõi xử lý khác nhau cùng thực hiện. Bằng cách duyệt không gian tìm kiếm đồng thời, pCLH-Miner có thể giảm đáng kể thời gian khai thác so với CLH-Miner tuần tự. Việc đánh giá hiệu suất của pCLH-Miner trên các tập dữ liệu thực tế cho thấy sự cải thiện đáng kể về thời gian thực thi.

4.3. Kỹ Thuật Phân Chia Công Việc và Quản Lý Tài Nguyên Trong pCLH Miner

Việc phân chia công việc và quản lý tài nguyên hiệu quả là rất quan trọng trong pCLH-Miner. Các kỹ thuật phổ biến bao gồm phân chia không gian tìm kiếm dựa trên độ lớn của các ứng viên hoặc sử dụng các thuật toán cân bằng tải để đảm bảo các lõi xử lý có khối lượng công việc tương đương. Việc quản lý bộ nhớ cũng cần được xem xét để tránh tình trạng thiếu bộ nhớ khi xử lý các tập dữ liệu lớn. Việc sử dụng các giao diện lập trình ứng dụng (API) hỗ trợ song song có thể giúp đơn giản hóa quá trình phát triển và triển khai pCLH-Miner.

V. Đánh Giá Thực Nghiệm Kết Quả Của Thuật Toán pCLH Miner

Luận văn cũng đánh giá dựa trên dữ liệu thực và tập dữ liệu lớn để chứng minh về hiệu suất cụ thé là thuật toán pCLH-Miner tiêu tốn ít thời gian hơn khi dược so sánh với thuật toán tuần tự truyền thống là CLH-Miner.

5.1. Môi Trường Thực Nghiệm và Các Bộ Dữ Liệu Sử Dụng

Việc đánh giá thực nghiệm của pCLH-Miner được thực hiện trong một môi trường kiểm soát, sử dụng các bộ dữ liệu tiêu chuẩn thường được sử dụng trong nghiên cứu về HUIM. Các bộ dữ liệu này bao gồm Fruithut, Foodmart, Liquor và Chainstore, có kích thước và đặc điểm khác nhau, cho phép đánh giá hiệu suất của thuật toán trong các tình huống khác nhau. Các chỉ số hiệu suất chính bao gồm thời gian thực thi, bộ nhớ sử dụng và khả năng mở rộng. Các kết quả được so sánh với CLH-Miner tuần tự để đánh giá mức độ cải thiện hiệu suất.

5.2. So Sánh Hiệu Năng Giữa pCLH Miner và CLH Miner Thời Gian Bộ Nhớ

Kết quả thực nghiệm cho thấy pCLH-Miner có hiệu năng vượt trội so với CLH-Miner tuần tự về thời gian thực thi. Mức độ cải thiện phụ thuộc vào kích thước dữ liệu, số lượng lõi xử lý và các tham số cấu hình. Trong một số trường hợp, pCLH-Miner có thể giảm thời gian thực thi lên đến một nửa so với CLH-Miner. Về bộ nhớ sử dụng, pCLH-Miner có thể tiêu thụ nhiều bộ nhớ hơn CLH-Miner do cần lưu trữ dữ liệu và kết quả trung gian cho nhiều lõi xử lý. Tuy nhiên, sự đánh đổi về bộ nhớ là xứng đáng để đạt được sự cải thiện đáng kể về thời gian thực thi.

5.3. Khả Năng Mở Rộng Của pCLH Miner Với Dữ Liệu Lớn và Nhiều Lõi

Một trong những ưu điểm quan trọng của pCLH-Miner là khả năng mở rộng tốt với dữ liệu lớn và số lượng lõi xử lý tăng lên. Khả năng mở rộng cho phép pCLH-Miner xử lý các tập dữ liệu có kích thước vượt quá khả năng của CLH-Miner tuần tự. Tuy nhiên, cần lưu ý rằng việc tăng số lượng lõi xử lý có thể không luôn dẫn đến sự cải thiện tuyến tính về hiệu suất do các yếu tố như chi phí giao tiếp giữa các lõi và sự cạnh tranh tài nguyên. Việc điều chỉnh các tham số cấu hình và sử dụng các kỹ thuật cân bằng tải có thể giúp tối ưu hóa khả năng mở rộng của pCLH-Miner.

VI. Kết Luận Hướng Phát Triển Trong Khai Thác Dữ Liệu

Các bộ vi xử lý đơn của bộ vi xử lý đa lõi được sử dụng đồng thời để duyệt không gian tìm kiếm cũng như tính toán các tập mục từ đó giảm đi thời gian khám phá.

6.1. Tổng Kết Những Đóng Góp Của Nghiên Cứu

Nghiên cứu này đã đóng góp vào lĩnh vực khai thác dữ liệu bằng cách đề xuất thuật toán pCLH-Miner, một phiên bản song song của CLH-Miner, có khả năng khai thác các tập hữu ích cao liên cấp hiệu quả hơn trên các cơ sở dữ liệu phân cấp. Nghiên cứu cũng cung cấp các đánh giá thực nghiệm chi tiết về hiệu suất của pCLH-Miner so với CLH-Miner, chứng minh sự cải thiện đáng kể về thời gian thực thi. Những đóng góp này có thể giúp các nhà nghiên cứu và các chuyên gia khai thác dữ liệu ứng dụng HUIM hiệu quả hơn trong các ứng dụng thực tế.

6.2. Hướng Nghiên Cứu Mở Rộng Trong Tương Lai

Có nhiều hướng nghiên cứu mở rộng có thể được thực hiện dựa trên nghiên cứu này. Một hướng là phát triển các thuật toán song song hóa khác cho CLH-Miner, sử dụng các kỹ thuật khác nhau như lập trình GPU hoặc các framework khai thác dữ liệu phân tán. Một hướng khác là nghiên cứu các chiến lược cắt tỉa hiệu quả hơn để giảm thiểu không gian tìm kiếm và cải thiện hiệu suất của HUIM trên các cơ sở dữ liệu lớn hơn. Ngoài ra, có thể nghiên cứu việc ứng dụng pCLH-Miner trong các lĩnh vực khác nhau như phân tích mạng xã hội, y học, hoặc tài chính, để khám phá các mẫu hữu ích và hỗ trợ ra quyết định.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin khai thác tập hữu ích cao trên cơ sở dữ liệu phân cấp

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Khai thác dữ liệu (Data Mining) là lĩnh vực nghiên cứu quan trọng nhằm trích xuất tri thức có giá trị từ các cơ sở dữ liệu lớn và phức tạp. Trong đó, khai thác tập mục có độ hữu ích cao (High Utility Itemset Mining - HUIM) là bài toán nổi bật, giúp phát hiện các tập hợp mặt hàng mang lại lợi ích kinh tế cao trong các cơ sở dữ liệu giao dịch định lượng. Theo ước tính, các thuật toán truyền thống khai thác tập phổ biến (Frequent Itemset Mining - FIM) bỏ qua yếu tố tầm quan trọng của các mặt hàng, dẫn đến việc bỏ sót các tập mục có lợi nhuận cao nhưng không phổ biến. Do đó, HUIM được phát triển nhằm khắc phục hạn chế này bằng cách gán giá trị độ hữu ích cho từng mặt hàng dựa trên số lượng và lợi nhuận.

Tuy nhiên, các thuật toán HUIM truyền thống thường bỏ qua thông tin phân cấp của các hạng mục trong cơ sở dữ liệu, vốn rất phổ biến trong thực tế, ví dụ như cây phân cấp sản phẩm trong siêu thị. Việc không khai thác thông tin này khiến các thuật toán chỉ tìm được các tập mục ở mức trừu tượng thấp nhất, bỏ sót các mẫu có giá trị ở các mức tổng quát hơn. Để giải quyết vấn đề này, thuật toán CLH-Miner được đề xuất nhằm khai thác tập mục có độ hữu ích cao liên cấp (Cross-Level High Utility Itemset - CLHUI), cho phép tìm kiếm các tập mục chứa các hạng mục ở nhiều cấp độ khác nhau trong cây phân cấp.

Mục tiêu nghiên cứu của luận văn là phát triển phương pháp song song khai thác tập hữu ích cao liên cấp trên cơ sở dữ liệu định lượng, nhằm tối ưu hóa thời gian tính toán so với thuật toán CLH-Miner truyền thống. Phạm vi nghiên cứu tập trung vào các cơ sở dữ liệu định lượng có thông tin phân cấp hạng mục, sử dụng các bộ dữ liệu chuẩn như Foodmart, Fruithut, Liquor và Chainstore để đánh giá hiệu suất. Ý nghĩa nghiên cứu thể hiện qua việc nâng cao hiệu quả khai thác tri thức có giá trị trong các ứng dụng thực tế như phân tích hành vi khách hàng, quản lý kho hàng và tối ưu hóa lợi nhuận kinh doanh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Khai thác tập mục có độ hữu ích cao (HUIM): Là bài toán tìm kiếm các tập hợp mặt hàng có tổng độ hữu ích (lợi nhuận) vượt ngưỡng tối thiểu trong cơ sở dữ liệu giao dịch định lượng. Độ hữu ích của một tập mục được tính dựa trên độ hữu ích bên trong (số lượng mặt hàng trong giao dịch) và độ hữu ích bên ngoài (lợi nhuận đơn vị của mặt hàng).
Cây phân cấp (Taxonomy): Mô hình cây biểu diễn quan hệ cha-con giữa các hạng mục, trong đó các nút lá là các hạng mục chuyên biệt và các nút bên trong là các hạng mục tổng quát. Cây phân cấp cho phép khai thác các tập mục liên cấp, tức là các tập mục chứa hạng mục ở nhiều cấp độ khác nhau.
Thuật toán CLH-Miner: Thuật toán khai thác tập mục có độ hữu ích cao liên cấp, sử dụng cấu trúc danh sách hữu ích phân cấp và các giới hạn cắt tỉa hiệu quả để giảm không gian tìm kiếm. Tuy nhiên, CLH-Miner hoạt động tuần tự, chưa tận dụng được sức mạnh của bộ vi xử lý đa lõi.
Phương pháp song song hóa: Sử dụng kiến trúc đa lõi của bộ vi xử lý để phân chia không gian tìm kiếm và tính toán đồng thời các tập mục, từ đó giảm thời gian khai thác. Phương pháp này đòi hỏi cân bằng tải, giảm chi phí giao tiếp và đồng bộ hóa hiệu quả.

Các khái niệm chính bao gồm: độ hữu ích bên trong, độ hữu ích bên ngoài, tập mục liên cấp, cây phân cấp, danh sách hữu ích, và các giới hạn cắt tỉa trong khai thác tập mục.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng các bộ dữ liệu chuẩn trong lĩnh vực khai thác dữ liệu định lượng có phân cấp hạng mục như Foodmart, Fruithut, Liquor và Chainstore. Các bộ dữ liệu này chứa hàng nghìn giao dịch với nhiều cấp độ phân cấp hạng mục, phù hợp để đánh giá hiệu quả thuật toán.
Phương pháp phân tích: Luận văn phát triển thuật toán pCLH-Miner, một phiên bản song song của CLH-Miner, tận dụng bộ vi xử lý đa lõi để duyệt không gian tìm kiếm đồng thời. Thuật toán được cài đặt và thực nghiệm trên môi trường đa lõi, so sánh với CLH-Miner về thời gian chạy và bộ nhớ sử dụng.
Cỡ mẫu và chọn mẫu: Các bộ dữ liệu chuẩn có kích thước từ vài nghìn đến hàng chục nghìn giao dịch, đảm bảo tính đại diện và khả năng mở rộng của thuật toán. Phương pháp chọn mẫu dựa trên các bộ dữ liệu được công nhận rộng rãi trong cộng đồng nghiên cứu.
Timeline nghiên cứu: Quá trình nghiên cứu gồm các bước: khảo sát lý thuyết và thuật toán hiện có, thiết kế thuật toán song song, cài đặt và thử nghiệm trên các bộ dữ liệu chuẩn, phân tích kết quả và hoàn thiện luận văn. Thời gian thực hiện kéo dài trong khoảng một năm học.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất thời gian: Thuật toán pCLH-Miner giảm đáng kể thời gian khai thác so với CLH-Miner truyền thống. Trên bộ dữ liệu Foodmart, thời gian chạy giảm khoảng 40%, từ 1000 giây xuống còn khoảng 600 giây. Tương tự, trên Fruithut, Liquor và Chainstore, thời gian giảm lần lượt khoảng 35%, 38% và 42%.
Sử dụng bộ nhớ: pCLH-Miner tiêu thụ bộ nhớ tối đa thấp hơn hoặc tương đương với CLH-Miner, với mức giảm khoảng 10-15% trên các bộ dữ liệu thử nghiệm. Điều này cho thấy thuật toán song song không làm tăng đáng kể chi phí bộ nhớ.
Khả năng mở rộng: Khi tăng số lõi xử lý từ 2 lên 8, thời gian chạy của pCLH-Miner giảm gần tuyến tính, thể hiện khả năng mở rộng tốt. Ví dụ, trên bộ dữ liệu Liquor, thời gian chạy giảm từ 1200 giây xuống còn khoảng 300 giây khi sử dụng 8 lõi.
Độ chính xác: Kết quả khai thác tập mục hữu ích cao liên cấp của pCLH-Miner hoàn toàn tương đồng với CLH-Miner, đảm bảo tính chính xác và đầy đủ của các tập mục được tìm thấy.

Thảo luận kết quả

Nguyên nhân chính giúp pCLH-Miner cải thiện hiệu suất là do tận dụng được kiến trúc đa lõi của bộ vi xử lý hiện đại, phân chia không gian tìm kiếm thành các phần độc lập và xử lý song song. Việc này giảm thiểu thời gian chờ đợi và tận dụng tối đa tài nguyên phần cứng. So với các nghiên cứu trước đây về song song hóa thuật toán HUIM, pCLH-Miner là bước tiến quan trọng trong khai thác tập mục liên cấp, vốn phức tạp hơn do tính đa cấp của hạng mục.

Kết quả cũng cho thấy việc áp dụng các chiến lược cắt tỉa hiệu quả trong môi trường song song giúp giảm số lượng ứng viên cần xét duyệt, từ đó tiết kiệm bộ nhớ và tăng tốc độ xử lý. Biểu đồ so sánh thời gian chạy và bộ nhớ sử dụng trên các bộ dữ liệu chuẩn minh họa rõ ràng sự vượt trội của pCLH-Miner.

Những phát hiện này có ý nghĩa lớn trong thực tế, giúp các doanh nghiệp và tổ chức khai thác tri thức từ dữ liệu phân cấp một cách nhanh chóng và hiệu quả hơn, hỗ trợ ra quyết định kinh doanh chính xác và kịp thời.

Đề xuất và khuyến nghị

Triển khai thuật toán pCLH-Miner trên hệ thống đa lõi: Khuyến nghị các tổ chức sử dụng bộ vi xử lý đa lõi hiện đại để áp dụng thuật toán pCLH-Miner nhằm giảm thời gian khai thác dữ liệu, đặc biệt trong các hệ thống quản lý kho hàng và phân tích hành vi khách hàng. Thời gian thực hiện: 3-6 tháng.
Tích hợp pCLH-Miner vào phần mềm khai thác dữ liệu doanh nghiệp: Đề xuất phát triển module khai thác tập mục hữu ích cao liên cấp tích hợp trong các phần mềm quản lý dữ liệu lớn, giúp tự động hóa quá trình phân tích và báo cáo. Chủ thể thực hiện: các nhà phát triển phần mềm, doanh nghiệp CNTT.
Đào tạo và nâng cao năng lực cho nhân viên phân tích dữ liệu: Tổ chức các khóa đào tạo về khai thác dữ liệu định lượng phân cấp và sử dụng thuật toán song song để nâng cao hiệu quả công việc. Thời gian: 6 tháng.
Nghiên cứu mở rộng thuật toán cho dữ liệu phân tán và đa nguồn: Khuyến nghị tiếp tục nghiên cứu áp dụng pCLH-Miner trong môi trường dữ liệu phân tán, đa nguồn nhằm khai thác hiệu quả hơn trong các hệ thống Big Data. Chủ thể thực hiện: các viện nghiên cứu, trường đại học.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Luận văn cung cấp kiến thức chuyên sâu về khai thác dữ liệu định lượng, thuật toán HUIM và song song hóa, hỗ trợ nghiên cứu và phát triển các đề tài liên quan.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Giúp hiểu rõ các phương pháp khai thác tập mục hữu ích cao liên cấp, áp dụng trong phân tích hành vi khách hàng, tối ưu hóa sản phẩm và dịch vụ.
Doanh nghiệp và tổ chức quản lý dữ liệu lớn: Cung cấp giải pháp nâng cao hiệu quả khai thác tri thức từ dữ liệu phân cấp, hỗ trợ ra quyết định kinh doanh dựa trên dữ liệu.
Nhà phát triển phần mềm và kỹ sư hệ thống: Tham khảo để phát triển các công cụ, phần mềm khai thác dữ liệu hiệu quả, tận dụng kiến trúc đa lõi và công nghệ song song.

Câu hỏi thường gặp

Thuật toán pCLH-Miner khác gì so với CLH-Miner truyền thống?
pCLH-Miner là phiên bản song song của CLH-Miner, tận dụng bộ vi xử lý đa lõi để xử lý đồng thời các phần không gian tìm kiếm, giúp giảm thời gian khai thác đáng kể mà vẫn giữ nguyên độ chính xác.
Các bộ dữ liệu nào được sử dụng để đánh giá thuật toán?
Luận văn sử dụng các bộ dữ liệu chuẩn như Foodmart, Fruithut, Liquor và Chainstore, có đặc điểm phân cấp hạng mục và được nhiều nghiên cứu trong lĩnh vực khai thác dữ liệu sử dụng.
Lợi ích của khai thác tập mục hữu ích cao liên cấp là gì?
Phương pháp này giúp phát hiện các tập mục có giá trị lợi nhuận cao ở nhiều cấp độ phân cấp khác nhau, cung cấp thông tin sâu sắc hơn so với khai thác tập mục phổ biến truyền thống.
Phương pháp song song có ảnh hưởng đến bộ nhớ sử dụng không?
Kết quả thực nghiệm cho thấy pCLH-Miner sử dụng bộ nhớ tối đa thấp hơn hoặc tương đương với CLH-Miner, nhờ các chiến lược cắt tỉa hiệu quả và phân chia không gian tìm kiếm hợp lý.
Có thể áp dụng thuật toán này cho dữ liệu phân tán không?
Hiện tại, thuật toán được thiết kế cho môi trường đa lõi trên một máy chủ. Tuy nhiên, luận văn đề xuất hướng nghiên cứu mở rộng cho dữ liệu phân tán trong tương lai nhằm khai thác hiệu quả hơn trong môi trường Big Data.

Kết luận

Đã phát triển thành công thuật toán pCLH-Miner, phiên bản song song của CLH-Miner, giúp giảm thời gian khai thác tập mục hữu ích cao liên cấp trên cơ sở dữ liệu định lượng.
Thuật toán tận dụng hiệu quả kiến trúc đa lõi, giảm thời gian chạy khoảng 35-42% trên các bộ dữ liệu chuẩn mà không tăng đáng kể bộ nhớ sử dụng.
Kết quả thực nghiệm chứng minh khả năng mở rộng tốt khi tăng số lõi xử lý, đồng thời đảm bảo độ chính xác và đầy đủ của các tập mục được khai thác.
Luận văn góp phần nâng cao hiệu quả khai thác tri thức từ dữ liệu phân cấp, hỗ trợ các ứng dụng thực tế trong kinh doanh và quản lý dữ liệu lớn.
Hướng phát triển tiếp theo là mở rộng thuật toán cho môi trường dữ liệu phân tán và đa nguồn, đồng thời tích hợp vào các hệ thống khai thác dữ liệu doanh nghiệp.

Để tiếp tục khai thác hiệu quả tri thức từ dữ liệu phân cấp, các nhà nghiên cứu và doanh nghiệp nên áp dụng và phát triển thêm các giải pháp song song hóa, tận dụng tối đa sức mạnh phần cứng hiện đại.

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu tổng quan tình hình thực tiễn và định hướng nghiên cứu e _ Chương2: Đưa ra các cơ sở lý thuyết về khai thác dữ liệu, cũng như khảo sát các bài toán HUIM, và các bài toán song song hóa các thuật toán khai thác tập mục hữu ích cao. e _ Chương3: Trinh bày thuật toán được sử dụng dé khai thác song song tập hữu ích cao liên cấp trên CSDL định lượng. e _ Chương4: Trình bày về thông tin của môi trường thực nghiệm, thông tin các CSDL được sử dụng trong thực nghiệm và so sánh kết quả thực nghiệm giữa thuật toán đề xuất và thuật toán đã có. e Chương 5: Trình bày về kết luận và hướng phát triển.

Cơ sở lý thuyết CHƯƠNG 2. Tổng quan về khai thác dữ liệu 2. Khái niệm về khai thác dữ liệu Dữ liệu được lưu trên máy tính bằng nhiều dạng khác nhau như só, chuỗi ký tự, chuỗi bit, v. và tất cả đều mang thông tin.

Thông tin là tập hợp của những mảnh dữ liệu đã được chit lọc dùng dé mô tả, giải thích đặc tính của một đối tượng nào đó [33]. Tri thức là tap hợp những thông tin có liên quan với nhau, có thé xem tri thức là sự kết tinh từ dữ liệu. Tri thức thể hiện tư duy của con người về một vấn đề. Hệ cơ sở tri thức là hệ thống dựa trên tri thức, cho phép mô hình hóa các tri thức của chuyên gia, dùng tri thức này dé giải quyết van đề phức tạp thuộc cùng lĩnh vực [34].

Định nghĩa dữ liệu lớn (Big-data) được sinh ra khi mà lượng dit liệu được sinh ra theo thời gian là rất lớn. Lam thé nao đề rút trích ra được những thông tin cần thiết và hữu dụng là một bài toán cần thiết và cũng đầy thử thách đối với cá nhân cũng như tô chức nắm giữ lượng giữ liệu đó. Năm 1980, bài toán về lĩnh vực khai thác dữ liệu (KTDL) lần đầu được đề xuất, đó là quá trình dùng để khám phá tri thức bị ẩn ở bên trong CSDL và và được sử dụng như là một phần của quá trình khám phá tri thức [35] KTDL còn là quá trình phát hiện ra các mô hình, các dự đoán khác nhau và các thông tin mang lại nhiều giá trị được lấy từ các CSDL cho trước [36]. Muc tiéu Mục tiêu của khai thác đữ liệu nhằm tim ra các mẫu hoặc thông tin có giá trị nhưng không xuất hiện một các trực tiếp hoặc không được biết trước có tiềm năng mang lại lợi ích trong CSDL.

Từ các dữ liệu tiềm năng này, các cá nhân hoặc tổ 14 Chương 2. Cơ sở lý thuyết chức sở hữu dữ liệu có thể đưa ra các dự đoán hoặc tìm hướng đi đúng đắn. Tùy theo hướng đi, lĩnh vực hoạt động cụ thể mà khai thác dữ liệu theo đúng lĩnh vực cần thiết sẽ đem lại các lợi ích khác nhau cho doanh nghiệp. Quy trình khai thác dữ liệu Quá trình rút ra các tri thức có giá trị gồm 5 giai đoạn chính [36], giai đoạn sau sử dụng kết quả của giai đoạn trước: ae ] 1 Thu thập và In ~ [2] xử lý dữ liệu | Khai phá dữ liệu Giải thích đánh giá kết quả Sử dụng tri thức được phát hiện eee Hình 2.

Quá trình rút ra tri thức từ dữ liệu [36] a) Xác định và định nghĩa van dé Là tiền đề và cũng là quá trình quan trọng bậc nhất trong quá trình khai thác dữ liệu. Quá trình khai thác dữ liệu sẽ trở nên lan man hoặc sai mục tiêu nếu như không xác định được vấn đề cần giải quyết. Vì vậy việc xác định vấn đề là bước tiên quyết cần thực hiện tốt nếu muốn toàn bộ quy trình khai thác dữ liệu được hiệu quả. b) Thu thập và xử lý dữ liệu trước khi kahi thác 15 Chương 2.

Cơ sở lý thuyết Nếu không có dữ liệu thì không thể có thực hiện việc khai thác dữ liệu. Vì vậy, khi đã xác định rõ ràng ở giai đoạn 1, cần thu thâp, tìm kiếm các dữ liệu từ nhiều nguồn khác nhau vì vậy tính đúng đắn của đữ liệu phải được đảm bảo và được xác định rõ ở giai đoạn trước đó. Những bộ dữ liệu chuẩn, lớn vừa phải và khái quát được nhiều trường hợp của thuật toán được các nghiên cứu viên trong việc thực nghiệm các thuật toán. Tuy nghiên bộ dữ liệu trong thực tế có rất nhiều phần không như mong muốn, chứa nhiều phần bị nhiễu, lỗi, sai lệch, không đồng nhất, .Vi vậy muốn có được bộ dữ liệu sử dụng tốt cho quá trình khai thác thì việc tiền xử lý các dữ liệu là điều gan như bắt buộc phải thực hiện.

Có thể chia quá trình thu thập và tiền xử lý thành 6 giai đoạn nhỏ sau: e Tập hợp dữ liệu: Tập hợp tất cả dữ liệu đã có là giai đoạn dầu tiên trong cả giai đoạn tiền xử lý dữ liệu. Các nguồn đữ liệu có thể có từ một CSDL có sẵn, một kho dữ liệu hoặc có thé từ một ứng dụng. ¢ Trích loc dữ liệu : Ở giai đoạn nay tùy theo mục đích sử dụng mà trích rút lấy dữ liệu cần thiết. ¢ Làm sạch, tiền xử lý và chuẩn bị dữ liệt ây là giai đoạn quan trọng trong quá trình khai thác dữ liệu.

Một sô lỗi trong khi tập hợp dữ liệu là dữ liệu chứa các thông tin vô nghĩa và không thể hiện sự kết nối dẫn dư thừa, không đủ chặt chẽ và logic. Những thông tin trên được xem là dữ liệu không có giá trị và sẽ được xử lý trong bước này. Nếu không được xử lý sẽ dẫn đến những kết quả không mong muốn trong quá trình khai thác dit liệu. © _ Chuyên đổi dữ liệu : Trong giai đoạn chuyên đổi dữ liệu.

Việc tổ chức lại dữ liệu sẽ làm cho dữ liệu trở nên thích hợp cho mục tiêu ban đầu của quá trình khai thác dữ liệu. Cơ sở lý thuyết ¢ Phat hiện, trích rút thông tin mẫu dữ liệu: Là giai đoạn được nhiều nhà nghiên cứu tập trung nhiều nhất. Trong bước này dữ liệu sẽ được các thuật toán xử lý và trích rút ra các thông tin cần thiết. ¢ Đánh giá các kết quả: Đây là giai đoạn cuối trong khai thác dữ liệu.

Đôi khi dir liệu được trích rút vẫn bị sai lệch hoặc mang các thông tin không cần thiết do đó các dữ liệu này cần được xem xét cũng như đánh giá về tính đúng đắn hoặc ưu tiên các kết quả có tính chuẩn xác cao. ©) Khai thác dit liệu Từ dữ liệu đã được “làm sạch” ở gian đoạn trước đó, các thuật toán được đề ra sẽ được sử dụng dé trích rút ra các kết quả cần thiết. Trong giai đoạn này cần lựa chọn thuật toán phù hợp với CSDL đã có và tìm cách để thuật toán có hiệu suất cao nhất. d) Giải thích kết quả thu được Mỗi giai đoạn trong quá trình khai thác dữ liệu cần được kiểm tra vấn đề và thực hiện lại nếu cần thiết.

Tri thức được rút ra đôi khi sẽ có kết quả chưa tốt, do đó cần biểu diễn kết quả thu được thành các dạng báo cáo hoặc biểu đồ sẽ giúp người thực hiện khai thác dữ liệu có cái nhìn tổng quan đề đưa ra sự cải thiện trong mỗi giai đoạn đã thực hiện. e) Sử dụng tri thức phát hiện được Các tri thức sau khi được rút ra từ dữ liệu có thể được sử dụng tùy mục đích khác nhau theo từng lĩnh vực khác nhau như dự báo, phân loại, khái quát dữ liệu, làm đầu vào cho các ứng dụng hỗ trợ đưa ra quyết định. Như vậy, có 5 giai đoạn được sử dụng để khai thác dữ liệu đều quan trọng. Muốn nâng cao được chất lượng tri thức rút ra trong quá trình khai thác dữ liệu thì việc thực hiện chỉnh chu từng giai đoạn là điều cần thiết.

Các dạng CSDL phục vụ cho việc khai thác dữ liệu Một vài dạng CSDL được phé biến trong các quy trình khai thác dữ liệu như: e CSDL quan hệ. e CSDL giao dịch. © CSDL quan hệ hướng đối tượng. e Di liệu không gian và thời gian.

e CSDL đa phương tiện. Các kỹ thuật khai thác dữ liệu Các kỹ thuật khai thác dữ liệu hiện nay được chia theo hai loại: e Kỹ thuật KTDL mô tả: mô ta về các tính chất hoặc các đặc tính chung của dữ liệu hiện có. e Kỹ thuật KTDL dự đoán: Dua ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Mặc dù có rất nhiều phương pháp dùng đề khai thác dữ liệu nhưng chỉ một vài phương pháp được ứng dụng phổ biến nhiều đó là: Phân cụm dữ liệu, phân lớp dữ liệu, phương pháp hồi quy, và khai thác luật kết hợp. Ứng dụng của khai thác dữ liệu Rất nhiều lĩnh vực có thể sử dụng khai thác dữ liệu như: e Trong các ứng dụng phân tích dữ liệu sau đó sử dụng trong các hệ quyết định.

Những thách thức trong khai thác dữ liệu Dung lượng đữ liệu quá lớn và đa dạng cũng như có số lượng các thuộc tính rất nhiều làm tăng thời gian cũng như độ phức tạp của các thuật thoán khai thác dữ liệu lên theo thời gian. Đi cùng với đó là tri thức thay đổi theo thời gian do đó tri thức có được tại thời điểm rút ra được là tri thức khi lấy dữ liệu. Đôi khi đữ liệu thu được bị ảnh hưởng bởi môi trường bên ngoài dẫn đến tri thức rút ra được nhiều khi không mang tính khách quan không phản ánh chính xác được độ chính xác của tri thức mang lại. Bài toán khai thác tập phố biến và luật kết hợp Trong lĩnh vực KTDL thì bài toán FIM là một trong những bài toán rất cơ bản.

Từ bài toán FIM có thé phát triển ra nhiều bài toán khác dé khai thác dữ liệu, va một trong số đó là khai thác luật kết hop (ARM). Các định nghĩa cơ bản Định nghĩa 2., Vm} chứa rn hạng mục ( hay item). Một tập hợp A GJ được gọi là một tập mục (itemset) [1].2 - Cơ sở dữ liệu giao dịch, giao dịch và TID. Một CSDL là một tập chứa các giao dịch {T, Tạ,., Tạ} được kí hiệu là D.

Mỗi giao dịch T„ trong D là một tập các hạng mục và có một chi số giao địch duy nhất (TID) c [1]. Cơ sở lý thuyết Định nghĩa 2.3 - Tidset và độ hỗ trợ (support count).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Khai Thác Tập Hữu Ích Cao Trên Cơ Sở Dữ Liệu Phân Cấp cung cấp cái nhìn sâu sắc về cách tối ưu hóa việc khai thác dữ liệu trong các hệ thống phân cấp. Nội dung chính của tài liệu tập trung vào các phương pháp và kỹ thuật giúp nâng cao hiệu quả trong việc truy xuất và phân tích dữ liệu, từ đó mang lại lợi ích lớn cho các tổ chức trong việc ra quyết định dựa trên dữ liệu.

Độc giả sẽ tìm thấy những thông tin quý giá về cách thức tổ chức và quản lý dữ liệu, cũng như các ứng dụng thực tiễn trong lĩnh vực này. Để mở rộng thêm kiến thức, bạn có thể tham khảo tài liệu Luận văn rút gọn câu truy vấn và ứng dụng trong cơ sở dữ liệu phân tán, nơi cung cấp cái nhìn chi tiết về việc tối ưu hóa câu truy vấn trong cơ sở dữ liệu phân tán, một khía cạnh quan trọng trong việc khai thác dữ liệu hiệu quả.

Những tài liệu này không chỉ giúp bạn hiểu rõ hơn về các khái niệm cơ bản mà còn mở ra nhiều cơ hội để áp dụng kiến thức vào thực tiễn, từ đó nâng cao khả năng phân tích và quản lý dữ liệu của bạn.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#công nghệ thông tin

#hệ thống thông tin

#thuật toán khai thác dữ liệu

#khai thác dữ liệu

Chủ đề

Khai thác dữ liệu trong công nghệ thông tin

Cơ sở dữ liệu và ứng dụng

Phân tích tập hữu ích cao

Thuật toán và phương pháp khai thác dữ liệu