Khai thác tập mục hữu ích cao trên môi trường tính toán song song

Tài liệu nghiên cứu Khai thác các tập hữu ích cao trên môi trường tính toán song song, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về môi trường.

Trường đại học

Trường Đại học Công nghiệp Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2024

161

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

TÓM TẮT LUẬN ÁN TIẾN SĨ

ABSTRACT

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Các nghiên cứu liên quan

1.2. Bài toán khai thác tập mục hữu ích cao

1.3. Bài toán khai thác tập mục hữu ích cao với biểu diễn đóng

1.4. Bài toán khai thác tập mục hữu ích cao trên CSDL phân cấp

1.5. Bài toán khai thác song song các tập mục hữu ích cao

1.6. Các bài toán khai thác tập mục hữu ích cao khác

2. CHƯƠNG 2: KHAI THÁC HIỆU QUẢ TẬP MỤC HỮU ÍCH CAO ĐÓNG TỪ CƠ SỞ DỮ LIỆU CÓ ĐỘ HỮU ÍCH BIẾN ĐỘNG

2.1. Giới thiệu bài toán

2.2. Một số định nghĩa cơ sở

2.3. Cải thiện hiệu năng quét CSDL

2.4. Giải thuật iEFIM-Closed

2.5. Đánh giá mức độ hiệu quả của P-set

2.6. Đánh giá độ phức tạp của giải thuật iEFIM-Closed

2.6.1. Môi trường thực nghiệm

2.6.2. Cơ sở dữ liệu thực nghiệm

2.6.3. Phương pháp đánh giá

2.6.4. Thời gian thực hiện

2.6.5. Mức độ sử dụng bộ nhớ

2.6.6. Chi phí quét CSDL

2.6.7. Khả năng thích nghi với việc mở rộng CSDL

2.6.8. Kết chương

3. CHƯƠNG 3: MÔ HÌNH SONG SONG HÓA KHAI THÁC TẬP MỤC HỮU ÍCH CAO ĐA MỨC

3.1. Giải thuật MCML-Miner

3.2. Một số định nghĩa

3.3. Mô hình song song hoá quá trình khai thác tập mục hữu ích cao đa mức trên CSDL phân cấp

3.4. Khai thác song song các tập mục hữu ích cao đa mức từ CSDL phân cấp

3.5. Khai thác tập mục hữu ích cao đa mức - đóng từ CSDL phân cấp

3.5.1. Kiểm tra nhanh tính đóng của một tập mục

3.5.2. Giải thuật MLC-Miner

3.5.3. Độ phức tạp của giải thuật MLC-Miner

3.6. Khai thác song song các tập mục hữu ích cao đa mức - đóng

3.6.1. Giải thuật PMLC-Miner

3.6.2. Độ phức tạp của giải thuật PMLC-Miner

3.7. Kết chương

4. CHƯƠNG 4: CẢI THIỆN HIỆU QUẢ MÔ HÌNH KHAI THÁC SONG SONG CÁC TẬP MỤC HỮU ÍCH CAO ĐA MỨC

4.1. Giải thuật MCML+

4.2. Giải thuật MCML++

4.3. Môi trường và CSDL thực nghiệm

4.4. Đánh giá về thời gian thực hiện

4.5. Đánh giá về mức độ sử dụng bộ nhớ

4.6. Đánh giá về khả năng thích nghi với việc mở rộng CSDL

4.7. So sánh giữa các chiến lược điều phối

4.8. Kết chương

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. So sánh với các nghiên cứu trước đây

5.2. Phân tích hiệu quả của các giải thuật đề xuất

5.3. Hạn chế của nghiên cứu

5.4. Vấn đề phát sinh và cách giải quyết

5.5. Ý nghĩa của nghiên cứu

5.6. Hướng phát triển trong tương lai

5.6.1. Nghiên cứu và phát triển chiến lược cân bằng tải

5.6.2. Mở rộng mô hình xử lý song song trên môi trường phân tán

5.6.3. Tích hợp các phương pháp học sâu vào khai thác dữ liệu

5.6.4. Ứng dụng trong các lĩnh vực thực tiễn

5.6.5. Tăng cường tính khả mở của giải thuật

5.6.6. Phân tích và cải thiện các tiêu chí đánh giá

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA HỌC VIÊN

1. Các công trình là tác giả chính

2. Các công trình đồng tác giả

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Khai Thác Tập Mục Hữu Ích Cao HUIM

Bài toán khai thác tập phổ biến (FIM) được Agrawal và cộng sự đề xuất năm 1993, mở ra hướng phân tích hành vi khách hàng trong bán lẻ và thương mại điện tử. FIM phân tích các giao dịch để tìm ra những mặt hàng hoặc kết hợp mặt hàng thường được mua cùng nhau, gọi là "phổ biến" nếu tần suất vượt ngưỡng tối thiểu. Ngưỡng này, ký hiệu 𝑚𝑖𝑛𝑠𝑢𝑝, quyết định độ phổ biến. Để tổng quát, mặt hàng gọi là hạng mục và kết hợp mặt hàng là tập mục. Kết quả FIM tạo ra các luật kết hợp, giúp nhà quản lý hiểu quy luật kinh doanh hiệu quả hơn. Từ khi ra đời, FIM thu hút sự quan tâm lớn. Đầu vào là CSDL giao dịch và ngưỡng 𝑚𝑖𝑛𝑠𝑢𝑝, đầu ra là tập mục phổ biến. Nhiều nghiên cứu đã cải tiến FIM. Nhược điểm lớn nhất của FIM là chỉ xét tần suất, coi mọi hạng mục quan trọng như nhau, bỏ qua nhiều thông tin hữu ích khác trong CSDL giao dịch.

1.1. Ý nghĩa của Khai Thác Tập Mục Frequent Itemset Mining

Khai thác tập mục (FIM) là nền tảng cho nhiều ứng dụng phân tích dữ liệu. Nó giúp xác định các mối quan hệ ẩn giữa các mục trong một tập dữ liệu lớn. Điều này có giá trị trong việc đưa ra quyết định kinh doanh, cải thiện trải nghiệm người dùng, và phát hiện gian lận. Tuy nhiên, FIM truyền thống bỏ qua các yếu tố quan trọng như giá trị lợi nhuận của từng sản phẩm, khiến cho kết quả đôi khi không phản ánh đúng thực tế.

1.2. Hạn chế của FIM và Sự ra đời của HUIM High Utility Itemset Mining

FIM chỉ tập trung vào tần suất xuất hiện của các hạng mục, bỏ qua lợi nhuận hoặc giá trị mà mỗi hạng mục mang lại. Điều này dẫn đến việc các hạng mục có lợi nhuận thấp nhưng tần suất cao lại được ưu tiên hơn các hạng mục có lợi nhuận cao nhưng tần suất thấp. Để khắc phục hạn chế này, HUIM ra đời. HUIM xem xét cả số lượng và giá trị của từng hạng mục, từ đó xác định các tập mục mang lại lợi nhuận cao nhất cho doanh nghiệp. Theo tài liệu gốc, FIM chỉ quan tâm đến tần suất xuất hiện của các hạng mục và tập mục trong CSDL.

II. Thách Thức trong Khai Thác Tập Mục Hữu Ích Cao Song Song

Mặc dù HUIM (High Utility Itemset Mining) khắc phục được hạn chế của FIM bằng cách xem xét giá trị và số lượng của các hạng mục, việc triển khai HUIM song song vẫn còn nhiều thách thức. Các thuật toán HUIM thường có độ phức tạp tính toán cao, đặc biệt khi xử lý các CSDL lớn. Việc song song hóa các thuật toán này đòi hỏi phải phân chia công việc một cách hiệu quả để giảm thiểu thời gian thực hiện và tránh lãng phí tài nguyên. Hơn nữa, việc đồng bộ hóa giữa các tiến trình song song có thể gây ra overhead, làm giảm hiệu năng tổng thể. Do đó, cần có các phương pháp và kỹ thuật tối ưu hóa để khai thác hiệu quả sức mạnh của các hệ thống tính toán song song.

2.1. Độ phức tạp tính toán của HUIM High Utility Itemset Mining

HUIM có độ phức tạp tính toán cao hơn FIM do phải tính toán độ hữu ích của từng tập mục. Điều này đòi hỏi phải quét CSDL nhiều lần và thực hiện các phép tính phức tạp. Độ phức tạp này càng tăng lên khi kích thước CSDL và số lượng hạng mục tăng lên. Do đó, cần có các thuật toán và kỹ thuật tối ưu hóa để giảm thiểu độ phức tạp tính toán của HUIM.

2.2. Vấn đề đồng bộ hóa trong khai thác song song Parallel processing

Khi triển khai HUIM song song, cần phải đồng bộ hóa giữa các tiến trình để đảm bảo tính nhất quán của dữ liệu và tránh các lỗi xung đột. Việc đồng bộ hóa có thể gây ra overhead, làm giảm hiệu năng tổng thể. Cần có các kỹ thuật đồng bộ hóa hiệu quả để giảm thiểu overhead và tối ưu hóa hiệu năng khai thác song song.

2.3. Cân bằng tải trong môi trường tính toán song song optimization

Trong môi trường tính toán song song, việc cân bằng tải là rất quan trọng để đảm bảo tất cả các tiến trình đều được sử dụng hiệu quả. Nếu một tiến trình phải xử lý nhiều công việc hơn các tiến trình khác, nó sẽ trở thành nút thắt cổ chai, làm giảm hiệu năng tổng thể. Cần có các chiến lược cân bằng tải để phân chia công việc một cách đồng đều giữa các tiến trình.

III. iEFIM Closed Khai Thác Tập Mục Hữu Ích Cao Đóng Hiệu Quả

Luận án đề xuất mô hình cho phép khai thác hiệu quả các tập mục hữu ích cao đóng từ CSDL có chứa các hạng mục với độ hữu ích động trong quá trình khai thác nhằm phản ánh sát hơn nữa các CSDL trong thực tế. Đóng góp này áp dụng mô hình độ hữu ích động kết hợp với phương pháp để giảm chi phí quét CSDL nhằm cải thiện hiệu năng của quá trình khai thác tập mục hữu ích cao đóng. Chương 2 trình bày nghiên cứu và mô hình đề xuất thông qua giải thuật iEFIM-Closed.

3.1. Mô hình độ hữu ích động dynamic utility values trong iEFIM Closed

Mô hình độ hữu ích động cho phép độ hữu ích của các hạng mục thay đổi trong quá trình khai thác. Điều này phản ánh thực tế là giá trị của các sản phẩm có thể thay đổi theo thời gian do các yếu tố như cung cầu, cạnh tranh, và xu hướng thị trường. iEFIM-Closed sử dụng mô hình này để xác định các tập mục thực sự có giá trị cao.

3.2. Giảm chi phí quét CSDL với iEFIM Closed data mining

iEFIM-Closed sử dụng các kỹ thuật để giảm thiểu số lần quét CSDL, từ đó giảm chi phí tính toán và cải thiện hiệu năng. Một trong những kỹ thuật này là sử dụng cấu trúc dữ liệu P-set để lưu trữ thông tin về các tập mục tiềm năng và chỉ quét CSDL khi cần thiết.

3.3. Giải thuật iEFIM Closed Chi tiết và Phân tích frequent itemset mining algorithms

Giải thuật iEFIM-Closed là một thuật toán hiệu quả để khai thác các tập mục hữu ích cao đóng từ các CSDL có độ hữu ích động. Thuật toán này sử dụng các kỹ thuật tối ưu hóa để giảm thiểu chi phí tính toán và đảm bảo rằng chỉ các tập mục thực sự có giá trị cao mới được khai thác.

IV. MCML Miner Xử Lý Song Song Khai Thác Tập Mục Đa Mức

Luận án mở rộng bài toán để áp dụng với dạng CSDL có sự phân cấp các hạng mục dựa trên các nghiên cứu từ Đóng góp thứ nhất, và đề xuất mô hình xử lý song song đa nhân để giải quyết bài toán này thông qua việc tận dụng năng lực xử lý của các CPU đa nhân để giảm chi phí về mặt thời gian. Nội dung của đóng góp được trình bày tại Chương 3. Thực nghiệm cho thấy mô hình đề xuất có sự cải thiện rõ rệt về thời gian khai thác.

4.1. Mô hình CSDL phân cấp hierarchical databases và ứng dụng

CSDL phân cấp là một loại CSDL trong đó các hạng mục được tổ chức theo một cấu trúc cây. Điều này cho phép khai thác các tập mục ở nhiều mức độ chi tiết khác nhau. Ví dụ, trong một CSDL bán lẻ, các sản phẩm có thể được phân loại theo danh mục, loại sản phẩm, và nhãn hiệu. Mô hình CSDL phân cấp cho phép khai thác các tập mục ở các mức độ khác nhau, ví dụ như 'khách hàng thường mua sản phẩm từ danh mục A và loại sản phẩm B'.

4.2. Tối ưu hiệu năng nhờ xử lý song song đa nhân parallel processing

MCML-Miner tận dụng sức mạnh của các CPU đa nhân để xử lý song song các tác vụ khai thác tập mục. Điều này giúp giảm đáng kể thời gian thực hiện, đặc biệt khi xử lý các CSDL lớn. Giải thuật này chia nhỏ bài toán thành các tác vụ nhỏ hơn và phân phối chúng cho các nhân xử lý khác nhau.

4.3. Giải thuật MCML Miner Multi Core Multi Level HUI Miner Phân tích chuyên sâu

Giải thuật MCML-Miner là một giải thuật hiệu quả để khai thác các tập mục hữu ích cao đa mức từ các CSDL phân cấp. Thuật toán này sử dụng các kỹ thuật tối ưu hóa để giảm thiểu chi phí tính toán và tận dụng sức mạnh của các CPU đa nhân. MCML-Miner bao gồm các giai đoạn như tiền xử lý, khai thác tập mục tiềm năng, và đánh giá độ hữu ích.

V. MCML MCML Cải Tiến Mô Hình Khai Thác Song Song Đa Mức

Dựa trên các kết quả nghiên cứu từ Đóng góp thứ 2 và Đóng góp thứ nhất, luận án triển khai việc áp dụng mô hình xử lý song song trên nhiều giai đoạn khác nhau của quá trình khai thác, triển khai sâu hơn nữa mô hình song song trong quá trình khai thác. Ngoài ra, một chiến lược điều phối cũng được đề xuất để giảm thời gian chờ giữa các tác vụ song song. Toàn bộ đóng góp thứ ba nhắm đến việc tận dụng triệt để hơn nữa sức mạnh xử lý của các CPU đa nhân với chi phí phù hợp vào bài toán khai thác tập mục hữu ích cao từ định dạng CSDL phân cấp, có độ hữu ích động. Thực nghiệm cho thấy với mô hình được đề xuất trong Đóng góp thứ ba, hiệu năng khai thác của bài toán được nâng lên đáng kể so với tiếp cận không song song, đặc biệt trên các CSDL có kích thước lớn.

5.1. MCML Tối ưu hóa khai thác song song đa mức optimization

MCML+ là một phiên bản cải tiến của MCML-Miner, tập trung vào việc tối ưu hóa quá trình khai thác song song đa mức. Giải thuật này sử dụng các kỹ thuật để giảm thiểu thời gian chờ giữa các tác vụ song song và cải thiện hiệu quả sử dụng tài nguyên CPU.

5.2. MCML Chiến lược điều phối tác vụ thông minh parallel processing

MCML++ tiếp tục cải tiến MCML+ bằng cách áp dụng các chiến lược điều phối tác vụ thông minh. Các chiến lược này giúp phân bổ công việc một cách hiệu quả giữa các nhân xử lý và giảm thiểu thời gian thực hiện tổng thể.

5.3. So sánh hiệu năng giữa MCML MCML và MCML

Luận án cung cấp các kết quả thực nghiệm so sánh hiệu năng của MCML, MCML+, và MCML++ trên các CSDL khác nhau. Kết quả cho thấy MCML+ và MCML++ có hiệu năng tốt hơn MCML, đặc biệt trên các CSDL lớn và phức tạp.

VI. Kết Luận và Hướng Phát Triển Cho Khai Thác Tập Mục Hữu Ích

Luận án đã đề xuất các mô hình và giải thuật hiệu quả để khai thác tập mục hữu ích cao trên môi trường tính toán song song. Các giải thuật iEFIM-Closed, MCML-Miner, MCML+, và MCML++ đã chứng minh được khả năng cải thiện hiệu năng khai thác, đặc biệt trên các CSDL lớn và phức tạp. Nghiên cứu này có ý nghĩa thực tiễn trong nhiều lĩnh vực như phân tích giỏ hàng, phân tích web, và phân tích dữ liệu y tế. Hướng phát triển trong tương lai bao gồm nghiên cứu các chiến lược cân bằng tải, mở rộng mô hình xử lý song song trên môi trường phân tán, và tích hợp các phương pháp học sâu vào khai thác dữ liệu.

6.1. Ứng dụng thực tiễn của HUIM trong các lĩnh vực khác nhau applications of frequent itemset mining

HUIM có thể được ứng dụng trong nhiều lĩnh vực khác nhau như phân tích giỏ hàng trong bán lẻ, phân tích hành vi người dùng trên web, và phân tích dữ liệu y tế để phát hiện các mối quan hệ giữa các bệnh và các yếu tố rủi ro.

6.2. Nghiên cứu và phát triển chiến lược cân bằng tải optimization

Cân bằng tải là một vấn đề quan trọng trong xử lý song song. Các chiến lược cân bằng tải giúp phân phối công việc một cách đồng đều giữa các nhân xử lý và giảm thiểu thời gian thực hiện tổng thể.

6.3. Tích hợp học sâu vào khai thác tập mục hữu ích data mining

Học sâu là một lĩnh vực phát triển nhanh chóng và có nhiều tiềm năng ứng dụng trong khai thác dữ liệu. Việc tích hợp các phương pháp học sâu vào khai thác tập mục hữu ích có thể giúp cải thiện độ chính xác và hiệu quả của quá trình khai thác.

13/05/2025

Bạn đang xem trước tài liệu:

Khai thác các tập hữu ích cao trên môi trường tính toán song song

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Bài toán khai thác tập phổ biến (FIM) được Agrawal và đồng sự đề xuất vào năm 1993 [1] nhằm phân tích hành vi khách hàng, phân tích giỏ hàng trong các cửa hàng bán lẻ, các sàn giao dịch thương mại điện tử, v.v… Mỗi khi khách hàng mua sắm tại cửa hàng và thanh toán tại quầy thu ngân, một giao dịch giữa khách hàng và cửa hàng sẽ được phát sinh. Các giao dịch này thường được quản lý bên trong một CSDL giao dịch. Qua thời gian, lượng giao dịch tích lũy trong CSDL sẽ ngày càng lớn. Mục tiêu của bài toán FIM là thực hiện phân tích các giao dịch giữa khách hàng và cửa hàng bán lẻ trong CSDL để có thể tìm ra các tri thức ẩn chứa bên trong nguồn dữ liệu này.

Cụ thể, FIM có thể xác định được những mặt hàng hoặc những kết hợp giữa các mặt hàng nào thường hay được người dùng chọn mua. Các kết hợp này nếu có tần suất xuất hiện thỏa mãn một ngưỡng tối thiểu cho trước, thì được gọi là “phổ biến”. Ngưỡng tối thiểu cho trước này được gọi là ngưỡng độ hỗ trợ tối thiểu, và thường được ký hiệu là 𝑚𝑖𝑛𝑠𝑢𝑝 hoặc 𝜎. Để không làm mất tính tổng quát của bài toán, các mặt hàng được thống nhất sử dụng thông qua thuật ngữu hạng mục và kết hợp giữa các mặt hàng là tập mục.

Kết quả thu được từ bài toán FIM được sử dụng để sinh ra tập các luật kết hợp, giúp cho nhà quản lý có thể nắm được các quy luật kết hợp nào giữa các hạng mục hoặc tập mục có độ tin cậy cao để thúc đẩy việc kinh doanh hiệu quả hơn [1]. Kể từ khi được đề xuất vào năm 1993 [1], FIM dần thu hút được nhiều sự quan tâm từ cộng đồng nghiên cứu về khai thác dữ liệu nói chung và khai thác mẫu nói riêng. Bài toán này nhận hai tham số đầu vào. Tham số đầu vào thứ nhất của bài toán là một CSDL giao dịch như đã nêu, tham số đầu vào thứ hai là ngưỡng 𝑚𝑖𝑛𝑠𝑢𝑝.

Kết quả nhận được của bài toán FIM là tập đầy đủ các tập mục có tần suất xuất hiện không bé hơn ngưỡng 𝑚𝑖𝑛𝑠𝑢𝑝 đã cho, và được gọi là các tập mục phổ biến. Nhiều tiếp cận, 1 mô hình, giải thuật đã được đề xuất nhằm hướng đến việc giải quyết hiệu quả bài toán này [2–12]. Nhược điểm lớn nhất của bài toán FIM là chỉ quan tâm đến tần suất xuất hiện của các hạng mục và tập mục trong CSDL đang xét. Các hạng mục này được FIM xem như có tầm quan trọng như nhau.

Đối với bài toán FIM, tại mỗi giao dịch, các hạng mục chỉ có thể thuộc một trong hai trạng thái đó là tồn tại hoặc không tồn tại trong giao dịch đó. Do đó, các thông tin hữu ích khác trong CSDL giao dịch không được xem xét. Trong thực tế, các thông tin này cũng mang lại nhiều tri thức quan trọng và hữu ích cho quá trình khai thác dữ liệu. Một loại thông tin không kém phần quan trọng đối với quá trình khai thác dữ liệu từ CSDL giao dịch, đó là mức độ quan trọng của các hạng mục trong mỗi giao dịch.

Xét ví dụ, với một giao dịch được phát sinh khi khách hàng tiến hành mua sắm tại một cửa hàng bán lẻ, giao dịch này thường chứa các thông tin như số lượng mỗi mặt hàng đã được chọn mua, đơn giá, mức thuế tương ứng của chúng, v.v… Các tiếp cận đã đề xuất trong bài toán khai thác tập phổ biến đều bỏ qua các thông tin này. Kết quả là các giải thuật FIM thường tạo ra các tập mục có tần suất xuất hiện lớn (mức độ phổ biến cao). Tuy nhiên, doanh thu mà chúng mang lại là không được xem xét đến. Một ví dụ cụ thể, tại một sàn giao dịch điện tử có kinh doanh nhiều mặt hàng liên quan đến lĩnh vực Tin học.

Trong số các mặt hàng kinh doanh, các sản phẩm mang lại giá trị doanh thu thấp như bàn phím, chuột, thẻ nhớ hoặc các linh kiện khác thường được người dùng chọn mua nhiều; các sản phẩm có giá trị doanh thu cao như hệ thống máy trạm, máy chủ, v.v… lại thường ít được người dùng thông thường chọn mua. Khi ta đưa CSDL giao dịch của sàn giao dịch điện tử này làm đầu vào của vào bài toán FIM, kết quả thu được sẽ không chứa các mặt hàng hoặc sản phẩm có giá trị doanh thu cao mà chỉ chứa các sản phẩm thường được khách hàng lựa chọn mua nhiều. Các mặt hàng này mặc dù thường hay xuất hiện trong các giao dịch của CSDL, nhưng doanh thu của chúng mang lại cho đơn vị kinh doanh là không nhiều. 2 Có thể nhận thấy, khi áp dụng bài toán FIM vào trong một số ứng dụng thực tế, hạn chế của bài toán này được bộc lộ rõ.

Từ đó, một bài toán khác mở rộng dựa trên bài toán FIM đã được giới thiệu. Bài toán này có tên gọi là bài toán khai thác tập mục hữu ích cao (HUIM) [13]. Tương tự như FIM, bài toán HUIM cũng nhận được nhiều sự quan tâm, khảo sát từ các nhà nghiên cứu [14–21]. Nhược điểm quan trọng đã nêu của bài toán FIM được xác định là mục tiêu chính của bài toán HUIM.

Thay vì chỉ là liệt kê danh sách các hạng mục được chọn mua dưới dạng giao dịch, bài toán HUIM mở rộng CSDL giao dịch để chứa thêm các dữ liệu thực tế mà bài toán quan tâm. Khi đó, số lượng của mỗi hạng mục và đơn giá của chúng sẽ được HUIM xem xét. Tích của hai đại lượng này cung cấp một giá trị biểu thị trọng số, doanh thu hoặc tầm quan trọng mà hạng mục đó mang lại. Và để không làm mất tính tổng quát của bài toán HUIM, các khái niệm này ta gọi chung là mức độ hữu ích (utility) của các hạng mục/tập mục trong giao dịch.

Tương tự bài toán FIM, bài toán HUIM cũng xem xét hai tham số đầu vào. Tham số đầu tiên một CSDL giao dịch với đầy đủ các thông tin cần thiết của mỗi hạng mục như số lượng và đơn giá của hạng mục đó. Tham số thứ hai là một ngưỡng biểu thị độ hữu ích tối thiểu (𝑚𝑖𝑛𝑢𝑡𝑖𝑙) mà các tập mục cần phải thoả để trở thành tập mục hữu ích cao (HUI). Ngoài mục đích chính là áp dụng trong bài toán phân tích hành vi khách hàng, hiện nay HUIM cũng được đưa vào các ứng dụng khác như phục vụ khảo sát thị trường, sinh tin học, phát hiện xâm nhập, v.v… Bài toán FIM tồn tại một tính chất quan trọng mà có thể tận dụng để giảm chi phí thực hiện giải thuật, đó là tính chất Apriori hay còn gọi là tính chất bao đóng giảm DCP.

Tính chất này có thể phát biểu ngắn gọn như sau: “nếu một tập mục là phổ biến, các tập con của nó cũng là các tập mục phổ biến” [22]. Các tiếp cận giải quyết bài toán FIM đều áp dụng một cách triệt để tính chất quan trọng này lược bỏ bớt các tập mục không có tiềm năng trở thành tập phổ biến khỏi không gian tìm kiếm của bài toán; giảm chi phí tính toán không cần thiết để xét các tập ứng viên này. Từ đó, cải thiện được hiệu năng của giải thuật khai thác [2–12]. 3 Không như độ hỗ trợ của bài toán FIM, độ đo mức độ hữu ích của các hạng mục/tập mục trong bài toán HUIM không thoả tính chất DCP [22].

Do đó, các chiến lược tỉa ứng viên dựa trên độ đo độ hỗ trợ mà trước đó có thể hoạt động hiệu quả với các tiếp cận FIM thì lại hoàn toàn không khả dụng đối với bài toán HUIM. Điều này làm tăng số lượng ứng và không gian tìm kiếm của bài toán HUIM so với FIM. Đồng thời, làm tăng độ phức tạp của bài toán HUIM so với FIM. Các tiếp cận, giải thuật khai thác HUI vì vậy mà có thời gian khai thác dài, yêu cầu không gian bộ nhớ lớn.

Vì vậy, các nghiên cứu tập trung tìm kiếm một độ đo thỏa tính chất DCP để giúp loại bỏ các tập ứng viên không tiềm năng trong quá trình khai thác, cải thiện thời gian khai thác của bài toán và giảm thiểu mức độ sử dụng bộ nhớ. Trong thực tế, hàng loạt các nghiên cứu đã giới thiệu nhiều giải thuật để giải quyết hiệu quả bài toán này [14– 21]. Tương tự bài toán FIM, HUIM cũng tồn tại một đặc điểm là phát sinh một lượng lớn các tập mục kết quả. Do đó, cần nhiều thời gian để phân tích đầy đủ tập kết quả thu được.

Ngoài ra, việc phải lưu trữ một lượng lớn các tập mục kết quả sẽ làm tăng không gian bộ nhớ và chi phí tính toán. Điều này dẫn đến việc cần có một biểu diễn thu gọn của các tập mục HUI nhằm giảm thiểu số lượng tập mục, chi phí tính toán, cũng như lượng bộ nhớ cần để lưu trữ chúng. Để thu gọn tập kết quả của bài toán, có hai dạng biểu diễn chính thường được sử dụng trong các bài toán khai thác mẫu nói chung và bài toán HUIM nói riêng: biểu diễn tập mục tối đại [23–26] và biểu diễn tập mục đóng [18,25,27–31]. Khái niệm các tập mục hữu ích cao đóng (CHUI), tập mục hữu ích cao tối đại (MHUI) cũng được mở rộng từ khái niệm tập mục phổ biến đóng [32] và tối đại [33] trong bài toán FIM.

Ngoài ra, trong thực tế các cửa hàng bán lẻ thường tổ chức các mặt hàng dưới dạng các nhóm mặt hàng hoặc chủng loại mặt hàng. Ví dụ, một cửa hàng bán thiết bị Tin học có kinh doanh nhiều mặt hàng như đĩa cứng, bộ nhớ RAM, card đồ họa, máy in, máy scan, máy tính cá nhân, máy chủ, laptop, v.v… Các mặt hàng này được cửa hàng phân thành các nhóm ở mức tổng quát cao hơn như thiết bị ngoại vi bao gồm máy in, 4 máy scan; linh kiện, bao gồm đĩa cứng, bộ nhớ RAM, card đồ họa; máy điện toán bao gồm máy tính cá nhân, máy chủ, laptop thuộc nhiều nhãn hiệu khác nhau, v.v… Các nhóm mặt hàng tổng quát này lại có thể được tổng quát hóa ở mức cao hơn nữa. Các tiếp cận phục vụ cho bài toán HUIM trước đó đều chỉ quan tâm đến các mặt hàng chuyên biệt trong quá trình khai thác mà chưa quan tâm đến nhóm mặt hàng ở các mức tổng quát cao hơn. Năm 2017, kế thừa từ bài toán khai thác FIM tổng quát của các nghiên cứu trước đó [34–40], bài toán khai thác tập mục hữu ích cao tổng quát từ CSDL có sự phân cấp các hạng mục được đề xuất [41].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

ứng dụng khai thác tập mục hữu ích

Khai thác dữ liệu nâng cao

Tính toán song song hiệu năng cao

Tối ưu hóa thuật toán khai thác