Trường đại học
Trường Đại học Công nghiệp Thành phố Hồ Chí MinhChuyên ngành
Khoa học Máy tínhNgười đăng
Ẩn danhThể loại
Luận án tiến sĩ2024
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Bài toán khai thác tập phổ biến (FIM) được Agrawal và cộng sự đề xuất năm 1993, mở ra hướng phân tích hành vi khách hàng trong bán lẻ và thương mại điện tử. FIM phân tích các giao dịch để tìm ra những mặt hàng hoặc kết hợp mặt hàng thường được mua cùng nhau, gọi là "phổ biến" nếu tần suất vượt ngưỡng tối thiểu. Ngưỡng này, ký hiệu 𝑚𝑖𝑛𝑠𝑢𝑝, quyết định độ phổ biến. Để tổng quát, mặt hàng gọi là hạng mục và kết hợp mặt hàng là tập mục. Kết quả FIM tạo ra các luật kết hợp, giúp nhà quản lý hiểu quy luật kinh doanh hiệu quả hơn. Từ khi ra đời, FIM thu hút sự quan tâm lớn. Đầu vào là CSDL giao dịch và ngưỡng 𝑚𝑖𝑛𝑠𝑢𝑝, đầu ra là tập mục phổ biến. Nhiều nghiên cứu đã cải tiến FIM. Nhược điểm lớn nhất của FIM là chỉ xét tần suất, coi mọi hạng mục quan trọng như nhau, bỏ qua nhiều thông tin hữu ích khác trong CSDL giao dịch.
Khai thác tập mục (FIM) là nền tảng cho nhiều ứng dụng phân tích dữ liệu. Nó giúp xác định các mối quan hệ ẩn giữa các mục trong một tập dữ liệu lớn. Điều này có giá trị trong việc đưa ra quyết định kinh doanh, cải thiện trải nghiệm người dùng, và phát hiện gian lận. Tuy nhiên, FIM truyền thống bỏ qua các yếu tố quan trọng như giá trị lợi nhuận của từng sản phẩm, khiến cho kết quả đôi khi không phản ánh đúng thực tế.
FIM chỉ tập trung vào tần suất xuất hiện của các hạng mục, bỏ qua lợi nhuận hoặc giá trị mà mỗi hạng mục mang lại. Điều này dẫn đến việc các hạng mục có lợi nhuận thấp nhưng tần suất cao lại được ưu tiên hơn các hạng mục có lợi nhuận cao nhưng tần suất thấp. Để khắc phục hạn chế này, HUIM ra đời. HUIM xem xét cả số lượng và giá trị của từng hạng mục, từ đó xác định các tập mục mang lại lợi nhuận cao nhất cho doanh nghiệp. Theo tài liệu gốc, FIM chỉ quan tâm đến tần suất xuất hiện của các hạng mục và tập mục trong CSDL.
Mặc dù HUIM (High Utility Itemset Mining) khắc phục được hạn chế của FIM bằng cách xem xét giá trị và số lượng của các hạng mục, việc triển khai HUIM song song vẫn còn nhiều thách thức. Các thuật toán HUIM thường có độ phức tạp tính toán cao, đặc biệt khi xử lý các CSDL lớn. Việc song song hóa các thuật toán này đòi hỏi phải phân chia công việc một cách hiệu quả để giảm thiểu thời gian thực hiện và tránh lãng phí tài nguyên. Hơn nữa, việc đồng bộ hóa giữa các tiến trình song song có thể gây ra overhead, làm giảm hiệu năng tổng thể. Do đó, cần có các phương pháp và kỹ thuật tối ưu hóa để khai thác hiệu quả sức mạnh của các hệ thống tính toán song song.
HUIM có độ phức tạp tính toán cao hơn FIM do phải tính toán độ hữu ích của từng tập mục. Điều này đòi hỏi phải quét CSDL nhiều lần và thực hiện các phép tính phức tạp. Độ phức tạp này càng tăng lên khi kích thước CSDL và số lượng hạng mục tăng lên. Do đó, cần có các thuật toán và kỹ thuật tối ưu hóa để giảm thiểu độ phức tạp tính toán của HUIM.
Khi triển khai HUIM song song, cần phải đồng bộ hóa giữa các tiến trình để đảm bảo tính nhất quán của dữ liệu và tránh các lỗi xung đột. Việc đồng bộ hóa có thể gây ra overhead, làm giảm hiệu năng tổng thể. Cần có các kỹ thuật đồng bộ hóa hiệu quả để giảm thiểu overhead và tối ưu hóa hiệu năng khai thác song song.
Trong môi trường tính toán song song, việc cân bằng tải là rất quan trọng để đảm bảo tất cả các tiến trình đều được sử dụng hiệu quả. Nếu một tiến trình phải xử lý nhiều công việc hơn các tiến trình khác, nó sẽ trở thành nút thắt cổ chai, làm giảm hiệu năng tổng thể. Cần có các chiến lược cân bằng tải để phân chia công việc một cách đồng đều giữa các tiến trình.
Luận án đề xuất mô hình cho phép khai thác hiệu quả các tập mục hữu ích cao đóng từ CSDL có chứa các hạng mục với độ hữu ích động trong quá trình khai thác nhằm phản ánh sát hơn nữa các CSDL trong thực tế. Đóng góp này áp dụng mô hình độ hữu ích động kết hợp với phương pháp để giảm chi phí quét CSDL nhằm cải thiện hiệu năng của quá trình khai thác tập mục hữu ích cao đóng. Chương 2 trình bày nghiên cứu và mô hình đề xuất thông qua giải thuật iEFIM-Closed.
Mô hình độ hữu ích động cho phép độ hữu ích của các hạng mục thay đổi trong quá trình khai thác. Điều này phản ánh thực tế là giá trị của các sản phẩm có thể thay đổi theo thời gian do các yếu tố như cung cầu, cạnh tranh, và xu hướng thị trường. iEFIM-Closed sử dụng mô hình này để xác định các tập mục thực sự có giá trị cao.
iEFIM-Closed sử dụng các kỹ thuật để giảm thiểu số lần quét CSDL, từ đó giảm chi phí tính toán và cải thiện hiệu năng. Một trong những kỹ thuật này là sử dụng cấu trúc dữ liệu P-set để lưu trữ thông tin về các tập mục tiềm năng và chỉ quét CSDL khi cần thiết.
Giải thuật iEFIM-Closed là một thuật toán hiệu quả để khai thác các tập mục hữu ích cao đóng từ các CSDL có độ hữu ích động. Thuật toán này sử dụng các kỹ thuật tối ưu hóa để giảm thiểu chi phí tính toán và đảm bảo rằng chỉ các tập mục thực sự có giá trị cao mới được khai thác.
Luận án mở rộng bài toán để áp dụng với dạng CSDL có sự phân cấp các hạng mục dựa trên các nghiên cứu từ Đóng góp thứ nhất, và đề xuất mô hình xử lý song song đa nhân để giải quyết bài toán này thông qua việc tận dụng năng lực xử lý của các CPU đa nhân để giảm chi phí về mặt thời gian. Nội dung của đóng góp được trình bày tại Chương 3. Thực nghiệm cho thấy mô hình đề xuất có sự cải thiện rõ rệt về thời gian khai thác.
CSDL phân cấp là một loại CSDL trong đó các hạng mục được tổ chức theo một cấu trúc cây. Điều này cho phép khai thác các tập mục ở nhiều mức độ chi tiết khác nhau. Ví dụ, trong một CSDL bán lẻ, các sản phẩm có thể được phân loại theo danh mục, loại sản phẩm, và nhãn hiệu. Mô hình CSDL phân cấp cho phép khai thác các tập mục ở các mức độ khác nhau, ví dụ như 'khách hàng thường mua sản phẩm từ danh mục A và loại sản phẩm B'.
MCML-Miner tận dụng sức mạnh của các CPU đa nhân để xử lý song song các tác vụ khai thác tập mục. Điều này giúp giảm đáng kể thời gian thực hiện, đặc biệt khi xử lý các CSDL lớn. Giải thuật này chia nhỏ bài toán thành các tác vụ nhỏ hơn và phân phối chúng cho các nhân xử lý khác nhau.
Giải thuật MCML-Miner là một giải thuật hiệu quả để khai thác các tập mục hữu ích cao đa mức từ các CSDL phân cấp. Thuật toán này sử dụng các kỹ thuật tối ưu hóa để giảm thiểu chi phí tính toán và tận dụng sức mạnh của các CPU đa nhân. MCML-Miner bao gồm các giai đoạn như tiền xử lý, khai thác tập mục tiềm năng, và đánh giá độ hữu ích.
Dựa trên các kết quả nghiên cứu từ Đóng góp thứ 2 và Đóng góp thứ nhất, luận án triển khai việc áp dụng mô hình xử lý song song trên nhiều giai đoạn khác nhau của quá trình khai thác, triển khai sâu hơn nữa mô hình song song trong quá trình khai thác. Ngoài ra, một chiến lược điều phối cũng được đề xuất để giảm thời gian chờ giữa các tác vụ song song. Toàn bộ đóng góp thứ ba nhắm đến việc tận dụng triệt để hơn nữa sức mạnh xử lý của các CPU đa nhân với chi phí phù hợp vào bài toán khai thác tập mục hữu ích cao từ định dạng CSDL phân cấp, có độ hữu ích động. Thực nghiệm cho thấy với mô hình được đề xuất trong Đóng góp thứ ba, hiệu năng khai thác của bài toán được nâng lên đáng kể so với tiếp cận không song song, đặc biệt trên các CSDL có kích thước lớn.
MCML+ là một phiên bản cải tiến của MCML-Miner, tập trung vào việc tối ưu hóa quá trình khai thác song song đa mức. Giải thuật này sử dụng các kỹ thuật để giảm thiểu thời gian chờ giữa các tác vụ song song và cải thiện hiệu quả sử dụng tài nguyên CPU.
MCML++ tiếp tục cải tiến MCML+ bằng cách áp dụng các chiến lược điều phối tác vụ thông minh. Các chiến lược này giúp phân bổ công việc một cách hiệu quả giữa các nhân xử lý và giảm thiểu thời gian thực hiện tổng thể.
Luận án cung cấp các kết quả thực nghiệm so sánh hiệu năng của MCML, MCML+, và MCML++ trên các CSDL khác nhau. Kết quả cho thấy MCML+ và MCML++ có hiệu năng tốt hơn MCML, đặc biệt trên các CSDL lớn và phức tạp.
Luận án đã đề xuất các mô hình và giải thuật hiệu quả để khai thác tập mục hữu ích cao trên môi trường tính toán song song. Các giải thuật iEFIM-Closed, MCML-Miner, MCML+, và MCML++ đã chứng minh được khả năng cải thiện hiệu năng khai thác, đặc biệt trên các CSDL lớn và phức tạp. Nghiên cứu này có ý nghĩa thực tiễn trong nhiều lĩnh vực như phân tích giỏ hàng, phân tích web, và phân tích dữ liệu y tế. Hướng phát triển trong tương lai bao gồm nghiên cứu các chiến lược cân bằng tải, mở rộng mô hình xử lý song song trên môi trường phân tán, và tích hợp các phương pháp học sâu vào khai thác dữ liệu.
HUIM có thể được ứng dụng trong nhiều lĩnh vực khác nhau như phân tích giỏ hàng trong bán lẻ, phân tích hành vi người dùng trên web, và phân tích dữ liệu y tế để phát hiện các mối quan hệ giữa các bệnh và các yếu tố rủi ro.
Cân bằng tải là một vấn đề quan trọng trong xử lý song song. Các chiến lược cân bằng tải giúp phân phối công việc một cách đồng đều giữa các nhân xử lý và giảm thiểu thời gian thực hiện tổng thể.
Học sâu là một lĩnh vực phát triển nhanh chóng và có nhiều tiềm năng ứng dụng trong khai thác dữ liệu. Việc tích hợp các phương pháp học sâu vào khai thác tập mục hữu ích có thể giúp cải thiện độ chính xác và hiệu quả của quá trình khai thác.
Bạn đang xem trước tài liệu:
Khai thác các tập hữu ích cao trên môi trường tính toán song song