I. Tổng Quan Về Luật Kết Hợp Hiếm Khái Niệm Ý Nghĩa
Trong lĩnh vực khai phá dữ liệu (data mining), luật kết hợp (association rule) được dùng để chỉ mối quan hệ kiểu "điều kiện → hệ quả" giữa các phần tử dữ liệu. Ví dụ, sự xuất hiện của tập mặt hàng này "kéo theo" sự xuất hiện của tập mặt hàng khác trong một tập bao gồm nhiều đối tượng dữ liệu. Phát hiện luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ liệu đã cho. Lý thuyết luật kết hợp được Rakesh Agrawal và cộng sự giới thiệu lần đầu tiên vào năm 1993 và nhanh chóng trở thành một trong những hướng nghiên cứu khai phá dữ liệu quan trọng, đặc biệt trong những năm gần đây. Phát hiện luật kết hợp đã được ứng dụng thành công trong nhiều lĩnh vực kinh tế - xã hội khác nhau như thương mại, y tế, sinh học, tài chính-ngân hàng,...
1.1. Định Nghĩa Chi Tiết về Luật Kết Hợp Hiếm
Luật kết hợp hiếm (còn được gọi là luật hiếm) là những luật kết hợp ít xảy ra. Mặc dù tần suất xảy ra thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị. Rountree trình bày khái quát về ứng dụng của khai phá luật hiếm, trong đó giới thiệu ví dụ luật kết hợp hiếm “máy pha cà phê” → “máy xay cà phê” có độ hỗ trợ rất thấp là 0,8% song có độ tin cậy khá cao tới 80% và giá trị bán hai mặt hàng này rất đáng kể.
1.2. Tại Sao Nghiên Cứu Luật Kết Hợp Hiếm Quan Trọng
Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Nhằm khắc phục những khó khăn này, các thuật toán phát hiện luật kết hợp hiếm được phát triển.
II. Thách Thức Trong Khai Phá Luật Kết Hợp Hiếm Hiện Nay
Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành. Một trong những vấn đề về phát hiện luật kết hợp hiện đang nhận được nhiều quan tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm. Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên.
2.1. Hạn Chế Của Các Thuật Toán Truy Thống
Việc ứng dụng các thuật toán truyền thống để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Điều này dẫn đến sự cần thiết của các thuật toán chuyên biệt.
2.2. Vấn Đề Xử Lý Dữ Liệu Định Lượng
Vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng mới chỉ được đề cập lần đầu trong [58] và cũng chỉ nhằm phát hiện luật kết hợp hiếm từ các tập chỉ chứa các mục dữ liệu không phổ biến. Tuy nhiên, tập hiếm không chỉ gồm các mục dữ liệu không phổ biến mà còn là sự kết hợp giữa một số mục dữ liệu không phổ biến với mục dữ liệu phổ biến hay sự kết hợp giữa những mục dữ liệu phổ biến. Như vậy, vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng hiện cũng chưa được giải quyết đầy đủ.
III. Phương Pháp Phát Hiện Luật Kết Hợp Hiếm Trên Dữ Liệu Giao Dịch
Luận án này tiếp nối những nghiên cứu trước đó nhằm giải quyết những hạn chế được nêu ra ở trên. Hai khuynh hướng phát hiện luật kết hợp hiếm được quan tâm nhiều nhất là: (i) Sử dụng ràng buộc phần hệ quả của luật. Các phương pháp này đưa ra danh sách các mục dữ liệu sẽ xuất hiện trong một phần của luật và được sử dụng làm điều kiện khi sinh luật. Tuy nhiên, cách tiếp cận này chỉ hiệu quả khi biết trước thông tin về các mục dữ liệu, chẳng hạn phải xác định trước được mục dữ liệu nào sẽ xuất hiện trong phần hệ quả của luật.
3.1. Tiếp Cận Dựa Trên Không Gian Tập Dữ Liệu Hiếm Đóng
Về mặt khoa học, luận án đề xuất hướng tiếp cận phát hiện luật kết hợp hiếm trên cơ sở dữ liệu giao dịch dựa trên không gian tập dữ liệu hiếm đóng. Nhờ đó, đã nâng cao hiệu quả của việc phát hiện luật kết hợp hiếm vì không gian các tập dữ liệu hiếm và đóng là nhỏ hơn không gian các tập dữ liệu hiếm.
3.2. Các Thuật Toán Phát Hiện Tập Mục Hiếm
Luận án phát triển ba thuật toán tìm các tập mục hiếm cho ba dạng luật kết hợp hiếm trên cơ sở dữ liệu giao dịch là: thuật toán MເΡSI (Miпiпǥ ເl0sed Ρeгfeເƚlɣ Sρ0гadiເ Iƚemseƚs) phát hiện tập mục Sρ0гadiເ tuyệt đối hai ngưỡng, thuật toán MເISI (Miпiпǥ ເl0sed Imρeгfeເƚlɣ Sρ0гadiເ Iƚemseƚs) phát hiện tập mục Sρ0гadiເ không tuyệt đối hai ngưỡng và thuật toán Пເ-ເҺAГM (Пeǥaƚiѵe ເ0пsƚгaiпs - ເҺAГM) phát hiện tập dữ liệu với ràng buộc mục âm.
IV. Phát Hiện Luật Kết Hợp Hiếm Trên Cơ Sở Dữ Liệu Định Lượng
Đối với bài toán phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng, luận án theo hướng tiếp cận tương tự như phát hiện luật kết hợp mạnh trên cơ sở dữ liệu định lượng là sử dụng lý thuyết tập mờ để chuyển cơ sở dữ liệu định lượng về cơ sở dữ liệu mờ và thực hiện phát hiện luật hiếm trên cơ sở dữ liệu mờ này. Tương tự như đối với luật kết hợp mạnh, việc ứng dụng tập mờ sẽ giúp biểu diễn luật kết hợp hiếm tự nhiên hơn, gần gũi hơn với người sử dụng và nhất là khắc phục được vấn đề “điểm biên gãy” trong phân khoảng các thuộc tính định lượng.
4.1. Sử Dụng Lý Thuyết Tập Mờ
Luận án sử dụng lý thuyết tập mờ trong vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng. Luận án có tính thực tiễn vì đã đề cập việc ứng dụng luật kết hợp cùng với mô hình hồi quy chuyển tiếp trơn để xây dựng mô hình phân tích và dự báo kinh tế.
4.2. Các Dạng Luật Kết Hợp Sporadic Mờ
Hai dạng luật kết hợp Sρ0гadiເ cho cơ sở dữ liệu định lượng đã được luận án đề xuất là luật kết hợp Sρ0гadiເ tuyệt đối hai ngưỡng mờ và luật kết hợp Sρ0гadiເ không tuyệt đối hai ngưỡng mờ. Luận án đã phát triển hai thuật toán tìm tập hiếm cho hai dạng luật này.
V. Ứng Dụng Luật Kết Hợp Mẫu Âm Trong Phân Tích Kinh Tế
Về triển khai ứng dụng, luận án đã đề xuất kết hợp vấn đề phát hiện luật kết hợp mẫu âm trong công nghệ thông tin và mô hình hồi quy chuyển tiếp trơn phi tuyến trong kinh tế lượng để xây dựng mô hình phân tích và dự báo chỉ số giá tiêu dùng CPI và chỉ số chứng khoán Việt Nam. Kết quả dự báo kiểm định theo mô hình được xây dựng theo cách tiếp cận này cho thấy chất lượng dự báo được cải thiện rõ rệt, độ chính xác của kết quả dự báo so với thực tiễn là khá cao.
5.1. Xây Dựng Mô Hình Dự Báo Kinh Tế
Luận án đã đề xuất kết hợp vấn đề phát hiện luật kết hợp mẫu âm trong công nghệ thông tin và mô hình hồi quy chuyển tiếp trơn phi tuyến trong kinh tế lượng để xây dựng mô hình phân tích và dự báo chỉ số giá tiêu dùng CPI và chỉ số chứng khoán Việt Nam.
5.2. Cải Thiện Chất Lượng Dự Báo
Kết quả dự báo kiểm định theo mô hình được xây dựng theo cách tiếp cận này cho thấy chất lượng dự báo được cải thiện rõ rệt, độ chính xác của kết quả dự báo so với thực tiễn là khá cao.
VI. Kết Luận Hướng Nghiên Cứu Tương Lai Về Luật Hiếm
Luận án tập trung xác định một số dạng luật kết hợp hiếm Sρ0гadiເ trên cả cơ sở dữ liệu giao dịch và cơ sở dữ liệu định lượng, đồng thời phát triển các thuật toán phát hiện các tập dữ liệu hiếm tương ứng cho các dạng luật hiếm này. Đối với bài toán phát hiện luật kết hợp hiếm trên cơ sở dữ liệu giao dịch, luận án theo hướng tiếp cận đi tìm các tập không phổ biến đóng cho các luật kết hợp hiếm thay vì việc đi tìm tất cả các tập không phổ biến như các nghiên cứu về luật hiếm trước đây.
6.1. Tổng Kết Các Kết Quả Đạt Được
Luận án đã đạt được những kết quả nhất định trong việc phát triển các thuật toán và phương pháp phát hiện luật kết hợp hiếm trên cả cơ sở dữ liệu giao dịch và cơ sở dữ liệu định lượng.
6.2. Các Hướng Nghiên Cứu Mở Rộng
Các hướng nghiên cứu mở rộng có thể bao gồm việc cải tiến các thuật toán hiện có, khám phá các ứng dụng mới của luật kết hợp hiếm trong các lĩnh vực khác nhau, và nghiên cứu các phương pháp xử lý dữ liệu lớn để phát hiện luật kết hợp hiếm hiệu quả hơn.