Luật Kết Hợp Hiếm và Ứng Dụng trong Nghiên Cứu

Trường đại học

Đại Học Quốc Gia Hà Nội

Người đăng

Ẩn danh

Thể loại

tiến sĩ

2013

231
0
0

Phí lưu trữ

40.000 VNĐ

Tóm tắt

I. Tổng Quan Về Luật Kết Hợp Hiếm Khái Niệm Ý Nghĩa

Trong lĩnh vực khai phá dữ liệu (data mining), luật kết hợp (association rule) được dùng để chỉ mối quan hệ kiểu "điều kiện → hệ quả" giữa các phần tử dữ liệu. Ví dụ, sự xuất hiện của tập mặt hàng này "kéo theo" sự xuất hiện của tập mặt hàng khác trong một tập bao gồm nhiều đối tượng dữ liệu. Phát hiện luật kết hợp là phát hiện các mối quan hệ đó trong phạm vi của một tập dữ liệu đã cho. Lý thuyết luật kết hợp được Rakesh Agrawal và cộng sự giới thiệu lần đầu tiên vào năm 1993 và nhanh chóng trở thành một trong những hướng nghiên cứu khai phá dữ liệu quan trọng, đặc biệt trong những năm gần đây. Phát hiện luật kết hợp đã được ứng dụng thành công trong nhiều lĩnh vực kinh tế - xã hội khác nhau như thương mại, y tế, sinh học, tài chính-ngân hàng,...

1.1. Định Nghĩa Chi Tiết về Luật Kết Hợp Hiếm

Luật kết hợp hiếm (còn được gọi là luật hiếm) là những luật kết hợp ít xảy ra. Mặc dù tần suất xảy ra thấp, nhưng trong nhiều trường hợp, các luật này lại rất có giá trị. Rountree trình bày khái quát về ứng dụng của khai phá luật hiếm, trong đó giới thiệu ví dụ luật kết hợp hiếm “máy pha cà phê” → “máy xay cà phê” có độ hỗ trợ rất thấp là 0,8% song có độ tin cậy khá cao tới 80% và giá trị bán hai mặt hàng này rất đáng kể.

1.2. Tại Sao Nghiên Cứu Luật Kết Hợp Hiếm Quan Trọng

Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Nhằm khắc phục những khó khăn này, các thuật toán phát hiện luật kết hợp hiếm được phát triển.

II. Thách Thức Trong Khai Phá Luật Kết Hợp Hiếm Hiện Nay

Hiện tại, nhiều khuynh hướng nghiên cứu và ứng dụng liên quan đến phát hiện luật kết hợp đã và đang tiếp tục được hình thành. Một trong những vấn đề về phát hiện luật kết hợp hiện đang nhận được nhiều quan tâm của các nhà nghiên cứu là phát hiện luật kết hợp hiếm. Phần lớn các thuật toán phát hiện luật kết hợp hiện nay thường thực hiện tìm các luật có độ hỗ trợ và độ tin cậy cao. Việc ứng dụng các thuật toán này để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên.

2.1. Hạn Chế Của Các Thuật Toán Truy Thống

Việc ứng dụng các thuật toán truyền thống để tìm các luật kết hợp hiếm (có độ hỗ trợ thấp) là không hiệu quả do phải đặt ngưỡng độ hỗ trợ tối thiểu rất nhỏ, nên số lượng các tập phổ biến tìm được sẽ khá lớn và như vậy chi phí cho việc tìm kiếm sẽ tăng lên. Điều này dẫn đến sự cần thiết của các thuật toán chuyên biệt.

2.2. Vấn Đề Xử Lý Dữ Liệu Định Lượng

Vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng mới chỉ được đề cập lần đầu trong [58] và cũng chỉ nhằm phát hiện luật kết hợp hiếm từ các tập chỉ chứa các mục dữ liệu không phổ biến. Tuy nhiên, tập hiếm không chỉ gồm các mục dữ liệu không phổ biến mà còn là sự kết hợp giữa một số mục dữ liệu không phổ biến với mục dữ liệu phổ biến hay sự kết hợp giữa những mục dữ liệu phổ biến. Như vậy, vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng hiện cũng chưa được giải quyết đầy đủ.

III. Phương Pháp Phát Hiện Luật Kết Hợp Hiếm Trên Dữ Liệu Giao Dịch

Luận án này tiếp nối những nghiên cứu trước đó nhằm giải quyết những hạn chế được nêu ra ở trên. Hai khuynh hướng phát hiện luật kết hợp hiếm được quan tâm nhiều nhất là: (i) Sử dụng ràng buộc phần hệ quả của luật. Các phương pháp này đưa ra danh sách các mục dữ liệu sẽ xuất hiện trong một phần của luật và được sử dụng làm điều kiện khi sinh luật. Tuy nhiên, cách tiếp cận này chỉ hiệu quả khi biết trước thông tin về các mục dữ liệu, chẳng hạn phải xác định trước được mục dữ liệu nào sẽ xuất hiện trong phần hệ quả của luật.

3.1. Tiếp Cận Dựa Trên Không Gian Tập Dữ Liệu Hiếm Đóng

Về mặt khoa học, luận án đề xuất hướng tiếp cận phát hiện luật kết hợp hiếm trên cơ sở dữ liệu giao dịch dựa trên không gian tập dữ liệu hiếm đóng. Nhờ đó, đã nâng cao hiệu quả của việc phát hiện luật kết hợp hiếm vì không gian các tập dữ liệu hiếm và đóng là nhỏ hơn không gian các tập dữ liệu hiếm.

3.2. Các Thuật Toán Phát Hiện Tập Mục Hiếm

Luận án phát triển ba thuật toán tìm các tập mục hiếm cho ba dạng luật kết hợp hiếm trên cơ sở dữ liệu giao dịch là: thuật toán MເΡSI (Miпiпǥ ເl0sed Ρeгfeເƚlɣ Sρ0гadiເ Iƚemseƚs) phát hiện tập mục Sρ0гadiເ tuyệt đối hai ngưỡng, thuật toán MເISI (Miпiпǥ ເl0sed Imρeгfeເƚlɣ Sρ0гadiເ Iƚemseƚs) phát hiện tập mục Sρ0гadiເ không tuyệt đối hai ngưỡng và thuật toán Пເ-ເҺAГM (Пeǥaƚiѵe ເ0пsƚгaiпs - ເҺAГM) phát hiện tập dữ liệu với ràng buộc mục âm.

IV. Phát Hiện Luật Kết Hợp Hiếm Trên Cơ Sở Dữ Liệu Định Lượng

Đối với bài toán phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng, luận án theo hướng tiếp cận tương tự như phát hiện luật kết hợp mạnh trên cơ sở dữ liệu định lượng là sử dụng lý thuyết tập mờ để chuyển cơ sở dữ liệu định lượng về cơ sở dữ liệu mờ và thực hiện phát hiện luật hiếm trên cơ sở dữ liệu mờ này. Tương tự như đối với luật kết hợp mạnh, việc ứng dụng tập mờ sẽ giúp biểu diễn luật kết hợp hiếm tự nhiên hơn, gần gũi hơn với người sử dụng và nhất là khắc phục được vấn đề “điểm biên gãy” trong phân khoảng các thuộc tính định lượng.

4.1. Sử Dụng Lý Thuyết Tập Mờ

Luận án sử dụng lý thuyết tập mờ trong vấn đề phát hiện luật kết hợp hiếm trên cơ sở dữ liệu định lượng. Luận án có tính thực tiễn vì đã đề cập việc ứng dụng luật kết hợp cùng với mô hình hồi quy chuyển tiếp trơn để xây dựng mô hình phân tích và dự báo kinh tế.

4.2. Các Dạng Luật Kết Hợp Sporadic Mờ

Hai dạng luật kết hợp Sρ0гadiເ cho cơ sở dữ liệu định lượng đã được luận án đề xuất là luật kết hợp Sρ0гadiເ tuyệt đối hai ngưỡng mờ và luật kết hợp Sρ0гadiເ không tuyệt đối hai ngưỡng mờ. Luận án đã phát triển hai thuật toán tìm tập hiếm cho hai dạng luật này.

V. Ứng Dụng Luật Kết Hợp Mẫu Âm Trong Phân Tích Kinh Tế

Về triển khai ứng dụng, luận án đã đề xuất kết hợp vấn đề phát hiện luật kết hợp mẫu âm trong công nghệ thông tin và mô hình hồi quy chuyển tiếp trơn phi tuyến trong kinh tế lượng để xây dựng mô hình phân tích và dự báo chỉ số giá tiêu dùng CPI và chỉ số chứng khoán Việt Nam. Kết quả dự báo kiểm định theo mô hình được xây dựng theo cách tiếp cận này cho thấy chất lượng dự báo được cải thiện rõ rệt, độ chính xác của kết quả dự báo so với thực tiễn là khá cao.

5.1. Xây Dựng Mô Hình Dự Báo Kinh Tế

Luận án đã đề xuất kết hợp vấn đề phát hiện luật kết hợp mẫu âm trong công nghệ thông tin và mô hình hồi quy chuyển tiếp trơn phi tuyến trong kinh tế lượng để xây dựng mô hình phân tích và dự báo chỉ số giá tiêu dùng CPI và chỉ số chứng khoán Việt Nam.

5.2. Cải Thiện Chất Lượng Dự Báo

Kết quả dự báo kiểm định theo mô hình được xây dựng theo cách tiếp cận này cho thấy chất lượng dự báo được cải thiện rõ rệt, độ chính xác của kết quả dự báo so với thực tiễn là khá cao.

VI. Kết Luận Hướng Nghiên Cứu Tương Lai Về Luật Hiếm

Luận án tập trung xác định một số dạng luật kết hợp hiếm Sρ0гadiເ trên cả cơ sở dữ liệu giao dịchcơ sở dữ liệu định lượng, đồng thời phát triển các thuật toán phát hiện các tập dữ liệu hiếm tương ứng cho các dạng luật hiếm này. Đối với bài toán phát hiện luật kết hợp hiếm trên cơ sở dữ liệu giao dịch, luận án theo hướng tiếp cận đi tìm các tập không phổ biến đóng cho các luật kết hợp hiếm thay vì việc đi tìm tất cả các tập không phổ biến như các nghiên cứu về luật hiếm trước đây.

6.1. Tổng Kết Các Kết Quả Đạt Được

Luận án đã đạt được những kết quả nhất định trong việc phát triển các thuật toán và phương pháp phát hiện luật kết hợp hiếm trên cả cơ sở dữ liệu giao dịchcơ sở dữ liệu định lượng.

6.2. Các Hướng Nghiên Cứu Mở Rộng

Các hướng nghiên cứu mở rộng có thể bao gồm việc cải tiến các thuật toán hiện có, khám phá các ứng dụng mới của luật kết hợp hiếm trong các lĩnh vực khác nhau, và nghiên cứu các phương pháp xử lý dữ liệu lớn để phát hiện luật kết hợp hiếm hiệu quả hơn.

05/06/2025
Luận văn nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng
Bạn đang xem trước tài liệu : Luận văn nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Luật Kết Hợp Hiếm và Ứng Dụng trong Nghiên Cứu" cung cấp cái nhìn sâu sắc về các nguyên tắc cơ bản của luật kết hợp hiếm, cùng với những ứng dụng thực tiễn trong nghiên cứu. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các khái niệm lý thuyết mà còn chỉ ra cách thức áp dụng chúng trong các tình huống thực tế, từ đó nâng cao khả năng phân tích và giải quyết vấn đề trong lĩnh vực toán học ứng dụng.

Để mở rộng thêm kiến thức của bạn, bạn có thể tham khảo tài liệu Luận văn thạc sĩ toán ứng dụng về tính ổn định của các hệ dương có chậm, nơi bạn sẽ tìm thấy những nghiên cứu liên quan đến tính ổn định trong các hệ thống toán học. Ngoài ra, tài liệu Skkn vận dụng hàm số và bảng biến thiên của hàm số để giải một số bài toán liên quan đến hàm số và giải một số bài toán thực tế sẽ giúp bạn hiểu rõ hơn về cách áp dụng hàm số trong giải quyết các bài toán thực tiễn. Cuối cùng, tài liệu Báo cáo đề tài nghiên cứu khoa học cấp cơ sở nghiên cứu tính ổn định thời gian hữu hạn cho phương trình vi phân bậc phân thứ sẽ cung cấp thêm thông tin về tính ổn định trong các phương trình vi phân, mở rộng kiến thức của bạn về lĩnh vực này.

Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá sâu hơn về các khía cạnh khác nhau của luật kết hợp hiếm và ứng dụng của nó trong nghiên cứu.