Luận Văn Thạc Sĩ: Phương Pháp Khai Thác Theo Chiều Ngang Để Trích Xuất Các Tập Phổ Biến

Luận văn thạc sĩ nghiên cứu phương pháp khai thác theo chiều ngang nhằm trích xuất các tập phổ biến, ứng dụng trong phân tích dữ liệu hiệu quả.

Trường đại học

Trường Đại Học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU

1.1. Phương pháp nghiên cứu

1.1.1. Phương pháp nghiên cứu tài liệu

1.1.2. Phương pháp thực nghiệm

1.1.3. Phương pháp thống kê, phân tích dữ liệu

1.2. Bố cục luận văn

1.3. Kết luận chương

2. CHƯƠNG 2: GIỚI THIỆU TỔNG QUAN

2.1. Các khái niệm và định nghĩa

2.1.1. Tập hạng mục. Cơ sở dữ liệu giao tác

2.1.2. Tập phổ biến

2.1.3. Tập phổ biến đóng

2.1.4. Các tính chất của tập phổ biến

2.1.5. Cách biểu diễn dữ liệu

2.2. Một số thuật toán khai thác tập phổ biến

2.2.1. Thuật toán Apriori

2.2.2. Thuật toán FP-Growth

2.2.3. Thuật toán CLOSET

2.2.4. Thuật toán BitTableFI

2.2.5. Thuật toán PIETM

2.3. Một số chiến lược khai thác tập phổ biến

2.3.1. Phương pháp tìm kiếm theo chiều rộng và theo chiều sâu

2.3.2. Định dạng theo chiều ngang và định dạng theo chiều dọc

2.3.3. Kỹ thuật nén dữ liệu

2.3.4. Kỹ thuật loại bỏ để khai thác tập phổ biến

2.4. Kết luận chương

3. CHƯƠNG 3: PHƯƠNG PHÁP KHAI THÁC THEO CHIỀU NGANG ĐỂ TRÍCH XUẤT CÁC TẬP PHỔ BIẾN

3.1. Khai thác dữ liệu theo cấu trúc cây tìm kiếm

3.1.1. Cây tìm kiếm duyệt theo giao tác

3.1.2. Cây tìm kiếm duyệt theo hạng mục

3.2. Phương pháp khai thác ngang

3.3. Sử dụng phương pháp chia để trị trong khai thác ngang

3.4. Biểu diễn tập dữ liệu trên ma trận bit

3.5. Thuật toán MRIH

3.6. Minh họa thuật toán trên dữ liệu mẫu

3.7. Kết luận chương

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ THUẬT TOÁN

4.1. Mô tả dữ liệu

4.2. Kết quả chương trình thực nghiệm

4.3. Kết luận chương

CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ LUẬN VĂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Phương pháp khai thác

Phương pháp khai thác là một trong những nền tảng quan trọng trong lĩnh vực khai phá dữ liệu. Luận văn tập trung vào việc nghiên cứu và cải tiến các thuật toán khai thác tập phổ biến, đặc biệt là khai thác theo chiều ngang. Phương pháp này giúp tối ưu hóa quá trình trích xuất tập phổ biến từ các cơ sở dữ liệu lớn, giảm thiểu thời gian và tài nguyên tính toán. Các thuật toán truyền thống như Apriori và FP-Growth đã được áp dụng rộng rãi, nhưng vẫn tồn tại hạn chế về hiệu suất khi xử lý dữ liệu có kích thước lớn. Do đó, việc phát triển các phương pháp mới như khai thác theo chiều ngang là cần thiết để nâng cao hiệu quả khai thác.

1.1. Khai thác theo chiều ngang

Khai thác theo chiều ngang là phương pháp tập trung vào việc duyệt dữ liệu theo từng hàng (giao tác) thay vì theo từng cột (hạng mục). Phương pháp này giúp giảm thiểu số lượng lần quét cơ sở dữ liệu, từ đó tăng tốc độ xử lý. Thuật toán Mining Row Item Horizontal (MRIH) được đề xuất trong luận văn sử dụng phương pháp này để thiết lập sự cân bằng giữa kích thước ngang và dọc của cơ sở dữ liệu. Kết quả thử nghiệm cho thấy MRIH đạt hiệu quả cao hơn so với các thuật toán truyền thống, đặc biệt khi xử lý các tập dữ liệu lớn.

1.2. Trích xuất tập phổ biến

Trích xuất tập phổ biến là quá trình tìm kiếm các tập hợp hạng mục xuất hiện thường xuyên trong cơ sở dữ liệu. Phương pháp này đóng vai trò quan trọng trong việc phát hiện các quy tắc kết hợp và mẫu dữ liệu có ý nghĩa. Luận văn đề xuất sử dụng phương pháp trích xuất dựa trên ma trận bit để nén dữ liệu và giảm kích thước đầu ra. Kỹ thuật này giúp cải thiện đáng kể thời gian khai thác và hiệu suất tổng thể của thuật toán.

II. Hiệu quả khai thác

Hiệu quả khai thác là yếu tố then chốt trong việc đánh giá các phương pháp khai phá dữ liệu. Luận văn tập trung vào việc cải thiện hiệu suất của các thuật toán khai thác tập phổ biến thông qua việc áp dụng các kỹ thuật mới như chia để trị và cắt tỉa. Các kỹ thuật này giúp giảm kích thước của cơ sở dữ liệu giao tác và tối ưu hóa quá trình khai thác. Kết quả thử nghiệm cho thấy rằng các phương pháp đề xuất trong luận văn đạt được hiệu quả khai thác tốt hơn so với các thuật toán truyền thống, đặc biệt khi xử lý các tập dữ liệu lớn và phức tạp.

2.1. Phương pháp chia để trị

Phương pháp chia để trị được áp dụng để phân chia cơ sở dữ liệu thành các phần nhỏ hơn, từ đó giảm thiểu độ phức tạp của quá trình khai thác. Kỹ thuật này giúp tăng tốc độ xử lý và giảm thiểu tài nguyên tính toán. Trong luận văn, phương pháp này được kết hợp với khai thác theo chiều ngang để tối ưu hóa hiệu suất của thuật toán MRIH.

2.2. Kỹ thuật cắt tỉa

Kỹ thuật cắt tỉa được sử dụng để loại bỏ các giao tác không thỏa mãn độ phổ biến tối thiểu, từ đó giảm kích thước của cơ sở dữ liệu cần xử lý. Kỹ thuật này giúp tăng tốc độ khai thác và giảm thiểu thời gian tính toán. Luận văn đề xuất sử dụng kỹ thuật này kết hợp với phương pháp trích xuất dựa trên ma trận bit để đạt được hiệu quả khai thác tối ưu.

III. Ứng dụng thực tiễn

Các phương pháp và thuật toán được đề xuất trong luận văn có nhiều ứng dụng thực tiễn trong các lĩnh vực như giáo dục, y tế, và kinh tế. Ví dụ, phương pháp khai thác theo chiều ngang có thể được áp dụng để phân tích dữ liệu từ mạng xã hội như Facebook, giúp xác định các xu hướng và mẫu hành vi của người dùng. Ngoài ra, các kỹ thuật trích xuất tập phổ biến có thể được sử dụng để xây dựng các hệ thống tư vấn và hỗ trợ ra quyết định trong giáo dục và y tế.

3.1. Phân tích dữ liệu mạng xã hội

Phương pháp khai thác theo chiều ngang có thể được áp dụng để phân tích dữ liệu từ các nền tảng mạng xã hội như Facebook. Kỹ thuật này giúp xác định các xu hướng và mẫu hành vi của người dùng, từ đó hỗ trợ các chiến lược marketing và quản lý cộng đồng.

3.2. Hệ thống tư vấn giáo dục

Các kỹ thuật trích xuất tập phổ biến có thể được sử dụng để xây dựng các hệ thống tư vấn giáo dục, giúp học sinh và sinh viên lựa chọn ngành học và nghề nghiệp phù hợp dựa trên phân tích dữ liệu về sở thích và năng lực.

01/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phương pháp khai thác theo chiều ngang để trích xuất các tập phổ biến

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Khai thác tập phổ biến là một trong những kỹ thuật quan trọng trong lĩnh vực khai phá dữ liệu, được ứng dụng rộng rãi để trích xuất các quy tắc kết hợp hiệu quả từ khối lượng lớn dữ liệu. Theo ước tính, với sự phát triển nhanh chóng của công nghệ thông tin, lượng dữ liệu được thu thập và lưu trữ ngày càng tăng lên đáng kể, đặc biệt trong các lĩnh vực như giáo dục, y tế, kinh tế và xã hội. Tuy nhiên, việc khai thác các tập phổ biến truyền thống như Apriori, FP-Growth gặp phải thách thức lớn do sự bùng nổ tổ hợp của các tập hợp trong bộ dữ liệu rất lớn, dẫn đến số lượng tập phổ biến quá lớn và tốn kém về thời gian cũng như bộ nhớ.

Mục tiêu của nghiên cứu là phát triển và cài đặt một thuật toán khai thác tập phổ biến hiệu quả hơn, có khả năng xử lý các tập dữ liệu rất lớn với thời gian và tài nguyên hợp lý. Thuật toán Mining Row Item Horizontal (MRIH) được đề xuất sử dụng phương pháp khai thác từ dưới lên theo chiều ngang, thiết lập sự cân bằng giữa kích thước ngang và dọc của cơ sở dữ liệu đầu vào ở mỗi cấp khai thác. Phạm vi nghiên cứu tập trung vào các thuật toán khai thác tập phổ biến trong ngành Công nghệ Thông tin, với dữ liệu thực nghiệm từ các bộ dữ liệu chuẩn và thực tế, được thực hiện tại Trường Đại học Ngoại ngữ - Tin học TP. Hồ Chí Minh trong giai đoạn 2016-2019.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả khai thác dữ liệu lớn, góp phần phát triển các ứng dụng phân tích dữ liệu tiếng Việt, đặc biệt trong lĩnh vực giáo dục như tư vấn hướng nghiệp cho học sinh phổ thông dựa trên dữ liệu mạng xã hội. Kết quả thực nghiệm cho thấy thuật toán MRIH vượt trội hơn đáng kể so với các phương pháp truyền thống về tốc độ và khả năng xử lý dữ liệu lớn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình khai thác tập phổ biến trong khai phá dữ liệu, bao gồm:

Nguyên lý Apriori: Tập phổ biến có tính chất mọi tập con của nó cũng phải phổ biến, giúp giảm số lượng ứng viên cần kiểm tra.
Cấu trúc cây FP-Tree: Cấu trúc dữ liệu nén giúp lưu trữ thông tin tập phổ biến hiệu quả, giảm số lần quét cơ sở dữ liệu.
Tập phổ biến đóng (Frequent Closed Itemset): Tập phổ biến không có tập cha nào có cùng độ phổ biến, giúp giảm số lượng tập phổ biến cần khai thác.
Phương pháp khai thác theo chiều ngang và chiều dọc: Định dạng dữ liệu theo chiều ngang (giao tác theo hàng) và chiều dọc (danh sách mã giao tác theo cột) ảnh hưởng đến hiệu quả khai thác.
Kỹ thuật nén dữ liệu bằng ma trận bit: Biểu diễn dữ liệu dưới dạng ma trận bit giúp giảm không gian lưu trữ và tăng tốc độ tính toán độ phổ biến.

Các thuật toán nền tảng được nghiên cứu bao gồm Apriori, FP-Growth, CLOSET, BitTableFI, PIETM, cùng các kỹ thuật chia để trị và cắt tỉa nhằm tối ưu hóa quá trình khai thác.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu bao gồm các bộ dữ liệu chuẩn như T10I4D100K, Retail, Mushroom, Accident và các bộ dữ liệu thực tế thu thập từ các lĩnh vực khác nhau. Cỡ mẫu dao động từ hàng nghìn đến hàng trăm nghìn giao tác với số lượng hạng mục từ vài chục đến hàng trăm.

Phương pháp phân tích chính là xây dựng và cài đặt thuật toán MRIH dựa trên kỹ thuật khai thác theo chiều ngang, sử dụng ma trận bit để biểu diễn dữ liệu, kết hợp phương pháp chia để trị và cắt tỉa nhằm giảm kích thước cơ sở dữ liệu ở mỗi cấp khai thác. Thuật toán được đánh giá thông qua các chỉ số về thời gian thực thi, bộ nhớ sử dụng và số lượng tập phổ biến được trích xuất.

Quá trình nghiên cứu được thực hiện theo timeline:

Giai đoạn 1 (6/2016 - 12/2017): Tổng quan lý thuyết, nghiên cứu các thuật toán hiện có.
Giai đoạn 2 (1/2018 - 12/2018): Thiết kế và cài đặt thuật toán MRIH.
Giai đoạn 3 (1/2019 - 6/2019): Thực nghiệm, đánh giá và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả khai thác tập phổ biến của thuật toán MRIH: Thuật toán MRIH đạt hiệu quả khai thác tốt trên nhiều bộ dữ liệu đầu vào khác nhau. Ví dụ, trên bộ dữ liệu T10I4D100K, thời gian khai thác giảm khoảng 30% so với thuật toán FP-Growth, đồng thời giảm đáng kể bộ nhớ sử dụng.
Giảm kích thước cơ sở dữ liệu khai thác: Nhờ phương pháp chia để trị và cắt tỉa, cơ sở dữ liệu giao tác được chia thành các phần nhỏ hơn, giảm kích thước vấn đề khai thác ở mỗi cấp. Trên bộ dữ liệu Retail, kích thước cơ sở dữ liệu giảm khoảng 40%, giúp tăng tốc độ xử lý.
Sắp xếp hạng mục theo độ phổ biến tăng dần: Việc sắp xếp các hạng mục theo thứ tự tăng dần độ phổ biến giúp cân bằng kích thước ngang và dọc của cơ sở dữ liệu, tối ưu hóa quá trình khai thác. Điều này được chứng minh qua các thử nghiệm trên bộ dữ liệu Mushroom với mức minsup 5%, cho thấy tốc độ khai thác tăng lên khoảng 25%.
So sánh với các thuật toán truyền thống: Thuật toán MRIH vượt trội hơn so với Apriori và FP-Growth về thời gian thực thi và khả năng xử lý dữ liệu lớn. Ví dụ, trên bộ dữ liệu Accident, MRIH giảm thời gian khai thác xuống còn khoảng 60% so với FP-Growth.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu quả là do thuật toán MRIH sử dụng phương pháp khai thác từ dưới lên theo chiều ngang, kết hợp với kỹ thuật chia để trị và cắt tỉa, giúp giảm đáng kể không gian tìm kiếm và số lượng tập ứng viên cần kiểm tra. Việc biểu diễn dữ liệu bằng ma trận bit cũng góp phần giảm bộ nhớ sử dụng và tăng tốc độ tính toán.

So với các nghiên cứu trước đây, MRIH không chỉ kế thừa ưu điểm của Apriori và FP-Growth mà còn khắc phục được nhược điểm về phát sinh tập ứng viên quá lớn và quét cơ sở dữ liệu nhiều lần. Kết quả thực nghiệm minh họa rõ ràng sự vượt trội của MRIH trong việc xử lý các bộ dữ liệu lớn và phức tạp.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh thời gian thực thi và bộ nhớ sử dụng giữa MRIH và các thuật toán khác trên các bộ dữ liệu chuẩn, cũng như bảng tổng hợp số lượng tập phổ biến được trích xuất tương ứng với các mức minsup khác nhau.

Đề xuất và khuyến nghị

Áp dụng thuật toán MRIH trong các hệ thống phân tích dữ liệu lớn: Đề nghị các tổ chức và doanh nghiệp có khối lượng dữ liệu lớn ứng dụng thuật toán MRIH để nâng cao hiệu quả khai thác thông tin, đặc biệt trong lĩnh vực thương mại điện tử, y tế và giáo dục.
Phát triển ứng dụng phân tích dữ liệu tiếng Việt: Kết hợp phương pháp khai thác ngang với kỹ thuật xử lý ngôn ngữ tự nhiên để xây dựng các công cụ phân tích dữ liệu mạng xã hội, hỗ trợ tư vấn hướng nghiệp cho học sinh phổ thông trong vòng 1-2 năm tới.
Nghiên cứu mở rộng khai thác song song: Khuyến nghị nghiên cứu áp dụng phương pháp khai thác song song dựa trên vector bit động, sử dụng mô hình chia để trị để tăng hiệu quả xử lý, dự kiến triển khai trong 3 năm tiếp theo.
Tối ưu hóa bộ nhớ và thời gian thực thi: Đề xuất cải tiến thuật toán bằng cách tích hợp các kỹ thuật nén dữ liệu nâng cao và thuật toán tìm kiếm theo chiều sâu để giảm thiểu tài nguyên sử dụng, phù hợp với các hệ thống có hạn chế về phần cứng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo để hiểu sâu về các thuật toán khai thác tập phổ biến, kỹ thuật nén dữ liệu và phương pháp khai thác theo chiều ngang.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Áp dụng các phương pháp và thuật toán trong luận văn để nâng cao hiệu quả khai thác dữ liệu lớn, đặc biệt trong các dự án phân tích hành vi khách hàng và dự báo.
Nhà phát triển phần mềm và kỹ sư hệ thống: Tham khảo để phát triển các công cụ khai thác dữ liệu tích hợp trong hệ thống quản lý dữ liệu doanh nghiệp, tối ưu hóa hiệu suất xử lý.
Các tổ chức giáo dục và tư vấn hướng nghiệp: Sử dụng kết quả nghiên cứu để xây dựng các ứng dụng phân tích dữ liệu mạng xã hội, hỗ trợ tư vấn học sinh phổ thông lựa chọn nghề nghiệp phù hợp dựa trên dữ liệu thực tế.

Câu hỏi thường gặp

Thuật toán MRIH khác gì so với Apriori và FP-Growth?
MRIH sử dụng phương pháp khai thác theo chiều ngang kết hợp kỹ thuật chia để trị và cắt tỉa, giúp giảm kích thước cơ sở dữ liệu khai thác ở mỗi cấp, trong khi Apriori phát sinh nhiều ứng viên và FP-Growth cần xây dựng cây FP-Tree phức tạp. MRIH cân bằng giữa kích thước ngang và dọc, tăng hiệu quả xử lý.
Phương pháp biểu diễn dữ liệu bằng ma trận bit có ưu điểm gì?
Ma trận bit giúp nén dữ liệu, giảm không gian lưu trữ và tăng tốc độ tính toán độ phổ biến thông qua các phép toán bitwise nhanh chóng, đặc biệt hiệu quả với dữ liệu có mật độ bit 1 cao.
Làm thế nào để chọn ngưỡng minsup phù hợp?
Ngưỡng minsup nên được chọn dựa trên mục tiêu khai thác và đặc điểm dữ liệu. Ngưỡng quá thấp sẽ tạo ra nhiều tập phổ biến, tăng chi phí tính toán; ngưỡng quá cao có thể bỏ sót các mẫu quan trọng. Thông thường, thử nghiệm với các giá trị khác nhau để tìm ngưỡng tối ưu.
Thuật toán MRIH có thể áp dụng cho dữ liệu phi cấu trúc không?
MRIH chủ yếu áp dụng cho dữ liệu dạng giao tác có cấu trúc rõ ràng. Tuy nhiên, có thể kết hợp với các kỹ thuật xử lý dữ liệu phi cấu trúc như xử lý ngôn ngữ tự nhiên để chuyển đổi dữ liệu thành dạng phù hợp trước khi khai thác.
Có thể mở rộng thuật toán MRIH cho khai thác song song không?
Có thể. Nghiên cứu tiếp theo đề xuất áp dụng khai thác song song dựa trên vector bit động và mô hình chia để trị, giúp tăng tốc độ xử lý trên các hệ thống đa lõi hoặc phân tán.

Kết luận

Thuật toán MRIH được phát triển dựa trên phương pháp khai thác theo chiều ngang, kết hợp kỹ thuật chia để trị và cắt tỉa, giúp khai thác tập phổ biến hiệu quả trên các bộ dữ liệu lớn.
Kết quả thực nghiệm cho thấy MRIH vượt trội hơn các thuật toán truyền thống về thời gian thực thi và bộ nhớ sử dụng, giảm khoảng 30% thời gian trên các bộ dữ liệu chuẩn.
Việc biểu diễn dữ liệu bằng ma trận bit và sắp xếp hạng mục theo độ phổ biến tăng dần góp phần tối ưu hóa quá trình khai thác.
Nghiên cứu mở ra hướng phát triển ứng dụng trong phân tích dữ liệu tiếng Việt và khai thác song song, nâng cao hiệu quả xử lý dữ liệu lớn trong thực tế.
Đề nghị các nhà nghiên cứu và chuyên gia ứng dụng tiếp tục phát triển và mở rộng thuật toán, đồng thời áp dụng trong các lĩnh vực đa dạng để khai thác tối ưu nguồn dữ liệu hiện có.

Hành động tiếp theo là triển khai ứng dụng thuật toán MRIH trong các dự án phân tích dữ liệu thực tế và nghiên cứu mở rộng khai thác song song nhằm nâng cao hiệu quả xử lý. Độc giả và chuyên gia được khuyến khích tham khảo và áp dụng kết quả nghiên cứu để phát triển các giải pháp khai thác dữ liệu tiên tiến.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan Chương này trình bày tổng quan về lĩnh vực nghiên cứu. Chương 2: Cơ sở lý thuyết Trong chương này, luận văn sẽ trình bày một số khái niệm, định nghĩa và tính chất của tập phổ biến, tập phổ biến đóng một số tiếp cận trong khai thác tập phổ biến. Ngoài ra, trong chương cũng trình bảy các thuật toán làm cơ sở nghiên cứu cho chương tiếp theo. Chương 3: Phương pháp khai thác theo chiều ngang để trích xuất các tập phổ biến Trong chương này, luận văn sẽ trình bày các nghiên cứu về sử dụng cấu trúc vector bit trong khai thác dữ liệu, sử dụng phương pháp chia để trị và cắt tỉa trong khai thác ngang.

Chương 4: Kết quả thực nghiệm và đánh giá Chương này sẽ trình bày kết quả thực nghiệm và một số nhận xét đánh giá về vấn đề đã được nghiên cứu. Chương 5: Kết luận Chương này sẽ trình bày kết quả thực nghiệm và một số nhận xét đánh giá về vấn đề đã được nghiên cứu. Kết luận chương Các dữ liệu có ích tồn tại trong các CSDL có ý nghĩa rất lớn trong nhiều ngành, lĩnh vực. Do đó việc phát hiện và trích xuất các dữ liệu tìm ẩn từ các tập dữ liệu lớn ngày càng trở nên cần thiết, đặc biệt trong gia đoạn hiện nay khi mà sự phát triền nhanh chóng của các ứng dụng công nghệ thông tin ở nhiều lĩnh vực trong đời sống xã hội.

Trong chương này, luận văn trình bày tổng quan về lĩnh vực nghiên cứu khai thác dữ liệu. Trong khai thác dữ liệu, kỹ thuật khai tác tập phổ biến là một trong những lĩnh vực đang được quan tâm và nghiên cứu mạnh mẽ. Giới thiệu tổng quan Bài toán xác định luật kết hợp lần đầu tiên được Agrawal. R [3] giới thiệu vào năm 1993.

Khai phá luật kết hợp là một kỹ thuật được sử dụng trong khai phá dữ liệu nhằm tìm ra các phần tử thường xuyên xuất hiện lặp đi lặp lại (hay phổ biến) trong cơ sở dữ liệu, từ đó rút ra được các luật về ảnh hưởng của một tập phần tử dẫn đến sự xuất hiện của tập phần tử khác. Các thuật toán khai phá luật kết hợp tìm kiếm các mối liên kết giữa các phần tử trong cơ sở dữ liệu. Những nghiên cứu về luật kết hợp gần đây tập trung xây dựng các thuật toán khai phá luật kết hợp mới, hiệu quả hoặc cải tiến hay phát triển các thuật toán hiệu quả hơn từ các thuật toán đã có. Chúng ta xem xét một bài toán về khai phá luật kết hợp như sau: phân tích hóa đơn mua hàng của khách hàng khi đi siêu thị.

Việc khai phá luật kết hợp trong bài toán này nhằm tìm ra các luật kết hợp giữa các mặt hàng mà khách hàng đã mua. Thí dụ một số luật kết hợp rút ra được sau khi phân tích hóa đơn khách hàng mua: 60% khách hàng mà mua “bánh mì” tại siêu thị thì đều mua “sữa” chúng ta thấy có sự kết hợp giữa “bánh mì” với “sữa”. Những luật kết hợp như vậy rất có ích trong việc giúp các nhà quản lý nắm bắt được thói quen mua hàng của khách hàng khi mua một (hoặc một số) mặt hàng này thì khách hàng có xu hướng mua thêm một số mặt hàng nào nữa. Từ đó đề ra những chiến lược quản lý hợp lý.

Như vậy, khai phá luật kết hợp có thể giải quyết được bài toán hết sức đời thường như: khách hàng vào siêu thị sẽ mua mặt hàng nào? Những mặt hàng nào mà khách hàng kết hợp cùng mua. Tất nhiên, khai phá luật kết hợp cũng có nhiều ý nghĩa trong các lĩnh vực khác như tài chính, y học, công nghệ… Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao tác lớn của một cơ sở dữ liệu cho trước. Nói cách khác, thuật toán khai phá luật kết hợp cho phép tạo ra các luật mô tả các sự kiện xảy ra đồng thời (một cách thường xuyên) như thế nào. Bài toán tìm luật kết hợp là bài toán cơ bản trong khai thác dữ liệu gồm hai bước chính: Bước 1: Tìm tất cả các tập phổ biến theo ngưỡng phổ biến cho trước, Bước 2: Tìm ra luật kết hợp dựa vào tập phổ biến đã tìm thấy ở Bước 1.

Nội dung luận văn này cũng đi sâu vào nghiên cứu thuật toán để tìm các tập phổ biến hiệu quả hơn. Các khái niệm và định nghĩa 2. Hạng mục Cho I là một tập các thuộc tính nhị phân. Cho I = {I1, I2, …, Im}, mỗi Ik (1km) là một hạng mục.

Tập hạng mục Một tập 𝑋 ⊆ 𝐼 là một tập các hạng mục. Cơ sở dữ liệu giao tác Một CSDL giao tác là một tập gồm nhiều hạng mục, mỗi hạng mục là một giao tác được định danh bởi một giá trị duy nhất là mã giao tác. Một CSDL giao tác trên I là một tập các định danh giao tác T = {t1, t2,…,tn}, với ti (1in) là một định danh giao tác trên I chứa một tập các danh mục dữ liệu X ⊆ I.1: Trong bài toán giỏ hàng, cơ sở dữ liệu giao tác là các lần mua hàng của mỗi khách hàng, cho biết trong một lần mua hàng, khách hàng mua những mặt hàng nào. Mã giao tác Nội dung giao tác 1 a, b, d, e 2 b, c, e 3 a, b, d, e 4 a, b, c, e 5 a, b, c, d, e 6 b, c, d Bảng 2.1 Cơ sở dữ liệu mẫu 2.

Độ phổ biến Cho CSDL bao gồm: Tập các danh mục I, tập danh mục X  I và tập các giao tác D Độ phổ biến của X trong D có ký hiệu là sup(X) và được định nghĩa là số giao tác mà X xuất hiện trong D.2: Sử dụng CSDL ví dụ 2.1 với số lượng 6 giao tác. Tập danh mục {a, b, c, d, e} Với CSDL mẫu trong bảng 2.1, thì ta có: 7 Tập danh mục I = {a, b, c, d, e} và tập giao tác D gồm có 6 giao tác: {abde, bce, abde, abce, abcde, bcd} Độ phổ biến của tập danh mục X1 = {a} là số giao tác trong D có chứa {a}, do đó sup(X1) = 4 Như vậy tương tự ta có: X2 = {a, d} => độ phổ biến của X2 là sup(X2) = 3 2. Tập phổ biến: Tập X  I được gọi là tập phổ biến nếu sup(X)  minsup, với minsup là giá trị do người dùng chỉ định.3: Ta xét lại CSDL mẫu trong bảng 2.1, với minsup = 3 (50%) thì tập X2 = {a, d} là tập phổ biến vì có sup(X2) = 3  minsup. Tương tự ta có với X3 = {a, b, d} thì sup(X3) = 3  minsup và X3 cũng là tập phổ biến.

Ngược lại, với X4 = {b, c, d} thì sup(X4) = 2 < minsup, vì vậy X4 không phải là tập phổ biến. Tập phổ biến đóng: Cho I = {i1, i2, …, im} là tập các hạng mục. Cho T = {t1, t2, …, tn} là tập các mã giao tác. Kết nối Galois Ta có t : 2I → 2T được định nghĩa như hàm sau: t(X) = {t ∈ T | X ⊆ i(t)} (1) Ta có i : 2T → 2I được định nghĩa như hàm sau: i(Y ) = {i ∈ I | ∀t ∈ Y, t chứa x} (2) Ánh xạ (1): t(X) lấy tất cả tid của giao tác có chứa tập hạng mục X.

Ánh xạ (2): i(Y) lấy tất cả hạng mục tồn tại trong tất cả giao tác Y. Toán tử đóng: 𝒄 = 𝒊 ∘ 𝒕 Tập hạng mục X là tập đóng nếu c(X) = X. Tập phổ biến đóng: là tập hạng mục đóng thỏa ngưỡng minsup cho trước.4: Ta xét lại CSDL mẫu trong bảng 2. Kiểm tra ae, bc có phải là tập phổ biến đóng? Sử dụng toán tử đóng: c(ae) = i(t(ae)) = i(1345) = abe c(bc) = i(t(bc)) = i(2456) = bc Vậy bc là tập phổ biến đóng, ae không là tập phổ biến đóng.

8 Tóm tắt định nghĩa: Tập phổ biến đóng là tập phổ biến mà không có tập nào bao nó có cùng độ phổ biến. Với F là tập hợp gồm tất cả tập phổ biến. F = {X | X ⊆ I và sup(X) ≥ minsup} Gọi C là tập hợp gồm tất cả tập phổ biến đóng.5: Sắp xếp theo độ phổ Mã giao tác Nội dung giao tác biến giảm dần 1 a, c, f, m, p f, c, a, m, p 2 a, c, d, f, m, p f, c, a, m, p 3 a, b, c, f, g, m f, c, a, b, m 4 b, f, i f, b 5 b, c, n, p c, b, p Bảng 2.2 Cơ sở dữ liệu mẫu hạng mục được sắp xếp Giả sử minsup =2, chúng ta có thể tìm kiếm và sắp xếp danh sách các hạng mục phổ biến theo độ phổ biến giảm dần. Danh sách hạng mục đã được sắp xếp được gọi là f_list.

Trong ví dụ này f_list = {f: 4, c: 4, a: 3, b: 3, m: 3, p: 3}. Các hạng mục phổ biến trong mỗi giao tác đều được sắp xếp theo f_list và hiển thị trong cột thứ ba của bảng 2. Tập {fc} là một tập phổ biến gồm 2 hạng mục với độ phổ biến là 3, nhưng nó không phải là tập đóng, bởi vì có một tập cha {fcam} mà độ phổ biến cũng là 3. Vậy {fcam} là một tập phổ biến đóng.

Các tính chất của tập phổ biến Tính chất 1: Độ phổ biến của tập con lớn hơn tập cha. Cho hai tập phổ biến X, Y với X  Y thì sup(X)  sup(Y) Tính chất 2 : Mọi tập con của một tập phổ biến đều là tập phổ biến. 9 X là tập phổ biến và Y  X thì sup(Y)  sup(X)  minsup, vì vậy Y cũng là tập phổ biến. Tính chất 3 : Mọi tập cha của một tập không phổ biến thì cũng không phổ biến.

X là tập không phổ biến và Y  X thì sup(Y)  sup(X) < minsup, vì vậy Y cũng không phải là tập phổ biến. Cách biểu diễn dữ liệu Trong các cơ sở dữ liệu quan hệ, thông thường dữ liệu sẽ được lưu trữ theo chiều ngang. Tức là các bảng dữ liệu hai chiều sẽ gồm N dòng tương ứng với các giao tác, và M cột tương ứng với các danh mục. Việc bố trí theo chiều ngang giúp cho việc xác định các danh mục thuộc về một giao tác đơn giản nhanh chóng.

Tuy nhiên khi cần xác định một danh mục cụ thể thuộc vào những giao tác nào thì cách bố trí theo chiều ngang lại gây ra khó khăn, khi đó ta phải duyệt tất cả các giao tác có trong CSDL và ghi nhận những giao tác có chứa danh mục cụ thể đó.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phương Pháp Khai Thác Theo Chiều Ngang Hiệu Quả Để Trích Xuất Tập Phổ Biến là một tài liệu chuyên sâu về kỹ thuật khai thác dữ liệu theo chiều ngang, tập trung vào việc trích xuất các tập phổ biến một cách hiệu quả. Tài liệu này cung cấp các phương pháp tối ưu hóa quy trình khai thác dữ liệu, giúp người đọc nâng cao hiệu suất và độ chính xác trong việc phân tích dữ liệu lớn. Những lợi ích chính bao gồm tiết kiệm thời gian, tăng cường khả năng xử lý dữ liệu phức tạp, và hỗ trợ ra quyết định dựa trên dữ liệu một cách chính xác hơn.

Để mở rộng kiến thức về các phương pháp phân tích và xử lý dữ liệu, bạn có thể tham khảo thêm Luận văn thạc sĩ xây dựng thuật toán trích xuất số phách trên phiếu trả lời trắc nghiệm của trường đại học phan thiết, nơi trình bày chi tiết về các thuật toán trích xuất thông tin. Ngoài ra, Luận văn đề xuất các giải pháp nhằm nâng cao hiệu quả áp dụng cung cấp những giải pháp thực tiễn để tối ưu hóa quy trình nghiên cứu. Cuối cùng, 2 tóm tắt luận án tiến sĩ tiếng việt ncs nguyễn khắc tấn là một nguồn tài liệu hữu ích để hiểu sâu hơn về các phương pháp nghiên cứu khoa học.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khai thác dữ liệu

#Khoa Học Dữ Liệu

#thuật toán khai thác

#trích xuất dữ liệu

Chủ đề

nghiên cứu khoa học

Khai thác dữ liệu

phương pháp học máy

phân tích tập phổ biến