I. Phương pháp khai thác
Phương pháp khai thác là một trong những nền tảng quan trọng trong lĩnh vực khai phá dữ liệu. Luận văn tập trung vào việc nghiên cứu và cải tiến các thuật toán khai thác tập phổ biến, đặc biệt là khai thác theo chiều ngang. Phương pháp này giúp tối ưu hóa quá trình trích xuất tập phổ biến từ các cơ sở dữ liệu lớn, giảm thiểu thời gian và tài nguyên tính toán. Các thuật toán truyền thống như Apriori và FP-Growth đã được áp dụng rộng rãi, nhưng vẫn tồn tại hạn chế về hiệu suất khi xử lý dữ liệu có kích thước lớn. Do đó, việc phát triển các phương pháp mới như khai thác theo chiều ngang là cần thiết để nâng cao hiệu quả khai thác.
1.1. Khai thác theo chiều ngang
Khai thác theo chiều ngang là phương pháp tập trung vào việc duyệt dữ liệu theo từng hàng (giao tác) thay vì theo từng cột (hạng mục). Phương pháp này giúp giảm thiểu số lượng lần quét cơ sở dữ liệu, từ đó tăng tốc độ xử lý. Thuật toán Mining Row Item Horizontal (MRIH) được đề xuất trong luận văn sử dụng phương pháp này để thiết lập sự cân bằng giữa kích thước ngang và dọc của cơ sở dữ liệu. Kết quả thử nghiệm cho thấy MRIH đạt hiệu quả cao hơn so với các thuật toán truyền thống, đặc biệt khi xử lý các tập dữ liệu lớn.
1.2. Trích xuất tập phổ biến
Trích xuất tập phổ biến là quá trình tìm kiếm các tập hợp hạng mục xuất hiện thường xuyên trong cơ sở dữ liệu. Phương pháp này đóng vai trò quan trọng trong việc phát hiện các quy tắc kết hợp và mẫu dữ liệu có ý nghĩa. Luận văn đề xuất sử dụng phương pháp trích xuất dựa trên ma trận bit để nén dữ liệu và giảm kích thước đầu ra. Kỹ thuật này giúp cải thiện đáng kể thời gian khai thác và hiệu suất tổng thể của thuật toán.
II. Hiệu quả khai thác
Hiệu quả khai thác là yếu tố then chốt trong việc đánh giá các phương pháp khai phá dữ liệu. Luận văn tập trung vào việc cải thiện hiệu suất của các thuật toán khai thác tập phổ biến thông qua việc áp dụng các kỹ thuật mới như chia để trị và cắt tỉa. Các kỹ thuật này giúp giảm kích thước của cơ sở dữ liệu giao tác và tối ưu hóa quá trình khai thác. Kết quả thử nghiệm cho thấy rằng các phương pháp đề xuất trong luận văn đạt được hiệu quả khai thác tốt hơn so với các thuật toán truyền thống, đặc biệt khi xử lý các tập dữ liệu lớn và phức tạp.
2.1. Phương pháp chia để trị
Phương pháp chia để trị được áp dụng để phân chia cơ sở dữ liệu thành các phần nhỏ hơn, từ đó giảm thiểu độ phức tạp của quá trình khai thác. Kỹ thuật này giúp tăng tốc độ xử lý và giảm thiểu tài nguyên tính toán. Trong luận văn, phương pháp này được kết hợp với khai thác theo chiều ngang để tối ưu hóa hiệu suất của thuật toán MRIH.
2.2. Kỹ thuật cắt tỉa
Kỹ thuật cắt tỉa được sử dụng để loại bỏ các giao tác không thỏa mãn độ phổ biến tối thiểu, từ đó giảm kích thước của cơ sở dữ liệu cần xử lý. Kỹ thuật này giúp tăng tốc độ khai thác và giảm thiểu thời gian tính toán. Luận văn đề xuất sử dụng kỹ thuật này kết hợp với phương pháp trích xuất dựa trên ma trận bit để đạt được hiệu quả khai thác tối ưu.
III. Ứng dụng thực tiễn
Các phương pháp và thuật toán được đề xuất trong luận văn có nhiều ứng dụng thực tiễn trong các lĩnh vực như giáo dục, y tế, và kinh tế. Ví dụ, phương pháp khai thác theo chiều ngang có thể được áp dụng để phân tích dữ liệu từ mạng xã hội như Facebook, giúp xác định các xu hướng và mẫu hành vi của người dùng. Ngoài ra, các kỹ thuật trích xuất tập phổ biến có thể được sử dụng để xây dựng các hệ thống tư vấn và hỗ trợ ra quyết định trong giáo dục và y tế.
3.1. Phân tích dữ liệu mạng xã hội
Phương pháp khai thác theo chiều ngang có thể được áp dụng để phân tích dữ liệu từ các nền tảng mạng xã hội như Facebook. Kỹ thuật này giúp xác định các xu hướng và mẫu hành vi của người dùng, từ đó hỗ trợ các chiến lược marketing và quản lý cộng đồng.
3.2. Hệ thống tư vấn giáo dục
Các kỹ thuật trích xuất tập phổ biến có thể được sử dụng để xây dựng các hệ thống tư vấn giáo dục, giúp học sinh và sinh viên lựa chọn ngành học và nghề nghiệp phù hợp dựa trên phân tích dữ liệu về sở thích và năng lực.