I. Phát triển phương pháp rút gọn thuộc tính
Luận án tập trung vào phát triển phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận FilterWrapper. Các phương pháp này nhằm loại bỏ các thuộc tính dư thừa, giảm độ phức tạp của mô hình và cải thiện độ chính xác phân lớp. Rút gọn thuộc tính là bước tiền xử lý quan trọng trong khai phá dữ liệu, đặc biệt khi xử lý các bảng quyết định lớn và phức tạp.
1.1. Bảng quyết định không đầy đủ
Bảng quyết định không đầy đủ là bảng dữ liệu chứa các giá trị thiếu trên miền giá trị thuộc tính. Điều này gây khó khăn trong việc áp dụng các phương pháp truyền thống. Luận án sử dụng mô hình tập thô dung sai để giải quyết vấn đề này. Mô hình này mở rộng quan hệ tương đương trong lý thuyết tập thô truyền thống thành quan hệ dung sai, cho phép xử lý trực tiếp các bảng quyết định không đầy đủ mà không cần tiền xử lý giá trị thiếu.
1.2. Tiếp cận FilterWrapper
Tiếp cận FilterWrapper kết hợp hai phương pháp: filter và wrapper. Giai đoạn filter sử dụng độ đo để lựa chọn các thuộc tính quan trọng, trong khi giai đoạn wrapper đánh giá độ chính xác phân lớp của các tập thuộc tính được chọn. Phương pháp này giúp tối ưu hóa số lượng thuộc tính và cải thiện độ chính xác của mô hình phân lớp.
II. Thuật toán FilterWrapper tìm tập rút gọn
Luận án đề xuất thuật toán FilterWrapper để tìm tập rút gọn trong bảng quyết định không đầy đủ. Thuật toán này sử dụng độ đo khoảng cách để xác định mức độ quan trọng của các thuộc tính. Kết quả thử nghiệm cho thấy, thuật toán giảm thiểu đáng kể số lượng thuộc tính trong tập rút gọn mà vẫn duy trì hoặc cải thiện độ chính xác phân lớp.
2.1. Xây dựng độ đo khoảng cách
Độ đo khoảng cách được xây dựng để đánh giá sự khác biệt giữa các tập hợp thuộc tính trong bảng quyết định không đầy đủ. Độ đo này giúp xác định các thuộc tính có ảnh hưởng lớn đến kết quả phân lớp, từ đó loại bỏ các thuộc tính dư thừa.
2.2. Thực nghiệm và đánh giá
Các thử nghiệm được thực hiện trên các bộ dữ liệu từ kho UCI. Kết quả cho thấy, thuật toán FilterWrapper giảm thiểu số lượng thuộc tính trong tập rút gọn và cải thiện độ chính xác phân lớp so với các phương pháp truyền thống. Điều này chứng minh tính hiệu quả của phương pháp đề xuất.
III. Thuật toán gia tăng FilterWrapper
Luận án cũng đề xuất các thuật toán gia tăng FilterWrapper để xử lý các bảng quyết định thay đổi. Các thuật toán này chỉ cập nhật tập rút gọn trên phần dữ liệu thay đổi, giảm thiểu thời gian tính toán và tăng hiệu quả xử lý.
3.1. Bổ sung và loại bỏ tập đối tượng
Khi bổ sung hoặc loại bỏ tập đối tượng, thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu thay đổi. Điều này giúp giảm thiểu thời gian tính toán so với việc tính toán lại toàn bộ tập rút gọn.
3.2. Bổ sung và loại bỏ tập thuộc tính
Tương tự, khi bổ sung hoặc loại bỏ tập thuộc tính, thuật toán gia tăng chỉ cập nhật lại tập rút gọn trên phần dữ liệu thay đổi. Phương pháp này đặc biệt hiệu quả khi xử lý các bảng quyết định lớn và thường xuyên thay đổi.
IV. Ý nghĩa khoa học và thực tiễn
Luận án có ý nghĩa khoa học và thực tiễn lớn. Về mặt khoa học, các thuật toán đề xuất mở rộng lý thuyết tập thô dung sai và tiếp cận FilterWrapper. Về mặt thực tiễn, các phương pháp này giúp giảm thiểu độ phức tạp của mô hình và cải thiện độ chính xác phân lớp, đặc biệt trong bối cảnh dữ liệu lớn và thường xuyên thay đổi.
4.1. Ứng dụng trong khai phá dữ liệu
Các phương pháp đề xuất có thể áp dụng trong các bài toán khai phá dữ liệu, đặc biệt là các bài toán phân lớp và dự đoán. Chúng giúp tăng hiệu quả xử lý và giảm chi phí tính toán.
4.2. Hướng phát triển trong tương lai
Luận án mở ra hướng nghiên cứu mới trong việc kết hợp các phương pháp FilterWrapper với các mô hình khác như tập thô mờ hoặc học sâu, nhằm tiếp tục cải thiện hiệu quả của các thuật toán rút gọn thuộc tính.