I. Nghiên cứu cải tiến kỹ thuật
Luận án tập trung vào nghiên cứu cải tiến kỹ thuật rút gọn đặc trưng nhằm nâng cao hiệu năng phân lớp dữ liệu. Các kỹ thuật này được phân tích và cải tiến theo hai hướng chính: lựa chọn đặc trưng và trích xuất đặc trưng. Rút gọn đặc trưng giúp giảm kích thước dữ liệu, loại bỏ các đặc trưng dư thừa và không liên quan, từ đó cải thiện độ chính xác và hiệu suất của các mô hình phân tích. Luận án đề xuất các phương pháp mới như FRFE (Fast Recursive Feature Elimination) và C-KPCA (Custom-Kernel PCA) để tối ưu hóa quá trình này.
1.1. Lựa chọn đặc trưng
Phương pháp lựa chọn đặc trưng được cải tiến thông qua thuật toán FRFE, sử dụng chiến lược loại bỏ đặc trưng đệ quy. Hàm đánh giá đặc trưng được đề xuất giúp tăng hiệu quả phân lớp và ổn định kết quả. Để giảm chi phí tính toán, thư viện xử lý phân tán H2O được áp dụng. Kết quả thực nghiệm trên bộ dữ liệu tín dụng Đức và Úc cho thấy thuật toán FRFE cải thiện đáng kể thời gian chạy và độ chính xác so với các phương pháp hiện có.
1.2. Trích xuất đặc trưng
Hướng tiếp cận trích xuất đặc trưng được thực hiện thông qua phương pháp C-KPCA, dựa trên kỹ thuật hàm nhân PCA. Phương pháp này xây dựng một hàm nhân mới bằng cách kết hợp có định hướng các hàm nhân cơ bản. Kết quả thực nghiệm trên bộ dữ liệu ung thư cho thấy C-KPCA đạt hiệu quả ổn định và vượt trội so với các phương pháp khác trong nhiều trường hợp.
II. Phân lớp dữ liệu
Luận án tập trung vào việc áp dụng các kỹ thuật phân lớp dữ liệu sau khi rút gọn đặc trưng. Các phương pháp như Random Forest, SVM và k-NN được sử dụng để đánh giá hiệu quả của các kỹ thuật rút gọn đặc trưng. Kết quả cho thấy việc rút gọn đặc trưng giúp cải thiện đáng kể độ chính xác và thời gian thực thi của các mô hình phân lớp.
2.1. Ứng dụng trong bài toán tín dụng
Trong bài toán cho điểm tín dụng, thuật toán FRFE được áp dụng để lựa chọn các đặc trưng quan trọng từ bộ dữ liệu tín dụng Đức và Úc. Kết quả thực nghiệm cho thấy phương pháp này giúp tăng độ chính xác phân lớp và giảm thời gian xử lý so với các phương pháp truyền thống.
2.2. Ứng dụng trong phân tích dữ liệu ung thư
Phương pháp C-KPCA được áp dụng trong phân tích dữ liệu ung thư, giúp trích xuất các đặc trưng quan trọng từ bộ dữ liệu ung thư ruột kết, bạch cầu, lymphoma và tuyến tiền liệt. Kết quả thực nghiệm cho thấy C-KPCA đạt hiệu quả cao hơn so với các phương pháp trích xuất đặc trưng khác.
III. Luận án tiến sĩ CNTT
Luận án là một công trình nghiên cứu chuyên sâu trong lĩnh vực Công nghệ Thông tin, cụ thể là học máy và khai phá dữ liệu. Nghiên cứu này đóng góp vào việc phát triển các kỹ thuật rút gọn đặc trưng, giúp giải quyết các vấn đề thực tiễn trong phân tích dữ liệu lớn. Các kết quả nghiên cứu được công bố trong các bài báo khoa học và có tiềm năng ứng dụng rộng rãi trong các lĩnh vực như tài chính, y tế và khoa học dữ liệu.
3.1. Đóng góp khoa học
Luận án đề xuất hai phương pháp mới là FRFE và C-KPCA, góp phần vào sự phát triển của lĩnh vực rút gọn đặc trưng. Các phương pháp này được đánh giá cao qua các thực nghiệm và có tiềm năng ứng dụng trong nhiều bài toán thực tế.
3.2. Ứng dụng thực tiễn
Các kỹ thuật được đề xuất trong luận án có thể áp dụng trong các lĩnh vực như phân tích tín dụng, chẩn đoán y tế và phân loại văn bản. Điều này cho thấy giá trị thực tiễn và tiềm năng ứng dụng rộng rãi của nghiên cứu.