I. Giới thiệu về hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập (IDS) là một phần quan trọng trong việc bảo vệ an ninh mạng. IDS có khả năng giám sát và phân tích lưu lượng mạng để phát hiện các hành vi bất thường hoặc tấn công. Việc phân lớp trong IDS là một yếu tố quyết định đến hiệu quả phát hiện. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng kỹ thuật học máy có thể nâng cao khả năng phát hiện xâm nhập. Tuy nhiên, các hệ thống này vẫn gặp phải nhiều thách thức, bao gồm độ chính xác thấp và tỷ lệ cảnh báo sai cao. Do đó, việc cải thiện chất lượng phân lớp là cần thiết để nâng cao hiệu quả của IDS.
1.1. Tính cấp thiết của đề tài luận án
Trong bối cảnh an ninh mạng ngày càng phức tạp, việc phát hiện xâm nhập trở nên cấp thiết hơn bao giờ hết. Các tấn công mạng ngày càng tinh vi, đòi hỏi các hệ thống IDS phải có khả năng phát hiện nhanh chóng và chính xác. Việc áp dụng kỹ thuật học máy trong phát hiện xâm nhập không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu tỷ lệ cảnh báo sai. Nghiên cứu này nhằm mục đích nâng cao chất lượng phân lớp của các hệ thống IDS thông qua việc cải tiến các kỹ thuật tiền xử lý dữ liệu và áp dụng các thuật toán học máy tiên tiến.
II. Các nghiên cứu liên quan
Nghiên cứu về phát hiện xâm nhập đã được thực hiện rộng rãi, với nhiều phương pháp khác nhau được áp dụng. Các nghiên cứu trước đây đã chỉ ra rằng việc lựa chọn thuộc tính và lấy mẫu lại tập dữ liệu là hai yếu tố quan trọng ảnh hưởng đến hiệu quả của IDS. Việc sử dụng các thuật toán học máy như Bagging, Boosting và Stacking đã cho thấy sự cải thiện đáng kể trong chất lượng phân lớp. Tuy nhiên, vẫn còn nhiều vấn đề cần giải quyết, đặc biệt là trong việc xử lý dữ liệu không cân bằng và tối ưu hóa các tham số của thuật toán. Các nghiên cứu gần đây cũng đã chỉ ra rằng việc áp dụng các kỹ thuật tiền xử lý dữ liệu có thể giúp cải thiện đáng kể hiệu suất của IDS.
2.1. Lựa chọn thuộc tính
Lựa chọn thuộc tính là một bước quan trọng trong quá trình phát triển các mô hình học máy. Việc lựa chọn đúng các thuộc tính có thể giúp giảm thiểu độ phức tạp của mô hình và cải thiện chất lượng phân lớp. Các thuật toán như FFC và BFE đã được sử dụng để lựa chọn các thuộc tính có liên quan nhất đến mục tiêu phân lớp. Nghiên cứu này đề xuất cải tiến các thuật toán này để nâng cao hiệu quả lựa chọn thuộc tính, từ đó cải thiện khả năng phát hiện xâm nhập của IDS.
III. Giải pháp cải tiến kỹ thuật tiền xử lý dữ liệu
Kỹ thuật tiền xử lý dữ liệu đóng vai trò quan trọng trong việc nâng cao chất lượng phân lớp của các hệ thống IDS. Nghiên cứu này đề xuất hai giải pháp chính: (1) Cải tiến các thuật toán lựa chọn thuộc tính và (2) Cải thiện các kỹ thuật lấy mẫu lại tập dữ liệu. Việc áp dụng các kỹ thuật như tăng mẫu và giảm mẫu giúp cân bằng dữ liệu, từ đó nâng cao khả năng phát hiện của IDS. Kết quả thử nghiệm cho thấy rằng các giải pháp đề xuất đã cải thiện đáng kể độ chính xác của các mô hình học máy trong phát hiện xâm nhập.
3.1. Cải tiến thuật toán lựa chọn thuộc tính
Nghiên cứu đã đề xuất hai thuật toán lựa chọn thuộc tính mới dựa trên các thuật toán FFC và BFE. Các thuật toán này được thiết kế để tối ưu hóa quá trình lựa chọn thuộc tính, giúp loại bỏ các thuộc tính không liên quan và giữ lại các thuộc tính quan trọng nhất. Kết quả cho thấy rằng việc áp dụng các thuật toán này đã giúp cải thiện đáng kể chất lượng phân lớp của các mô hình học máy, từ đó nâng cao khả năng phát hiện xâm nhập của IDS.