Tổng quan nghiên cứu
Trong bối cảnh bùng nổ công nghệ thông tin và sự phát triển mạnh mẽ của mạng internet, vấn đề an toàn bảo mật mạng ngày càng trở nên cấp thiết. Theo thống kê của trung tâm VNCERT, từ đầu năm 2019 đến tháng 8/2019, đã ghi nhận 7.015 sự cố tấn công mạng vào các trang web tại Việt Nam, bao gồm 2.570 sự cố tấn công lừa đảo (phishing), 4.203 sự cố thay đổi giao diện và 242 sự cố nhiễm mã độc (Malware), với xu hướng gia tăng so với cùng kỳ năm trước. Những sự cố này gây ra hậu quả nghiêm trọng, đòi hỏi các tổ chức, doanh nghiệp phải nâng cao khả năng phát hiện và phòng chống xâm nhập mạng.
Luận văn tập trung nghiên cứu ứng dụng mô hình học sâu (Deep Learning) trong phát hiện xâm nhập mạng, nhằm nâng cao hiệu quả phát hiện các hành vi xâm nhập, đặc biệt là các cuộc tấn công mới chưa được biết trước. Mục tiêu cụ thể là xây dựng và thử nghiệm mô hình IDPSDLWD kết hợp giữa hệ thống phát hiện và ngăn chặn xâm nhập dựa trên luật (rule-based) và mô hình học sâu DNN để phân tích lưu lượng HTTP, từ đó phát hiện và ngăn chặn các luồng dữ liệu bất thường. Nghiên cứu được thực hiện trên hai bộ dữ liệu lớn: CIC-IDS-2018 và bộ dữ liệu do nhóm nghiên cứu tạo ra trong khuôn khổ đề tài nghiên cứu cấp Nhà nước.
Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp một giải pháp phát hiện xâm nhập mạng có độ chính xác cao (độ đo F1 đạt 99,98%, độ chính xác 99,96%), giảm thiểu tỷ lệ phát hiện nhầm và bỏ sót, đồng thời có khả năng phát hiện thời gian thực, góp phần nâng cao an toàn bảo mật mạng cho các tổ chức, doanh nghiệp trong bối cảnh các cuộc tấn công mạng ngày càng tinh vi và phức tạp.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai khung lý thuyết chính:
Hệ thống phát hiện xâm nhập mạng (NIDS): Bao gồm hai phương pháp phát hiện chính là dựa trên dấu hiệu (Signature-based IDS - SNIDS) và dựa trên phát hiện bất thường (Anomaly-based IDS - ANIDS). SNIDS sử dụng tập luật để phát hiện các mẫu tấn công đã biết, ưu điểm là phát hiện nhanh các tấn công quen thuộc nhưng hạn chế trong việc phát hiện các tấn công mới. ANIDS sử dụng các mô hình học máy thống kê để phát hiện các hành vi bất thường, có khả năng phát hiện các tấn công chưa biết trước nhưng tốn kém tài nguyên và phức tạp trong xây dựng mô hình.
Lý thuyết học sâu (Deep Learning): Là nhánh nghiên cứu của trí tuệ nhân tạo, học sâu sử dụng mạng nơ-ron nhân tạo nhiều lớp (DNN) để học các đặc trưng phức tạp từ dữ liệu lớn. Các hàm kích hoạt phổ biến như ReLU, Sigmoid, Tanh và Softmax được sử dụng để tăng khả năng biểu diễn phi tuyến của mô hình. Mạng nơ-ron sâu có khả năng tự động trích xuất đặc trưng, phù hợp với dữ liệu dạng bảng và dữ liệu mạng phức tạp.
Các khái niệm chính bao gồm: mạng nơ-ron nhân tạo (ANN), mạng nơ-ron sâu (DNN), hàm kích hoạt ReLU, chuẩn hóa hàng loạt (Batch Normalization), thuật toán lan truyền ngược (Backpropagation), và các chỉ số đánh giá mô hình như độ chính xác (Accuracy), độ đo F1, độ hồi tưởng (Recall).
Phương pháp nghiên cứu
Nguồn dữ liệu sử dụng gồm hai bộ:
Bộ dữ liệu DS1: Sinh ra trong đề tài nghiên cứu cấp Nhà nước, gồm 180.079 luồng dữ liệu sạch và 7.310 luồng dữ liệu chứa mã độc Webshell, được thu thập từ hệ thống testbed mô phỏng mạng Webserver và Attack-Network với hơn 400 loại webshell khác nhau.
Bộ dữ liệu DS2: Lấy từ nguồn tin cậy CIC-IDS-2018, gồm 1.301 luồng dữ liệu sạch và 566 luồng dữ liệu chứa mã độc như BruteForce-Web, BruteForce-XSS, SQL-Injection.
Phương pháp phân tích sử dụng mô hình học sâu DNN với kiến trúc gồm các lớp ẩn, biến loại (Categorical Variables) và biến liên tục (Continuous Variables). Mô hình được huấn luyện và tối ưu siêu tham số bằng công cụ Ax, sử dụng kỹ thuật chuẩn hóa hàng loạt và hàm kích hoạt ReLU để tăng tốc độ hội tụ và ổn định mô hình.
Quá trình nghiên cứu được thực hiện theo timeline: thu thập và làm sạch dữ liệu, xây dựng mô hình DNN, huấn luyện và đánh giá mô hình bằng phương pháp kiểm chứng chéo k-fold (k=5), so sánh kết quả với các mô hình khác trên cùng bộ dữ liệu.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả mô hình IDPSDLWD trên bộ dữ liệu DS1: Mô hình đạt độ chính xác 100%, độ đo F1 100%, tỷ lệ dương tính giả (FPR) và âm tính giả (FNR) gần như bằng 0%, thể hiện khả năng phát hiện chính xác các luồng dữ liệu chứa mã độc Webshell mà không gây cảnh báo sai.
Hiệu quả trên bộ dữ liệu DS2: Mô hình đạt độ chính xác 99,96%, độ đo F1 99,98%, tỷ lệ dương tính giả 1,18% và tỷ lệ âm tính giả 0,04%, cho thấy khả năng phát hiện các cuộc tấn công đa dạng như BruteForce và SQL-Injection với độ tin cậy cao.
So sánh với các mô hình khác: IDPSDLWD vượt trội hơn các mô hình sử dụng fast.ai, Keras-TensorFlow và Keras-Theano với độ chính xác và độ đo F1 cao hơn, lần lượt đạt 99,96% so với 99,92%-99,95% của các mô hình so sánh.
Tính khả thi trong thời gian thực: Mô hình có khả năng phát hiện và ngăn chặn xâm nhập mạng dựa trên phân tích lưu lượng HTTP trong thời gian thực, với thời gian dự đoán nhanh và ổn định qua các epoch huấn luyện.
Thảo luận kết quả
Kết quả cho thấy việc kết hợp giữa hệ thống phát hiện dựa trên luật và mô hình học sâu DNN giúp tận dụng ưu điểm của cả hai phương pháp: phát hiện nhanh các mẫu tấn công đã biết và khả năng phát hiện các hành vi bất thường mới. Việc sử dụng 82 đặc trưng trích xuất từ lưu lượng HTTP giúp mô hình có đủ thông tin để phân biệt chính xác các luồng dữ liệu.
So với các nghiên cứu trước đây, mô hình IDPSDLWD không chỉ đạt độ chính xác cao mà còn giảm thiểu tỷ lệ cảnh báo sai, điều này rất quan trọng trong thực tế để tránh gây quá tải cho quản trị viên hệ thống. Các biểu đồ ma trận nhầm lẫn và các chỉ số đánh giá được trình bày minh họa rõ ràng sự phân loại chính xác giữa luồng sạch và luồng chứa mã độc.
Tuy nhiên, mô hình hiện mới chỉ áp dụng cho giao thức HTTP, các giao thức khác sẽ được nghiên cứu trong tương lai để mở rộng phạm vi phát hiện. Ngoài ra, việc tối ưu hóa tốc độ và hiệu năng mô hình vẫn còn là thách thức do yêu cầu tài nguyên tính toán lớn của học sâu.
Đề xuất và khuyến nghị
Triển khai mô hình IDPSDLWD trong hệ thống giám sát mạng doanh nghiệp: Áp dụng mô hình để phát hiện và ngăn chặn các cuộc tấn công webshell và các hành vi bất thường trên lưu lượng HTTP, nhằm nâng cao độ an toàn mạng. Thời gian thực hiện: 6-12 tháng, chủ thể: bộ phận an ninh mạng.
Mở rộng nghiên cứu áp dụng cho các giao thức mạng khác: Nghiên cứu và phát triển mô hình học sâu tương tự cho các giao thức như FTP, SMTP, DNS để tăng phạm vi phát hiện xâm nhập. Thời gian: 12-18 tháng, chủ thể: nhóm nghiên cứu và phát triển.
Tối ưu hóa hiệu năng và tốc độ xử lý mô hình: Sử dụng các kỹ thuật giảm chiều dữ liệu, tăng tốc phần cứng (GPU, TPU) và cải tiến thuật toán để giảm thời gian huấn luyện và dự đoán, đảm bảo khả năng vận hành thời gian thực. Thời gian: 6 tháng, chủ thể: kỹ sư phát triển hệ thống.
Đào tạo và nâng cao nhận thức cho nhân viên an ninh mạng: Tổ chức các khóa đào tạo về ứng dụng học sâu trong phát hiện xâm nhập mạng, giúp nhân viên hiểu và vận hành hiệu quả hệ thống mới. Thời gian: liên tục, chủ thể: phòng nhân sự và đào tạo.
Đối tượng nên tham khảo luận văn
Chuyên gia và kỹ sư an ninh mạng: Nghiên cứu và ứng dụng các phương pháp phát hiện xâm nhập mạng hiện đại, nâng cao khả năng bảo vệ hệ thống mạng doanh nghiệp.
Nhà nghiên cứu trong lĩnh vực học máy và học sâu: Tham khảo mô hình DNN ứng dụng thực tiễn trong an toàn mạng, từ đó phát triển các giải pháp mới hoặc cải tiến mô hình hiện có.
Sinh viên và học viên cao học ngành hệ thống thông tin, an toàn thông tin: Học tập kiến thức lý thuyết và thực nghiệm về phát hiện xâm nhập mạng, mô hình học sâu và các kỹ thuật xử lý dữ liệu mạng.
Các tổ chức, doanh nghiệp triển khai hệ thống bảo mật mạng: Áp dụng mô hình phát hiện xâm nhập mạng dựa trên học sâu để nâng cao hiệu quả giám sát và phòng chống các cuộc tấn công mạng phức tạp.
Câu hỏi thường gặp
Mô hình học sâu có ưu điểm gì so với các phương pháp truyền thống trong phát hiện xâm nhập mạng?
Mô hình học sâu có khả năng tự động trích xuất đặc trưng phức tạp từ dữ liệu lớn, phát hiện các hành vi bất thường mới mà không cần dựa hoàn toàn vào tập luật có sẵn. Ví dụ, mô hình IDPSDLWD đạt độ đo F1 lên tới 99,98%, vượt trội so với các phương pháp dựa trên chữ ký truyền thống.Bộ dữ liệu nào được sử dụng để huấn luyện và đánh giá mô hình?
Luận văn sử dụng hai bộ dữ liệu chính: CIC-IDS-2018 từ nguồn tin cậy và bộ dữ liệu do nhóm nghiên cứu tạo ra trong đề tài cấp Nhà nước, với tổng số mẫu lên tới hàng trăm nghìn luồng dữ liệu, bao gồm cả luồng sạch và luồng chứa mã độc Webshell.Mô hình có thể áp dụng cho các giao thức mạng ngoài HTTP không?
Hiện tại mô hình tập trung vào phân tích lưu lượng HTTP. Việc mở rộng sang các giao thức khác như FTP, SMTP sẽ được nghiên cứu trong tương lai nhằm tăng phạm vi phát hiện xâm nhập.Làm thế nào để giảm thiểu tỷ lệ cảnh báo sai trong hệ thống phát hiện xâm nhập?
Kết hợp giữa hệ thống dựa trên luật và mô hình học sâu giúp giảm tỷ lệ cảnh báo sai. Mô hình IDPSDLWD đã chứng minh tỷ lệ dương tính giả rất thấp, gần như 0% trên bộ dữ liệu thử nghiệm, giúp quản trị viên tập trung xử lý các cảnh báo chính xác.Mô hình có thể hoạt động trong thời gian thực không?
Mô hình được thiết kế để phát hiện và ngăn chặn xâm nhập mạng trong thời gian thực, với thời gian dự đoán nhanh và ổn định qua các epoch huấn luyện, phù hợp với yêu cầu vận hành hệ thống giám sát mạng hiện đại.
Kết luận
- Đã đề xuất và xây dựng thành công mô hình IDPSDLWD kết hợp hệ thống phát hiện dựa trên luật và mô hình học sâu DNN để phát hiện xâm nhập mạng qua lưu lượng HTTP.
- Mô hình đạt độ đo F1 lên tới 99,98% và độ chính xác 99,96%, vượt trội so với các phương pháp hiện có trên cùng bộ dữ liệu.
- Thực nghiệm trên hai bộ dữ liệu lớn, bao gồm dữ liệu thực tế và dữ liệu từ nguồn tin cậy, chứng minh tính hiệu quả và khả năng ứng dụng thực tiễn của mô hình.
- Đề xuất mở rộng nghiên cứu cho các giao thức mạng khác và tối ưu hóa hiệu năng mô hình để đáp ứng yêu cầu vận hành thời gian thực.
- Khuyến nghị triển khai mô hình trong các hệ thống an ninh mạng doanh nghiệp nhằm nâng cao khả năng phát hiện và ngăn chặn các cuộc tấn công mạng phức tạp.
Luận văn mở ra hướng phát triển mới trong ứng dụng học sâu cho an toàn bảo mật mạng, đồng thời cung cấp nền tảng cho các nghiên cứu tiếp theo trong lĩnh vực phát hiện xâm nhập mạng hiện đại. Các tổ chức và cá nhân quan tâm có thể tiếp cận mã nguồn và dữ liệu thử nghiệm để ứng dụng và phát triển thêm.