I. Tổng Quan Về Phát Hiện Xâm Nhập Mạng Bất Thường NIDS
Để tăng cường tính bảo mật, mô hình mạng thường được thiết kế với một hệ thống phát hiện xâm nhập mạng (Network Intrusion Detection System - NIDS). NIDS theo dõi các hành vi độc hại bên trong và ngoài hệ thống mạng, máy chủ, bảo vệ tài sản người dùng. NIDS có hai loại chính: Active IDS tự động chặn tấn công, Passive IDS chỉ giám sát và cảnh báo. Một cách phân loại khác là Signature-Based IDS (dựa trên dấu hiệu đã biết) và Anomaly-Based IDS (dựa trên bất thường). Anomaly-Based Intrusion Detection sử dụng các kỹ thuật machine learning để phát hiện các cuộc tấn công mới. Các mô hình Machine Learning Algorithms for Intrusion Detection được áp dụng để tăng tính hiệu quả. Một hệ thống NIDS áp dụng machine learning được triển khai với kiến trúc gồm 2 module chính: thu thập dữ liệu mạng và xử lý, phân loại gói tin đáng ngờ. Nghiên cứu này tập trung vào module thứ hai, sử dụng tập dữ liệu mạng Kyoto Dataset.
1.1. Các Loại Hệ Thống Phát Hiện Xâm Nhập Mạng IDS
Hệ thống IDS được chia thành Active và Passive. Active IDS tự động chặn các cuộc tấn công, trong khi Passive IDS chỉ giám sát lưu lượng và đưa ra cảnh báo cho người dùng. Một cách phân loại khác là Signature-Based và Anomaly-Based Intrusion Detection. Signature-Based IDS dựa trên cơ sở dữ liệu các dấu hiệu đã biết, trong khi Anomaly-Based IDS phát hiện bất thường so với hành vi bình thường. Cần lựa chọn phương pháp phù hợp với yêu cầu bảo mật và tài nguyên có sẵn.
1.2. Kiến Trúc Hệ Thống NIDS Dùng Machine Learning
Kiến trúc của một hệ thống NIDS Machine Learning gồm hai module. Module đầu tiên thu thập và sao chép tất cả luồng dữ liệu mạng. Module thứ hai xử lý và phân loại các gói tin đáng ngờ. Module này bao gồm các bước: trích chọn đặc trưng, xử lý dữ liệu (chuẩn hóa, giảm kích thước), phân loại gói tin bằng mô hình machine learning, và cuối cùng, gửi kết quả phân loại cho hệ thống NIDS để ngăn chặn các gói tin độc hại. Feature Extraction for Intrusion Detection là một bước quan trọng trong module này.
II. Thách Thức Với Phát Hiện Xâm Nhập Mạng Bất Thường CyberSecurity
Các hệ thống CNTT chứa thông tin nhạy cảm và là mục tiêu tấn công. Các cuộc tấn công ngày càng tinh vi và khó phát hiện. Số lượng người dùng Internet tăng nhanh, kéo theo đó là các mối đe dọa cũng gia tăng. Theo Technology [1], tội phạm mạng gây thiệt hại lớn cho nền kinh tế toàn cầu. Các doanh nghiệp đổi mới công nghệ nhanh hơn giải quyết các vấn đề bảo mật. Điều này dẫn đến gia tăng các hình thức tội phạm đánh cắp dữ liệu người dùng, gây ra mối đe dọa cho cả cá nhân và doanh nghiệp. Cần thiết phải có hệ thống Phát Hiện Xâm Nhập Mạng Bất Thường (Network Intrusion Detection System) để bảo vệ tài sản của người dùng.
2.1. Sự Gia Tăng Của Các Mối Đe Dọa Mạng Hiện Nay
Số lượng người dùng internet tăng nhanh dẫn đến các mối đe dọa trên không gian mạng cũng tăng theo. Các cuộc tấn công mạng ngày càng trở nên tinh vi và khó phát hiện. Việc bảo mật thông tin cá nhân và doanh nghiệp trở thành một thách thức lớn. Cần có những giải pháp AI for Network Security hiệu quả để đối phó với tình hình này.
2.2. Thiệt Hại Kinh Tế Do Tội Phạm Mạng Gây Ra
Tội phạm mạng gây thiệt hại đáng kể cho nền kinh tế toàn cầu, lên đến hàng nghìn tỷ đô la mỗi năm. Thiệt hại này bao gồm chi phí khắc phục sự cố, mất dữ liệu, gián đoạn hoạt động kinh doanh và tổn hại uy tín. Việc đầu tư vào các giải pháp Cybersecurity Anomaly Detection là cần thiết để giảm thiểu thiệt hại do tội phạm mạng gây ra.
2.3. Nhu Cầu Cấp Thiết Về Hệ Thống Phát Hiện Xâm Nhập
Để đối phó với sự gia tăng của các mối đe dọa mạng và thiệt hại kinh tế do tội phạm mạng gây ra, việc triển khai các hệ thống Network Intrusion Detection System hiệu quả là vô cùng cần thiết. Các hệ thống này cần có khả năng phát hiện và ngăn chặn các cuộc tấn công một cách nhanh chóng và chính xác.
III. Phương Pháp LSTM và GRU Trong Phát Hiện Xâm Nhập Mạng
Luận văn này tập trung vào việc áp dụng các kỹ thuật machine learning, đặc biệt là các mô hình mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) như LSTM và GRU, vào hệ thống NIDS. Các mô hình này có khả năng học các đặc trưng từ dữ liệu chuỗi, phù hợp với việc phân tích lưu lượng mạng. Nghiên cứu so sánh hiệu năng của hai biến thể RNN là GRU và LSTM trên các bộ dữ liệu mạng. Đây là hai phiên bản cải tiến đã khắc phục những nhược điểm cố hữu trên mô hình RNN cơ bản, giúp cải thiện khả năng Cyber Attack Detection.
3.1. Tổng Quan Về Mạng Nơ Ron Hồi Quy RNN
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng nơ-ron đặc biệt được thiết kế để xử lý dữ liệu chuỗi. RNN có khả năng ghi nhớ thông tin từ các bước thời gian trước đó, giúp chúng hiểu được ngữ cảnh của dữ liệu. RNN thường được sử dụng trong các bài toán như xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói và dự đoán chuỗi thời gian. Tuy nhiên, RNN gặp khó khăn trong việc học các phụ thuộc dài hạn.
3.2. LSTM và GRU Các Biến Thể Cải Tiến Của RNN
LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Unit) là hai biến thể cải tiến của RNN được thiết kế để giải quyết vấn đề học các phụ thuộc dài hạn. LSTM và GRU sử dụng các cơ chế cổng (gate) để kiểm soát luồng thông tin trong mạng, cho phép chúng ghi nhớ và quên thông tin một cách linh hoạt. LSTM và GRU thường được sử dụng trong các bài toán phức tạp hơn, nơi mà thông tin từ các bước thời gian xa nhau có thể ảnh hưởng đến kết quả.
IV. Đề Xuất Mô Hình LSTM Kết Hợp SVM Cho Phát Hiện Xâm Nhập
Luận văn đề xuất mô hình sử dụng hai biến thể của RNN là LSTM và GRU, kết hợp với việc sử dụng bộ phân lớp đa lớp SVM thay vì sử dụng hàm Softmax, trong phát hiện sự bất thường trong lưu lượng mạng. Sử dụng bộ phân lớp SVM có thể nâng cao khả năng phân loại và giảm thiểu False Positive Reduction. Để đánh giá hiệu năng của hai mô hình đề xuất LSTM-SVM và GRU-SVM, luận án này sẽ sử dụng 2 thông số là Accuracy score và Confusion matrix để so sánh. Quá trình thực nghiệm sẽ sử dụng kết quả khi áp dụng hai mô hình đề xuất trên hai bộ dữ liệu mạng là Kyoto Dataset 2013 và Kyoto Dataset 2015 được thu thập bởi các nhà nghiên cứu đến từ đại học Kyoto, Nhật Bản.
4.1. Lợi Ích Của Việc Kết Hợp LSTM GRU Với SVM
Việc kết hợp LSTM/GRU với SVM mang lại nhiều lợi ích. LSTM/GRU giúp trích xuất các đặc trưng quan trọng từ dữ liệu chuỗi lưu lượng mạng, trong khi SVM giúp phân loại các đặc trưng này một cách hiệu quả. Sự kết hợp này có thể cải thiện độ chính xác và khả năng tổng quát hóa của mô hình phát hiện xâm nhập.
4.2. Đánh Giá Hiệu Năng Của Mô Hình Đề Xuất
Hiệu năng của mô hình đề xuất LSTM-SVM và GRU-SVM sẽ được đánh giá bằng cách sử dụng các chỉ số như Accuracy score và Confusion matrix. Các chỉ số này sẽ cho biết khả năng của mô hình trong việc phát hiện chính xác các cuộc tấn công mạng và giảm thiểu các cảnh báo sai.
V. Phân Tích Dữ Liệu Kyoto Dataset và Thực Nghiệm Mô Hình LSTM SVM
Tập dữ liệu Kyoto Dataset 2013 và Kyoto Dataset 2015 sẽ được sử dụng để huấn luyện và kiểm tra mô hình LSTM-SVM. Nghiên cứu thực hiện các bước phân tích, xử lý và chuẩn hóa dữ liệu trước khi đưa vào mô hình. Các bước này bao gồm trích rút tập dữ liệu, phân tích dữ liệu, chuẩn hóa dữ liệu bằng kỹ thuật Standalization và chuyển đổi định dạng file. Các thông số hyper-parameter được sử dụng trong mô hình cũng được điều chỉnh để đạt hiệu quả tốt nhất. Kết quả thực nghiệm sẽ được so sánh với mô hình tham chiếu GRU-SVM để đánh giá hiệu quả của mô hình đề xuất. Điều này rất quan trọng trong việc triển khai Real-time Intrusion Detection.
5.1. Chuẩn Hóa Dữ Liệu Kyoto Dataset
Quá trình chuẩn hóa dữ liệu là một bước quan trọng để đảm bảo rằng các đặc trưng trong dữ liệu có cùng tỷ lệ và không ảnh hưởng đến quá trình huấn luyện mô hình. Kỹ thuật Standalization được sử dụng để chuẩn hóa dữ liệu bằng cách trừ giá trị trung bình và chia cho độ lệch chuẩn.
5.2. Cài Đặt Môi Trường Thực Nghiệm
Môi trường thực nghiệm được cài đặt với các thư viện lập trình Python như Tensorflow, Pandas, Scikit-learn, Numpy và Matplotlib. Các thư viện này cung cấp các công cụ và hàm cần thiết để xây dựng, huấn luyện và đánh giá mô hình LSTM-SVM.
5.3. So Sánh Kết Quả Thực Nghiệm
Kết quả thực nghiệm của mô hình LSTM-SVM sẽ được so sánh với mô hình GRU-SVM trên cả tập huấn luyện và tập kiểm tra. Các chỉ số như Accuracy score và Confusion matrix sẽ được sử dụng để đánh giá hiệu năng của hai mô hình.
VI. Kết Luận và Hướng Phát Triển Trong Phát Hiện Xâm Nhập Mạng
Luận văn đã trình bày quá trình nghiên cứu và kết quả thu được trong việc áp dụng mô hình LSTM-SVM cho bài toán phát hiện xâm nhập mạng bất thường. Nghiên cứu này góp phần vào việc nâng cao hiệu quả của các hệ thống NIDS sử dụng kỹ thuật machine learning. Tuy nhiên, vẫn còn những tồn tại và khó khăn cần được giải quyết. Hướng phát triển tiếp theo của nghiên cứu là tìm kiếm các mô hình thuật toán mới hơn, có khả năng tự học và dự đoán chính xác hơn các mối đe dọa chưa xác định. Nghiên cứu cần tập trung vào Zero-day Attack Detection và Data Preprocessing for IDS
6.1. Tóm Tắt Kết Quả Nghiên Cứu
Luận văn đã đề xuất một mô hình LSTM-SVM cho bài toán phát hiện xâm nhập mạng bất thường. Mô hình này đã được huấn luyện và đánh giá trên tập dữ liệu Kyoto Dataset. Kết quả thực nghiệm cho thấy mô hình LSTM-SVM có khả năng phát hiện các cuộc tấn công mạng một cách hiệu quả.
6.2. Hướng Phát Triển Tiếp Theo
Hướng phát triển tiếp theo của nghiên cứu là tập trung vào việc cải thiện khả năng phát hiện các cuộc tấn công mới và giảm thiểu các cảnh báo sai. Các kỹ thuật như học sâu (Deep Learning for IDS) và học tăng cường có thể được sử dụng để nâng cao hiệu năng của mô hình phát hiện xâm nhập.