## Tổng quan nghiên cứu

Trong bối cảnh bùng nổ thông tin và truyền thông hiện nay, mạng Internet đã trở thành một phần không thể thiếu trong mọi lĩnh vực của đời sống xã hội. Theo thống kê của Trung tâm ứng cứu khẩn cấp máy tính Việt Nam (VNCERT), năm 2020 đã ghi nhận khoảng 9.200 cuộc tấn công mạng tại Việt Nam, với quy mô và mức độ tinh vi ngày càng gia tăng. Điều này đặt ra thách thức lớn về an toàn thông tin và đòi hỏi các hệ thống bảo vệ mạng phải phát triển mạnh mẽ hơn để ngăn chặn các cuộc tấn công xâm nhập.

Hệ thống phát hiện xâm nhập mạng (Intrusion Detection System - IDS) truyền thống dựa trên phương pháp phát hiện dấu hiệu (signature-based) và phát hiện bất thường (anomaly-based) còn nhiều hạn chế, đặc biệt trong việc nhận diện các cuộc tấn công mới hoặc đã được biến đổi. Mục tiêu của luận văn là xây dựng một hệ thống IDS sử dụng phương pháp học sâu (deep learning) dựa trên mạng nơ-ron nhân tạo đa lớp (Multi-layers Perceptron - MLP) nhằm nâng cao khả năng phát hiện và phân loại 09 loại tấn công mạng phổ biến, sử dụng tập dữ liệu UNSW-NB15 và công cụ bắt gói tin mạng Argus để áp dụng thực tế.

Phạm vi nghiên cứu tập trung vào việc phát triển và đánh giá hệ thống IDS học sâu trên môi trường thực nghiệm tại Việt Nam, với mục tiêu cải thiện độ chính xác phát hiện và giảm thiểu cảnh báo sai, góp phần nâng cao hiệu quả bảo vệ an ninh mạng trong bối cảnh lưu lượng mạng nội địa đạt khoảng 268 Gbps và lưu lượng trao đổi qua trung chuyển VNIX đạt gần 540 Tbytes năm 2020.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN):** Mô phỏng cấu trúc tế bào thần kinh sinh học, gồm các lớp đầu vào, lớp ẩn và lớp đầu ra, với trọng số và hàm kích hoạt như ReLU, sigmoid, tanh để xử lý và học các đặc tính dữ liệu.
- **Phương pháp học sâu (Deep Learning):** Sử dụng mạng nơ-ron đa lớp (MLP) với nhiều lớp ẩn để trừu tượng hóa và học các đặc tính phức tạp từ dữ liệu mạng, giúp phát hiện và phân loại các hành vi xâm nhập mạng hiệu quả hơn.
- **Hệ thống phát hiện xâm nhập mạng (IDS):** Bao gồm hai loại chính là Network IDS (NIDS) và Host IDS (HIDS), sử dụng các kỹ thuật phát hiện dựa trên dấu hiệu và bất thường để giám sát lưu lượng mạng và cảnh báo các hành vi nguy hiểm.
- **Thuật toán phân loại:** Mô hình MLP được huấn luyện có giám sát trên tập dữ liệu UNSW-NB15, sử dụng các hàm mất mát và tối ưu hóa như sparse_categorical_crossentropy và Adam optimizer để đạt hiệu quả cao trong phân loại.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Tập dữ liệu UNSW-NB15 gồm 2,539,740 bản ghi mạng với 49 đặc tính, trong đó chọn 20 thuộc tính phù hợp để huấn luyện mô hình. Dữ liệu được cân bằng bằng cách giảm 60% bản ghi "Normal" để tránh lệch dữ liệu.
- **Phương pháp phân tích:** Sử dụng phương pháp Hold-out chia dữ liệu thành 80% tập huấn luyện và 20% tập kiểm thử. Mô hình MLP gồm 4 lớp (1 lớp đầu vào 20 nodes, 2 lớp ẩn mỗi lớp 32 nodes, 1 lớp đầu ra 10 nodes) được huấn luyện với hàm kích hoạt ReLU cho lớp ẩn và Softmax cho lớp đầu ra.
- **Timeline nghiên cứu:** Thực nghiệm được tiến hành trên môi trường Google Colab và máy tính cá nhân cấu hình Intel Core i5, RAM 8GB, sử dụng các thư viện TensorFlow, Keras, Scikit-learn, Pandas, NumPy. Huấn luyện mô hình với 100 epochs, batch size 32, learning rate 0.01, đánh giá qua các chỉ số accuracy, precision, recall, F1-score.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình học sâu IDS đạt độ chính xác (accuracy) tối đa khoảng 87,41% sau 70 epochs, với thời gian huấn luyện trung bình 38-42 giây mỗi epoch.
- Tỷ lệ phát hiện chính xác (precision) của mô hình đạt khoảng 87,8% trên tập kiểm thử, thể hiện khả năng phân loại 09 loại tấn công mạng hiệu quả.
- So sánh với công cụ Snort truyền thống, mô hình học sâu có tỷ lệ phát hiện tấn công cao hơn, đặc biệt với các cuộc tấn công đã thay đổi tham số, ví dụ: IDS học sâu phát hiện 90% tấn công DoS/Backdoor trong khi Snort chỉ phát hiện 10%.
- Ma trận hỗn độn chuẩn hóa cho thấy mô hình phân loại tốt các lớp tấn công, với các phần tử trên đường chéo chính có giá trị cao, minh chứng cho khả năng phân biệt rõ ràng giữa các loại tấn công và lưu lượng bình thường.

### Thảo luận kết quả

Hiệu quả của mô hình học sâu được giải thích bởi khả năng tự động học và trừu tượng hóa các đặc tính phức tạp từ dữ liệu mạng, vượt trội hơn các phương pháp dựa trên quy tắc cứng nhắc như Snort. Việc sử dụng mạng MLP với hai lớp ẩn giúp cân bằng giữa độ phức tạp và khả năng học, tránh hiện tượng quá khớp khi huấn luyện quá nhiều epochs.

So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng học sâu trong an ninh mạng, cho thấy tiềm năng lớn trong việc phát hiện các cuộc tấn công mới và biến thể. Tuy nhiên, mô hình vẫn còn hạn chế khi áp dụng trên dữ liệu thực tế ngoài môi trường máy ảo và cần mở rộng tập dữ liệu huấn luyện để nâng cao độ chính xác.

Dữ liệu có thể được trình bày qua biểu đồ độ lỗi và độ chính xác theo từng epoch, cũng như bảng so sánh tỷ lệ phát hiện tấn công giữa mô hình học sâu và Snort, giúp minh họa rõ ràng hiệu quả vượt trội của phương pháp đề xuất.

## Đề xuất và khuyến nghị

- **Mở rộng tập dữ liệu huấn luyện:** Thu thập và tích hợp thêm các tập dữ liệu tấn công thực tế và đa dạng hơn để cải thiện khả năng tổng quát của mô hình, giảm thiểu sai sót trong dự đoán.
- **Tối ưu hóa mô hình học sâu:** Thử nghiệm các kiến trúc mạng khác như mạng nơ-ron sâu (DNN), mạng hồi quy (RNN) hoặc mạng tích chập (CNN) để nâng cao hiệu quả phát hiện và phân loại.
- **Triển khai thực tế:** Phát triển hệ thống IDS học sâu trên môi trường mạng thực tế, không chỉ trong máy ảo, để đánh giá và điều chỉnh phù hợp với các điều kiện vận hành thực tế.
- **Tích hợp đa lớp bảo vệ:** Kết hợp song song hệ thống IDS học sâu với các công cụ truyền thống như Snort để tận dụng ưu điểm của cả hai, nâng cao khả năng phát hiện và giảm thiểu cảnh báo sai.
- **Đào tạo và nâng cao nhận thức:** Tổ chức các khóa đào tạo cho đội ngũ quản trị mạng về ứng dụng học sâu trong an ninh mạng, giúp vận hành và khai thác hiệu quả hệ thống IDS mới.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia an ninh mạng:** Nâng cao kiến thức về ứng dụng học sâu trong phát hiện xâm nhập mạng, áp dụng vào thiết kế và vận hành hệ thống bảo vệ hiện đại.
- **Nhà nghiên cứu và sinh viên công nghệ thông tin:** Tham khảo phương pháp nghiên cứu, mô hình học sâu và quy trình thực nghiệm để phát triển các đề tài liên quan.
- **Doanh nghiệp và tổ chức sử dụng mạng lớn:** Áp dụng hệ thống IDS học sâu để tăng cường bảo mật, giảm thiểu rủi ro từ các cuộc tấn công mạng tinh vi.
- **Nhà phát triển phần mềm bảo mật:** Tích hợp các thuật toán học sâu vào sản phẩm bảo mật, nâng cao khả năng phát hiện và phản ứng nhanh với các mối đe dọa.

## Câu hỏi thường gặp

1. **Học sâu có ưu điểm gì so với các phương pháp IDS truyền thống?**  
Học sâu tự động học các đặc tính phức tạp từ dữ liệu, phát hiện các cuộc tấn công mới và biến thể hiệu quả hơn, giảm tỷ lệ cảnh báo sai so với phương pháp dựa trên quy tắc cứng nhắc.

2. **Tập dữ liệu UNSW-NB15 có đặc điểm gì nổi bật?**  
Tập dữ liệu gồm hơn 2,5 triệu bản ghi với 49 đặc tính, bao gồm 09 loại tấn công mạng phổ biến, được tạo ra trong môi trường phòng thí nghiệm an ninh mạng, phù hợp cho huấn luyện và đánh giá mô hình IDS.

3. **Mô hình MLP được thiết kế như thế nào trong nghiên cứu?**  
Mô hình gồm 4 lớp: 1 lớp đầu vào với 20 nodes, 2 lớp ẩn mỗi lớp 32 nodes sử dụng hàm kích hoạt ReLU, và 1 lớp đầu ra 10 nodes sử dụng hàm Softmax, phù hợp cho bài toán phân loại đa lớp.

4. **Hiệu quả của mô hình được đánh giá bằng những chỉ số nào?**  
Sử dụng accuracy, precision, recall và F1-score để đánh giá khả năng phân loại chính xác các loại tấn công và lưu lượng bình thường, với precision đạt gần 88% cho mô hình học sâu.

5. **Làm thế nào để triển khai hệ thống IDS học sâu vào thực tế?**  
Cần cài đặt công cụ bắt gói tin mạng Argus để thu thập dữ liệu, sử dụng mô-đun đọc dữ liệu và mô hình học sâu đã huấn luyện để phân loại và cảnh báo, đồng thời kết hợp với các công cụ IDS truyền thống để tăng hiệu quả.

## Kết luận

- Đã xây dựng thành công hệ thống phát hiện xâm nhập mạng sử dụng phương pháp học sâu dựa trên mạng nơ-ron đa lớp, nâng cao độ chính xác phát hiện các cuộc tấn công mạng.
- Mô hình đạt độ chính xác tối đa khoảng 87,41% và tỷ lệ phát hiện tấn công chính xác gần 88% trên tập dữ liệu UNSW-NB15.
- So sánh với công cụ Snort truyền thống, hệ thống học sâu cho thấy hiệu quả vượt trội, đặc biệt với các cuộc tấn công đã thay đổi tham số.
- Hệ thống được triển khai thử nghiệm trên môi trường máy ảo với công cụ Argus để thu thập dữ liệu và mô-đun phân tích, sẵn sàng áp dụng trong thực tế.
- Hướng phát triển tiếp theo là mở rộng tập dữ liệu, tối ưu mô hình, triển khai thực tế và tích hợp đa lớp bảo vệ để nâng cao hiệu quả bảo mật mạng.

Hãy bắt đầu áp dụng các kỹ thuật học sâu trong hệ thống phát hiện xâm nhập mạng để bảo vệ hạ tầng công nghệ thông tin của bạn một cách hiệu quả và tiên tiến nhất.