Phát Triển Mô Hình Phát Hiện Bất Thường Mạng Bằng Học Sâu Và Tổng Hợp Dữ Liệu

TÓM TẮT

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ

1. PHẦN MỞ ĐẦU

1.1. Tính cấp thiết của luận án

1.2. Phát biểu bài toán

1.3. Mục tiêu của luận án

1.4. Đối tượng và Phạm vi luận án

1.5. Phương pháp nghiên cứu

1.6. Đóng góp của luận án

1.7. Bố cục luận án

2. TỔNG QUAN VỀ PHÁT HIỆN BẤT THƯỜNG MẠNG

2.1. Hệ thống phát hiện bất thường mạng

2.2. Mô hình phát hiện bất thường mạng

2.3. Đầu ra của mô hình NAD

2.4. Một số phương pháp đơn cho phát hiện bất thường mạng

2.4.1. Một số phương pháp OCC truyền thống

2.4.2. Phương pháp OCC học sâu

2.4.3. Phát hiện bất thường dựa trên tổng hợp, kết hợp

2.4.3.1. Tổng hợp theo lai ghép

2.4.3.2. Tổng hợp theo học cộng đồng

2.4.3.3. Tổng hợp dữ liệu

2.4.3.4. Tổng hợp dữ liệu dựa trên lý thuyết Dempster-Shafer

2.5. Đánh giá giải pháp

2.5.1. Bộ dữ liệu cho kiểm thử

2.5.2. Các chỉ số đánh giá

3. PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN HỌC SÂU AUTOENCODER

3.1. Giải pháp đề xuất

3.1.1. Giải pháp Clustering-Shrink AutoEncoder

3.1.2. Giải pháp Double-shrink AutoEncoder

3.2. Dữ liệu thực nghiệm

3.3. Phương pháp xác định số cụm tối ưu

3.4. Thiết lập tham số thực nghiệm

3.5. Kết quả và đánh giá

4. PHÁT HIỆN BẤT THƯỜNG DỰA TRÊN TỔNG HỢP DỮ LIỆU

4.1. Giải pháp đề xuất

4.1.1. Các thành phần của phương pháp OFuseAD

4.1.2. Cơ chế hoạt động của OFuseAD

4.2. Dữ liệu thực nghiệm

4.3. Thiết lập tham số thực nghiệm

4.4. Kết quả và đánh giá

5. Một số kết quả chính của luận án

6. Một số giới hạn của luận án

7. Hướng nghiên cứu trong tương lai

CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Giới thiệu và tính cấp thiết của luận án

Luận án tập trung vào phát hiện bất thường mạng (Network Anomaly Detection - NAD) dựa trên học sâu (deep learning) và tổng hợp dữ liệu (data synthesis). Sự phát triển nhanh chóng của mạng máy tính và IoT đã dẫn đến sự gia tăng các cuộc tấn công mạng, đặt ra thách thức lớn cho bảo mật mạng. NAD là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp hiệu quả để phân biệt giữa trạng thái bình thường và bất thường của mạng. Học máy (machine learning) và học sâu được xem là các phương pháp chính để xây dựng các thuật toán phát hiện bất thường. Các mô hình phát hiện bất thường dựa trên phân đơn lớp (One-class Classification - OCC) đã cho thấy hiệu quả cao trong việc phát hiện các bất thường mạng.

1.1. Thách thức trong phát hiện bất thường mạng

Một trong những thách thức lớn nhất trong NAD là việc thiếu dữ liệu tấn công để huấn luyện mô hình. Các tấn công mạng thường không được công bố đầy đủ do các tổ chức muốn giữ bí mật nội bộ. Hơn nữa, việc gán nhãn cho một lượng lớn dữ liệu bất thường là công việc tốn nhiều thời gian và công sức. Do đó, các phương pháp OCC được khuyến nghị sử dụng chỉ dữ liệu bình thường để huấn luyện mô hình, giúp phát hiện các tấn công mới chưa từng xuất hiện.

1.2. Vai trò của học sâu trong phát hiện bất thường

Học sâu đã mang lại nhiều thành tựu trong các lĩnh vực khác nhau, bao gồm phát hiện bất thường mạng. Các kiến trúc như AutoEncoders (AE) và Shrink AutoEncoder (SAE) được công nhận là các phương pháp tiên tiến, có khả năng giải quyết các vấn đề phức tạp trong NAD. Tuy nhiên, các phương pháp này cần được cải tiến liên tục để đáp ứng các nguy cơ an ninh mạng ngày càng tăng.

II. Phương pháp học sâu trong phát hiện bất thường mạng

Luận án đề xuất các giải pháp cải tiến dựa trên học sâu để nâng cao hiệu quả của NAD. Các phương pháp như Clustering-Shrink AutoEncoder (KSAE) và Double-shrink AutoEncoder (DSAE) được phát triển để giải quyết các hạn chế của các mô hình AE truyền thống. Các giải pháp này cho phép xây dựng các mô hình NAD hiệu quả hơn trong điều kiện dữ liệu có tính phân cụm cao và phát hiện các nhóm tấn công mà các mô hình AE truyền thống gặp khó khăn.

2.1. Giải pháp Clustering Shrink AutoEncoder KSAE

KSAE là một giải pháp kết hợp giữa phân cụm và SAE, giúp cải thiện hiệu quả phát hiện bất thường trong các tập dữ liệu có tính phân cụm cao. Phương pháp này cho phép mô hình NAD hoạt động hiệu quả hơn trong việc phân biệt các cụm dữ liệu bình thường và bất thường.

2.2. Giải pháp Double shrink AutoEncoder DSAE

DSAE là một mô hình cải tiến từ SAE, giúp phát hiện hiệu quả hơn các nhóm tấn công mà SAE truyền thống gặp khó khăn. Kết quả thử nghiệm cho thấy DSAE đạt hiệu quả cao hơn so với SAE trong việc phát hiện các nhóm tấn công như R2L và U2R.

III. Tổng hợp dữ liệu trong phát hiện bất thường mạng

Luận án đề xuất mô hình OFuseAD, một mô hình khung tổng hợp dữ liệu dựa trên lý thuyết Dempster-Shafer, giúp giải quyết các thách thức trong việc kết hợp các phương pháp OCC. OFuseAD cho phép xác định ngưỡng quyết định và trọng số cho các phương pháp OCC tham gia mô hình tổng hợp mà không cần sự can thiệp của chuyên gia. Kết quả thử nghiệm trên mười tập dữ liệu phổ biến trong lĩnh vực an ninh mạng cho thấy OFuseAD hoạt động hiệu quả và ổn định hơn so với các phương pháp OCC đơn lẻ.

3.1. Cơ chế hoạt động của OFuseAD

OFuseAD sử dụng lý thuyết Dempster-Shafer để kết hợp các phương pháp OCC, giúp xác định ngưỡng quyết định và trọng số một cách tự động. Mô hình này cho phép phát hiện bất thường hiệu quả mà không cần sự can thiệp của chuyên gia, giúp giảm thiểu thời gian và chi phí triển khai.

3.2. Kết quả thử nghiệm và đánh giá

Kết quả thử nghiệm trên mười tập dữ liệu phổ biến cho thấy OFuseAD đạt hiệu quả cao hơn so với các phương pháp OCC đơn lẻ trong việc phát hiện bất thường. Mô hình này cũng cho thấy tính ổn định cao trong các điều kiện dữ liệu khác nhau, đặc biệt là trong việc phát hiện các tấn công mới.

IV. Kết luận và hướng nghiên cứu tương lai

Luận án đã đề xuất các giải pháp cải tiến dựa trên học sâu và tổng hợp dữ liệu để nâng cao hiệu quả của phát hiện bất thường mạng. Các mô hình như KSAE, DSAE và OFuseAD đã cho thấy hiệu quả cao trong việc phát hiện các bất thường mạng, đặc biệt là các tấn công mới. Tuy nhiên, vẫn còn một số hạn chế cần được giải quyết trong tương lai, bao gồm việc cải thiện hiệu suất của các mô hình trong điều kiện dữ liệu phức tạp và mở rộng ứng dụng của các mô hình này trong các hệ thống mạng thực tế.

4.1. Hạn chế của luận án

Một số hạn chế của luận án bao gồm việc các mô hình đề xuất vẫn cần được cải thiện để hoạt động hiệu quả hơn trong các điều kiện dữ liệu phức tạp. Hơn nữa, việc triển khai các mô hình này trong các hệ thống mạng thực tế vẫn cần được nghiên cứu thêm.

4.2. Hướng nghiên cứu tương lai

Hướng nghiên cứu tương lai bao gồm việc cải thiện hiệu suất của các mô hình NAD trong điều kiện dữ liệu phức tạp, cũng như mở rộng ứng dụng của các mô hình này trong các hệ thống mạng thực tế. Ngoài ra, việc kết hợp các phương pháp học sâu với các kỹ thuật tổng hợp dữ liệu khác cũng là một hướng nghiên cứu tiềm năng.

Luận Án Tiến Sĩ Kỹ Thuật: Phát Triển Mô Hình Phát Hiện Bất Thường Mạng Dựa Trên Học Sâu Và Tổng Hợp Dữ Liệu