## Tổng quan nghiên cứu

Tính đến năm 2022, có khoảng 5 tỷ người dùng Internet, chiếm 63,29% dân số toàn cầu, cùng với sự phát triển mạnh mẽ của các thiết bị IoT trong công nghiệp và đời sống. Sự bùng nổ này kéo theo nhu cầu bảo mật mạng ngày càng cấp thiết, khi các cuộc tấn công mạng gia tăng về số lượng và mức độ tinh vi. Theo báo cáo, hơn 72 quốc gia đã bị ảnh hưởng bởi các cuộc tấn công từ chối dịch vụ (DoS) trong quý 1 năm 2021, với mức tăng 29% mỗi năm và lên đến 75% trong năm 2021 so với năm trước đó. 

Trong bối cảnh đó, việc phát hiện và phân loại các hành vi bất thường trong mạng trở thành nhiệm vụ trọng yếu nhằm giảm thiểu rủi ro về chi phí và bảo vệ thông tin cá nhân. Luận văn tập trung xây dựng framework phát hiện và phân loại bất thường mạng dựa trên kỹ thuật học máy và phần cứng khả cấu hình (FPGA), áp dụng trên các tập dữ liệu phổ biến như NSL-KDD, UNSW-NB15 và CIC-IDS2017. Mục tiêu chính là phát triển hệ thống ANIDS có khả năng nhận dạng chính xác và phản hồi nhanh, đồng thời tăng tốc xử lý bằng phần cứng NetFPGA-SUME, phù hợp với môi trường mạng hiện đại tại Việt Nam và quốc tế trong giai đoạn 2022-2025.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mô hình TCP/IP:** Là kiến trúc mạng chuẩn, gồm 5 tầng (vật lý, liên kết, mạng, vận chuyển, ứng dụng), cung cấp nền tảng cho việc truyền tải và quản lý dữ liệu mạng.
- **Học máy (Machine Learning):** Bao gồm các phương pháp học giám sát, không giám sát và học tăng cường, với các thuật toán như SVM, cây quyết định, mạng nơ-ron nhân tạo, và thuật toán hỗn hợp (ensemble).
- **Học sâu (Deep Learning):** Sử dụng mạng nơ-ron sâu, mạng tự mã hóa (Autoencoder) để phát hiện bất thường dựa trên đặc trưng dữ liệu.
- **Phần cứng khả cấu hình (FPGA):** NetFPGA-SUME với chip Virtex-7 XC7VX690T, cung cấp khả năng xử lý song song, tốc độ cao và tiết kiệm năng lượng, phù hợp cho việc tăng tốc các thuật toán học máy.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng ba tập dữ liệu mạng phổ biến gồm NSL-KDD (hơn 125 nghìn bản ghi huấn luyện, 22 nghìn kiểm thử), UNSW-NB15 (hơn 175 nghìn bản ghi huấn luyện, 82 nghìn kiểm thử), và CIC-IDS2017 với hơn 80 đặc trưng dữ liệu.
- **Phân tích dữ liệu:** Tiền xử lý, trích xuất đặc trưng, chuẩn hóa dữ liệu.
- **Mô hình học máy:** Xây dựng mô hình phát hiện bất thường bằng mạng tự mã hóa (ADA) cho NSL-KDD và mô hình phân loại bằng mạng nơ-ron nhân tạo (ANC) cho UNSW-NB15 và CIC-IDS2017.
- **Triển khai phần cứng:** Thiết kế và hiện thực các mô hình trên nền tảng NetFPGA-SUME, sử dụng 21% tài nguyên LUT và 15.1% FF.
- **Timeline:** Nghiên cứu và phát triển từ tháng 2 đến tháng 6 năm 2022, đánh giá và hoàn thiện đến tháng 7 năm 2022.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình ADA trên tập NSL-KDD đạt độ chính xác 90.87% với tỷ lệ False Negative Rate (FNR) là 7%.
- Mô hình ANC trên tập UNSW-NB15 và CIC-IDS2017 đạt độ chính xác lần lượt 87.22% và tỷ lệ FNR là 3%.
- Tốc độ truyền tải dữ liệu của ADA đạt 28.7 Gbps, ANC đạt 31 Gbps trên phần cứng NetFPGA-SUME.
- Khả năng xử lý số phép tính của ADA là 18.7 Gops, ANC là 9.1 Gops, cho thấy hiệu suất xử lý cao phù hợp với yêu cầu thời gian thực.

### Thảo luận kết quả

Kết quả cho thấy việc kết hợp kỹ thuật học máy/học sâu với phần cứng khả cấu hình giúp nâng cao hiệu quả phát hiện và phân loại bất thường mạng. Độ chính xác cao và tỷ lệ FNR thấp chứng tỏ mô hình có khả năng nhận diện chính xác các hành vi xâm nhập, giảm thiểu cảnh báo sai. So với các nghiên cứu trước đây, việc triển khai trên NetFPGA-SUME không chỉ cải thiện tốc độ xử lý mà còn tiết kiệm năng lượng hơn so với GPU truyền thống. Biểu đồ băng thông và lưu lượng xử lý cho thấy hệ thống đáp ứng tốt yêu cầu xử lý lưu lượng mạng lớn trong thực tế. Điều này có ý nghĩa quan trọng trong việc bảo vệ hệ thống mạng trước các cuộc tấn công ngày càng tinh vi và đa dạng.

## Đề xuất và khuyến nghị

- **Triển khai rộng rãi hệ thống ANIDS:** Áp dụng framework vào các trung tâm dữ liệu và mạng doanh nghiệp để nâng cao khả năng phát hiện sớm các cuộc tấn công.
- **Nâng cấp phần cứng:** Đầu tư mở rộng sử dụng NetFPGA-SUME hoặc các FPGA thế hệ mới nhằm tăng cường hiệu suất xử lý và khả năng mở rộng.
- **Đào tạo và nâng cao nhận thức:** Tổ chức các khóa đào tạo về an ninh mạng và kỹ thuật học máy cho đội ngũ kỹ thuật viên nhằm tối ưu vận hành hệ thống.
- **Phát triển mô hình đa lớp:** Kết hợp thêm các thuật toán học sâu khác như CNN, RNN để cải thiện khả năng phát hiện các loại tấn công mới, đặc biệt là tấn công Zero-Day.
- **Thời gian thực hiện:** Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, với sự phối hợp giữa các tổ chức nghiên cứu, doanh nghiệp và cơ quan quản lý.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia an ninh mạng:** Nắm bắt các kỹ thuật phát hiện xâm nhập hiện đại và ứng dụng phần cứng khả cấu hình.
- **Nhà nghiên cứu học máy và học sâu:** Tham khảo mô hình mạng nơ-ron và Autoencoder trong phát hiện bất thường mạng.
- **Doanh nghiệp công nghệ thông tin:** Áp dụng framework để nâng cao bảo mật hệ thống mạng nội bộ và dịch vụ trực tuyến.
- **Sinh viên và giảng viên ngành Khoa học Máy tính:** Học tập và phát triển các đề tài nghiên cứu liên quan đến an ninh mạng và tăng tốc phần cứng.

## Câu hỏi thường gặp

1. **Framework này có thể áp dụng cho loại mạng nào?**  
Framework phù hợp với mạng doanh nghiệp, trung tâm dữ liệu và mạng IoT có lưu lượng lớn, cần phát hiện bất thường thời gian thực.

2. **Tại sao chọn FPGA thay vì GPU?**  
FPGA tiết kiệm năng lượng hơn, có khả năng xử lý song song cao và phù hợp cho các ứng dụng thời gian thực với độ trễ thấp.

3. **Độ chính xác của mô hình có ổn định không?**  
Mô hình ADA đạt 90.87% và ANC đạt 87.22% trên các tập dữ liệu chuẩn, với tỷ lệ FNR thấp, cho thấy độ ổn định và tin cậy cao.

4. **Có thể mở rộng framework cho các loại tấn công mới không?**  
Có thể, bằng cách tích hợp thêm các thuật toán học sâu và cập nhật dữ liệu huấn luyện liên tục.

5. **Khả năng xử lý của hệ thống như thế nào?**  
Hệ thống đạt tốc độ truyền tải dữ liệu lên đến 31 Gbps và xử lý hàng chục tỷ phép tính mỗi giây, đáp ứng tốt yêu cầu mạng hiện đại.

## Kết luận

- Đã xây dựng thành công framework phát hiện và phân loại bất thường mạng dựa trên học máy và phần cứng khả cấu hình.
- Mô hình ADA và ANC đạt độ chính xác cao, tỷ lệ FNR thấp trên các tập dữ liệu chuẩn NSL-KDD, UNSW-NB15 và CIC-IDS2017.
- Triển khai trên NetFPGA-SUME giúp tăng tốc xử lý, tiết kiệm năng lượng và đáp ứng yêu cầu thời gian thực.
- Kết quả nghiên cứu góp phần nâng cao hiệu quả bảo mật mạng, giảm thiểu rủi ro từ các cuộc tấn công mạng.
- Đề xuất mở rộng ứng dụng và phát triển thêm các mô hình học sâu để nâng cao khả năng phát hiện trong tương lai.

**Hành động tiếp theo:** Khuyến khích các tổ chức nghiên cứu và doanh nghiệp áp dụng framework, đồng thời tiếp tục nghiên cứu mở rộng để đối phó với các mối đe dọa mạng ngày càng phức tạp.