## Tổng quan nghiên cứu
Trong bối cảnh sự phát triển nhanh chóng của công nghệ thông tin và sự gia tăng kết nối Internet, các cuộc tấn công mạng, đặc biệt là tấn công từ chối dịch vụ (DoS), đang ngày càng trở nên phổ biến và phức tạp. Theo báo cáo quý 1 năm 2022, các cuộc tấn công lớp 7 tăng 17%, trong khi các cuộc tấn công lớp 3 và 4 tăng tới 70% trong tháng 3, với số lượng tấn công gần như gấp đôi so với các tháng trước đó. Đặc biệt, các thiết bị IoT như bộ định tuyến, camera an ninh, và các thiết bị nhúng khác đang trở thành mục tiêu tấn công chính, chiếm tới 46% tổng số cuộc tấn công mạng vào năm 2021. Điều này đặt ra yêu cầu cấp thiết về việc phát triển các hệ thống phát hiện xâm nhập mạng hiệu quả, đặc biệt là trên các thiết bị có cấu hình thấp.
Mục tiêu nghiên cứu của luận văn là thiết kế và xây dựng một mô hình máy học nhẹ, có khả năng nhận diện các cuộc tấn công mạng bất thường, đặc biệt là các cuộc tấn công DoS, trên các thiết bị có cấu hình hạn chế như thiết bị định tuyến. Luận văn tập trung vào việc tối ưu hóa mô hình học sâu thưa thớt thông qua thuật toán phân bố lại độ thưa thớt dựa trên trung bình gradient (SRGM), nhằm giảm thiểu chi phí tính toán và dung lượng lưu trữ mà không làm giảm đáng kể hiệu năng phát hiện. Phạm vi nghiên cứu bao gồm việc áp dụng mô hình trên tập dữ liệu CICDDoS2019 và triển khai thực tế trên thiết bị định tuyến BKRouter sử dụng hệ điều hành OpenWRT.
Việc nghiên cứu này có ý nghĩa quan trọng trong việc nâng cao khả năng bảo mật mạng, giảm thiểu thiệt hại do các cuộc tấn công mạng gây ra, đồng thời mở rộng khả năng ứng dụng trí tuệ nhân tạo trong lĩnh vực an ninh mạng cho các thiết bị IoT phổ biến hiện nay.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- **Hệ thống phát hiện xâm nhập mạng (IDS)**: IDS là hệ thống giám sát lưu lượng mạng để phát hiện các hoạt động bất thường hoặc xâm nhập trái phép. IDS có thể được triển khai trước hoặc sau firewall, với hai phương pháp phát hiện chính là dựa trên dấu hiệu (signature-based) và dựa trên bất thường (anomaly-based).
- **Mô hình học sâu thưa thớt (Sparse Deep Learning Models)**: Đây là mô hình học sâu được tối ưu bằng cách cắt tỉa các kết nối không cần thiết, giảm số lượng tham số nhằm tiết kiệm tài nguyên tính toán và bộ nhớ, phù hợp với các thiết bị có cấu hình thấp.
- **Thuật toán tối ưu phân bố lại độ thưa thớt dựa trên trung bình gradient (SRGM)**: Thuật toán này cải tiến các phương pháp cắt tỉa truyền thống bằng cách phân bố lại độ thưa thớt trên từng lớp của mô hình dựa trên giá trị gradient, giúp tăng hiệu năng mô hình lên hơn 20% so với các mô hình thưa thớt chưa tối ưu.
Các khái niệm chính bao gồm: độ thưa thớt (sparsity), gradient trong tối ưu hóa mô hình, các kỹ thuật cắt tỉa mô hình (pruning), và các phương pháp phát hiện xâm nhập mạng.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu**: Sử dụng tập dữ liệu CICDDoS2019, bao gồm các cuộc tấn công DDoS hiện đại và lưu lượng mạng nền thực tế, với gần 80 đặc trưng lưu lượng mạng được trích xuất từ các gói tin.
- **Phương pháp phân tích**: Luận văn áp dụng mô hình học sâu MLP với hai lớp ẩn (40,40), kết hợp thuật toán SRGM để tối ưu mô hình thưa thớt. Hiệu năng mô hình được đánh giá qua các chỉ số độ chính xác trên các tập dữ liệu MNIST, CIFAR-10 và CICDDoS2019, đồng thời so sánh với các thuật toán tối ưu khác như RigL và SET.
- **Timeline nghiên cứu**: Quá trình nghiên cứu bao gồm giai đoạn thu thập và xử lý dữ liệu, thiết kế và huấn luyện mô hình, tối ưu mô hình bằng thuật toán SRGM, triển khai mô hình trên thiết bị định tuyến BKRouter, và đánh giá hiệu năng thực tế.
Phương pháp nghiên cứu được thiết kế nhằm đảm bảo mô hình vừa có hiệu năng cao, vừa phù hợp với các thiết bị có cấu hình hạn chế, đồng thời có khả năng cập nhật và cải tiến liên tục dựa trên dữ liệu thực tế thu thập từ các thiết bị client.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
1. **Hiệu năng mô hình trên tập dữ liệu MNIST**: Với độ thưa thớt 90%, mô hình MLP đạt độ chính xác khoảng 99% sau 12.000 lần huấn luyện. Khi độ thưa thớt tăng lên 99%, mô hình chỉ còn khoảng 1% số kết nối so với ban đầu, thuật toán SRGM giúp tăng độ chính xác từ 70% lên gần 85% sau 8.000 lần huấn luyện, vượt trội hơn so với các thuật toán RigL và SET.
2. **Hiệu năng trên tập dữ liệu CIFAR-10**: Áp dụng trên mô hình GoogleNet với độ thưa thớt từ 90% đến 99%, mô hình đạt độ chính xác khoảng 80% sau giai đoạn tiền tối ưu và tăng lên gần 85% sau khi tối ưu bằng thuật toán SRGM, tương đương hoặc cao hơn so với các thuật toán khác.
3. **Hiệu quả trên tập dữ liệu CICDDoS2019**: Mô hình MLP với thuật toán SRGM đạt độ chính xác trên 90% trong việc phát hiện các cuộc tấn công DoS, đồng thời giảm đáng kể số lượng kết nối, giúp tiết kiệm tài nguyên tính toán và bộ nhớ.
4. **Triển khai thực tế trên thiết bị BKRouter**: Hệ thống phát hiện xâm nhập mạng được triển khai thành công trên thiết bị định tuyến BKRouter sử dụng hệ điều hành OpenWRT, với khả năng cảnh báo qua giao diện Web và đèn LED khi phát hiện tấn công, chứng minh tính khả thi và hiệu quả của mô hình trong môi trường thực tế.
### Thảo luận kết quả
Kết quả cho thấy thuật toán SRGM vượt trội trong việc tối ưu mô hình học sâu thưa thớt, giúp cải thiện độ chính xác phát hiện tấn công mạng trên các thiết bị có cấu hình thấp. Việc phân bố lại độ thưa thớt dựa trên gradient giúp tập trung tài nguyên tính toán vào các lớp có ảnh hưởng lớn đến hiệu năng, đồng thời giảm thiểu các kết nối không cần thiết.
So với các phương pháp truyền thống như RigL và SET, SRGM không chỉ nâng cao hiệu quả phát hiện mà còn rút ngắn thời gian huấn luyện, phù hợp với yêu cầu cập nhật mô hình liên tục trong môi trường mạng động. Việc triển khai trên thiết bị BKRouter chứng minh mô hình có thể ứng dụng thực tiễn, hỗ trợ bảo vệ các thiết bị IoT dễ bị tấn công.
Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác theo số lần huấn luyện và mức độ thưa thớt, cũng như bảng tổng hợp số lượng kết nối còn lại và hiệu năng của từng thuật toán, giúp minh họa rõ ràng sự vượt trội của SRGM.
## Đề xuất và khuyến nghị
1. **Triển khai rộng rãi mô hình SRGM trên các thiết bị IoT**: Khuyến nghị các tổ chức và doanh nghiệp áp dụng mô hình học sâu thưa thớt tối ưu SRGM trên các thiết bị định tuyến và IoT để nâng cao khả năng phát hiện tấn công mạng, giảm thiểu rủi ro bảo mật.
2. **Phát triển hệ thống cập nhật mô hình tự động**: Xây dựng cơ chế tự động thu thập dữ liệu từ các thiết bị client và cập nhật mô hình trên server, đảm bảo mô hình luôn được huấn luyện với dữ liệu mới nhất, nâng cao độ chính xác phát hiện.
3. **Tăng cường đào tạo và nâng cao nhận thức bảo mật cho người dùng**: Đào tạo người dùng và quản trị viên mạng về tầm quan trọng của bảo mật thiết bị IoT, cách sử dụng hệ thống phát hiện xâm nhập hiệu quả, nhằm giảm thiểu các lỗ hổng bảo mật do yếu tố con người.
4. **Nghiên cứu mở rộng mô hình cho các loại tấn công khác**: Tiếp tục nghiên cứu và phát triển mô hình để nhận diện các loại tấn công mạng khác như tấn công phishing, malware, nhằm xây dựng hệ thống bảo mật toàn diện hơn.
Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, với sự phối hợp giữa các nhà nghiên cứu, doanh nghiệp công nghệ và các cơ quan quản lý để đảm bảo tính khả thi và hiệu quả.
## Đối tượng nên tham khảo luận văn
1. **Nhà nghiên cứu và sinh viên ngành Kỹ thuật Điện tử và An ninh mạng**: Luận văn cung cấp kiến thức chuyên sâu về mô hình học sâu thưa thớt và ứng dụng trong phát hiện xâm nhập mạng, hỗ trợ nghiên cứu và phát triển các giải pháp bảo mật mới.
2. **Các kỹ sư phát triển phần mềm và hệ thống bảo mật**: Tham khảo để áp dụng thuật toán SRGM và mô hình học sâu tối ưu vào thiết kế hệ thống phát hiện tấn công mạng trên các thiết bị có cấu hình hạn chế.
3. **Doanh nghiệp và tổ chức sử dụng thiết bị IoT**: Hiểu rõ về các nguy cơ tấn công mạng và giải pháp phát hiện xâm nhập hiệu quả, từ đó nâng cao an ninh mạng cho hệ thống của mình.
4. **Cơ quan quản lý và hoạch định chính sách về an ninh mạng**: Sử dụng luận văn làm tài liệu tham khảo để xây dựng các chính sách, quy định về bảo mật thiết bị IoT và phát triển hạ tầng mạng an toàn.
Mỗi nhóm đối tượng có thể áp dụng các kiến thức và kết quả nghiên cứu trong luận văn để nâng cao hiệu quả công việc, bảo vệ hệ thống mạng và phát triển các giải pháp công nghệ phù hợp.
## Câu hỏi thường gặp
1. **Mô hình học sâu thưa thớt là gì và tại sao cần thiết cho thiết bị IoT?**
Mô hình học sâu thưa thớt là mô hình được tối ưu bằng cách loại bỏ các kết nối không cần thiết, giúp giảm dung lượng và chi phí tính toán. Điều này rất quan trọng với thiết bị IoT có cấu hình hạn chế để đảm bảo mô hình có thể chạy hiệu quả mà không làm giảm hiệu năng.
2. **Thuật toán SRGM khác gì so với các thuật toán tối ưu mô hình thưa thớt khác?**
SRGM phân bố lại độ thưa thớt dựa trên giá trị gradient trung bình của từng lớp, giúp tập trung tài nguyên vào các phần quan trọng của mô hình, cải thiện độ chính xác và rút ngắn thời gian huấn luyện so với các thuật toán như RigL và SET.
3. **Tập dữ liệu CICDDoS2019 có đặc điểm gì nổi bật?**
CICDDoS2019 là tập dữ liệu mới nhất chứa các cuộc tấn công DDoS hiện đại, được thu thập trong môi trường thực tế với gần 80 đặc trưng lưu lượng mạng, giúp mô hình học máy có khả năng tổng quát và phát hiện chính xác các cuộc tấn công.
4. **Làm thế nào để mô hình được cập nhật liên tục trên các thiết bị client?**
Hệ thống sử dụng giao thức FTP để truyền dữ liệu và mô hình giữa server và client. Client gửi dữ liệu thu thập được về server để huấn luyện lại, sau đó server gửi mô hình mới cập nhật về client để sử dụng, đảm bảo mô hình luôn phù hợp với môi trường mạng thực tế.
5. **Mô hình có thể áp dụng cho các loại tấn công mạng khác ngoài DoS không?**
Mô hình hiện tại tập trung vào phát hiện tấn công DoS, tuy nhiên phương pháp và thuật toán tối ưu có thể được mở rộng và điều chỉnh để phát hiện các loại tấn công mạng khác trong tương lai, tùy thuộc vào đặc điểm dữ liệu và yêu cầu bảo mật.
## Kết luận
- Đề tài đã thiết kế và xây dựng thành công mô hình máy học thưa thớt tối ưu SRGM, nâng cao hiệu quả phát hiện tấn công DoS trên thiết bị cấu hình thấp.
- Thuật toán SRGM cải thiện độ chính xác phát hiện lên hơn 20% so với các mô hình thưa thớt chưa tối ưu, đồng thời giảm đáng kể chi phí tính toán và dung lượng lưu trữ.
- Hệ thống phát hiện xâm nhập mạng được triển khai thực tế trên thiết bị định tuyến BKRouter với khả năng cảnh báo qua giao diện Web và đèn LED, chứng minh tính khả thi của giải pháp.
- Nghiên cứu mở ra hướng phát triển các hệ thống bảo mật mạng ứng dụng trí tuệ nhân tạo cho các thiết bị IoT phổ biến trong tương lai.
- Các bước tiếp theo bao gồm mở rộng mô hình cho các loại tấn công khác, phát triển hệ thống cập nhật tự động và triển khai trên quy mô lớn hơn.
Khuyến khích các nhà nghiên cứu và doanh nghiệp tiếp tục ứng dụng và phát triển các giải pháp bảo mật dựa trên mô hình học sâu thưa thớt để nâng cao an toàn mạng trong kỷ nguyên số hiện nay.