## Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số và sự phát triển mạnh mẽ của công nghệ thông tin, các cuộc tấn công mạng, đặc biệt là tấn công từ chối dịch vụ phân tán (DDoS), ngày càng trở nên phổ biến và nguy hiểm. Theo báo cáo của Microsoft, năm 2021 đã ghi nhận một cuộc tấn công DDoS với lưu lượng lên đến 3,47 Tbps, được xem là lớn nhất trong lịch sử. Các cuộc tấn công này không chỉ gây thiệt hại về kinh tế mà còn ảnh hưởng nghiêm trọng đến an ninh quốc gia và hoạt động của các hạ tầng trọng yếu như điện, nước, giao thông và tài chính. 

Vấn đề chính trong phòng chống DDoS hiện nay là thiếu hụt các bộ dữ liệu chất lượng cao để huấn luyện các mô hình học máy phát hiện tấn công hiệu quả. Các bộ dữ liệu hiện có thường mất cân bằng và không cập nhật các kỹ thuật tấn công mới, dẫn đến hiệu quả phát hiện thấp. Mục tiêu của nghiên cứu là đánh giá các bộ dữ liệu DDoS hiện có, xây dựng bộ dữ liệu mới kết hợp dữ liệu thu thập từ mô hình mạng giả lập và các bộ dữ liệu uy tín như CIC-IDS-2017, CIC-DDoS-2019 nhằm cải thiện chất lượng phát hiện tấn công. Nghiên cứu được thực hiện tại Trường Công nghệ Thông tin và Truyền thông, Đại học Bách Khoa Hà Nội trong giai đoạn từ tháng 10/2020 đến tháng 4/2022. Kết quả nghiên cứu góp phần nâng cao độ chính xác của các mô hình học máy trong phát hiện tấn công DDoS, hỗ trợ các chuyên gia an ninh mạng chủ động phòng chống hiệu quả hơn.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Lý thuyết về tấn công DDoS**: Phân loại các dạng tấn công DDoS phổ biến như tấn công flooding, reflection-based, amplification-based ở lớp mạng và lớp ứng dụng, cùng các công cụ tấn công hiện đại.
- **Học máy (Machine Learning)**: Áp dụng các thuật toán học có giám sát như K-Nearest Neighbor (KNN), Random Forest, AdaBoost để phát hiện lưu lượng mạng độc hại dựa trên các đặc trưng của dữ liệu mạng.
- **Hệ thống phát hiện xâm nhập (IDS)**: Phân biệt giữa IDS dựa trên chữ ký (Signature-Based) và dựa trên bất thường (Anomaly-Based), trong đó Anomaly-Based IDS kết hợp học máy được ưu tiên sử dụng để phát hiện các tấn công mới, chưa có chữ ký.
- **Mô hình dữ liệu mạng (Dataset)**: Phân tích các loại dữ liệu packet-based và flow-based, các đặc tính cần đánh giá của bộ dữ liệu như tính cập nhật, cân bằng dữ liệu, tính ẩn danh, và môi trường thu thập dữ liệu.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Thu thập dữ liệu từ mô hình mạng giả lập với các kịch bản tấn công DDoS phổ biến, kết hợp với hai bộ dữ liệu uy tín CIC-IDS-2017 và CIC-DDoS-2019 để tạo bộ dữ liệu mới cân bằng và đa dạng.
- **Phương pháp phân tích**: Sử dụng các thuật toán học máy KNN, Random Forest và AdaBoost để huấn luyện và kiểm thử mô hình phát hiện tấn công trên bộ dữ liệu mới và so sánh với các bộ dữ liệu cũ.
- **Cỡ mẫu và chọn mẫu**: Bộ dữ liệu mới bao gồm hàng nghìn mẫu lưu lượng mạng với tỷ lệ cân bằng giữa lưu lượng lành tính và lưu lượng tấn công, đảm bảo tính đại diện và khả năng tổng quát hóa của mô hình.
- **Timeline nghiên cứu**: Thực hiện từ tháng 10/2020 đến tháng 4/2022, bao gồm các giai đoạn thu thập dữ liệu, xây dựng bộ dữ liệu, huấn luyện mô hình, đánh giá và tối ưu tham số thuật toán.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Bộ dữ liệu mới đề xuất đã khắc phục được vấn đề mất cân bằng dữ liệu, với tỷ lệ lưu lượng tấn công và lành tính gần như cân bằng, cải thiện đáng kể độ chính xác phát hiện so với các bộ dữ liệu CIC-IDS-2017 và CIC-DDoS-2019.
- Thuật toán Random Forest đạt độ chính xác cao nhất, lên đến 99% trong việc phân loại lưu lượng mạng độc hại và lành tính, vượt trội hơn so với KNN và AdaBoost.
- Các dạng tấn công mới được bổ sung trong bộ dữ liệu giúp mô hình phát hiện hiệu quả hơn các kỹ thuật tấn công DDoS hiện đại như DNS amplification, Slowloris, và các tấn công flooding đa vectơ.
- Việc điều chỉnh tham số thuật toán, đặc biệt là số lượng cây trong Random Forest và giá trị k trong KNN, ảnh hưởng rõ rệt đến hiệu suất mô hình, với điểm tối ưu được xác định qua các biểu đồ phụ thuộc.

### Thảo luận kết quả

Kết quả cho thấy việc xây dựng bộ dữ liệu mới với sự kết hợp dữ liệu thực tế và mô phỏng giúp cải thiện đáng kể khả năng phát hiện tấn công DDoS so với việc chỉ sử dụng các bộ dữ liệu cũ. Thuật toán Random Forest thể hiện ưu thế nhờ khả năng giảm overfitting và xử lý tốt các đặc trưng phức tạp của lưu lượng mạng. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng học máy trong an ninh mạng, đồng thời khẳng định tầm quan trọng của việc cập nhật và cân bằng bộ dữ liệu huấn luyện. Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác, precision, recall và F1-score giữa các thuật toán và bộ dữ liệu, giúp minh họa rõ ràng hiệu quả của phương pháp đề xuất.

## Đề xuất và khuyến nghị

- **Xây dựng và duy trì bộ dữ liệu cập nhật**: Liên tục thu thập và bổ sung các kịch bản tấn công mới vào bộ dữ liệu để đảm bảo mô hình học máy luôn phản ánh đúng thực tế tấn công, nâng cao độ chính xác phát hiện.
- **Áp dụng thuật toán Random Forest trong hệ thống IDS**: Triển khai thuật toán này làm công cụ chính trong phát hiện tấn công DDoS, tận dụng ưu điểm về độ chính xác và khả năng xử lý dữ liệu phức tạp.
- **Tối ưu tham số mô hình định kỳ**: Thực hiện điều chỉnh tham số thuật toán dựa trên dữ liệu mới và kết quả đánh giá để duy trì hiệu suất phát hiện cao nhất.
- **Phát triển hệ thống IDS tích hợp AI**: Kết hợp các phương pháp phát hiện dựa trên chữ ký và bất thường, sử dụng AI để giảm thiểu sự phụ thuộc vào con người, tăng khả năng tự động hóa và phản ứng nhanh với các cuộc tấn công.
- **Đào tạo và nâng cao nhận thức cho chuyên gia an ninh mạng**: Cung cấp kiến thức về các kỹ thuật tấn công mới và cách sử dụng các công cụ AI trong phòng chống DDoS, đảm bảo đội ngũ vận hành có năng lực xử lý hiệu quả.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia an ninh mạng**: Nâng cao kiến thức về các kỹ thuật tấn công DDoS và phương pháp phát hiện hiện đại, áp dụng trong thực tế vận hành hệ thống.
- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Tham khảo phương pháp xây dựng bộ dữ liệu và ứng dụng học máy trong an ninh mạng, phục vụ cho các nghiên cứu và luận văn.
- **Doanh nghiệp cung cấp dịch vụ mạng và bảo mật**: Áp dụng giải pháp phát hiện tấn công DDoS dựa trên AI để bảo vệ hạ tầng mạng và dịch vụ của mình.
- **Cơ quan quản lý và hoạch định chính sách**: Hiểu rõ về mối nguy hiểm của tấn công DDoS và các giải pháp kỹ thuật để xây dựng chính sách an ninh mạng hiệu quả.

## Câu hỏi thường gặp

1. **Tấn công DDoS là gì và tại sao nó nguy hiểm?**  
   Tấn công DDoS là hình thức làm gián đoạn dịch vụ bằng cách gửi lượng lớn lưu lượng mạng từ nhiều nguồn khác nhau, gây quá tải hệ thống. Nó nguy hiểm vì có thể làm tê liệt các dịch vụ quan trọng, gây thiệt hại kinh tế và ảnh hưởng an ninh quốc gia.

2. **Tại sao cần bộ dữ liệu chất lượng cho phát hiện tấn công DDoS?**  
   Bộ dữ liệu chất lượng giúp mô hình học máy học được đặc trưng chính xác của lưu lượng tấn công và lành tính, từ đó nâng cao độ chính xác phát hiện và giảm sai sót.

3. **Các thuật toán học máy nào phù hợp để phát hiện tấn công DDoS?**  
   Các thuật toán như Random Forest, KNN và AdaBoost được sử dụng phổ biến do khả năng phân loại chính xác và xử lý dữ liệu phức tạp.

4. **Làm thế nào để xử lý vấn đề mất cân bằng dữ liệu trong bộ dữ liệu?**  
   Có thể kết hợp dữ liệu từ nhiều nguồn, thu thập thêm dữ liệu tấn công mới và sử dụng kỹ thuật cân bằng dữ liệu để đảm bảo tỷ lệ lưu lượng tấn công và lành tính hợp lý.

5. **Phương pháp phòng chống DDoS hiệu quả hiện nay là gì?**  
   Kết hợp các phương pháp phòng thủ ở nhiều lớp mạng, sử dụng hệ thống IDS tích hợp AI để phát hiện và phản ứng nhanh, đồng thời áp dụng các chính sách chặn lọc lưu lượng và cân bằng tải.

## Kết luận

- Đã xây dựng thành công bộ dữ liệu DDoS mới, cân bằng và cập nhật các kỹ thuật tấn công hiện đại, nâng cao hiệu quả phát hiện tấn công.  
- Thuật toán Random Forest cho kết quả phát hiện chính xác nhất, phù hợp ứng dụng trong hệ thống IDS.  
- Phương pháp đề xuất giúp khắc phục hạn chế của các bộ dữ liệu cũ và tăng khả năng tổng quát hóa của mô hình học máy.  
- Nghiên cứu góp phần quan trọng vào lĩnh vực an ninh mạng, hỗ trợ phát triển các giải pháp phòng chống DDoS hiệu quả hơn trong tương lai.  
- Đề xuất tiếp tục mở rộng bộ dữ liệu và tối ưu thuật toán để ứng dụng rộng rãi trong thực tế, đồng thời đào tạo chuyên gia an ninh mạng nâng cao năng lực phòng chống.

Hành động tiếp theo là triển khai thử nghiệm thực tế bộ dữ liệu và mô hình trên các hệ thống mạng thực tế, đồng thời phát triển các công cụ hỗ trợ tự động hóa phát hiện và phản ứng tấn công DDoS.