## Tổng quan nghiên cứu
Internet vạn vật (IoT) đang phát triển mạnh mẽ với dự báo số lượng thiết bị kết nối toàn cầu sẽ đạt khoảng 50 tỷ vào năm 2033. Sự bùng nổ này thúc đẩy cuộc cách mạng công nghiệp 4.0, góp phần quan trọng vào chuyển đổi số và phát triển đô thị thông minh. Tuy nhiên, IoT cũng đối mặt với nhiều thách thức về bảo mật do các thiết bị thường có hạn chế về sức mạnh tính toán, bộ nhớ và năng lượng, khiến chúng dễ bị tấn công mạng. Các cuộc tấn công như DDoS, mã độc, và khai thác lỗ hổng bảo mật ngày càng gia tăng, đặc biệt trong các lĩnh vực nhạy cảm như tài chính, quốc phòng và y tế.
Mục tiêu nghiên cứu là xây dựng và đánh giá mô hình học sâu ứng dụng học bầy đàn (Swarm Learning - SL) để phát hiện lưu lượng mạng bất thường trong hệ thống IoT, nhằm nâng cao khả năng nhận diện các cuộc tấn công mạng trong môi trường phân tán, đồng thời đảm bảo bảo mật và riêng tư dữ liệu. Nghiên cứu tập trung vào việc so sánh hiệu quả của SL với các kiến trúc học máy tập trung (Centralized Learning - CL) và học liên kết (Federated Learning - FL), đồng thời phân tích ảnh hưởng của các phương pháp tổng hợp mô hình và phân bố dữ liệu huấn luyện đến hiệu suất mô hình.
Phạm vi nghiên cứu bao gồm triển khai mô hình học sâu CNN trên bộ dữ liệu CICIoT2023, thực nghiệm trên môi trường giả lập nhiều nút cận biên tại Việt Nam trong năm 2023-2024. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống phát hiện xâm nhập mạng (NIDS) hiệu quả, bảo mật cho hệ thống IoT, góp phần nâng cao an ninh mạng trong bối cảnh chuyển đổi số và công nghiệp 4.0.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Internet of Things (IoT):** Mạng lưới các thiết bị vật lý kết nối và trao đổi dữ liệu qua Internet, tạo ra lượng dữ liệu lớn và đa dạng, nhưng cũng tiềm ẩn nhiều rủi ro bảo mật do hạn chế về tài nguyên thiết bị và giao thức truyền thông.
- **Học máy (Machine Learning - ML) và học sâu (Deep Learning - DL):** Các phương pháp trí tuệ nhân tạo giúp xây dựng mô hình nhận diện lưu lượng mạng bất thường, trong đó CNN và LSTM là các mô hình phổ biến để xử lý dữ liệu mạng phức tạp.
- **Kiến trúc học máy tập trung (Centralized Learning - CL):** Tập trung dữ liệu về một máy chủ trung tâm để huấn luyện mô hình, có ưu điểm về hiệu quả nhưng gặp hạn chế về bảo mật và băng thông.
- **Kiến trúc học liên kết (Federated Learning - FL):** Huấn luyện mô hình phân tán tại các nút cận biên, chỉ chia sẻ tham số mô hình với máy chủ trung tâm, giúp bảo vệ dữ liệu nhưng vẫn tồn tại rủi ro điểm lỗi đơn lẻ và phụ thuộc vào máy chủ trung tâm.
- **Kiến trúc học bầy đàn (Swarm Learning - SL):** Mô hình học máy phân tán hoàn toàn, không có máy chủ trung tâm cố định, các nút tự bầu chọn leader để tổng hợp mô hình, tích hợp blockchain để đảm bảo bảo mật, tính toàn vẹn và minh bạch trong quá trình huấn luyện.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Sử dụng bộ dữ liệu CICIoT2023, bao gồm các mẫu lưu lượng mạng bất thường và bình thường trong hệ thống IoT.
- **Phương pháp phân tích:**
- Xây dựng mô hình CNN để nhận diện lưu lượng mạng bất thường.
- Triển khai huấn luyện mô hình trên ba kiến trúc: CL, FL và SL.
- Đánh giá hiệu quả mô hình qua các chỉ số accuracy, loss, thời gian huấn luyện.
- Phân tích ảnh hưởng của các phương pháp tổng hợp mô hình (mean, coordinate median, geometric median) và phân bố dữ liệu huấn luyện (mất cân bằng số lượng mẫu và nhãn) đến hiệu suất mô hình.
- **Timeline nghiên cứu:**
- Năm 2023: Thu thập và tiền xử lý dữ liệu, xây dựng mô hình CNN.
- Quý 1-2/2024: Triển khai và thực nghiệm trên các kiến trúc CL, FL, SL.
- Quý 3/2024: Phân tích kết quả, hoàn thiện luận văn.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình CNN trên kiến trúc SL đạt độ chính xác phân loại nhị phân lên đến 98%, cao hơn so với FL (95%) và CL (93%) trong điều kiện dữ liệu mất cân bằng.
- Thời gian huấn luyện trên SL giảm khoảng 20% so với FL do loại bỏ nút trung tâm cố định, giúp tăng tính linh hoạt và khả năng mở rộng.
- Phương pháp tổng hợp mô hình geometric median trong SL giúp giảm thiểu ảnh hưởng của các nút có dữ liệu nhiễu, nâng cao độ chính xác mô hình lên 2-3% so với phương pháp mean.
- Khi dữ liệu huấn luyện mất cân bằng về nhãn, SL vẫn duy trì hiệu suất ổn định với độ chính xác trên 90%, trong khi FL và CL giảm xuống dưới 85%.
### Thảo luận kết quả
Kết quả cho thấy SL vượt trội trong việc xử lý dữ liệu phân tán và bảo vệ quyền riêng tư so với các kiến trúc truyền thống. Việc loại bỏ máy chủ trung tâm giúp giảm thiểu rủi ro điểm lỗi đơn lẻ, đồng thời blockchain tích hợp đảm bảo tính toàn vẹn và minh bạch trong quá trình huấn luyện. So với các nghiên cứu trước đây chỉ tập trung vào FL, SL thể hiện khả năng mở rộng và bảo mật tốt hơn, phù hợp với môi trường IoT phân tán và đa dạng.
Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và thời gian huấn luyện giữa ba kiến trúc, cũng như bảng tổng hợp hiệu quả các phương pháp tổng hợp mô hình. Phân tích này giúp làm rõ ưu nhược điểm của từng phương pháp và đề xuất hướng phát triển phù hợp cho các hệ thống NIDS trong tương lai.
## Đề xuất và khuyến nghị
- **Triển khai rộng rãi kiến trúc học bầy đàn (SL):** Áp dụng SL trong các hệ thống IoT phân tán để nâng cao bảo mật và hiệu quả phát hiện xâm nhập, hướng tới mục tiêu tăng độ chính xác nhận diện trên 95% trong vòng 2 năm tới.
- **Tối ưu phương pháp tổng hợp mô hình:** Ưu tiên sử dụng geometric median hoặc coordinate median để giảm thiểu ảnh hưởng của dữ liệu nhiễu, cải thiện độ ổn định mô hình, thực hiện trong 12 tháng tiếp theo bởi các nhóm nghiên cứu và phát triển.
- **Phát triển công cụ hỗ trợ quản lý và giám sát SL:** Xây dựng các dashboard trực quan giúp theo dõi quá trình huấn luyện và đánh giá mô hình, nhằm tăng cường khả năng vận hành và bảo trì hệ thống, hoàn thành trong 18 tháng.
- **Đào tạo và nâng cao nhận thức về bảo mật dữ liệu:** Tổ chức các khóa đào tạo cho kỹ sư và quản trị viên hệ thống IoT về các kiến thức liên quan đến SL và bảo mật dữ liệu, nhằm giảm thiểu rủi ro rò rỉ thông tin, triển khai liên tục.
- **Khuyến khích hợp tác đa bên:** Tạo điều kiện cho các tổ chức, doanh nghiệp cùng tham gia phát triển mô hình SL, tận dụng nguồn lực phân tán và dữ liệu đa dạng, hướng tới xây dựng hệ sinh thái học máy phân tán an toàn và hiệu quả.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, An ninh mạng:** Nắm bắt kiến thức về học máy phân tán, học bầy đàn và ứng dụng trong phát hiện xâm nhập mạng IoT.
- **Chuyên gia phát triển hệ thống IoT và NIDS:** Áp dụng các giải pháp học máy tiên tiến để nâng cao hiệu quả bảo mật và phát hiện tấn công trong môi trường phân tán.
- **Doanh nghiệp và tổ chức quản lý hạ tầng mạng IoT:** Hiểu rõ các kiến trúc học máy phân tán, lựa chọn giải pháp phù hợp để bảo vệ hệ thống và dữ liệu người dùng.
- **Cơ quan quản lý và hoạch định chính sách:** Tham khảo các nghiên cứu về bảo mật IoT và học máy phân tán để xây dựng các quy định, tiêu chuẩn bảo vệ dữ liệu và an ninh mạng.
## Câu hỏi thường gặp
1. **Học bầy đàn (Swarm Learning) khác gì so với học liên kết (Federated Learning)?**
SL không sử dụng máy chủ trung tâm cố định mà các nút tự bầu chọn leader để tổng hợp mô hình, giúp tăng tính phân tán và bảo mật, trong khi FL phụ thuộc vào máy chủ trung tâm.
2. **Lợi ích chính của việc ứng dụng SL trong hệ thống IoT là gì?**
SL giúp bảo vệ dữ liệu nhạy cảm, giảm rủi ro điểm lỗi đơn lẻ, tăng khả năng mở rộng và cải thiện hiệu quả phát hiện xâm nhập trong môi trường phân tán.
3. **Phương pháp tổng hợp mô hình nào hiệu quả nhất trong SL?**
Geometric median được đánh giá cao vì giảm thiểu ảnh hưởng của các nút có dữ liệu nhiễu, nâng cao độ chính xác và ổn định mô hình.
4. **SL có thể áp dụng cho những lĩnh vực nào ngoài IoT?**
SL phù hợp với các lĩnh vực yêu cầu bảo mật cao như y tế, tài chính, nghiên cứu khoa học, nơi dữ liệu phân tán và nhạy cảm.
5. **Làm thế nào để xử lý dữ liệu mất cân bằng trong huấn luyện mô hình SL?**
Có thể áp dụng các kỹ thuật cân bằng dữ liệu tại từng nút hoặc điều chỉnh trọng số trong quá trình tổng hợp mô hình để duy trì hiệu suất cao.
## Kết luận
- Đã xây dựng thành công mô hình học sâu CNN ứng dụng học bầy đàn để phát hiện lưu lượng mạng bất thường trong hệ thống IoT với độ chính xác trên 98%.
- So sánh hiệu quả giữa ba kiến trúc CL, FL và SL cho thấy SL vượt trội về bảo mật, khả năng mở rộng và hiệu suất huấn luyện.
- Phương pháp tổng hợp mô hình geometric median trong SL giúp cải thiện độ ổn định và chính xác của mô hình trong điều kiện dữ liệu phân tán và mất cân bằng.
- SL tích hợp blockchain đảm bảo tính toàn vẹn, minh bạch và bảo mật trong quá trình huấn luyện phân tán.
- Đề xuất triển khai SL rộng rãi trong các hệ thống IoT và phát triển các công cụ hỗ trợ quản lý, giám sát để nâng cao hiệu quả ứng dụng.
**Next steps:** Triển khai thử nghiệm thực tế trên hệ thống IoT quy mô lớn, phát triển công cụ giám sát và đào tạo nhân lực.
**Call to action:** Các tổ chức và doanh nghiệp trong lĩnh vực IoT nên nghiên cứu và áp dụng học bầy đàn để nâng cao bảo mật và hiệu quả phát hiện xâm nhập mạng.