Ứng Dụng Học Bầy Đàn Trong Phát Hiện Xâm Nhập Hệ Thống IoT

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

MỤC LỤC

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

DANH MỤC TỪ VIẾT TẮT

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu, đối tượng và phạm vi nghiên cứu

1.2.1. Mục tiêu nghiên cứu

1.2.2. Đối tượng nghiên cứu

1.2.3. Phạm vi nghiên cứu

1.3. Nội dung và phương pháp nghiên cứu

1.3.1. Nội dung 1

1.3.2. Nội dung 2

1.3.3. Nội dung 3

1.4. Các đóng góp chính của đề tài

1.5. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT, NGHIÊN CỨU LIÊN QUAN

2.1. Tổng quan Internet vạn vật

2.2. Các thách thức bảo mật Internet of Things

2.3. Hệ thống phát hiện xâm nhập

2.4. Kỹ thuật học máy, học sâu

2.4.1. Học máy - Machine Learning

2.4.2. Học sâu - Deep Learning

2.5. Các hình thức học máy

2.5.1. Kiến trúc học máy tập trung - CL

2.5.2. Kiến trúc học liên kết - FL

2.5.3. Kiến trúc học bầy đàn - SL

2.6. HPE Swarm Learning Framework

2.6.1. Các thành phần của Framework

2.7. Các nghiên cứu liên quan

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Phương pháp đề xuất

3.2. Các phương pháp tổng hợp mô hình học bầy đàn

3.3. Mô hình học máy đề xuất

4. CHƯƠNG 4: THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN

4.1. Tiền xử lý dữ liệu

4.2. Đặc trưng và mô tả dữ liệu

4.3. Tiêu chí đánh giá

4.4. Môi trường thực nghiệm

4.5. Kịch bản 1: Đánh giá hiệu quả các kiến trúc học máy

4.5.1. Kiến trúc học máy tập trung - CL

4.5.2. Kiến trúc học máy liên kết - FL

4.5.3. Kiến trúc học bầy đàn - SL

4.6. Kịch bản 2: Đánh giá các phương thức tổng hợp mô hình học bầy đàn

4.7. Kịch bản 3: Đánh giá học bầy đàn khi dữ liệu huấn luyện mất cân bằng tại các nút

4.7.1. Trường hợp 1: Mất cân bằng số mẫu dữ liệu

4.7.2. Trường hợp 2: Mất cân bằng về nhãn

4.7.3. Phân tích và đánh giá kịch bản 3

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Công bố khoa học

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Ứng Dụng Học Bầy Đàn Trong IoT

Học bầy đàn là một phương pháp học máy mới, cho phép các nút trong hệ thống IoT tự huấn luyện và chia sẻ thông tin mà không cần một nút trung tâm. Điều này giúp tăng cường khả năng phát hiện xâm nhập trong các hệ thống IoT, nơi mà an ninh mạng là một vấn đề quan trọng. Việc áp dụng học bầy đàn có thể cải thiện hiệu suất và độ chính xác của các hệ thống phát hiện xâm nhập mạng (NIDS).

1.1. Khái niệm về Học Bầy Đàn

Học bầy đàn (Swarm Learning) là một phương pháp học máy phân tán, cho phép các nút trong mạng IoT tự huấn luyện và chia sẻ tham số mà không cần một nút trung tâm. Điều này giúp giảm thiểu rủi ro và tăng cường tính bảo mật cho dữ liệu.

1.2. Tầm quan trọng của IoT trong Thế Giới Hiện Đại

Internet of Things (IoT) đang trở thành một phần không thể thiếu trong cuộc sống hàng ngày, từ các thiết bị gia đình thông minh đến các hệ thống công nghiệp. Sự phát triển của IoT mang lại nhiều lợi ích nhưng cũng đặt ra nhiều thách thức về an ninh mạng.

II. Thách Thức An Ninh Trong Hệ Thống IoT

Hệ thống IoT thường gặp phải nhiều thách thức về an ninh, bao gồm việc bảo vệ dữ liệu và ngăn chặn các cuộc tấn công mạng. Các thiết bị IoT thường có tài nguyên hạn chế, khiến cho việc triển khai các biện pháp bảo mật trở nên khó khăn. Điều này tạo ra một môi trường dễ bị tấn công.

2.1. Các Mối Đe Dọa Chính Đối Với IoT

Các mối đe dọa chính đối với hệ thống IoT bao gồm tấn công từ chối dịch vụ (DDoS), tấn công xâm nhập và rò rỉ dữ liệu. Những mối đe dọa này có thể gây ra thiệt hại nghiêm trọng cho cả người dùng và nhà cung cấp dịch vụ.

2.2. Hạn Chế Về Tài Nguyên Của Thiết Bị IoT

Nhiều thiết bị IoT có sức mạnh tính toán và bộ nhớ hạn chế, điều này làm cho việc triển khai các giải pháp bảo mật phức tạp trở nên khó khăn. Do đó, cần có các phương pháp bảo mật nhẹ nhàng và hiệu quả hơn.

III. Phương Pháp Học Máy Trong Phát Hiện Xâm Nhập

Học máy (Machine Learning) và học sâu (Deep Learning) đã được áp dụng để phát hiện các hoạt động bất thường trong hệ thống IoT. Các phương pháp này giúp cải thiện khả năng nhận diện và phản ứng nhanh chóng với các mối đe dọa.

3.1. Học Máy và Học Sâu Là Gì

Học máy là một lĩnh vực của trí tuệ nhân tạo, cho phép máy tính học từ dữ liệu mà không cần lập trình cụ thể. Học sâu là một nhánh của học máy, sử dụng mạng nơ-ron để xử lý và phân tích dữ liệu phức tạp.

3.2. Ứng Dụng Học Máy Trong NIDS

Hệ thống phát hiện xâm nhập mạng (NIDS) sử dụng học máy để phân tích lưu lượng mạng và phát hiện các hành vi bất thường. Điều này giúp bảo vệ hệ thống IoT khỏi các cuộc tấn công.

IV. Ứng Dụng Thực Tiễn Của Học Bầy Đàn Trong IoT

Học bầy đàn đã được áp dụng trong nhiều lĩnh vực khác nhau, từ sản xuất đến y tế. Việc sử dụng phương pháp này giúp cải thiện khả năng phát hiện xâm nhập và bảo vệ dữ liệu trong các hệ thống IoT.

4.1. Học Bầy Đàn Trong Sản Xuất

Trong ngành sản xuất, học bầy đàn giúp tối ưu hóa quy trình sản xuất và phát hiện các lỗi trong hệ thống. Điều này không chỉ tiết kiệm chi phí mà còn nâng cao hiệu quả sản xuất.

4.2. Học Bầy Đàn Trong Y Tế

Trong lĩnh vực y tế, học bầy đàn có thể được sử dụng để phân tích dữ liệu bệnh nhân và phát hiện các dấu hiệu bất thường, từ đó cải thiện chất lượng chăm sóc sức khỏe.

V. Kết Luận và Tương Lai Của Học Bầy Đàn Trong IoT

Học bầy đàn là một giải pháp hứa hẹn cho các vấn đề an ninh trong hệ thống IoT. Với sự phát triển không ngừng của công nghệ, phương pháp này có thể trở thành tiêu chuẩn trong việc bảo vệ dữ liệu và phát hiện xâm nhập.

5.1. Tương Lai Của Học Bầy Đàn

Với sự phát triển của công nghệ blockchain và tính toán cận biên, học bầy đàn có thể trở thành một phần quan trọng trong các giải pháp bảo mật cho IoT trong tương lai.

5.2. Những Thách Thức Cần Giải Quyết

Mặc dù học bầy đàn có nhiều lợi ích, nhưng vẫn còn nhiều thách thức cần giải quyết, bao gồm việc đảm bảo tính bảo mật và hiệu suất của hệ thống.

10/07/2025

Nội dung chính

## Tổng quan nghiên cứu

Internet vạn vật (IoT) đang phát triển mạnh mẽ với dự báo số lượng thiết bị kết nối toàn cầu sẽ đạt khoảng 50 tỷ vào năm 2033. Sự bùng nổ này thúc đẩy cuộc cách mạng công nghiệp 4.0, góp phần quan trọng vào chuyển đổi số và phát triển đô thị thông minh. Tuy nhiên, IoT cũng đối mặt với nhiều thách thức về bảo mật do các thiết bị thường có hạn chế về sức mạnh tính toán, bộ nhớ và năng lượng, khiến chúng dễ bị tấn công mạng. Các cuộc tấn công như DDoS, mã độc, và khai thác lỗ hổng bảo mật ngày càng gia tăng, đặc biệt trong các lĩnh vực nhạy cảm như tài chính, quốc phòng và y tế.

Mục tiêu nghiên cứu là xây dựng và đánh giá mô hình học sâu ứng dụng học bầy đàn (Swarm Learning - SL) để phát hiện lưu lượng mạng bất thường trong hệ thống IoT, nhằm nâng cao khả năng nhận diện các cuộc tấn công mạng trong môi trường phân tán, đồng thời đảm bảo bảo mật và riêng tư dữ liệu. Nghiên cứu tập trung vào việc so sánh hiệu quả của SL với các kiến trúc học máy tập trung (Centralized Learning - CL) và học liên kết (Federated Learning - FL), đồng thời phân tích ảnh hưởng của các phương pháp tổng hợp mô hình và phân bố dữ liệu huấn luyện đến hiệu suất mô hình.

Phạm vi nghiên cứu bao gồm triển khai mô hình học sâu CNN trên bộ dữ liệu CICIoT2023, thực nghiệm trên môi trường giả lập nhiều nút cận biên tại Việt Nam trong năm 2023-2024. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống phát hiện xâm nhập mạng (NIDS) hiệu quả, bảo mật cho hệ thống IoT, góp phần nâng cao an ninh mạng trong bối cảnh chuyển đổi số và công nghiệp 4.0.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Internet of Things (IoT):** Mạng lưới các thiết bị vật lý kết nối và trao đổi dữ liệu qua Internet, tạo ra lượng dữ liệu lớn và đa dạng, nhưng cũng tiềm ẩn nhiều rủi ro bảo mật do hạn chế về tài nguyên thiết bị và giao thức truyền thông.
- **Học máy (Machine Learning - ML) và học sâu (Deep Learning - DL):** Các phương pháp trí tuệ nhân tạo giúp xây dựng mô hình nhận diện lưu lượng mạng bất thường, trong đó CNN và LSTM là các mô hình phổ biến để xử lý dữ liệu mạng phức tạp.
- **Kiến trúc học máy tập trung (Centralized Learning - CL):** Tập trung dữ liệu về một máy chủ trung tâm để huấn luyện mô hình, có ưu điểm về hiệu quả nhưng gặp hạn chế về bảo mật và băng thông.
- **Kiến trúc học liên kết (Federated Learning - FL):** Huấn luyện mô hình phân tán tại các nút cận biên, chỉ chia sẻ tham số mô hình với máy chủ trung tâm, giúp bảo vệ dữ liệu nhưng vẫn tồn tại rủi ro điểm lỗi đơn lẻ và phụ thuộc vào máy chủ trung tâm.
- **Kiến trúc học bầy đàn (Swarm Learning - SL):** Mô hình học máy phân tán hoàn toàn, không có máy chủ trung tâm cố định, các nút tự bầu chọn leader để tổng hợp mô hình, tích hợp blockchain để đảm bảo bảo mật, tính toàn vẹn và minh bạch trong quá trình huấn luyện.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng bộ dữ liệu CICIoT2023, bao gồm các mẫu lưu lượng mạng bất thường và bình thường trong hệ thống IoT.
- **Phương pháp phân tích:** 
  - Xây dựng mô hình CNN để nhận diện lưu lượng mạng bất thường.
  - Triển khai huấn luyện mô hình trên ba kiến trúc: CL, FL và SL.
  - Đánh giá hiệu quả mô hình qua các chỉ số accuracy, loss, thời gian huấn luyện.
  - Phân tích ảnh hưởng của các phương pháp tổng hợp mô hình (mean, coordinate median, geometric median) và phân bố dữ liệu huấn luyện (mất cân bằng số lượng mẫu và nhãn) đến hiệu suất mô hình.
- **Timeline nghiên cứu:** 
  - Năm 2023: Thu thập và tiền xử lý dữ liệu, xây dựng mô hình CNN.
  - Quý 1-2/2024: Triển khai và thực nghiệm trên các kiến trúc CL, FL, SL.
  - Quý 3/2024: Phân tích kết quả, hoàn thiện luận văn.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình CNN trên kiến trúc SL đạt độ chính xác phân loại nhị phân lên đến 98%, cao hơn so với FL (95%) và CL (93%) trong điều kiện dữ liệu mất cân bằng.
- Thời gian huấn luyện trên SL giảm khoảng 20% so với FL do loại bỏ nút trung tâm cố định, giúp tăng tính linh hoạt và khả năng mở rộng.
- Phương pháp tổng hợp mô hình geometric median trong SL giúp giảm thiểu ảnh hưởng của các nút có dữ liệu nhiễu, nâng cao độ chính xác mô hình lên 2-3% so với phương pháp mean.
- Khi dữ liệu huấn luyện mất cân bằng về nhãn, SL vẫn duy trì hiệu suất ổn định với độ chính xác trên 90%, trong khi FL và CL giảm xuống dưới 85%.

### Thảo luận kết quả

Kết quả cho thấy SL vượt trội trong việc xử lý dữ liệu phân tán và bảo vệ quyền riêng tư so với các kiến trúc truyền thống. Việc loại bỏ máy chủ trung tâm giúp giảm thiểu rủi ro điểm lỗi đơn lẻ, đồng thời blockchain tích hợp đảm bảo tính toàn vẹn và minh bạch trong quá trình huấn luyện. So với các nghiên cứu trước đây chỉ tập trung vào FL, SL thể hiện khả năng mở rộng và bảo mật tốt hơn, phù hợp với môi trường IoT phân tán và đa dạng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và thời gian huấn luyện giữa ba kiến trúc, cũng như bảng tổng hợp hiệu quả các phương pháp tổng hợp mô hình. Phân tích này giúp làm rõ ưu nhược điểm của từng phương pháp và đề xuất hướng phát triển phù hợp cho các hệ thống NIDS trong tương lai.

## Đề xuất và khuyến nghị

- **Triển khai rộng rãi kiến trúc học bầy đàn (SL):** Áp dụng SL trong các hệ thống IoT phân tán để nâng cao bảo mật và hiệu quả phát hiện xâm nhập, hướng tới mục tiêu tăng độ chính xác nhận diện trên 95% trong vòng 2 năm tới.
- **Tối ưu phương pháp tổng hợp mô hình:** Ưu tiên sử dụng geometric median hoặc coordinate median để giảm thiểu ảnh hưởng của dữ liệu nhiễu, cải thiện độ ổn định mô hình, thực hiện trong 12 tháng tiếp theo bởi các nhóm nghiên cứu và phát triển.
- **Phát triển công cụ hỗ trợ quản lý và giám sát SL:** Xây dựng các dashboard trực quan giúp theo dõi quá trình huấn luyện và đánh giá mô hình, nhằm tăng cường khả năng vận hành và bảo trì hệ thống, hoàn thành trong 18 tháng.
- **Đào tạo và nâng cao nhận thức về bảo mật dữ liệu:** Tổ chức các khóa đào tạo cho kỹ sư và quản trị viên hệ thống IoT về các kiến thức liên quan đến SL và bảo mật dữ liệu, nhằm giảm thiểu rủi ro rò rỉ thông tin, triển khai liên tục.
- **Khuyến khích hợp tác đa bên:** Tạo điều kiện cho các tổ chức, doanh nghiệp cùng tham gia phát triển mô hình SL, tận dụng nguồn lực phân tán và dữ liệu đa dạng, hướng tới xây dựng hệ sinh thái học máy phân tán an toàn và hiệu quả.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, An ninh mạng:** Nắm bắt kiến thức về học máy phân tán, học bầy đàn và ứng dụng trong phát hiện xâm nhập mạng IoT.
- **Chuyên gia phát triển hệ thống IoT và NIDS:** Áp dụng các giải pháp học máy tiên tiến để nâng cao hiệu quả bảo mật và phát hiện tấn công trong môi trường phân tán.
- **Doanh nghiệp và tổ chức quản lý hạ tầng mạng IoT:** Hiểu rõ các kiến trúc học máy phân tán, lựa chọn giải pháp phù hợp để bảo vệ hệ thống và dữ liệu người dùng.
- **Cơ quan quản lý và hoạch định chính sách:** Tham khảo các nghiên cứu về bảo mật IoT và học máy phân tán để xây dựng các quy định, tiêu chuẩn bảo vệ dữ liệu và an ninh mạng.

## Câu hỏi thường gặp

1. **Học bầy đàn (Swarm Learning) khác gì so với học liên kết (Federated Learning)?**  
   SL không sử dụng máy chủ trung tâm cố định mà các nút tự bầu chọn leader để tổng hợp mô hình, giúp tăng tính phân tán và bảo mật, trong khi FL phụ thuộc vào máy chủ trung tâm.

2. **Lợi ích chính của việc ứng dụng SL trong hệ thống IoT là gì?**  
   SL giúp bảo vệ dữ liệu nhạy cảm, giảm rủi ro điểm lỗi đơn lẻ, tăng khả năng mở rộng và cải thiện hiệu quả phát hiện xâm nhập trong môi trường phân tán.

3. **Phương pháp tổng hợp mô hình nào hiệu quả nhất trong SL?**  
   Geometric median được đánh giá cao vì giảm thiểu ảnh hưởng của các nút có dữ liệu nhiễu, nâng cao độ chính xác và ổn định mô hình.

4. **SL có thể áp dụng cho những lĩnh vực nào ngoài IoT?**  
   SL phù hợp với các lĩnh vực yêu cầu bảo mật cao như y tế, tài chính, nghiên cứu khoa học, nơi dữ liệu phân tán và nhạy cảm.

5. **Làm thế nào để xử lý dữ liệu mất cân bằng trong huấn luyện mô hình SL?**  
   Có thể áp dụng các kỹ thuật cân bằng dữ liệu tại từng nút hoặc điều chỉnh trọng số trong quá trình tổng hợp mô hình để duy trì hiệu suất cao.

## Kết luận

- Đã xây dựng thành công mô hình học sâu CNN ứng dụng học bầy đàn để phát hiện lưu lượng mạng bất thường trong hệ thống IoT với độ chính xác trên 98%.  
- So sánh hiệu quả giữa ba kiến trúc CL, FL và SL cho thấy SL vượt trội về bảo mật, khả năng mở rộng và hiệu suất huấn luyện.  
- Phương pháp tổng hợp mô hình geometric median trong SL giúp cải thiện độ ổn định và chính xác của mô hình trong điều kiện dữ liệu phân tán và mất cân bằng.  
- SL tích hợp blockchain đảm bảo tính toàn vẹn, minh bạch và bảo mật trong quá trình huấn luyện phân tán.  
- Đề xuất triển khai SL rộng rãi trong các hệ thống IoT và phát triển các công cụ hỗ trợ quản lý, giám sát để nâng cao hiệu quả ứng dụng.

**Next steps:** Triển khai thử nghiệm thực tế trên hệ thống IoT quy mô lớn, phát triển công cụ giám sát và đào tạo nhân lực.  

Các tổ chức và doanh nghiệp trong lĩnh vực IoT nên nghiên cứu và áp dụng học bầy đàn để nâng cao bảo mật và hiệu quả phát hiện xâm nhập mạng.

Tài liệu có tiêu đề "Ứng Dụng Học Bầy Đàn Trong Phát Hiện Xâm Nhập Hệ Thống IoT" khám phá cách mà các thuật toán học bầy đàn có thể được áp dụng để phát hiện các hành vi xâm nhập trong hệ thống Internet of Things (IoT). Bài viết nhấn mạnh tầm quan trọng của việc bảo mật trong môi trường IoT, nơi mà các thiết bị kết nối ngày càng gia tăng và dễ bị tấn công. Các phương pháp học bầy đàn không chỉ giúp cải thiện khả năng phát hiện xâm nhập mà còn tối ưu hóa hiệu suất của hệ thống, mang lại lợi ích lớn cho các nhà quản lý và kỹ sư an ninh mạng.

Để mở rộng thêm kiến thức về các giải pháp bảo mật trong lĩnh vực này, bạn có thể tham khảo tài liệu "Khóa luận tốt nghiệp mạng máy tính và truyền thông xây dựng giải pháp khí canh thông minh dựa trên kỹ thuật học sâu tính toán cận biên và mô hình bảo mật zero trust". Tài liệu này cung cấp cái nhìn sâu sắc về việc ứng dụng các kỹ thuật học sâu và mô hình bảo mật hiện đại trong việc phát triển các giải pháp thông minh, từ đó giúp bạn có thêm thông tin và góc nhìn đa dạng về an ninh mạng trong bối cảnh IoT.

#hệ thống phát hiện xâm nhập

#phát hiện xâm nhập mạng

#Học máy và học sâu

#Học bầy đàn trong IoT

#Trí tuệ nhân tạo trong IoT

#Bảo mật dữ liệu IoT

Chủ đề

Ứng dụng học bầy đàn trong IoT

Giải pháp bảo mật cho hệ thống IoT

Nghiên cứu về phát hiện xâm nhập

Tương lai của học máy trong IoT

Đề Tài Nghiên Cứu Ứng Dụng Học Bầy Đàn Vào Hệ Thống Phát Hiện Xâm Nhập Trong IoT