Phát Hiện Gói Tin Bất Thường Trong Hệ Thống Nhà Thông Minh Bằng Mô Hình Học Máy

Luận văn thạc sĩ kỹ thuật phân tích công nghệ thông tin phát hiện gói tin bất thường trong hệ thống nhà thông minh bằng mô hình học máy, đánh giá thực trạng, chỉ ra hạn chế, đề

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Ngành: 8480202

Người đăng

Ẩn danh

Thể loại

luận văn

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Tính cấp thiết của đề tài

1.1.1. Giới thiệu đề tài

1.2. Lý do chọn đề tài

2. CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU

2.1. Hiện trạng và cơ sở nghiên cứu

2.2. Cơ sở hình thành đề tài

2.3. Xây dựng hệ thống

2.3.1. Xử lý dữ liệu

2.3.2. Xử lý nhật ký Zeek

2.3.3. Các mô hình học máy

2.3.3.1. Support Vector Machine

2.3.3.2. Mô hình Extra Trees và Cây quyết định

2.3.3.3. Mô hình Gradient Descent

2.3.3.4. Mô hình Random Forests

2.3.3.5. Mô hình Naive Bayes

2.3.3.6. Mô hình mạng nơ-ron tích chập

2.3.3.7. Mô hình mạng nơ-ron tích hợp lặp

2.4. Phương pháp đánh giá

2.4.1. Độ phức tạp thuật toán

2.4.2. Độ phức tạp thời gian (Time Complexity)

2.4.3. Độ phức tạp không gian (Space Complexity)

2.5. Tải tập dữ liệu

2.5.1. Chuyển đổi nhãn

2.5.2. Chuẩn hóa các đặc trưng đầu vào

2.5.3. Huấn luyện tập dữ liệu

2.5.4. Xác định kiến trúc mô hình

2.5.5. Lựa chọn mô hình

2.5.6. Kích thước của tập dữ liệu

2.5.7. Tăng độ chính xác

2.5.8. Thời gian huấn luyện

2.5.9. Quản lý tài nguyên

2.5.10. Đa dạng và biểu diễn đầy đủ

2.5.11. Chia tập dữ liệu

2.5.12. Các siêu tham số

3. CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM

3.1. Kết quả của các mô hình SVM

3.2. Kết quả của các mô hình mạng Nơ-ron

3.3. Các mô hình khác

3.4. Đánh giá kết quả tổng quan

3.4.1. Kết quả của Mô hình KNN

3.4.2. Kết quả của DT và ET

3.4.3. So sánh với các nghiên cứu khác

3.4.4. Đề xuất các mô hình

3.5. Môi trường đánh giá

3.6. Dữ liệu đánh giá

3.7. Kiểm tra các mô hình

3.8. Kết luận và khuyến nghị

DANH MỤC CÔNG TRÌNH CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phát Hiện Gói Tin Bất Thường Cho Nhà Thông Minh

Sự ra đời của nhà thông minh đánh dấu bước tiến vượt bậc trong cuộc sống, tích hợp công nghệ tiên tiến và thiết bị thông minh để tạo ra môi trường sống an toàn, tiện nghi và hiệu quả. Tuy nhiên, việc tích hợp nhiều thiết bị khác nhau cũng mang đến thách thức về an ninh mạng. Việc phát hiện gói tin bất thường giúp cảnh báo xâm nhập, hoạt động độc hại hoặc lỗi hệ thống, đảm bảo bảo mật và ổn định cho hệ thống nhà thông minh. Các kỹ thuật máy học phát hiện bất thường như Decision Trees, Support Vector Machines (SVM), Convolutional Neural Networks (CNN), K-Nearest Neighbors (KNN), Recurrent Neural Networks (RNN) và Random Forests, đã thể hiện tiềm năng trong việc giải quyết thách thức này. Hầu hết các nghiên cứu hiện nay tập trung vào phát hiện bất thường hơn là phân tích các hoạt động độc hại. Sự xuất hiện của các bộ dữ liệu khổng lồ đặt ra thách thức về phương pháp và thuật toán. Nghiên cứu này giới thiệu các phương pháp học máy truyền thống để phát hiện gói tin bất thường sử dụng bộ dữ liệu IoT-23. Nghiên cứu thực hiện tiền xử lý dữ liệu, trích xuất tính năng và đào tạo các mô hình học máy. Ma trận tương quan giúp đánh giá việc lựa chọn tính năng dựa trên các thông số như độ chính xác, điểm F1, recall, training score và thời gian đào tạo. Nghiên cứu phân loại 12 loại tấn công dựa trên các mô hình học máy. Đánh giá đề tài bằng cách triển khai tính năng phát hiện gói tin bất thường theo thời gian thực trên hệ thống Raspberry Pi và sử dụng phương pháp bắt gói tin bằng Zeek.

1.1. Tại Sao Cần Phát Hiện Xâm Nhập Nhà Thông Minh

Các lỗ hổng bảo mật nhà thông minh tiềm ẩn nguy cơ bị khai thác bởi tin tặc, dẫn đến mất quyền kiểm soát thiết bị, đánh cắp dữ liệu cá nhân và thậm chí là nguy hiểm đến tính mạng. Các thiết bị IoT thường có cấu hình yếu, dễ bị tấn công tấn công mạng nhà thông minh. Phát hiện sớm các gói tin bất thường giúp ngăn chặn các cuộc tấn công này trước khi chúng gây ra thiệt hại.

1.2. An Ninh Nhà Thông Minh Thách Thức Và Giải Pháp

Thách thức lớn nhất là sự đa dạng của thiết bị IoT và giao thức truyền thông, khiến việc xây dựng một hệ thống phát hiện xâm nhập hiệu quả trở nên phức tạp. Các giải pháp cần linh hoạt, có khả năng học hỏi và thích ứng với các mối đe dọa mới. Sử dụng máy học phát hiện bất thường là một hướng đi đầy tiềm năng.

1.3. Phân Tích Lưu Lượng Mạng Nhà Thông Minh Cho Bảo Mật

Việc phân tích gói tin và lưu lượng mạng là chìa khóa để phát hiện các hoạt động bất thường. Các phương pháp truyền thống như sniffing packet có thể được sử dụng, nhưng cần kết hợp với các kỹ thuật phân tích tiên tiến hơn để xử lý lượng dữ liệu lớn và phức tạp từ các thiết bị IoT. Zeek có thể được sử dụng để phân tích.

II. Vấn Đề Và Lỗ Hổng Bảo Mật Nhà Thông Minh Hiện Nay

Các nghiên cứu hiện nay tập trung vào phát hiện bất thường hơn là phân tích các hoạt động độc hại trong nhà thông minh. Bên cạnh đó, việc xuất hiện các bộ dữ liệu khổng lồ được thu thập từ nhiều tình huống khác nhau đặt ra những thách thức về phương pháp và thuật toán khi áp dụng các kỹ thuật học máy. Nghiên cứu của chúng tôi giới thiệu các phương pháp học máy truyền thống để phát hiện các gói tin bất thường trong nhà thông minh bằng cách sử dụng bộ dữ liệu IoT-23. Nghiên cứu thực hiện các công việc như tiền xử lý tập dữ liệu, trích xuất các tính năng có liên quan, và đào tạo các mô hình học máy khác nhau. Chúng tôi sử dụng ma trận tương quan giúp đánh giá việc lựa chọn tính năng của các mô hình tốt nhất dựa trên các thông số như độ chính xác, điểm F1, recall, tỷ lệ chính xác, điểm đào tạo (training score), và thời gian đào tạo. Ngoài ra, nghiên cứu còn phân loại 12 loại tấn công dựa trên các mô hình học máy khác nhau. Đánh giá đề tài bằng việc triển khai tính năng phát hiện gói tin bất thường theo thời gian thực trên hệ thống Raspberry Pi và cách sử dụng phương pháp bắt gói tin bằng công cụ Zeek.

2.1. Các Thiết Bị IoT Dễ Bị Tấn Công Phân Tích Rủi Ro

Nhiều thiết bị IoT có cấu hình bảo mật mặc định yếu, không được cập nhật thường xuyên, hoặc sử dụng các giao thức truyền thông không an toàn. Điều này tạo điều kiện cho tin tặc xâm nhập và kiểm soát thiết bị. Các thiết bị như camera an ninh, router Wi-Fi, và các thiết bị gia dụng thông minh thường là mục tiêu hàng đầu.

2.2. Phần Mềm Độc Hại Nhà Thông Minh Cách Thức Lây Lan

Virus nhà thông minh và mã độc nhà thông minh có thể lây lan qua các thiết bị IoT thông qua các lỗ hổng bảo mật, hoặc bằng cách khai thác các điểm yếu trong phần mềm. Một khi đã xâm nhập, phần mềm độc hại có thể được sử dụng để thu thập dữ liệu, thực hiện các cuộc tấn công từ chối dịch vụ (DDoS), hoặc thậm chí tống tiền.

2.3. Giao Thức Truyền Thông Nhà Thông Minh Rủi Ro An Ninh

Các giao thức như Zigbee security, Z-Wave security, Bluetooth security, và WiFi security đều có những điểm yếu tiềm ẩn. Việc sử dụng các giao thức không được mã hóa hoặc có các lỗ hổng đã biết có thể tạo điều kiện cho tin tặc sniffing packet và đánh cắp thông tin.

III. Phương Pháp Phát Hiện Gói Tin Bất Thường Bằng Học Máy

Nghiên cứu sử dụng bộ dữ liệu IoT-23 và thực hiện phương pháp nghiên cứu có hệ thống. Phương pháp sử dụng bao gồm tiền xử lý dữ liệu, trích xuất đặc trưng và đào tạo các mô hình học máy khác nhau. Việc lựa chọn bộ dữ liệu để triển khai và ứng dụng cho các mô hình được thực hiện thông qua sự xem xét và đánh giá giữa các bộ dữ liệu. Các bộ dữ liệu khác đã được xem xét. Trong nghiên cứu này, cân nhắc đề xuất lựa chọn bộ dữ liệu này để giúp tận dụng được tốt nhất các đặt trưng và phạm vi mà bộ dữ liệu thực hiện thu thập các mẫu tấn công vì những ưu điểm và tính phù hợp đối với nghiên cứu.

3.1. Sử Dụng Máy Học Phát Hiện Bất Thường Cho Nhà Thông Minh

Trí tuệ nhân tạo phát hiện bất thường có thể được sử dụng để phân tích lưu lượng mạng và hành vi của các thiết bị IoT, phát hiện các hoạt động không bình thường. Các mô hình học máy có thể được huấn luyện trên dữ liệu lịch sử để nhận biết các mẫu tấn công đã biết, hoặc để phát hiện các hành vi bất thường chưa từng thấy.

3.2. Phân Tích Hành Vi Người Dùng Nhà Thông Minh Tìm Bất Thường

Phân tích hành vi người dùng nhà thông minh có thể giúp phát hiện các hoạt động đáng ngờ, chẳng hạn như truy cập trái phép vào các thiết bị, hoặc các thay đổi bất thường trong thói quen sử dụng. Các mô hình có thể được huấn luyện để nhận biết các hành vi bình thường, và sau đó cảnh báo khi phát hiện các hành vi khác biệt.

3.3. Hệ Thống Phát Hiện Xâm Nhập IDS Nhà Thông Minh Giải Pháp

Hệ thống phát hiện xâm nhập (IDS) nhà thông minh có thể được triển khai để giám sát lưu lượng mạng và phát hiện các cuộc tấn công. Các IDS có thể sử dụng các quy tắc dựa trên chữ ký tấn công đã biết, hoặc sử dụng các kỹ thuật học máy để phát hiện các hành vi bất thường. Zeek là một công cụ IDS mạnh mẽ.

IV. Ứng Dụng Thực Tế Và Kết Quả Phát Hiện Bất Thường IoT 23

Để đánh giá một cách nghiêm ngặt hiệu quả của các mô hình này, chúng tôi sử dụng một bộ các chỉ số hiệu suất, bao gồm độ chính xác, F1-score, recall, accuracy ratio, training score và chi phí thời gian huấn luyện. Ngoài ra, chúng tôi sử dụng ma trận tương quan để xác nhận các phương pháp chọn lọc các đặc trưng. Ngoài phạm vi phát hiện bất thường, nghiên cứu này còn đi xa hơn bằng cách thực hiện phân loại 12 loại mã độc trong các mô hình học máy khác nhau. Nghiên cứu đặc biệt chú trọng đến việc đánh giá hiệu suất của các mô hình này dựa vào các gói tin đa dạng sinh ra từ các thiết bị trong nhà thông minh. Đề nâng cao bảo mật thời gian thực, chúng tôi triển khai phát hiện bất thường trên nền tảng Raspberry Pi, tận dụng các phương pháp thu thập gói tin bằng Zeek-flowmeter; chúng tôi cũng trình bày các mô hình huấn luyện có số lượng các đặc trưng ít hơn và tập trung nhiều hơn vào phát hiện bất thường trong nhà thông minh.

4.1. Thử Nghiệm Phát Hiện Xâm Nhập Trên Raspberry Pi

Triển khai các mô hình học máy trên các thiết bị nhúng như Raspberry Pi cho phép phát hiện xâm nhập ngay tại biên mạng, giảm độ trễ và tăng tính riêng tư. Các thử nghiệm cần đánh giá hiệu suất của các mô hình trong điều kiện tài nguyên hạn chế.

4.2. Đánh Giá Hiệu Quả Các Mô Hình Học Máy Phát Hiện Bất Thường

Sử dụng các chỉ số như độ chính xác, độ tin cậy, và độ bao phủ để đánh giá hiệu quả của các mô hình học máy. Cần so sánh hiệu suất của các mô hình khác nhau trên các bộ dữ liệu khác nhau để tìm ra mô hình phù hợp nhất cho từng tình huống.

4.3. So Sánh Với Các Nghiên Cứu An Ninh Nhà Thông Minh Khác

So sánh kết quả của nghiên cứu này với các nghiên cứu khác trong lĩnh vực an ninh nhà thông minh để đánh giá tính mới và đóng góp của nghiên cứu. Cần chỉ ra những điểm mạnh và điểm yếu của phương pháp tiếp cận được sử dụng.

V. Kết Luận Và Tương Lai Của Phát Hiện Gói Tin Bất Thường

Có 3 thách thức lớn được đặt ra trong nghiên cứu này bao gồm: - _ Việc phát hiện và chống xâm nhập bằng việc tích hợp cũng như đầu tư các phần mềm, các thiết bị có chức năng IDS chỉ phù hợp với môi trường doanh nghiệp có thể ứng dụng cho nhà thông minh có chỉ phí phù hợp cho các doanh nghiệp, đơn vị kinh doanh. Việc phát hiện bất thường thông qua mô hình học máy này đáp ứng giải pháp thay thế cho hệ thống IDS vừa có thể ứng dụng trong phạm vi doanh nghiệp và nhà thông minh có tích hợp các ứng dụng và các thiết bị thông minh. -_ Tiếp đến là khả năng nâng cấp và cập nhật những biến thể mới thông qua việc huấn luyện lại cho các mô hình học máy nhằm để đáp ứng việc cập nhật các gói tin bất thường trong việc vận hành hệ thống nhà thông minh cũng như duy trì sự ổn định. - _ Độ chính xác và thời gian cho phép trong việc phát hiện bất thường dựa vào các mô hình máy học truyền thống.

5.1. Tổng Kết Các Phương Pháp Phát Hiện Xâm Nhập Hiệu Quả

Tổng kết những phương pháp học máy và kỹ thuật phân tích lưu lượng mạng hiệu quả nhất để phát hiện các gói tin bất thường. Nhấn mạnh tầm quan trọng của việc kết hợp nhiều lớp bảo vệ để tăng cường an ninh cho nhà thông minh.

5.2. Hướng Nghiên Cứu Tương Lai Về Bảo Mật IoT

Đề xuất các hướng nghiên cứu tương lai để giải quyết các thách thức còn tồn tại trong bảo mật IoT, chẳng hạn như phát triển các mô hình học máy thích ứng với các thiết bị IoT có tài nguyên hạn chế, hoặc xây dựng các hệ thống phát hiện và phòng ngừa xâm nhập (IDPS) tự động.

5.3. Điện Toán Biên Tăng Cường An Ninh Cho Nhà Thông Minh

Điện toán biên trong nhà thông minh có thể giúp xử lý dữ liệu và phát hiện xâm nhập ngay tại chỗ, giảm độ trễ và tăng tính riêng tư. Nghiên cứu cần tập trung vào việc phát triển các thuật toán học máy hiệu quả và tiết kiệm năng lượng để triển khai trên các thiết bị biên.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phát hiện gói tin bất thường trong hệ thống nhà thông minh bằng mô hình học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Sự phát triển nhanh chóng của công nghệ nhà thông minh đã tạo ra môi trường sống tiện nghi, an toàn và hiệu quả cho con người. Theo ước tính, các thiết bị IoT trong nhà thông minh ngày càng gia tăng, kéo theo lượng dữ liệu mạng khổng lồ và đa dạng. Tuy nhiên, việc tích hợp nhiều thiết bị thông minh cũng đặt ra thách thức lớn về an ninh mạng, đặc biệt là phát hiện các gói tin bất thường có thể báo hiệu các hành vi xâm nhập hoặc tấn công độc hại. Nghiên cứu này tập trung vào việc phát hiện gói tin bất thường trong hệ thống nhà thông minh bằng các mô hình học máy truyền thống, sử dụng bộ dữ liệu IoT-23 với hơn 1.600 mẫu dữ liệu và 24 đặc trưng được trích xuất. Mục tiêu cụ thể là đánh giá hiệu quả của 13 mô hình học máy khác nhau trong việc phát hiện và phân loại 12 loại tấn công mạng phổ biến, đồng thời triển khai mô hình phát hiện theo thời gian thực trên thiết bị Raspberry Pi 4. Phạm vi nghiên cứu bao gồm việc xử lý dữ liệu, trích xuất đặc trưng, huấn luyện mô hình và đánh giá hiệu suất trên môi trường thực tế tại phòng thí nghiệm. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao an toàn thông tin cho nhà thông minh, góp phần giảm thiểu rủi ro an ninh mạng và đảm bảo sự ổn định của hệ thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình học máy truyền thống, bao gồm:

Support Vector Machine (SVM): Thuật toán phân loại mạnh mẽ, sử dụng các kernel như Linear, Radial Basis Function (RBF), Polynomial và Sigmoid để xử lý dữ liệu phi tuyến tính.
Decision Tree (DT) và Extra Trees (ET): Mô hình cây quyết định phân chia dữ liệu thành các tập con thuần túy, Extra Trees tăng tính ngẫu nhiên để giảm overfitting.
Random Forest (RF): Tập hợp nhiều cây quyết định, tăng cường khả năng tổng quát hóa và giảm overfitting.
Naive Bayes (NB): Thuật toán phân loại xác suất dựa trên giả định độc lập điều kiện giữa các đặc trưng.
Mạng nơ-ron tích chập (CNN) và mạng nơ-ron tích hợp lặp (RNN): Các mô hình học sâu có khả năng học các mẫu phức tạp trong dữ liệu tuần tự và không gian.
K-Nearest Neighbors (KNN): Thuật toán phân loại dựa trên khoảng cách đến các điểm dữ liệu gần nhất.

Các khái niệm chính bao gồm: phát hiện bất thường (anomaly detection), phân loại đa lớp, cân bằng dữ liệu, và đánh giá hiệu suất mô hình qua các chỉ số như độ chính xác (accuracy), điểm F1 (F1-score), recall, precision, và chi phí thời gian huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu IoT-23, bao gồm 1.674 mẫu với 24 đặc trưng, thu thập từ 23 kịch bản khác nhau trong môi trường IoT thực tế. Dữ liệu được tiền xử lý bằng cách loại bỏ giá trị NaN, chuyển đổi các biến phân loại sang dạng nhị phân qua kỹ thuật one-hot encoding, và chuẩn hóa đặc trưng bằng MinMaxScaler. Nhãn dữ liệu được mã hóa thành số nguyên qua Label Encoder.

Phương pháp phân tích gồm các bước: chia dữ liệu thành tập huấn luyện (80%) và kiểm thử (20%), huấn luyện 13 mô hình học máy truyền thống, đánh giá hiệu suất dựa trên các chỉ số chính xác, F1-score, recall, precision và thời gian huấn luyện. Ngoài ra, nghiên cứu còn triển khai mô hình phát hiện bất thường theo thời gian thực trên thiết bị Raspberry Pi 4, sử dụng công cụ Zeek để bắt gói tin mạng và tạo dữ liệu đầu vào.

Timeline nghiên cứu kéo dài trong năm 2023, bao gồm các giai đoạn xử lý dữ liệu, huấn luyện mô hình, đánh giá và thử nghiệm thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình SVM: Mô hình SVM với kernel RBF đạt độ chính xác tăng nhanh khi số lượng mẫu huấn luyện tăng đến khoảng 50.000, với F1-score đạt trên 0.85. Tuy nhiên, khi số mẫu vượt quá 100.000, hiệu suất có dấu hiệu giảm do hiện tượng overfitting. Kernel RBF được đánh giá là phù hợp nhất trong các kernel thử nghiệm.
Mạng nơ-ron và KNN: Mô hình KNN cho kết quả tốt nhất trong nhóm mạng nơ-ron với độ chính xác và F1-score vượt trội so với CNN và RNN. Tuy nhiên, thời gian huấn luyện của KNN là 9.143 giây, cao hơn đáng kể so với các mô hình khác. Đường cong học tập cho thấy hiệu suất KNN ổn định nhất khi số lượng mẫu khoảng 100.000, sau đó giảm dần.
Mô hình cây quyết định và Extra Trees: Hai mô hình này có chi phí huấn luyện thấp nhất trong số các mô hình được thử nghiệm, với độ chính xác khoảng 73%. Đặc biệt, Extra Trees thể hiện khả năng nhận dạng các loại tấn công tốt hơn Decision Tree, với tỷ lệ precision cao hơn trên từng loại tấn công.
Mô hình Naive Bayes và Stochastic Gradient Descent: Naive Bayes có độ chính xác thấp nhất (khoảng 30%), không phù hợp với bộ dữ liệu không cân bằng. SGD đạt độ chính xác 69%, thấp hơn đáng kể so với các mô hình cây và SVM.

Thảo luận kết quả

Nguyên nhân hiệu suất cao của SVM với kernel RBF là do khả năng xử lý dữ liệu phi tuyến tính và ánh xạ vào không gian chiều cao, giúp phân tách các lớp dữ liệu phức tạp. Tuy nhiên, hiện tượng overfitting khi số lượng mẫu lớn cho thấy cần có kỹ thuật điều chỉnh siêu tham số hoặc giảm chiều dữ liệu.

KNN mặc dù có độ chính xác cao nhưng chi phí tính toán lớn và thời gian huấn luyện kéo dài, hạn chế khả năng ứng dụng trong môi trường tính toán biên như Raspberry Pi. Mô hình cây quyết định và Extra Trees cân bằng tốt giữa độ chính xác và chi phí huấn luyện, phù hợp cho triển khai thực tế.

So sánh với các nghiên cứu trước đây, kết quả của mô hình Random Forest và Decision Tree trong nghiên cứu này tương đồng hoặc vượt trội về độ chính xác, đồng thời thời gian huấn luyện được tối ưu hơn nhờ việc lựa chọn đặc trưng và xử lý dữ liệu hiệu quả. Việc triển khai trên Raspberry Pi 4 cho thấy các mô hình cây có thể vận hành hiệu quả trong môi trường tài nguyên hạn chế.

Dữ liệu có thể được trình bày qua biểu đồ đường cong học tập (learning curve) thể hiện mối quan hệ giữa số lượng mẫu huấn luyện và các chỉ số hiệu suất, cũng như bảng so sánh độ chính xác và thời gian huấn luyện của từng mô hình.

Đề xuất và khuyến nghị

Triển khai mô hình Extra Trees và Decision Tree cho phát hiện bất thường trong nhà thông minh: Với chi phí huấn luyện thấp và độ chính xác cao, các mô hình này nên được ưu tiên áp dụng trên các thiết bị biên như Raspberry Pi trong vòng 6 tháng tới, do các đơn vị quản lý hệ thống nhà thông minh thực hiện.
Tối ưu hóa siêu tham số và cân bằng dữ liệu: Áp dụng kỹ thuật điều chỉnh siêu tham số và các phương pháp cân bằng dữ liệu như tăng mẫu (oversampling) hoặc giảm mẫu (undersampling) để giảm hiện tượng overfitting và nâng cao độ chính xác, thực hiện trong vòng 3 tháng bởi nhóm nghiên cứu và kỹ sư dữ liệu.
Phát triển hệ thống cảnh báo thời gian thực: Kết hợp công cụ Zeek để thu thập gói tin và mô hình học máy để phát hiện bất thường theo thời gian thực, nhằm nâng cao khả năng phản ứng nhanh với các cuộc tấn công, triển khai thử nghiệm trong 9 tháng tại các khu nhà thông minh mẫu.
Nâng cấp và cập nhật mô hình định kỳ: Thiết lập quy trình huấn luyện lại mô hình định kỳ để cập nhật các biến thể tấn công mới, đảm bảo tính ổn định và hiệu quả của hệ thống phát hiện, thực hiện hàng quý bởi đội ngũ bảo mật.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành An toàn thông tin và Khoa học máy tính: Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học máy trong phát hiện bất thường mạng IoT, hỗ trợ phát triển các đề tài liên quan.
Chuyên gia phát triển hệ thống nhà thông minh: Tham khảo các mô hình và phương pháp phát hiện tấn công để tích hợp vào hệ thống bảo mật, nâng cao an toàn cho thiết bị và dữ liệu.
Đơn vị quản lý và vận hành mạng IoT: Áp dụng các giải pháp phát hiện bất thường theo thời gian thực trên thiết bị biên, giúp giảm thiểu rủi ro an ninh mạng và duy trì sự ổn định hệ thống.
Nhà cung cấp thiết bị và phần mềm bảo mật IoT: Tận dụng kết quả nghiên cứu để phát triển sản phẩm bảo mật phù hợp với môi trường nhà thông minh, tối ưu hóa hiệu suất và chi phí.

Câu hỏi thường gặp

Tại sao chọn bộ dữ liệu IoT-23 cho nghiên cứu?
IoT-23 cung cấp dữ liệu đa dạng với cả lưu lượng mạng bình thường và tấn công trong môi trường IoT thực tế, phù hợp để xây dựng và đánh giá các mô hình phát hiện bất thường trong nhà thông minh.
Mô hình học máy nào phù hợp nhất cho phát hiện bất thường trong nhà thông minh?
Theo kết quả nghiên cứu, mô hình Extra Trees và Decision Tree cân bằng tốt giữa độ chính xác và chi phí huấn luyện, phù hợp để triển khai trên thiết bị biên như Raspberry Pi.
Làm thế nào để xử lý dữ liệu không cân bằng trong bộ dữ liệu?
Có thể áp dụng các kỹ thuật tăng mẫu (oversampling), giảm mẫu (undersampling) hoặc sử dụng các thuật toán ít nhạy cảm với sự mất cân bằng để cải thiện hiệu suất mô hình.
Thời gian huấn luyện mô hình có ảnh hưởng gì đến ứng dụng thực tế?
Thời gian huấn luyện dài có thể làm chậm quá trình cập nhật mô hình khi xuất hiện các biến thể tấn công mới, do đó cần lựa chọn mô hình có thời gian huấn luyện hợp lý để đảm bảo khả năng phản ứng nhanh.
Có thể triển khai mô hình học sâu như CNN hay RNN trên thiết bị biên không?
Mạng nơ-ron sâu thường yêu cầu tài nguyên tính toán lớn và thời gian huấn luyện dài, do đó không phù hợp với thiết bị biên có hạn chế về phần cứng như Raspberry Pi trong môi trường nhà thông minh.

Kết luận

Nghiên cứu đã đánh giá hiệu quả của 13 mô hình học máy truyền thống trong phát hiện gói tin bất thường trên bộ dữ liệu IoT-23 với 12 loại tấn công mạng.
Mô hình Extra Trees và Decision Tree được xác định là phù hợp nhất cho ứng dụng thực tế nhờ độ chính xác cao và chi phí huấn luyện thấp.
Việc triển khai mô hình phát hiện bất thường theo thời gian thực trên Raspberry Pi 4 đã chứng minh tính khả thi và hiệu quả trong môi trường nhà thông minh.
Các kỹ thuật tiền xử lý dữ liệu, cân bằng lớp và điều chỉnh siêu tham số đóng vai trò quan trọng trong việc nâng cao hiệu suất mô hình.
Đề xuất tiếp theo là phát triển hệ thống cảnh báo thời gian thực và quy trình cập nhật mô hình định kỳ để đảm bảo an ninh mạng bền vững cho nhà thông minh.

Các đơn vị quản lý và phát triển hệ thống nhà thông minh nên áp dụng các mô hình được đề xuất, đồng thời tiếp tục nghiên cứu mở rộng để nâng cao khả năng phát hiện và phản ứng với các mối đe dọa mới.

Trích đoạn nội dung tài liệu

Chương 1 GIỚI THIỆU I. Tính cấp thiết của đề tài 1. Giới thiệu đề tài Sự ra đời của nhà thông minh đại diện cho một bước nhảy vọt mang tính cách mạng trong cuộc sống chúng ta, những công dân sống trong những căn hộ nhiều tiện nghỉ tiện ích xây dựng từ việc ứng dụng và tích hợp công nghệ thông tin. Những ngôi nhà tích hợp các công nghệ tiên tiến và thiết bị thông minh đề tạo ra môi trường sống an toàn, thoải mái và tiện dụng.

Mặc dù lợi ích của nhà thông minh rất đa đạng, chúng cũng đã mở ra một kỷ nguyên mới về thách thức an ninh mạng. Vấn đề trung tâm xoay quanh việc phát hiện và phân tích các gói tin bất thường trong hệ sinh thái nhà thông minh. Các gói tin bất thường từ các lưu lượng truy cập mạng có thé báo hiệu các cuộc xâm nhập tiềm ân, hoạt động độc hại hoặc lỗi hệ thống, gây ra mối đe dọa nghiêm trong đối với tính bảo mật và sự ồn định của toàn bộ cơ sở hạ tầng nhà thông minh. Việc giải quyết những thách thức về an ninh mạng này đã trở nên tối quan trọng, đòi hỏi các phương pháp và giải pháp sáng tạo.

Các kỹ thuật học máy, đã có những bước tiến đáng ké trong nhiều lĩnh vực, mang lại một phương pháp day hứa hen dé nâng cao an ninh trong nhà thông minh. Decision Tree (DT), Support Vector Machine (SVM), Convolutional Neural Networks (CNN), K-Nearest Neighbors (KNN), Recurrent Neural Networks (RNN) va Random Forests (RF) và nhiều thuật toán học may da the hiện khả năng đáng kẻ. Tuy nhiên, cần lưu ý rằng phần lớn các nghiên cứu hiện có chủ yếu tập trung vào phát hiện bất thường thay vì nhắm mục tiêu rõ ràng vào các hoạt động độc hại trong nhà thông minh. Một thách thức chính trong lĩnh vực nghiên cứu này là khối lượng lớn và đa dạng dữ liệu được tạo ra bởi các môi trường nhà thông minh.

Sự phức tạp của các gói tin này đặt ra thách thức về phương pháp luận và thuật toán khi áp dụng hiệu quả các kỹ thuật học máy. Do đó, cần có một cách tiếp cận toàn diện dé khai thác tối đa tiềm năng của học máy trong việc bảo vệ nhà thông minh. Lý do chọn đề tài Nghiên cứu này nhằm mục đích thu hẹp khoảng cách các nghiên cứu liên quan bằng cách giới thiệu các phương pháp học máy truyền thống được tùy chinh để phát hiện các gói tin mạng bất thường trong nhà thông minh bằng các mô hình máy học truyền thông dựa trên sự đánh giá cụ thể và chỉ tiết các khía cạnh như khả năng phát hiện gói tin bất thường, hiệu năng xử lý tính toán thực hiện mô hình trên thiết bị thực tế. Chỉ tiết, chúng tôi sử dụng bộ dữ liệu IoT-23 và sử dung phương pháp nghiên cứu có hệ thông.

Phương, pháp chúng tôi sử dụng bao gồm tiền xử lý đữ liệu, trích xuất đặc trưng và đào tạo các mô hình học máy khác nhau. Việc lựa chọn bộ dữ liệu dé triển khai và ứng dụng cho các mô hình được thực hiện thông qua sự xem xét và đánh giá giữa các bộ dữ liệu với nhau được trình bay trong bang 1. Các bộ dữ liệu khác đã được xem xét trong nghiên cứu của Neto EC [1] cho rằng IoT-23 chưa phù hợp trong bối cảnh của tác giả, tuy nhiên việc phù hợp được xem xét dựa trên mục tiêu và phương pháp thực hiện cụ thể của từng nghiên cứu. Trong nghiên cứu của mình, chúng tôi cân nhắc đề xuất lựa chọn bộ dữ liệu này đê giúp tận dụng được tốt nhất các đặt trưng và phạm vi mà bộ dit liệu thực hiện thu thập các mẫu tấn công vì những ưu điểm và tính phù hợp đối với nghiên cứu của chúng tôi.1 Bang so sánh các bộ dataset Dataset Ưu điểm Nhược điêm - Chứa cả lưu lượng mạng IoT bình thường và : CIC loT tân công.

- Phải tiên xử lý và trích chọn 2023 - Môi trường thực tê giúp xây dựng mô hình đặc trưng tôt TON IoT” Tap trung vào từng môi trường loT cụ thé. Dữ liệu ít, đặc biệt là lưu —- Thu thập từ nhiêu nguôn dữ liệu. lượng bình thường - Tập trung vào botnet nhưng có lưu lượng - Chỉ tập trung vào botnet. Bot-IoT bình thường.

- Cân cân băng đữ liệu - Dữ liệu thực tế từ môi trường loT UNSW- - Chita cả lưu lượng bình thường và tân công. - Không cụ thể cho IoT. NBI5 - Da dang dac trung. - Tỷ lệ báo động sai cao.

- Chứa cả lưu lượng mạng IoT bình thường và ˆgiữa BH) các HE " lớp. không = IOT-23 tấn công. Dữ liệu lớn và đa dang. - Cân xử lý dữ liệu trước.

- Đã có sẵn các đặt trưng. Trang | 11 Đánh giá tong quan về các tập dữ liệu trên chúng tôi thay rằng tập dữ liệu CICloT2023 phù hợp cho mục đích phát hiện gói tin bat thường vì nó bao gồm cả lưu lượng mạng bình thường và tấn công trong môi trường IoT thực tế. Việc có lưu lượng mạng bình thường sẽ giúp xây dựng các mô hình học máy dé phát hiện những gói tin bat thường. Bộ dé liệu BoT-IoT tập trung vào các cuộc tấn công botnet nhưng nó cũng bao gồm một lượng lưu lượng bình thường nhỏ có thể được sử dụng đề xây dựng nền tảng cho mô hình Bot-IoT.

Toàn bộ bộ dữ liệu chứa khoảng 73 triệu trường hợp (dữ liệu lớn). Các mô hình được huấn luyện trên Bot-loT có kha năng phát hiện các cuộc tấn công botnet khác nhau trong mạng Internet of Things (IoT) Do đó, nghiên cứu [2] BoT-IoT cũng khá phù hợp cho mục đích phát hiện bat thường. Dataset UNSW-NBI5 là tập dữ liệu tổng hợp chứa cả lưu lượng bình thường và tan công nên cũng có thé được sử dụng để huấn luyện các mô hình phát hiện bất thường ứng dụng cho các IDS. Hơn nữa, nghiên cứu [3] cho rằng, các đặc trưng của tập dataset UNSW-NB15 không cụ thể cho ToT, và ty lệ false alarm rate trong việc phát hiện bất thường có tỷ lệ cao hơn so với các KDD99 dataset.

Bộ dữ liệu ToN_IoT bao gồm 3 tập dữ liệu con tương ứng với môi trường nhà thông minh (Home), công nghiệp (Industry) và cơ sở hạ tầng (Infrastructure). Các nguồn dữ liệu phân tán được thu thập từ các địch vụ Internet of Things, hệ điều hành Windows và Linux, và lưu lượng mạng. Dataset Ton_IoT trong nghiên cứu của Moustafa [4] hỗ trợ tốt kiến trúc được thiết kế trong ba lớp phân tán: biên bao gồm các hệ thống IoT, sương mù bao gồm các máy ảo và công, đám mây bao gồm các công cụ phân tích dữ liệu và trực quan hóa được kết nối với hai lớp còn lại. Bộ dit liệu ToN_IoT của Linux sẽ được sử dụng đề huấn luyện và xác nhận tính hiệu quả của các giải pháp bảo mật hỗ trợ AI mới, phân tán và liên kết, chăng hạn như phát hiện xâm nhập, tình báo mối de dọa, bảo vệ quyên riêng tư và điều tra số.

Ưu điểm của TON_ IoT là các tập dữ liệu con tập trung vào các môi trường IoT cụ thé, cho phép xây dựng mô hình phù hợp. Tuy nhiên, lượng dữ liệu tương đối nhỏ (vài chục ngàn đến vài trăm ngàn mẫu). Đặc biệt tập Infrastructure thiếu dữ liệu nền bình thường. Nhìn chung, TON_IoT van có giá trị cho mục đích xây dựng mô hình phát hiện bắt thường trong IoT nhưng bị hạn chế về lượng dữ liệu.

Bộ dữ liệu IoT-23 [5] bao gồm 20 bản ghi chụp của phần mềm độc hại thực thi trên các thiết bị løT và 3 bản ghi chụp lưu lượng mạng của các thiết bị loT bình thường. Bộ dit Trang | 12 liệu được công bề lần đầu tiên vào tháng | năm 2020, với các bản ghi chụp được thực hiện từ năm 2018 đến 2019. Lưu lượng mạng IoT này được ghi lại tại Phòng thí nghiệm Stratosphere thuộc nhóm AIC, FEL, Đại học CTU, Cộng hòa Séc. Mục tiêu của bộ dữ liệu là cung cấp một tập dữ liệu lớn về các trường hợp nhiễm phần mềm độc hại IoT thực tế và lưu lượng mạng bình thường của IoT cho các nhà nghiên cứu phát triển các thuật toán hoc máy.

Bộ dữ liệu và nghiên cứu này được tài trợ bởi Avast Software, Prague. IoT23 có lợi thế là chứa cả dữ liệu lưu lượng mạng bình thường và tấn công cho phép xây dựng các mô hình phát hiện bat thường hiệu quả. Tuy nhiên, loT-23 có nhược điểm là dit liệu bình thường và tan công không cân bằng, phần lớn là dữ liệu bình thường. Điều nay đòi hỏi phải tiền xử lý dữ liệu dé cân bang các lớp.

Nhờ lượng dữ liệu lớn và đa dạng, IoT-23 vẫn là một tập dit liệu rat phù hợp cho việc xây dựng các mô hình phát hiện bat thường trong mạng IoT sau khi được xử lý. Để đánh giá một cách nghiêm ngặt hiệu quả của các mô hình này, chúng tôi sử dụng một bộ các chỉ số hiệu suất, bao gồm độ chính xác, Fl-score, recall, accuracy ratio, training score và chi phí thời gian huấn luyện. Ngoài ra, chúng tôi sử dụng ma trận tương quan đề xác nhận các phương pháp chọn lọc các đặc trưng. Ngoài phạm vi phát hiện bất thường, nghiên cứu này còn đi xa hơn bằng cách thực hiện phân loại 12 loại mã độc trong các mô hình học máy khác nhau.

Nghiên cứu của chúng tôi đặc biệt chú trọng đến việc đánh giá hiệu suất của các mô hình này dựa vào các gói tin đa dang sinh ra từ các thiết bị trong nhà thông minh. Đề nâng cao bảo mật thời gian thực, chúng tôi triển khai phát hiện bất thường trên nền tảng Raspberry Pi, tận dụng các phương pháp thu thập gói tin bằng Zeek-flowmeter; chúng tôi cũng trình bày các mô hình huấn luyện có số lượng các đặc trưng ít hơn và tập trung nhiều hơn vào phát hiện bat thường trong nhà thông minh. Thách thức Có 3 thách thức lớn được đặt ra trong nghiên cứu này bao gồm: - _ Việc phát hiện và chống xâm nhập bằng việc tích hợp cũng như đầu tư các phần mềm, các thiết bị có chức năng IDS chỉ phù hợp với môi trường doanh nghiệp có thể ứng dụng cho nhà thông minh có chỉ phí phù hợp cho các doanh nghiệp, đơn vị kinh doanh. Việc phát hiện bất thường thông qua mô hình học máy này đáp ứng Trang | 13 giải pháp thay thế cho hệ thống IDS vừa có thể ứng dụng trong phạm vi doanh nghiệp và nhà thông minh có tích hợp các ứng dụng và các thiết bị thông minh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phát Hiện Gói Tin Bất Thường Trong Hệ Thống Nhà Thông Minh khám phá các phương pháp và công nghệ để phát hiện những bất thường trong dữ liệu của hệ thống nhà thông minh. Bài viết nhấn mạnh tầm quan trọng của việc phát hiện sớm các vấn đề để đảm bảo hiệu suất và an toàn cho người dùng. Độc giả sẽ được tìm hiểu về các kỹ thuật phân tích dữ liệu, cũng như cách mà các hệ thống thông minh có thể tự động nhận diện và xử lý các tình huống bất thường, từ đó nâng cao trải nghiệm sống.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn tốt nghiệp hệ thống thong tin openk data cleansing system a clustering based approach for detecting data anomalies, nơi trình bày phương pháp làm sạch dữ liệu và phát hiện bất thường. Ngoài ra, tài liệu Đồ án hcmute xây dựng mô hình ngôi nhà thông minh trên nền tảng home assistant kết hợp xử lý ảnh sẽ giúp bạn hiểu rõ hơn về việc tích hợp công nghệ xử lý ảnh trong hệ thống nhà thông minh. Cuối cùng, tài liệu Đồ án hcmute giám sát và diều khiển nhà thông minh bằng giọng nói cung cấp cái nhìn sâu sắc về việc sử dụng giọng nói để điều khiển các thiết bị trong nhà thông minh, mở ra nhiều khả năng mới cho người dùng.

Những tài liệu này không chỉ giúp bạn nắm bắt kiến thức cơ bản mà còn mở rộng hiểu biết về các ứng dụng thực tiễn trong lĩnh vực nhà thông minh.

#Phân tích dữ liệu

#an ninh mạng

#công nghệ IoT

#mô hình học máy

#phát hiện bất thường

#Hệ thống nhà thông minh

Chủ đề

Phát hiện bất thường trong dữ liệu

Công Nghệ Nhà Thông Minh

Học Máy và AI

An ninh trong hệ thống IoT