Tổng quan nghiên cứu
Sự phát triển nhanh chóng của công nghệ nhà thông minh đã tạo ra môi trường sống tiện nghi, an toàn và hiệu quả cho con người. Theo ước tính, các thiết bị IoT trong nhà thông minh ngày càng gia tăng, kéo theo lượng dữ liệu mạng khổng lồ và đa dạng. Tuy nhiên, việc tích hợp nhiều thiết bị thông minh cũng đặt ra thách thức lớn về an ninh mạng, đặc biệt là phát hiện các gói tin bất thường có thể báo hiệu các hành vi xâm nhập hoặc tấn công độc hại. Nghiên cứu này tập trung vào việc phát hiện gói tin bất thường trong hệ thống nhà thông minh bằng các mô hình học máy truyền thống, sử dụng bộ dữ liệu IoT-23 với hơn 1.600 mẫu dữ liệu và 24 đặc trưng được trích xuất. Mục tiêu cụ thể là đánh giá hiệu quả của 13 mô hình học máy khác nhau trong việc phát hiện và phân loại 12 loại tấn công mạng phổ biến, đồng thời triển khai mô hình phát hiện theo thời gian thực trên thiết bị Raspberry Pi 4. Phạm vi nghiên cứu bao gồm việc xử lý dữ liệu, trích xuất đặc trưng, huấn luyện mô hình và đánh giá hiệu suất trên môi trường thực tế tại phòng thí nghiệm. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao an toàn thông tin cho nhà thông minh, góp phần giảm thiểu rủi ro an ninh mạng và đảm bảo sự ổn định của hệ thống.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình học máy truyền thống, bao gồm:
- Support Vector Machine (SVM): Thuật toán phân loại mạnh mẽ, sử dụng các kernel như Linear, Radial Basis Function (RBF), Polynomial và Sigmoid để xử lý dữ liệu phi tuyến tính.
- Decision Tree (DT) và Extra Trees (ET): Mô hình cây quyết định phân chia dữ liệu thành các tập con thuần túy, Extra Trees tăng tính ngẫu nhiên để giảm overfitting.
- Random Forest (RF): Tập hợp nhiều cây quyết định, tăng cường khả năng tổng quát hóa và giảm overfitting.
- Naive Bayes (NB): Thuật toán phân loại xác suất dựa trên giả định độc lập điều kiện giữa các đặc trưng.
- Mạng nơ-ron tích chập (CNN) và mạng nơ-ron tích hợp lặp (RNN): Các mô hình học sâu có khả năng học các mẫu phức tạp trong dữ liệu tuần tự và không gian.
- K-Nearest Neighbors (KNN): Thuật toán phân loại dựa trên khoảng cách đến các điểm dữ liệu gần nhất.
Các khái niệm chính bao gồm: phát hiện bất thường (anomaly detection), phân loại đa lớp, cân bằng dữ liệu, và đánh giá hiệu suất mô hình qua các chỉ số như độ chính xác (accuracy), điểm F1 (F1-score), recall, precision, và chi phí thời gian huấn luyện.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu IoT-23, bao gồm 1.674 mẫu với 24 đặc trưng, thu thập từ 23 kịch bản khác nhau trong môi trường IoT thực tế. Dữ liệu được tiền xử lý bằng cách loại bỏ giá trị NaN, chuyển đổi các biến phân loại sang dạng nhị phân qua kỹ thuật one-hot encoding, và chuẩn hóa đặc trưng bằng MinMaxScaler. Nhãn dữ liệu được mã hóa thành số nguyên qua Label Encoder.
Phương pháp phân tích gồm các bước: chia dữ liệu thành tập huấn luyện (80%) và kiểm thử (20%), huấn luyện 13 mô hình học máy truyền thống, đánh giá hiệu suất dựa trên các chỉ số chính xác, F1-score, recall, precision và thời gian huấn luyện. Ngoài ra, nghiên cứu còn triển khai mô hình phát hiện bất thường theo thời gian thực trên thiết bị Raspberry Pi 4, sử dụng công cụ Zeek để bắt gói tin mạng và tạo dữ liệu đầu vào.
Timeline nghiên cứu kéo dài trong năm 2023, bao gồm các giai đoạn xử lý dữ liệu, huấn luyện mô hình, đánh giá và thử nghiệm thực tế.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất mô hình SVM: Mô hình SVM với kernel RBF đạt độ chính xác tăng nhanh khi số lượng mẫu huấn luyện tăng đến khoảng 50.000, với F1-score đạt trên 0.85. Tuy nhiên, khi số mẫu vượt quá 100.000, hiệu suất có dấu hiệu giảm do hiện tượng overfitting. Kernel RBF được đánh giá là phù hợp nhất trong các kernel thử nghiệm.
Mạng nơ-ron và KNN: Mô hình KNN cho kết quả tốt nhất trong nhóm mạng nơ-ron với độ chính xác và F1-score vượt trội so với CNN và RNN. Tuy nhiên, thời gian huấn luyện của KNN là 9.143 giây, cao hơn đáng kể so với các mô hình khác. Đường cong học tập cho thấy hiệu suất KNN ổn định nhất khi số lượng mẫu khoảng 100.000, sau đó giảm dần.
Mô hình cây quyết định và Extra Trees: Hai mô hình này có chi phí huấn luyện thấp nhất trong số các mô hình được thử nghiệm, với độ chính xác khoảng 73%. Đặc biệt, Extra Trees thể hiện khả năng nhận dạng các loại tấn công tốt hơn Decision Tree, với tỷ lệ precision cao hơn trên từng loại tấn công.
Mô hình Naive Bayes và Stochastic Gradient Descent: Naive Bayes có độ chính xác thấp nhất (khoảng 30%), không phù hợp với bộ dữ liệu không cân bằng. SGD đạt độ chính xác 69%, thấp hơn đáng kể so với các mô hình cây và SVM.
Thảo luận kết quả
Nguyên nhân hiệu suất cao của SVM với kernel RBF là do khả năng xử lý dữ liệu phi tuyến tính và ánh xạ vào không gian chiều cao, giúp phân tách các lớp dữ liệu phức tạp. Tuy nhiên, hiện tượng overfitting khi số lượng mẫu lớn cho thấy cần có kỹ thuật điều chỉnh siêu tham số hoặc giảm chiều dữ liệu.
KNN mặc dù có độ chính xác cao nhưng chi phí tính toán lớn và thời gian huấn luyện kéo dài, hạn chế khả năng ứng dụng trong môi trường tính toán biên như Raspberry Pi. Mô hình cây quyết định và Extra Trees cân bằng tốt giữa độ chính xác và chi phí huấn luyện, phù hợp cho triển khai thực tế.
So sánh với các nghiên cứu trước đây, kết quả của mô hình Random Forest và Decision Tree trong nghiên cứu này tương đồng hoặc vượt trội về độ chính xác, đồng thời thời gian huấn luyện được tối ưu hơn nhờ việc lựa chọn đặc trưng và xử lý dữ liệu hiệu quả. Việc triển khai trên Raspberry Pi 4 cho thấy các mô hình cây có thể vận hành hiệu quả trong môi trường tài nguyên hạn chế.
Dữ liệu có thể được trình bày qua biểu đồ đường cong học tập (learning curve) thể hiện mối quan hệ giữa số lượng mẫu huấn luyện và các chỉ số hiệu suất, cũng như bảng so sánh độ chính xác và thời gian huấn luyện của từng mô hình.
Đề xuất và khuyến nghị
Triển khai mô hình Extra Trees và Decision Tree cho phát hiện bất thường trong nhà thông minh: Với chi phí huấn luyện thấp và độ chính xác cao, các mô hình này nên được ưu tiên áp dụng trên các thiết bị biên như Raspberry Pi trong vòng 6 tháng tới, do các đơn vị quản lý hệ thống nhà thông minh thực hiện.
Tối ưu hóa siêu tham số và cân bằng dữ liệu: Áp dụng kỹ thuật điều chỉnh siêu tham số và các phương pháp cân bằng dữ liệu như tăng mẫu (oversampling) hoặc giảm mẫu (undersampling) để giảm hiện tượng overfitting và nâng cao độ chính xác, thực hiện trong vòng 3 tháng bởi nhóm nghiên cứu và kỹ sư dữ liệu.
Phát triển hệ thống cảnh báo thời gian thực: Kết hợp công cụ Zeek để thu thập gói tin và mô hình học máy để phát hiện bất thường theo thời gian thực, nhằm nâng cao khả năng phản ứng nhanh với các cuộc tấn công, triển khai thử nghiệm trong 9 tháng tại các khu nhà thông minh mẫu.
Nâng cấp và cập nhật mô hình định kỳ: Thiết lập quy trình huấn luyện lại mô hình định kỳ để cập nhật các biến thể tấn công mới, đảm bảo tính ổn định và hiệu quả của hệ thống phát hiện, thực hiện hàng quý bởi đội ngũ bảo mật.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành An toàn thông tin và Khoa học máy tính: Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học máy trong phát hiện bất thường mạng IoT, hỗ trợ phát triển các đề tài liên quan.
Chuyên gia phát triển hệ thống nhà thông minh: Tham khảo các mô hình và phương pháp phát hiện tấn công để tích hợp vào hệ thống bảo mật, nâng cao an toàn cho thiết bị và dữ liệu.
Đơn vị quản lý và vận hành mạng IoT: Áp dụng các giải pháp phát hiện bất thường theo thời gian thực trên thiết bị biên, giúp giảm thiểu rủi ro an ninh mạng và duy trì sự ổn định hệ thống.
Nhà cung cấp thiết bị và phần mềm bảo mật IoT: Tận dụng kết quả nghiên cứu để phát triển sản phẩm bảo mật phù hợp với môi trường nhà thông minh, tối ưu hóa hiệu suất và chi phí.
Câu hỏi thường gặp
Tại sao chọn bộ dữ liệu IoT-23 cho nghiên cứu?
IoT-23 cung cấp dữ liệu đa dạng với cả lưu lượng mạng bình thường và tấn công trong môi trường IoT thực tế, phù hợp để xây dựng và đánh giá các mô hình phát hiện bất thường trong nhà thông minh.Mô hình học máy nào phù hợp nhất cho phát hiện bất thường trong nhà thông minh?
Theo kết quả nghiên cứu, mô hình Extra Trees và Decision Tree cân bằng tốt giữa độ chính xác và chi phí huấn luyện, phù hợp để triển khai trên thiết bị biên như Raspberry Pi.Làm thế nào để xử lý dữ liệu không cân bằng trong bộ dữ liệu?
Có thể áp dụng các kỹ thuật tăng mẫu (oversampling), giảm mẫu (undersampling) hoặc sử dụng các thuật toán ít nhạy cảm với sự mất cân bằng để cải thiện hiệu suất mô hình.Thời gian huấn luyện mô hình có ảnh hưởng gì đến ứng dụng thực tế?
Thời gian huấn luyện dài có thể làm chậm quá trình cập nhật mô hình khi xuất hiện các biến thể tấn công mới, do đó cần lựa chọn mô hình có thời gian huấn luyện hợp lý để đảm bảo khả năng phản ứng nhanh.Có thể triển khai mô hình học sâu như CNN hay RNN trên thiết bị biên không?
Mạng nơ-ron sâu thường yêu cầu tài nguyên tính toán lớn và thời gian huấn luyện dài, do đó không phù hợp với thiết bị biên có hạn chế về phần cứng như Raspberry Pi trong môi trường nhà thông minh.
Kết luận
- Nghiên cứu đã đánh giá hiệu quả của 13 mô hình học máy truyền thống trong phát hiện gói tin bất thường trên bộ dữ liệu IoT-23 với 12 loại tấn công mạng.
- Mô hình Extra Trees và Decision Tree được xác định là phù hợp nhất cho ứng dụng thực tế nhờ độ chính xác cao và chi phí huấn luyện thấp.
- Việc triển khai mô hình phát hiện bất thường theo thời gian thực trên Raspberry Pi 4 đã chứng minh tính khả thi và hiệu quả trong môi trường nhà thông minh.
- Các kỹ thuật tiền xử lý dữ liệu, cân bằng lớp và điều chỉnh siêu tham số đóng vai trò quan trọng trong việc nâng cao hiệu suất mô hình.
- Đề xuất tiếp theo là phát triển hệ thống cảnh báo thời gian thực và quy trình cập nhật mô hình định kỳ để đảm bảo an ninh mạng bền vững cho nhà thông minh.
Hành động tiếp theo: Các đơn vị quản lý và phát triển hệ thống nhà thông minh nên áp dụng các mô hình được đề xuất, đồng thời tiếp tục nghiên cứu mở rộng để nâng cao khả năng phát hiện và phản ứng với các mối đe dọa mới.