I. Giới thiệu và tính cấp thiết
Luận án tập trung vào việc xây dựng hệ thống V-Sandbox để phân tích và phát hiện mã độc IoT Botnet. Với sự phát triển nhanh chóng của IoT, các thiết bị kết nối Internet ngày càng trở nên phổ biến, nhưng đi kèm với đó là các nguy cơ bảo mật nghiêm trọng. Mã độc IoT Botnet đã trở thành mối đe dọa lớn, đặc biệt là trên các thiết bị hạn chế tài nguyên như IP Camera, Router, và Smart Hub. Luận án nhấn mạnh sự cần thiết của việc nghiên cứu và phát triển các giải pháp bảo mật hiệu quả để chống lại các cuộc tấn công này.
1.1. Mục tiêu nghiên cứu
Mục tiêu chính của luận án là xây dựng hệ thống V-Sandbox để thu thập dữ liệu hành vi của mã độc IoT Botnet và phát triển mô hình học máy để phát hiện chúng. Hệ thống này nhằm nâng cao độ chính xác và giảm độ phức tạp trong quá trình phân tích động. Các mục tiêu cụ thể bao gồm: xây dựng môi trường Sandbox, phát triển mô hình học máy, và tích hợp hai thành phần này thành một hệ thống hoàn chỉnh.
1.2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu chính là các tệp thực thi ELF trên các thiết bị IoT hạn chế tài nguyên. Phạm vi nghiên cứu tập trung vào việc phát hiện mã độc IoT Botnet thông qua phương pháp phân tích động, đặc biệt là trên các thiết bị như IP Camera và Router.
II. Xây dựng hệ thống V Sandbox
Luận án đề xuất hệ thống V-Sandbox để thu thập dữ liệu hành vi của mã độc IoT Botnet. Hệ thống này mô phỏng môi trường thực tế, cho phép mã độc thực thi và thu thập các dữ liệu liên quan như lời gọi hệ thống, tương tác mạng, và sử dụng tài nguyên. V-Sandbox được thiết kế để hoạt động tự động, mã nguồn mở, và dễ dàng triển khai trên các thiết bị IoT hạn chế tài nguyên.
2.1. Kiến trúc hệ thống
Hệ thống V-Sandbox bao gồm các thành phần chính như môi trường Sandbox, cơ sở dữ liệu thư viện liên kết động, và khối sinh báo cáo tự động. Mỗi thành phần được thiết kế để đảm bảo thu thập đầy đủ dữ liệu hành vi của mã độc, từ đó hỗ trợ quá trình phân tích và phát hiện.
2.2. Thử nghiệm và đánh giá
Hệ thống V-Sandbox đã được thử nghiệm trên các bộ dữ liệu thực tế, bao gồm các tệp ELF lành tính và mã độc. Kết quả thử nghiệm cho thấy hệ thống có khả năng thu thập dữ liệu hiệu quả và hỗ trợ tốt cho quá trình phân tích mã độc. So sánh với các hệ thống Sandbox khác, V-Sandbox cho thấy ưu điểm về độ chính xác và hiệu suất.
III. Đặc trưng đồ thị lời gọi hệ thống
Luận án đề xuất phương pháp sử dụng đồ thị lời gọi hệ thống có hướng (DSCG) để phân tích và phát hiện mã độc IoT Botnet. DSCG là một cách tiếp cận mới, giúp cấu trúc hóa các lời gọi hệ thống một cách tuần tự, từ đó dễ dàng áp dụng các thuật toán học máy để phát hiện mã độc. Phương pháp này có độ phức tạp thấp và hiệu quả cao trong việc phân tích dữ liệu hành vi.
3.1. Xây dựng đồ thị DSCG
Quá trình xây dựng DSCG bao gồm việc thu thập các lời gọi hệ thống từ V-Sandbox, sau đó cấu trúc hóa chúng thành đồ thị có hướng. Đồ thị này phản ánh mối quan hệ tuần tự giữa các lời gọi hệ thống, giúp phân tích hành vi của mã độc một cách chi tiết.
3.2. Thử nghiệm và đánh giá
Phương pháp DSCG đã được thử nghiệm trên các bộ dữ liệu mã độc và lành tính. Kết quả cho thấy DSCG có khả năng phân biệt rõ ràng giữa mã độc và tệp lành tính, đồng thời hỗ trợ tốt cho các thuật toán học máy trong việc phát hiện mã độc.
IV. Mô hình học máy phát hiện mã độc
Luận án đề xuất một mô hình học máy cộng tác để phát hiện sớm mã độc IoT Botnet. Mô hình này kết hợp nhiều nguồn dữ liệu đặc trưng, bao gồm DSCG, dữ liệu mạng, và sử dụng tài nguyên, để nâng cao độ chính xác trong phát hiện mã độc. Mô hình được thiết kế để giảm thiểu tỉ lệ âm tính giả và yêu cầu tối thiểu lượng dữ liệu cần thu thập.
4.1. Kiến trúc mô hình
Mô hình học máy bao gồm các thành phần như môi trường Sandbox, khối tiền xử lý dữ liệu, và bộ phân lớp học máy. Mỗi thành phần được thiết kế để xử lý và phân tích các đặc trưng khác nhau, từ đó đưa ra kết quả phát hiện mã độc chính xác.
4.2. Thử nghiệm và đánh giá
Mô hình học máy đã được thử nghiệm trên các bộ dữ liệu lớn, bao gồm cả mã độc và tệp lành tính. Kết quả thử nghiệm cho thấy mô hình có độ chính xác cao và khả năng phát hiện sớm mã độc hiệu quả. So sánh với các nghiên cứu liên quan, mô hình đề xuất cho thấy ưu điểm vượt trội về hiệu suất và độ tin cậy.