Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của các hệ thống mạng và sự gia tăng các cuộc tấn công mạng phức tạp, việc phát hiện sớm các hành vi tấn công trở thành một yêu cầu cấp thiết. Theo báo cáo của ngành, lưu lượng tấn công DDoS đã tăng tới 79% trong quý 4 năm 2022, với các đợt tấn công đạt đỉnh điểm lên tới 71 triệu yêu cầu mỗi giây, cao hơn 54% so với năm trước. Các cuộc tấn công này thường sử dụng các tên miền giả mạo được tạo ra bởi thuật toán tạo tên miền (Domain-Generated Algorithm - DGA) để giao tiếp với máy chủ ra lệnh và điều khiển, gây khó khăn cho việc phát hiện và ngăn chặn.

Mục tiêu của luận văn là nghiên cứu và triển khai các thuật toán học máy, đặc biệt là mô hình federated learning, để phát hiện các tên miền do DGA tạo ra trên môi trường tính toán tại biên (Edge-Cloud). Phạm vi nghiên cứu tập trung vào việc áp dụng các thuật toán học máy trên thiết bị nhúng và hệ thống máy ảo, với dữ liệu thu thập từ khoảng 40 thuật toán DGA công bố và các tên miền hợp lệ phổ biến toàn cầu. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao khả năng phát hiện tấn công mạng trong thời gian thực, giảm độ trễ và chi phí xử lý so với các phương pháp truyền thống tập trung trên đám mây.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: điện toán biên và học máy phân tán, trong đó federated learning là mô hình học máy phân tán được lựa chọn để triển khai.

  • Điện toán biên (Edge Computing): Là công nghệ tính toán được thực hiện gần nguồn dữ liệu, giúp giảm độ trễ và tải cho hệ thống đám mây. Điện toán biên phù hợp với các ứng dụng yêu cầu thời gian thực và xử lý dữ liệu cục bộ, như phát hiện tấn công mạng trên thiết bị nhúng.

  • Federated Learning: Là mô hình học máy phân tán, cho phép các thiết bị giữ dữ liệu nội bộ và chỉ gửi cập nhật mô hình lên máy chủ trung tâm để tổng hợp. Mô hình này bảo vệ dữ liệu người dùng, giảm chi phí truyền tải và tăng tính bảo mật. Quá trình huấn luyện gồm các pha lựa chọn, cấu hình và báo cáo, với cơ chế tổng hợp cập nhật bằng thuật toán Federated Averaging.

Các khái niệm chính bao gồm thuật toán tạo tên miền (DGA), học máy (machine learning), mạng neural hồi tiếp dài hạn (LSTM), và các thuật toán học máy phân tán.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu tên miền được tạo bởi khoảng 40 thuật toán DGA công bố trong các nghiên cứu khoa học, cùng với danh sách tên miền hợp lệ phổ biến toàn cầu. Dữ liệu được tổ chức thành các bộ mẫu phục vụ cho từng chu kỳ huấn luyện trong federated learning.

  • Phương pháp phân tích: Thuật toán học máy LSTM được lựa chọn để huấn luyện và phát hiện DGA do khả năng xử lý dữ liệu chuỗi ký tự có tính tuần tự. Mô hình federated learning được triển khai trên hệ thống máy ảo và thiết bị nhúng, sử dụng mạng VLAN ảo Zerotier-One để kết nối các máy khách và máy chủ qua Internet.

  • Timeline nghiên cứu: Quá trình nghiên cứu bao gồm xây dựng mô hình federated learning, thiết kế hệ thống kết nối, tổ chức dữ liệu và thực hiện các testcase đánh giá ảnh hưởng của số lượng máy khách và mẫu dữ liệu đến hiệu quả huấn luyện. Các thử nghiệm được thực hiện trong khoảng thời gian từ năm 2022 đến đầu năm 2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác phát hiện DGA cao: Mô hình federated learning với thuật toán LSTM đạt độ chính xác nhận diện tên miền giả mạo lên tới khoảng 95-96%, tương đương hoặc vượt trội so với các phương pháp học máy tập trung truyền thống.

  2. Ảnh hưởng của số lượng máy khách: Khi số lượng máy khách tăng từ 1 lên 28, độ chính xác của mô hình không giảm đáng kể, cho thấy federated learning có khả năng mở rộng tốt trong môi trường phân tán.

  3. Ảnh hưởng của số lượng mẫu trên mỗi máy khách: Tăng số lượng mẫu huấn luyện trên mỗi máy khách từ 40 lên 1200 giúp cải thiện độ chính xác và ổn định của mô hình, đồng thời giảm thời gian huấn luyện.

  4. So sánh với huấn luyện tập trung: Federated learning cho kết quả tương đương với huấn luyện tập trung trên một thiết bị duy nhất, nhưng ưu việt hơn về bảo mật dữ liệu và giảm tải cho máy chủ trung tâm.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng federated learning trên môi trường điện toán biên là khả thi và hiệu quả trong phát hiện các tên miền do DGA tạo ra. Việc giữ dữ liệu tại chỗ trên các thiết bị nhúng giúp bảo vệ thông tin người dùng, đồng thời giảm thiểu độ trễ so với xử lý tập trung trên đám mây. Các biểu đồ ROC curve và confusion matrix minh họa rõ ràng hiệu suất phân loại của mô hình qua từng testcase, thể hiện sự ổn định và khả năng thích ứng với các điều kiện huấn luyện khác nhau.

So với các nghiên cứu trước đây, đề tài đã triển khai thành công mô hình federated learning riêng biệt, không phụ thuộc thư viện có sẵn, tạo điều kiện cho việc tùy biến và phát triển lâu dài. Việc sử dụng mạng VLAN ảo Zerotier-One giúp mô phỏng môi trường phân tán thực tế, đảm bảo tính khách quan và khả năng áp dụng trong thực tế.

Đề xuất và khuyến nghị

  1. Mở rộng quy mô thiết bị tham gia: Tăng số lượng thiết bị nhúng tham gia vào mô hình federated learning nhằm nâng cao độ chính xác và khả năng phát hiện đa dạng các loại DGA. Thời gian thực hiện: 6-12 tháng. Chủ thể: các phòng thí nghiệm nghiên cứu và doanh nghiệp công nghệ.

  2. Tích hợp phương pháp secure aggregation: Áp dụng kỹ thuật tổng hợp bảo mật để tăng cường bảo vệ dữ liệu người dùng trong quá trình huấn luyện phân tán, giảm thiểu rủi ro rò rỉ thông tin. Thời gian thực hiện: 3-6 tháng. Chủ thể: nhóm phát triển phần mềm và chuyên gia bảo mật.

  3. Phát triển thuật toán học sâu đa mô hình: Kết hợp các mô hình học sâu khác như CNN với LSTM để nâng cao khả năng nhận diện các dạng DGA phức tạp hơn, đặc biệt là DGA dạng chuỗi từ ngẫu nhiên. Thời gian thực hiện: 12 tháng. Chủ thể: nhóm nghiên cứu học máy.

  4. Triển khai thực tế trên thiết bị IoT: Áp dụng mô hình federated learning đã phát triển vào các thiết bị IoT thực tế để đánh giá hiệu quả trong môi trường sản xuất, đồng thời tối ưu hóa tài nguyên tính toán và năng lượng. Thời gian thực hiện: 12-18 tháng. Chủ thể: doanh nghiệp sản xuất thiết bị IoT và các tổ chức nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Kỹ thuật Viễn thông, An ninh mạng: Luận văn cung cấp kiến thức sâu về ứng dụng học máy phân tán trong an ninh mạng, đặc biệt là phát hiện DGA trên môi trường điện toán biên.

  2. Chuyên gia phát triển phần mềm bảo mật: Các giải pháp và mô hình federated learning được trình bày chi tiết giúp phát triển các hệ thống bảo mật mạng phân tán, bảo vệ dữ liệu người dùng.

  3. Doanh nghiệp công nghệ và IoT: Các công ty sản xuất thiết bị nhúng và IoT có thể áp dụng mô hình federated learning để nâng cao khả năng phát hiện tấn công mạng, bảo vệ hệ thống và người dùng cuối.

  4. Cơ quan quản lý và chính sách an ninh mạng: Thông tin về xu hướng tấn công mạng và các giải pháp kỹ thuật hiện đại giúp xây dựng chính sách, quy định phù hợp nhằm nâng cao an toàn mạng quốc gia.

Câu hỏi thường gặp

  1. Federated learning là gì và tại sao lại phù hợp với an ninh mạng?
    Federated learning là mô hình học máy phân tán, cho phép các thiết bị giữ dữ liệu cục bộ và chỉ gửi cập nhật mô hình lên máy chủ. Điều này giúp bảo vệ dữ liệu người dùng, giảm độ trễ và chi phí truyền tải, rất phù hợp với các ứng dụng an ninh mạng yêu cầu xử lý thời gian thực và bảo mật cao.

  2. Thuật toán LSTM có ưu điểm gì trong phát hiện DGA?
    LSTM có khả năng xử lý dữ liệu chuỗi ký tự có tính tuần tự và liên kết thời gian, giúp nhận diện các mẫu tên miền giả mạo do DGA tạo ra hiệu quả hơn các thuật toán học máy truyền thống.

  3. Làm thế nào để mô hình federated learning xử lý khi một số thiết bị không hoàn thành nhiệm vụ?
    Giao thức federated learning có cơ chế loại bỏ các thiết bị không hoàn thành nhiệm vụ trong chu kỳ huấn luyện, đảm bảo kết quả tổng hợp chỉ dựa trên các cập nhật hợp lệ, từ đó duy trì tính ổn định và hiệu quả của mô hình.

  4. Có thể áp dụng mô hình này cho các loại tấn công mạng khác không?
    Có, mô hình federated learning có thể được mở rộng để phát hiện các loại tấn công mạng khác dựa trên đặc điểm dữ liệu và thuật toán học máy phù hợp, như phát hiện malware, phishing hay tấn công giả mạo.

  5. Làm sao để đảm bảo tính bảo mật khi gửi cập nhật mô hình lên máy chủ?
    Ngoài việc không gửi dữ liệu gốc, kỹ thuật secure aggregation được đề xuất để mã hóa và tổng hợp các cập nhật mô hình, giúp máy chủ chỉ nhận được kết quả tổng hợp mà không biết chi tiết từng cập nhật, tăng cường bảo mật dữ liệu.

Kết luận

  • Luận văn đã nghiên cứu và triển khai thành công mô hình federated learning sử dụng thuật toán LSTM để phát hiện tên miền giả mạo do thuật toán tạo tên miền (DGA) trên môi trường điện toán biên.
  • Mô hình đạt độ chính xác cao, khả năng mở rộng tốt và bảo vệ dữ liệu người dùng hiệu quả so với các phương pháp học máy tập trung truyền thống.
  • Hệ thống được xây dựng với kết nối mạng VLAN ảo Zerotier-One, mô phỏng môi trường phân tán thực tế, đảm bảo tính khách quan và khả năng áp dụng trong thực tế.
  • Đề xuất các giải pháp mở rộng quy mô, tích hợp kỹ thuật bảo mật nâng cao và ứng dụng thực tế trên thiết bị IoT nhằm nâng cao hiệu quả và tính ứng dụng của nghiên cứu.
  • Các bước tiếp theo bao gồm phát triển thuật toán đa mô hình, thử nghiệm trên thiết bị vật lý và hợp tác với doanh nghiệp để triển khai thực tế.

Kêu gọi hành động: Các nhà nghiên cứu, chuyên gia và doanh nghiệp trong lĩnh vực an ninh mạng và IoT nên tiếp cận và ứng dụng mô hình federated learning để nâng cao khả năng phát hiện tấn công mạng, bảo vệ hệ thống và người dùng trong kỷ nguyên số.