Nghiên Cứu Thuật Toán Học Máy Sử Dụng Cho An Ninh Mạng Trên Thiết Bị Nhúng Tại Edge - Cloud

Tài liệu nghiên cứu Nghiên cứu thực hiện thuật toán học máy sử dụng cho an ninh mạng trên thiết bị nhúng tại edge cloud, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Kỹ thuật viễn thông

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

MỞ ĐẦU

1. CHƯƠNG 1: AN NINH MẠNG VÀ MỐI LIÊN HỆ VỚI THUẬT TOÁN TẠO TÊN MIỀN

1.1. Tổng quan về an ninh mạng

1.2. Khái niệm và phân loại an ninh mạng

1.3. Thực trạng của an ninh mạng

1.4. Phân tích quy trình tấn công mạng phổ biến

1.5. Thuật toán tạo tên miền (DGA)

1.5.1. Khái niệm và phân loại thuật toán tạo tên miền (DGA)

1.5.2. Các phương pháp phổ biến nhận diện DGA

1.6. Kết luận chương

2. CHƯƠNG 2: MÔ HÌNH FEDERATED LEARNING TRÊN ĐIỆN TOÁN BIÊN

2.1. Điện toán đám mây – điện toán biên

2.1.1. Điện toán đám mây

2.1.2. Điện toán biên

2.1.3. So sánh điện toán đám mây và điện toán biên

2.2. Tổng quan và phân loại các thuật toán học máy

2.2.1. Định nghĩa về học máy

2.2.2. Phân loại các thuận toán học máy

2.2.3. Phương pháp học máy phân tán

2.2.3.1. Khái niệm học máy phân tán

2.2.3.2. Một số mô hình học máy phân tán phổ biến

2.3. Mô hình federated learning

2.3.1. Quá trình huấn luyện trong federated learning

2.3.2. Ưu điểm và ứng dụng của federated learning

2.4. Kết luận chương

3. CHƯƠNG 3: TRIỂN KHAI FEDERATED LEARNING ĐỂ PHÁT HIỆN DGA CHO ĐIỆN TOÁN BIÊN

3.1. Lựa chọn phương án cài đặt

3.2. Dữ liệu tên miền được tạo bởi thuật toán

3.3. Thuật toán học máy LSTM (Long – short term memory)

3.4. Triển khai hệ thống đánh giá

3.4.1. Xây dựng hệ thống kết nối giữa máy khách – máy chủ

3.4.2. Thiết kế chương trình phần mềm

3.5. Đánh giá kết quả triển khai

3.6. Kết luận chương

3.7. Hướng phát triển đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Học Máy Cho An Ninh Mạng Edge Cloud 55 ký tự

Trong bối cảnh an ninh mạng ngày càng phức tạp, việc áp dụng học máy cho an ninh mạng trên kiến trúc edge-cloud trở nên vô cùng quan trọng. Các hệ thống mạng hiện đại, nơi dữ liệu được tạo ra ở edge và xử lý trên cloud, đối mặt với nhiều nguy cơ tấn công mạng. Các phương pháp truyền thống dựa trên quy tắc tĩnh không còn đủ sức để đối phó với các mối đe dọa ngày càng tinh vi. Vì vậy, việc sử dụng thuật toán học máy để tự động phát hiện và phản ứng với các cuộc tấn công là một giải pháp hiệu quả. Phạm Trung Hiếu trong luận văn thạc sĩ của mình đã nghiên cứu, thực hiện các thuật toán học máy sử dụng cho an ninh mạng trên thiết bị nhúng tại Edge - Cloud. Điều này cho thấy sự cấp thiết của việc nghiên cứu và triển khai các giải pháp an ninh mạng tiên tiến, đặc biệt là trên kiến trúc edge-cloud.

Theo nghiên cứu, các máy chủ ra lệnh và điều khiển thường được kẻ tấn công đăng kí bằng các tên miền có tính ngẫu nhiên, tạo ra bởi thuật toán tạo tên miền (Domain – generated Algorithm - DGA). Học sâu cho an ninh mạng cũng được nhắc tới như một phương pháp hiệu quả. Federated learning, một nền tảng học máy phân tán, cũng được đề cập đến, hứa hẹn tiềm năng triển khai các thuật toán học máy trên môi trường tính toán tại biên.

1.1. Tầm quan trọng của An Ninh Mạng Edge Computing 52 ký tự

Việc bảo vệ an ninh mạng edge là rất quan trọng do sự gia tăng của các thiết bị IoT và ứng dụng thời gian thực. Edge computing security cung cấp khả năng xử lý dữ liệu gần nguồn hơn, giảm độ trễ và tăng cường bảo mật. Điều này đặc biệt quan trọng đối với các ứng dụng như xe tự lái, nhà máy thông minh và chăm sóc sức khỏe từ xa. Các thiết bị IoT thường có tài nguyên hạn chế và dễ bị tấn công, do đó cần có các giải pháp bảo mật thiết bị IoT nhẹ và hiệu quả. Việc phân tích mối đe dọa edge cho phép phát hiện và phản ứng nhanh chóng với các cuộc tấn công trước khi chúng có thể gây ra thiệt hại lớn.

1.2. Lợi ích của An Ninh Mạng Cloud Computing 50 ký tự

Trong khi an ninh mạng edge tập trung vào bảo vệ dữ liệu tại nguồn, cloud security đảm bảo an toàn cho dữ liệu và ứng dụng được lưu trữ và xử lý trên cloud. Các giải pháp an ninh mạng cloud cung cấp khả năng mở rộng linh hoạt, bảo vệ chống lại nhiều loại tấn công và tuân thủ các quy định bảo mật. Việc sử dụng mô hình học máy an ninh mạng trên cloud cho phép phân tích dữ liệu lớn và phát hiện các mẫu tấn công phức tạp. Cloud security cũng cung cấp các công cụ để quản lý danh tính và quyền truy cập, ngăn chặn truy cập trái phép vào dữ liệu nhạy cảm.

II. Thách Thức An Ninh Mạng Trên Thiết Bị Nhúng Edge 58 ký tự

Triển khai học máy cho an ninh mạng trên thiết bị nhúng tại edge đặt ra nhiều thách thức đáng kể. Các thiết bị nhúng an ninh mạng thường có tài nguyên tính toán và năng lượng hạn chế, điều này gây khó khăn cho việc triển khai các thuật toán học máy phức tạp. Hơn nữa, dữ liệu được thu thập từ các thiết bị nhúng có thể không đồng nhất, nhiễu và thiếu nhãn, điều này ảnh hưởng đến hiệu suất của mô hình học máy. Ngoài ra, việc cập nhật và bảo trì mô hình học máy trên hàng ngàn thiết bị nhúng phân tán là một vấn đề hậu cần lớn. Theo Phạm Trung Hiếu, việc xây dựng các mô hình tính toán trên điện toán đám mây như các nghiên cứu truyền thống gặp phải nhiều khó khăn do lượng dữ liệu lớn và yêu cầu về thời gian thực.

2.1. Hạn chế về Tài Nguyên Thiết Bị Nhúng 44 ký tự

Các thiết bị nhúng thường có bộ nhớ, CPU và năng lượng hạn chế, điều này gây khó khăn cho việc triển khai các thuật toán học máy phức tạp. Việc tối ưu hóa thuật toán học máy cho edge là rất quan trọng để đảm bảo hiệu suất và độ chính xác. Các kỹ thuật như lượng tử hóa, cắt tỉa và nén mô hình có thể được sử dụng để giảm kích thước và độ phức tạp của mô hình học máy. Việc sử dụng các thư viện học máy được tối ưu hóa cho thiết bị nhúng cũng có thể cải thiện hiệu suất.

2.2. Chất Lượng Dữ Liệu Từ Thiết Bị Nhúng 43 ký tự

Dữ liệu được thu thập từ các thiết bị nhúng có thể không đồng nhất, nhiễu và thiếu nhãn, điều này ảnh hưởng đến hiệu suất của mô hình học máy. Việc tiền xử lý và làm sạch dữ liệu là rất quan trọng để đảm bảo chất lượng của mô hình học máy. Các kỹ thuật như loại bỏ nhiễu, điền giá trị thiếu và cân bằng dữ liệu có thể được sử dụng để cải thiện chất lượng dữ liệu. Việc sử dụng các phương pháp học bán giám sát cũng có thể giúp tận dụng dữ liệu không nhãn.

III. Phương Pháp Phát Hiện Xâm Nhập Edge Dùng Học Máy 57 ký tự

Sử dụng học máy để phát hiện xâm nhập edge là một phương pháp hiệu quả để bảo vệ các thiết bị nhúng và mạng edge. Các thuật toán học máy có thể được huấn luyện để phát hiện các hành vi bất thường và các mẫu tấn công. Việc phát hiện xâm nhập edge cho phép phản ứng nhanh chóng với các cuộc tấn công và ngăn chặn chúng gây ra thiệt hại. Các phương pháp phân tích mối đe dọa edge dựa trên học máy có thể được sử dụng để xác định và ưu tiên các mối đe dọa quan trọng nhất. Phạm Trung Hiếu đã sử dụng mô hình federated learning để phát hiện thuật toán tạo tên miền, cho thấy tiềm năng ứng dụng của học máy trong lĩnh vực này.

3.1. Ứng Dụng Thuật Toán Học Sâu LSTM Cho Edge 51 ký tự

Các thuật toán học sâu cho an ninh mạng, đặc biệt là LSTM (Long Short-Term Memory), rất phù hợp cho việc phát hiện xâm nhập edge do khả năng xử lý dữ liệu chuỗi thời gian. LSTM có thể được sử dụng để phân tích lưu lượng mạng và phát hiện các hành vi bất thường. Việc triển khai học máy trên thiết bị nhúng đòi hỏi phải tối ưu hóa mô hình LSTM để giảm kích thước và độ phức tạp. Nghiên cứu của Phạm Trung Hiếu sử dụng LSTM, cho thấy tính khả thi trong việc áp dụng học sâu vào an ninh mạng edge.

3.2. Sử Dụng Mô Hình Federated Learning Cho Edge 55 ký tự

Mô hình federated learning cho phép huấn luyện mô hình học máy trên nhiều thiết bị edge mà không cần chia sẻ dữ liệu cá nhân. Điều này rất quan trọng để bảo vệ quyền riêng tư của người dùng và tuân thủ các quy định bảo mật. Federated learning cũng cho phép tận dụng dữ liệu từ nhiều nguồn khác nhau để cải thiện độ chính xác của mô hình học máy. Việc triển khai federated learning đòi hỏi phải giải quyết các thách thức như giao tiếp không ổn định và dữ liệu không đồng nhất.

IV. Phương Pháp Phát Hiện Xâm Nhập Cloud Dùng Học Máy 59 ký tự

Việc sử dụng học máy để phát hiện xâm nhập cloud là rất quan trọng để bảo vệ các tài sản và dữ liệu trên cloud. Các thuật toán học máy có thể được huấn luyện để phát hiện các hành vi bất thường và các mẫu tấn công. Việc phân tích mối đe dọa cloud dựa trên học máy cho phép xác định và ưu tiên các mối đe dọa quan trọng nhất. Các giải pháp phát hiện xâm nhập cloud dựa trên học máy có thể được tích hợp với các hệ thống bảo mật khác để cung cấp một lớp bảo vệ toàn diện. Theo nghiên cứu, dữ liệu các cuộc tấn công ngày càng lớn, việc xây dựng các mô hình tính toán trên điện toán đám mây gặp phải nhiều khó khăn.

4.1. Phân Tích Lưu Lượng Mạng Cloud Dùng Học Máy 55 ký tự

Các thuật toán học máy có thể được sử dụng để phân tích lưu lượng mạng cloud và phát hiện các hành vi bất thường. Việc phân tích lưu lượng mạng có thể giúp xác định các cuộc tấn công như DDoS, tấn công Brute-force và tấn công SQL Injection. Các mô hình học máy có thể được huấn luyện để phân biệt giữa lưu lượng mạng bình thường và lưu lượng mạng độc hại. Việc sử dụng các kỹ thuật học không giám sát cũng có thể giúp phát hiện các hành vi bất thường mà không cần nhãn.

4.2. Giám Sát Nhật Ký Hệ Thống Cloud Dùng Học Máy 53 ký tự

Các thuật toán học máy có thể được sử dụng để giám sát nhật ký hệ thống cloud và phát hiện các hành vi bất thường. Việc giám sát nhật ký hệ thống có thể giúp xác định các cuộc tấn công như truy cập trái phép, leo thang đặc quyền và cài đặt phần mềm độc hại. Các mô hình học máy có thể được huấn luyện để phân biệt giữa các sự kiện nhật ký bình thường và các sự kiện nhật ký đáng ngờ. Việc sử dụng các kỹ thuật học có giám sát có thể giúp cải thiện độ chính xác của việc phát hiện xâm nhập.

V. Ứng Dụng Thực Tế Bảo Mật Thiết Bị IoT Dùng Học Máy 59 ký tự

Một ứng dụng thực tế của học máy cho an ninh mạng trên edge-cloud là bảo vệ thiết bị IoT. Các thiết bị IoT thường có tài nguyên hạn chế và dễ bị tấn công, do đó cần có các giải pháp bảo mật nhẹ và hiệu quả. Học máy có thể được sử dụng để phát hiện các hành vi bất thường trên thiết bị IoT và ngăn chặn các cuộc tấn công. Các giải pháp bảo mật thiết bị IoT dựa trên học máy có thể được triển khai trên edge hoặc cloud, tùy thuộc vào yêu cầu về hiệu suất và bảo mật. Theo Phạm Trung Hiếu, hệ thống IoT cần phương án linh hoạt, phù hợp với quy mô, ứng dụng của hệ thống khi có thể kết hợp bảo mật, quản lí tập trung với các phương pháp bảo mật được cài đặt trên phần cứng của thiết bị.

5.1. Phát Hiện Mã Độc IoT Dùng Mô Hình Học Máy 55 ký tự

Các mô hình học máy có thể được huấn luyện để phát hiện mã độc trên thiết bị IoT. Các mô hình học máy có thể được huấn luyện để phân tích mã và phát hiện các mẫu độc hại. Việc sử dụng các kỹ thuật học sâu có thể giúp cải thiện độ chính xác của việc phát hiện mã độc. Các giải pháp phát hiện mã độc IoT dựa trên học máy có thể được triển khai trên edge hoặc cloud.

5.2. Ngăn Chặn Tấn Công DDoS Từ Thiết Bị IoT 52 ký tự

Các thuật toán học máy có thể được sử dụng để ngăn chặn các cuộc tấn công DDoS từ thiết bị IoT. Các thuật toán học máy có thể được huấn luyện để phân tích lưu lượng mạng và phát hiện các thiết bị bị nhiễm mã độc. Việc sử dụng các kỹ thuật học không giám sát có thể giúp phát hiện các thiết bị bất thường mà không cần nhãn. Các giải pháp ngăn chặn tấn công DDoS từ thiết bị IoT dựa trên học máy có thể được triển khai trên cloud.

VI. Kết Luận Tương Lai Học Máy An Ninh Mạng Edge Cloud 56 ký tự

Nghiên cứu thuật toán học máy cho an ninh mạng trên thiết bị nhúng tại edge-cloud là một lĩnh vực đầy tiềm năng. Các giải pháp an ninh mạng dựa trên học máy có thể cung cấp một lớp bảo vệ hiệu quả chống lại các mối đe dọa ngày càng tinh vi. Tuy nhiên, việc triển khai học máy trên edge-cloud đặt ra nhiều thách thức về tài nguyên, chất lượng dữ liệu và bảo mật. Các nghiên cứu trong tương lai nên tập trung vào việc giải quyết các thách thức này và phát triển các thuật toán học máy nhẹ và hiệu quả hơn. Phạm Trung Hiếu đã đề xuất hướng phát triển đề tài, mở ra những hướng nghiên cứu mới cho lĩnh vực này.

6.1. Tối Ưu Hóa Thuật Toán Học Máy Cho Thiết Bị Nhúng 53 ký tự

Việc tối ưu hóa thuật toán học máy cho thiết bị nhúng là rất quan trọng để đảm bảo hiệu suất và độ chính xác. Các kỹ thuật như lượng tử hóa, cắt tỉa và nén mô hình có thể được sử dụng để giảm kích thước và độ phức tạp của mô hình học máy. Việc sử dụng các thư viện học máy được tối ưu hóa cho thiết bị nhúng cũng có thể cải thiện hiệu suất.

6.2. Nghiên Cứu Federated Learning Với Quyền Riêng Tư 54 ký tự

Việc nghiên cứu federated learning với các cơ chế bảo vệ quyền riêng tư là rất quan trọng để đảm bảo an toàn cho dữ liệu cá nhân. Các kỹ thuật như mã hóa đồng hình và tính toán đa bên an toàn có thể được sử dụng để bảo vệ quyền riêng tư trong federated learning. Việc phát triển các giao thức federated learning hiệu quả và an toàn hơn là một hướng nghiên cứu quan trọng trong tương lai.

28/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu thực hiện thuật toán học máy sử dụng cho an ninh mạng trên thiết bị nhúng tại edge cloud

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của các hệ thống mạng và sự gia tăng các cuộc tấn công mạng phức tạp, việc phát hiện sớm các hành vi tấn công trở thành một yêu cầu cấp thiết. Theo báo cáo của ngành, lưu lượng tấn công DDoS đã tăng tới 79% trong quý 4 năm 2022, với các đợt tấn công đạt đỉnh điểm lên tới 71 triệu yêu cầu mỗi giây, cao hơn 54% so với năm trước. Các cuộc tấn công này thường sử dụng các tên miền giả mạo được tạo ra bởi thuật toán tạo tên miền (Domain-Generated Algorithm - DGA) để giao tiếp với máy chủ ra lệnh và điều khiển, gây khó khăn cho việc phát hiện và ngăn chặn.

Mục tiêu của luận văn là nghiên cứu và triển khai các thuật toán học máy, đặc biệt là mô hình federated learning, để phát hiện các tên miền do DGA tạo ra trên môi trường tính toán tại biên (Edge-Cloud). Phạm vi nghiên cứu tập trung vào việc áp dụng các thuật toán học máy trên thiết bị nhúng và hệ thống máy ảo, với dữ liệu thu thập từ khoảng 40 thuật toán DGA công bố và các tên miền hợp lệ phổ biến toàn cầu. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao khả năng phát hiện tấn công mạng trong thời gian thực, giảm độ trễ và chi phí xử lý so với các phương pháp truyền thống tập trung trên đám mây.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: điện toán biên và học máy phân tán, trong đó federated learning là mô hình học máy phân tán được lựa chọn để triển khai.

Điện toán biên (Edge Computing): Là công nghệ tính toán được thực hiện gần nguồn dữ liệu, giúp giảm độ trễ và tải cho hệ thống đám mây. Điện toán biên phù hợp với các ứng dụng yêu cầu thời gian thực và xử lý dữ liệu cục bộ, như phát hiện tấn công mạng trên thiết bị nhúng.
Federated Learning: Là mô hình học máy phân tán, cho phép các thiết bị giữ dữ liệu nội bộ và chỉ gửi cập nhật mô hình lên máy chủ trung tâm để tổng hợp. Mô hình này bảo vệ dữ liệu người dùng, giảm chi phí truyền tải và tăng tính bảo mật. Quá trình huấn luyện gồm các pha lựa chọn, cấu hình và báo cáo, với cơ chế tổng hợp cập nhật bằng thuật toán Federated Averaging.

Các khái niệm chính bao gồm thuật toán tạo tên miền (DGA), học máy (machine learning), mạng neural hồi tiếp dài hạn (LSTM), và các thuật toán học máy phân tán.

Phương pháp nghiên cứu

Nguồn dữ liệu: Dữ liệu tên miền được tạo bởi khoảng 40 thuật toán DGA công bố trong các nghiên cứu khoa học, cùng với danh sách tên miền hợp lệ phổ biến toàn cầu. Dữ liệu được tổ chức thành các bộ mẫu phục vụ cho từng chu kỳ huấn luyện trong federated learning.
Phương pháp phân tích: Thuật toán học máy LSTM được lựa chọn để huấn luyện và phát hiện DGA do khả năng xử lý dữ liệu chuỗi ký tự có tính tuần tự. Mô hình federated learning được triển khai trên hệ thống máy ảo và thiết bị nhúng, sử dụng mạng VLAN ảo Zerotier-One để kết nối các máy khách và máy chủ qua Internet.
Timeline nghiên cứu: Quá trình nghiên cứu bao gồm xây dựng mô hình federated learning, thiết kế hệ thống kết nối, tổ chức dữ liệu và thực hiện các testcase đánh giá ảnh hưởng của số lượng máy khách và mẫu dữ liệu đến hiệu quả huấn luyện. Các thử nghiệm được thực hiện trong khoảng thời gian từ năm 2022 đến đầu năm 2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác phát hiện DGA cao: Mô hình federated learning với thuật toán LSTM đạt độ chính xác nhận diện tên miền giả mạo lên tới khoảng 95-96%, tương đương hoặc vượt trội so với các phương pháp học máy tập trung truyền thống.
Ảnh hưởng của số lượng máy khách: Khi số lượng máy khách tăng từ 1 lên 28, độ chính xác của mô hình không giảm đáng kể, cho thấy federated learning có khả năng mở rộng tốt trong môi trường phân tán.
Ảnh hưởng của số lượng mẫu trên mỗi máy khách: Tăng số lượng mẫu huấn luyện trên mỗi máy khách từ 40 lên 1200 giúp cải thiện độ chính xác và ổn định của mô hình, đồng thời giảm thời gian huấn luyện.
So sánh với huấn luyện tập trung: Federated learning cho kết quả tương đương với huấn luyện tập trung trên một thiết bị duy nhất, nhưng ưu việt hơn về bảo mật dữ liệu và giảm tải cho máy chủ trung tâm.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng federated learning trên môi trường điện toán biên là khả thi và hiệu quả trong phát hiện các tên miền do DGA tạo ra. Việc giữ dữ liệu tại chỗ trên các thiết bị nhúng giúp bảo vệ thông tin người dùng, đồng thời giảm thiểu độ trễ so với xử lý tập trung trên đám mây. Các biểu đồ ROC curve và confusion matrix minh họa rõ ràng hiệu suất phân loại của mô hình qua từng testcase, thể hiện sự ổn định và khả năng thích ứng với các điều kiện huấn luyện khác nhau.

So với các nghiên cứu trước đây, đề tài đã triển khai thành công mô hình federated learning riêng biệt, không phụ thuộc thư viện có sẵn, tạo điều kiện cho việc tùy biến và phát triển lâu dài. Việc sử dụng mạng VLAN ảo Zerotier-One giúp mô phỏng môi trường phân tán thực tế, đảm bảo tính khách quan và khả năng áp dụng trong thực tế.

Đề xuất và khuyến nghị

Mở rộng quy mô thiết bị tham gia: Tăng số lượng thiết bị nhúng tham gia vào mô hình federated learning nhằm nâng cao độ chính xác và khả năng phát hiện đa dạng các loại DGA. Thời gian thực hiện: 6-12 tháng. Chủ thể: các phòng thí nghiệm nghiên cứu và doanh nghiệp công nghệ.
Tích hợp phương pháp secure aggregation: Áp dụng kỹ thuật tổng hợp bảo mật để tăng cường bảo vệ dữ liệu người dùng trong quá trình huấn luyện phân tán, giảm thiểu rủi ro rò rỉ thông tin. Thời gian thực hiện: 3-6 tháng. Chủ thể: nhóm phát triển phần mềm và chuyên gia bảo mật.
Phát triển thuật toán học sâu đa mô hình: Kết hợp các mô hình học sâu khác như CNN với LSTM để nâng cao khả năng nhận diện các dạng DGA phức tạp hơn, đặc biệt là DGA dạng chuỗi từ ngẫu nhiên. Thời gian thực hiện: 12 tháng. Chủ thể: nhóm nghiên cứu học máy.
Triển khai thực tế trên thiết bị IoT: Áp dụng mô hình federated learning đã phát triển vào các thiết bị IoT thực tế để đánh giá hiệu quả trong môi trường sản xuất, đồng thời tối ưu hóa tài nguyên tính toán và năng lượng. Thời gian thực hiện: 12-18 tháng. Chủ thể: doanh nghiệp sản xuất thiết bị IoT và các tổ chức nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Viễn thông, An ninh mạng: Luận văn cung cấp kiến thức sâu về ứng dụng học máy phân tán trong an ninh mạng, đặc biệt là phát hiện DGA trên môi trường điện toán biên.
Chuyên gia phát triển phần mềm bảo mật: Các giải pháp và mô hình federated learning được trình bày chi tiết giúp phát triển các hệ thống bảo mật mạng phân tán, bảo vệ dữ liệu người dùng.
Doanh nghiệp công nghệ và IoT: Các công ty sản xuất thiết bị nhúng và IoT có thể áp dụng mô hình federated learning để nâng cao khả năng phát hiện tấn công mạng, bảo vệ hệ thống và người dùng cuối.
Cơ quan quản lý và chính sách an ninh mạng: Thông tin về xu hướng tấn công mạng và các giải pháp kỹ thuật hiện đại giúp xây dựng chính sách, quy định phù hợp nhằm nâng cao an toàn mạng quốc gia.

Câu hỏi thường gặp

Federated learning là gì và tại sao lại phù hợp với an ninh mạng?
Federated learning là mô hình học máy phân tán, cho phép các thiết bị giữ dữ liệu cục bộ và chỉ gửi cập nhật mô hình lên máy chủ. Điều này giúp bảo vệ dữ liệu người dùng, giảm độ trễ và chi phí truyền tải, rất phù hợp với các ứng dụng an ninh mạng yêu cầu xử lý thời gian thực và bảo mật cao.
Thuật toán LSTM có ưu điểm gì trong phát hiện DGA?
LSTM có khả năng xử lý dữ liệu chuỗi ký tự có tính tuần tự và liên kết thời gian, giúp nhận diện các mẫu tên miền giả mạo do DGA tạo ra hiệu quả hơn các thuật toán học máy truyền thống.
Làm thế nào để mô hình federated learning xử lý khi một số thiết bị không hoàn thành nhiệm vụ?
Giao thức federated learning có cơ chế loại bỏ các thiết bị không hoàn thành nhiệm vụ trong chu kỳ huấn luyện, đảm bảo kết quả tổng hợp chỉ dựa trên các cập nhật hợp lệ, từ đó duy trì tính ổn định và hiệu quả của mô hình.
Có thể áp dụng mô hình này cho các loại tấn công mạng khác không?
Có, mô hình federated learning có thể được mở rộng để phát hiện các loại tấn công mạng khác dựa trên đặc điểm dữ liệu và thuật toán học máy phù hợp, như phát hiện malware, phishing hay tấn công giả mạo.
Làm sao để đảm bảo tính bảo mật khi gửi cập nhật mô hình lên máy chủ?
Ngoài việc không gửi dữ liệu gốc, kỹ thuật secure aggregation được đề xuất để mã hóa và tổng hợp các cập nhật mô hình, giúp máy chủ chỉ nhận được kết quả tổng hợp mà không biết chi tiết từng cập nhật, tăng cường bảo mật dữ liệu.

Kết luận

Luận văn đã nghiên cứu và triển khai thành công mô hình federated learning sử dụng thuật toán LSTM để phát hiện tên miền giả mạo do thuật toán tạo tên miền (DGA) trên môi trường điện toán biên.
Mô hình đạt độ chính xác cao, khả năng mở rộng tốt và bảo vệ dữ liệu người dùng hiệu quả so với các phương pháp học máy tập trung truyền thống.
Hệ thống được xây dựng với kết nối mạng VLAN ảo Zerotier-One, mô phỏng môi trường phân tán thực tế, đảm bảo tính khách quan và khả năng áp dụng trong thực tế.
Đề xuất các giải pháp mở rộng quy mô, tích hợp kỹ thuật bảo mật nâng cao và ứng dụng thực tế trên thiết bị IoT nhằm nâng cao hiệu quả và tính ứng dụng của nghiên cứu.
Các bước tiếp theo bao gồm phát triển thuật toán đa mô hình, thử nghiệm trên thiết bị vật lý và hợp tác với doanh nghiệp để triển khai thực tế.

Kêu gọi hành động: Các nhà nghiên cứu, chuyên gia và doanh nghiệp trong lĩnh vực an ninh mạng và IoT nên tiếp cận và ứng dụng mô hình federated learning để nâng cao khả năng phát hiện tấn công mạng, bảo vệ hệ thống và người dùng trong kỷ nguyên số.

Trích đoạn nội dung tài liệu

chương 1, tôi sẽ giới thiệu tổng quan về an ninh mạng, tấn công mạng, các vấn đề cấp thiết với một hệ thống an ninh mạng. Thêm vào đó, tôi sẽ tìm hiểu quy trình những cuộc tấn công mạng phổ biến để rút ra được đặc điểm chung của chúng, tạo tiền đề cho nghiên cứu.1 Tổng quan về an ninh mạng 1.1 Khái niệm và phân loại an ninh mạng An ninh mạng là các phương pháp để đảm bảo an toàn cho hệ thống mạng, máy tính, máy chủ, điện thoại người dùng, các thiết bị điện tử khỏi các cuộc tấn công mạng. Trước kia, an ninh mạng là một vấn đề mang tính chất kĩ thuật cao khi thực tế cho thấy tội phạm an ninh mạng thường sử dụng công nghệ cao, các thuật toán tiên tiến, khả năng khai thác các lỗ hổng bảo mật để đạt được lợi ích cá nhân. Hiện nay, khái niệm an ninh mạng không chỉ thuần túy gắn với các phạm trù kĩ thuật mà còn bao trùm các vấn đề liên quan tới hành vi sử dụng các dịch vụ trên không gian mạng không an toàn, thiếu hiểu biết dẫn đến người dùng có thể bị lừa đảo, đánh cắp thông tin.

Trong phạm vi đề tài, an ninh mạng sẽ được đề cập nhiều về phạm trù kĩ thuật. Các vấn đề kĩ thuật trong an ninh mạng được nghiên cứu, phát triển để giải quyết những tồn tại trong thực tiễn, đó là những cuộc tấn công mạng. Theo [1][2], hiện nay các loại tấn công mạng phổ biến nhất có thể kể đến là: • Tấn công bị động (passive attack): là loại tấn công mạng mà kẻ tấn công sẽ kiểm soát các luồng dữ liệu không được mã hóa hoặc mã hóa yếu. Nhờ đó, chúng có thể dễ dàng thu thập thông tin cá nhân của người dùng mà không bị phát hiện.

Các lỗi bảo mật này có thể xảy ra do các phần mềm, trang web không đảm bảo chất lượng được quy định theo chuẩn, khuyến nghị. Một ví dụ về khuyến nghị, gồm các nguyên tắc cốt lõi cần đạt trong nghiên cứu, phát triển các ứng dụng web được OWASP (Open Web Application Security Project) – một tổ chức phi lợi nhuận quốc tế chuyên về bảo mật ứng dụng web – đưa ra, tổng hợp trong một bộ tài liệu mà nhiều công ty lập trình web tham khảo là OWASP Top 10. • Tấn công từ chối dịch vụ (DoS – Denial of Service) và tấn công từ chối dịch vụ phân tán (DDoS – Distributed DoS): là loại tấn công mạng có mục đích làm giảm hoặc làm mất khả năng phục vụ người dùng thông thường của các đối tượng bị tấn công. Có thể nói đây là loại tấn công mạng phổ biến nhất, khó phòng tránh nhất, đặc biệt khi kẻ tấn công đã thiết lập một mạng lưới các thiết bị tấn công mạng được phân tán rộng khắp.

Đối tượng của nhóm tấn công từ chối dịch vụ hay tấn công từ chối dịch vụ phân tán thường bị làm cho cạn kiệt tài nguyên mạng hay tài nguyên tính toán, xử lí của hệ thống máy chủ do phải xử lí một lượng cực lớn các bản tin độc hại. 1 • Phần mềm độc hại (malware) là từ chung chỉ nhóm các phần mềm, một đoạn chương trình, đoạn lệnh có khả năng gây hại cho hệ thống mạng, máy tính, thiết bị thông minh, thiết bị điện tử. Các phần mềm độc hại có thể phân làm nhiều nhóm nhỏ kể đến như ransomware, spyware, trojan, worms, … tùy thuộc vào mục đích tấn công của phần mềm đó, ví dụ sử dụng để theo dõi thiết bị người dùng, khóa, chặn, làm sai lệch chức năng của thiết bị. Người dùng thường bị nhiễm phần mềm độc hại do việc sử dụng dịch vụ trên không gian mạng không an toàn, thiếu hiểu biết.

Họ chỉ thực sự phát hiện ra dấu hiệu bị tấn công mạng khi thiết bị hoạt động thiếu hiệu quả, hoạt động sai chức năng, hay bị khóa, trở thành nạn nhân của bị lừa đảo, chiếm đoạt thông tin. • Giả mạo (spoofing) là một kĩ thuật tấn công mạng mà ở đó những người tấn công có khả năng giả mạo, khiến người dùng tin tưởng mà chủ động cung cấp thông tin cá nhân. Một vài kĩ thuật phổ biến của kĩ thuật giả mạo có thể kể đến là giả mạo tên miền, giả mạo ARP. Kĩ thuật giả mạo tên miền thường đánh lừa người dùng bằng việc sử dụng tên miền gần giống với các tên miền chính thống với giao diện, quảng cáo dịch vụ tương tự.

Người dùng khi truy cập vào các tên miền giả mạo này có thể vô tình cung cấp các thông tin cá nhân như tài khoản, mật khẩu, thông tin nhận diện. Kĩ thuật giả mạo ARP lợi dụng điểm yếu trong giao thức ARP khi thiết bị hỏi địa chỉ MAC không thể biết chính xác câu trả lợi nào là thật mà lập tức ghi IP của ở bản tin ARP – reply vào cơ sở dữ liệu của mình. Điều này có thể bị khai thác khi các thiết bị tấn công cố ý trả lời mọi bản tin ARP – request khiến các thiết bị trong mạng LAN tin máy tính của hắn là tuyến đi mặc định (default gateway) và gửi mọi bản tin tới thiết bị giả mạo. Ngoài ra, vẫn còn rất nhiều các loại tấn công mạng khác, sử dụng các kĩ thuật cao cấp, được tổ chức toàn diện, nhắm tới nhiều loại hệ thống khác nhau.

Để đối phó được với hệ thống phức tạp của các loại tấn công, các nhà phát triển nền tảng bảo mật cũng phải xây dựng các hệ thống có khả năng thích ứng, chống chịu cao. Trong thực tế, do đặc trưng về năng lực tính toán, quy mô, ứng dụng, mô hình tổ chức của mỗi hệ thống khác nhau nên an ninh mạng cũng cần được chia thành nhiều loại với nhiều tiêu chuẩn, yêu cầu khác nhau [3]: • An ninh mạng đối với cơ sở hạ tầng quan trọng: đối với các hệ thống có tính chất sống còn với hoạt động của một đất nước như hệ thống quốc phòng, hệ thống truyền dẫn, hệ thống điện, hệ thống vận tải, an ninh mạng cần đạt ở mức độ cao nhất khi chỉ một sai sót, rò rỉ dữ liệu hay hoạt động thiếu ổn định đều có thể gây mất ổn định xã hội. • Bảo mật mạng là các biện pháp bảo vệ an ninh mạng dành cho các máy tính, và các thiết bị khác kết nối vào mạng. Ví dụ hệ thống mạng trong công ty, cho một toàn nhà, các kĩ sư an toàn thông tin có thể sử dụng hệ thống tường lửa để kiểm soát truy cập, hay sử dụng các phần mềm quản lí chuyên dụng để hạn chế người dùng trong mạng có những hành vi trái quy định, ảnh hưởng đến bảo mật của những người dùng khác trong cùng hệ thống mạng.

2 • Bảo mật trên đám mây: với sự bùng nổ của điện toán đám mây, các ứng dụng lưu trữ thông tin trên đám mây trở thành một phần không thể thiếu trong cuộc sống. bảo mật trên đám mây là việc mà nhà cung cấp dịch vụ lưu trữ sử dụng nền tảng cơ sở vật chất, công nghệ của chính họ để đảm bảo dữ liệu người dùng được toàn vẹn, không rò rỉ, cũng như tuân thủ các nguyên tắc đã được khách hàng đưa ra. • Bảo mật cho hệ thống Internet vạn vật (IoT – Internet of Things): đề cập tới việc bảo mật cho hệ thống các thiết bị điện tử, các thiết bị thống minh tham gia vào mạng Internet. Do đặc thù của hệ thống IoT bao gồm các thiết bị có kích thước nhỏ gọn, năng lực tính toán hạn chế và không thể cài đặt nhiều phần mềm, thuật toán cồng kềnh, phức tạp, thường xử lí các tác vụ đơn giản theo chu trình, thiếu sự bảo vệ trong nhiều tính năng nên dễ bị kể tấn công lợi dụng, đoán biết đặc điểm phần mềm, và khai thác các yếu điểm.

Để đảm bảo cho hệ thống IoT cần phương án linh hoạt, phù hợp với quy mô, ứng dụng của hệ thống khi có thể kết hợp bảo mật, quản lí tập trung với các phương pháp bảo mật được cài đặt trên phần cứng của thiết bị. • Bảo mật ứng dụng là một yêu cầu bảo mật phổ biến trong thời đại phần mềm phát triển vượt bậc. Các kĩ sư lập trình ngoài việc phải tự nâng cao chuyên môn, kinh nghiệm, còn cần biết sử dụng các hệ thống thư viện, kiến trúc phần mềm tuân theo tiêu chuẩn để viết mã ít sai sót, và lường trước được các lỗ hổng có thể gặp phải. • Bảo mật cho nhóm thiết bị đầu cuối là việc người dùng phải tự trang bị cho bản thân kiến thức cần thiết khi tham gia không gian mạng như đề phòng các đường dẫn xấu độc, không tùy tiện truy cập vào các tên miền bị cảnh báo bởi nhà mạng và có khả năng nhận diện các thông tin lừa đảo.

Tổng kết lại, an ninh mạng, với nhiều nền tảng hệ thống, kĩ thuật khác nhau nhưng luôn phải đảm bảo các tiêu chí mấu chốt như sau: tính sẵn sàng (availability) – thể hiện khả năng sẵn sàng cung cấp dịch vụ, bảo mật (confidentiality) – thể hiện khả năng bảo vệ thông tin trước truy cập không có thẩm quyền và tính toàn vẹn (integrity) – khả năng đảm bảo dữ liệu không mất mát, chỉnh sửa trái phép.1: Các yêu cầu cần đạt trong an ninh mạng [4] 3 1.2 Thực trạng của an ninh mạng 1. Nguồn gốc, điểm yếu dễ bị khai thác của hệ thống mạng Điểm yếu của các hệ thống mạng thường bắt nguồn từ một số yếu tố như: các lỗ hổng trong hệ thống hạ tầng mạng, hệ thống các giao thức mạng; sự nhân rộng với tốc độ lớn về cả quy mô, chiều sâu, yêu cầu chất lượng cao của các hệ thống mạng; sự phát triển của cộng đồng tấn công mạng; lỗ hổng trong hệ thống phần mềm, các hệ điều hành của máy tính, điện thoại thông minh; trong chính mục đích thiết kế của hệ thống mạng. a) Tư tưởng thiết kế hệ thống Hệ thống mạng được thiết kế với mục đích kết nối mọi người trên thế giới, xóa bỏ không chỉ giới hạn về kiến thức mà còn về địa lí, văn hóa, kinh tế. Vì vậy ngay từ những dấu chân đầu tiên với mạng INTRANET hay sau này là Internet, việc không gian mạng được mở rộng tự do, cho phép nhiều người được quyền đóng góp, tham gia vào hệ thống mạng trở thành lợi thế nhưng cũng chính là điểm yếu lớn nhất của hệ thống này.

Những người tham gia vào không gian mạng với các mục đích sử dụng khác nhau, thậm chí với mục đích trục lợi qua các cuộc tấn công mạng. Với lượng người dùng khổng như vậy, những kẻ có thể dễ dàng ẩn mình và gây hại cho những người dùng thiếu hiểu biết.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Thuật Toán Học Máy Cho An Ninh Mạng Trên Thiết Bị Nhúng Tại Edge - Cloud" cung cấp cái nhìn sâu sắc về việc áp dụng các thuật toán học máy trong lĩnh vực an ninh mạng, đặc biệt là trên các thiết bị nhúng tại biên (edge) và đám mây (cloud). Tài liệu nhấn mạnh tầm quan trọng của việc bảo vệ dữ liệu và hệ thống trong bối cảnh ngày càng gia tăng các mối đe dọa mạng. Các phương pháp học máy được đề cập không chỉ giúp phát hiện và ngăn chặn các cuộc tấn công mà còn tối ưu hóa hiệu suất của các thiết bị nhúng.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo tài liệu Triên khai ứng dụng mạng neural trong phát hiện xâm nhập trái phép luận văn thạc sĩ, nơi cung cấp thông tin chi tiết về việc sử dụng mạng neural trong việc phát hiện các cuộc tấn công trái phép. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các giải pháp an ninh mạng hiện đại và cách thức chúng có thể được triển khai hiệu quả.

#an ninh mạng

#bảo mật dữ liệu

#thuật toán học máy

#phân tích dữ liệu lớn

#thiết bị nhúng

#học sâu trong an ninh

Chủ đề

Ứng dụng học máy trong an ninh mạng

Bảo mật trong hệ thống phân tán

công nghệ thiết bị nhúng

tương lai của edge và cloud