Xây dựng framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần cứng khả cấu hình

Chuyên khảo kỹ thuật phân tích Xây dựng framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần, đánh giá các khía cạnh quan trọng, đề xuất hướng

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

LỜI CAM ĐOAN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

1. GIỚI THIỆU

1.1. Mục tiêu đề tài

1.2. Nội dung đề tài

2. CƠ SỞ LÝ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN

2.1. Transmission Control Protocol / Internet Protocol Model

2.2. Nền tảng NetFPGA

2.2.1. Field-Programmable Gate Array

2.2.2. Kiến trúc NetFPGA

2.3. Hệ thống phát hiện xâm nhập mạng

2.3.1. Mạng nơ-ron học sâu nhân tạo

2.3.2. Tập dữ liệu

2.7. Công trình liên quan

2.7.1. Các thuật toán học máy về phát hiện bất thường

2.7.2. Các công trình học máy phát hiện bất thường trên FPGA

3. HỆ THỐNG ĐỀ XUẤT VÀ GIẢI PHÁP

3.1. Tổng hợp những yêu cầu hệ thống

3.1.1. Yêu cầu bảo mật trong mạng máy tính

3.1.2. Đặc trưng của dữ liệu

3.1.3. Yêu cầu về khả năng đáp ứng hiệu suất xử lý

3.1.4. Yêu cầu về tiết kiệm năng lượng

3.2. Tổng quan hệ thống đề xuất

3.3. Thiết kế và hiện thực ANIDS

3.3.1. Trích xuất & chuyển hoá đặc trưng (Feature Extraction & Normalization - FEN)

3.3.2. Phát hiện bất thường bằng mô hình mạng tự mã hoá (Anomaly Detection Autoencoder - ADA)

3.3.3. Mô hình phân loại sử dụng mạng nơ-ron nhân tạo (Artificial Neural Classification - ANC)

3.3.4. Xây dựng khung sườn lõi xử lý tính toán ADNN (Anomaly Detection Neural Network)

3.3.4.1. Kiến trúc tổng quan trên NetFPGA-SUME

3.3.4.2. Mô hình mạng nơ-ron trên phần cứng

3.3.4.3. Bộ xử lý lớp nơ-ron

3.3.5. Khối xử lý hàm mất mát

3.3.6. Khối phát hiện bất thường

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Các tiêu chí đánh giá hệ thống

4.1.1. Tài nguyên tổng hợp

4.1.2. Hiệu suất xử lý

4.1.3. Khả năng phân loại

4.2. Kết quả thực nghiệm

4.2.1. Chi tiết về tập dữ liệu

4.2.2. Kết quả tổng hợp

4.2.3. Kết quả đánh giá tốc độ xử lý

4.4. Kết quả đánh giá khả năng phân loại ANIDS

5. KẾT LUẬN

Công bố khoa học

Tài liệu tham khảo

Lý lịch trích ngang

Tóm tắt

I. Tổng quan về Framework Phát Hiện và Phân Loại Bất Thường Mạng

Framework phát hiện và phân loại bất thường mạng là một công cụ quan trọng trong việc bảo vệ an ninh mạng. Nó sử dụng các kỹ thuật học máy để nhận diện và phân loại các hành vi bất thường trong lưu lượng mạng. Việc áp dụng công nghệ này giúp các tổ chức phát hiện sớm các mối đe dọa và giảm thiểu thiệt hại. Nghiên cứu này tập trung vào việc xây dựng một framework hiệu quả, sử dụng phần cứng khả cấu hình để tối ưu hóa hiệu suất.

1.1. Khái niệm về Bất Thường Mạng và Học Máy

Bất thường mạng đề cập đến các hành vi không bình thường trong lưu lượng mạng. Học máy là một phương pháp mạnh mẽ giúp nhận diện những hành vi này thông qua việc phân tích dữ liệu lớn. Việc kết hợp giữa học máy và phát hiện bất thường mạng đang trở thành xu hướng trong lĩnh vực an ninh mạng.

1.2. Tầm quan trọng của An Ninh Mạng trong Thời Đại Số

An ninh mạng ngày càng trở nên quan trọng khi số lượng người dùng Internet tăng lên. Các cuộc tấn công mạng có thể gây ra thiệt hại lớn cho cá nhân và tổ chức. Do đó, việc phát triển các hệ thống phát hiện xâm nhập là cần thiết để bảo vệ thông tin và tài sản.

II. Thách Thức trong Phát Hiện Bất Thường Mạng

Mặc dù có nhiều tiến bộ trong công nghệ phát hiện bất thường mạng, nhưng vẫn tồn tại nhiều thách thức. Các hệ thống hiện tại thường gặp khó khăn trong việc phát hiện các cuộc tấn công mới và tinh vi. Hơn nữa, việc xử lý dữ liệu lớn trong thời gian thực cũng là một vấn đề cần giải quyết.

2.1. Khó Khăn trong Việc Phát Hiện Cuộc Tấn Công Mới

Nhiều hệ thống phát hiện xâm nhập chỉ có thể nhận diện các cuộc tấn công đã biết. Điều này khiến cho các cuộc tấn công mới, chưa được ghi nhận, dễ dàng vượt qua hệ thống bảo mật.

2.2. Tốc Độ Xử Lý Dữ Liệu Lớn

Việc xử lý lượng lớn dữ liệu trong thời gian thực là một thách thức lớn. Các hệ thống cần phải có khả năng phân tích và phản hồi nhanh chóng để đảm bảo an ninh mạng hiệu quả.

III. Phương Pháp Xây Dựng Framework Phát Hiện Bất Thường Mạng

Để xây dựng một framework hiệu quả, cần áp dụng các phương pháp học máy tiên tiến và phần cứng khả cấu hình. Việc này không chỉ giúp tăng tốc độ xử lý mà còn cải thiện độ chính xác trong việc phát hiện bất thường.

3.1. Sử Dụng Kỹ Thuật Học Máy Hiện Đại

Các kỹ thuật học máy như mạng nơ-ron sâu và cây quyết định có thể được áp dụng để phát hiện bất thường. Những phương pháp này giúp cải thiện khả năng nhận diện các hành vi bất thường trong lưu lượng mạng.

3.2. Tích Hợp Phần Cứng Khả Cấu Hình

Phần cứng khả cấu hình như FPGA cho phép tối ưu hóa hiệu suất xử lý. Việc sử dụng FPGA giúp giảm thiểu tiêu thụ năng lượng và tăng tốc độ xử lý, từ đó nâng cao khả năng phát hiện bất thường.

IV. Ứng Dụng Thực Tiễn của Framework Phát Hiện Bất Thường Mạng

Framework phát hiện và phân loại bất thường mạng có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ doanh nghiệp đến chính phủ. Việc áp dụng công nghệ này giúp bảo vệ thông tin nhạy cảm và giảm thiểu rủi ro từ các cuộc tấn công mạng.

4.1. Ứng Dụng trong Doanh Nghiệp

Doanh nghiệp có thể sử dụng framework này để bảo vệ thông tin khách hàng và tài sản. Việc phát hiện sớm các hành vi bất thường giúp giảm thiểu thiệt hại và bảo vệ danh tiếng của doanh nghiệp.

4.2. Ứng Dụng trong Chính Phủ

Chính phủ có thể áp dụng framework để bảo vệ thông tin quốc gia và an ninh quốc gia. Việc phát hiện các cuộc tấn công mạng có thể giúp ngăn chặn các mối đe dọa tiềm tàng.

V. Kết Luận và Tương Lai của Framework Phát Hiện Bất Thường Mạng

Framework phát hiện và phân loại bất thường mạng dựa trên học máy và phần cứng khả cấu hình đang mở ra nhiều cơ hội mới trong lĩnh vực an ninh mạng. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều cải tiến và giải pháp hiệu quả hơn.

5.1. Hướng Phát Triển Trong Tương Lai

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện độ chính xác và tốc độ xử lý của các hệ thống phát hiện bất thường. Việc tích hợp trí tuệ nhân tạo vào các hệ thống này sẽ là một xu hướng quan trọng.

5.2. Tác Động Đến An Ninh Mạng

Framework này có thể tạo ra những thay đổi tích cực trong cách thức bảo vệ an ninh mạng. Việc phát hiện và phản hồi nhanh chóng sẽ giúp giảm thiểu thiệt hại từ các cuộc tấn công mạng.

27/07/2025

Bạn đang xem trước tài liệu:

Xây dựng framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần cứng khả cấu hình

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Theo báo cáo của tổ chức Statista năm 2022, có khoảng 5 tỷ người dùng Internet, chiếm 63,29% dân số toàn cầu. Sự phát triển nhanh chóng của mạng máy tính và các thiết bị IoT đã mở rộng quy mô và tính phức tạp của môi trường mạng, đồng thời làm gia tăng các nguy cơ về an ninh mạng. Các cuộc tấn công mạng như Denial of Service (DoS) đã ảnh hưởng đến tài nguyên số của hơn 72 quốc gia trong quý 1 năm 2021, gây thiệt hại nghiêm trọng về tài chính và dữ liệu cá nhân. Trong bối cảnh đó, hệ thống phát hiện xâm nhập mạng dựa trên dấu hiệu bất thường (Anomaly-based Network Intrusion Detection System - ANIDS) trở thành giải pháp thiết yếu nhằm nhận diện và phản hồi kịp thời các hành vi xâm nhập.

Mục tiêu nghiên cứu của luận văn là xây dựng một framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần cứng khả cấu hình (FPGA), nhằm nâng cao hiệu suất xử lý và độ chính xác của hệ thống ANIDS. Nghiên cứu tập trung vào việc áp dụng mô hình mạng tự mã hoá (Autoencoder) cho phát hiện bất thường và mạng nơ-ron nhân tạo (Artificial Neural Network) cho phân loại, triển khai trên nền tảng NetFPGA-SUME. Phạm vi nghiên cứu bao gồm phân tích và thử nghiệm trên các tập dữ liệu phổ biến như NSL-KDD, UNSW-NB15 và CIC-IDS2017, với thời gian thực hiện từ tháng 2 đến tháng 6 năm 2022 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM.

Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện khả năng phát hiện xâm nhập mạng với độ chính xác đạt trên 87%, đồng thời tăng tốc độ xử lý dữ liệu lên đến 31 Gbps, giúp giảm thiểu rủi ro an ninh mạng và chi phí vận hành hệ thống. Kết quả này góp phần thúc đẩy ứng dụng học máy trên phần cứng khả cấu hình trong lĩnh vực an ninh mạng, đáp ứng yêu cầu ngày càng cao về tốc độ và hiệu quả xử lý trong môi trường mạng hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mô hình TCP/IP và kỹ thuật học máy/học sâu trong phát hiện xâm nhập mạng. Mô hình TCP/IP cung cấp kiến trúc mạng chuẩn, gồm các tầng ứng dụng, vận chuyển, mạng, liên kết và vật lý, là nền tảng cho việc truyền tải và quản lý dữ liệu mạng. Các tầng này cũng là mục tiêu tiềm năng của các cuộc tấn công mạng, do đó việc bảo mật toàn diện trên từng tầng là cần thiết.

Về kỹ thuật học máy, nghiên cứu sử dụng mạng tự mã hoá (Autoencoder) để phát hiện bất thường dựa trên khả năng học biểu diễn dữ liệu bình thường và phát hiện các điểm dị thường khi tái tạo dữ liệu. Mạng nơ-ron nhân tạo (Artificial Neural Network) được áp dụng cho nhiệm vụ phân loại các loại tấn công mạng dựa trên đặc trưng trích xuất từ dữ liệu. Các khái niệm chính bao gồm:

Anomaly Detection Autoencoder (ADA): mô hình phát hiện bất thường dựa trên mạng tự mã hoá.
Artificial Neural Classification (ANC): mô hình phân loại sử dụng mạng nơ-ron nhân tạo.
Phần cứng khả cấu hình (FPGA): thiết bị cho phép tái cấu hình để tăng tốc xử lý thuật toán học máy.
Tập dữ liệu mạng NSL-KDD, UNSW-NB15, CIC-IDS2017: các bộ dữ liệu chuẩn dùng để huấn luyện và đánh giá hệ thống ANIDS.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm ba tập dữ liệu mạng phổ biến: NSL-KDD (khoảng 125.973 mẫu), UNSW-NB15 (khoảng 175.341 mẫu), và CIC-IDS2017 (khoảng 2.830.743 mẫu). Các tập dữ liệu này chứa các mẫu dữ liệu mạng bình thường và bất thường với nhiều loại tấn công khác nhau, được sử dụng để huấn luyện và kiểm thử mô hình.

Phương pháp phân tích bao gồm xây dựng và huấn luyện mô hình ADA cho phát hiện bất thường trên tập NSL-KDD, và mô hình ANC cho phân loại trên tập UNSW-NB15 và CIC-IDS2017. Các mô hình được triển khai trên phần cứng khả cấu hình NetFPGA-SUME nhằm tăng tốc độ xử lý. Cỡ mẫu huấn luyện và kiểm thử được lựa chọn dựa trên phân phối dữ liệu trong từng tập, đảm bảo tính đại diện và độ tin cậy.

Timeline nghiên cứu kéo dài từ tháng 2 đến tháng 6 năm 2022, bao gồm các bước: khảo sát tài liệu và dữ liệu, thiết kế mô hình học máy, triển khai trên phần cứng NetFPGA, thực nghiệm và đánh giá kết quả. Phương pháp đánh giá dựa trên các tiêu chí: độ chính xác (accuracy), tỷ lệ âm tính giả (False Negative Rate - FNR), tốc độ xử lý (Gbps), và tài nguyên phần cứng sử dụng (LUT, FF).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện bất thường của mô hình ADA trên tập NSL-KDD: Mô hình đạt độ chính xác 90,87% với tỷ lệ FNR là 7%, cho thấy khả năng nhận diện hành vi bất thường mạng hiệu quả. So sánh với các thuật toán truyền thống, ADA cải thiện độ chính xác trung bình khoảng 5-8%.
Khả năng phân loại của mô hình ANC trên tập UNSW-NB15 và CIC-IDS2017: Độ chính xác đạt 87,22% với tỷ lệ FNR chỉ 3%, thể hiện khả năng phân biệt chính xác các loại tấn công mạng khác nhau. Kết quả này vượt trội so với một số nghiên cứu trước đây trên cùng tập dữ liệu, tăng khoảng 4-6% về độ chính xác.
Hiệu suất xử lý trên phần cứng NetFPGA-SUME: Mô hình ADA đạt tốc độ truyền tải dữ liệu 28,7 Gbps và khả năng xử lý 18,7 Gops (tỷ lệ phép tính trên giây), trong khi ANC đạt 31 Gbps và 9,1 Gops. Tài nguyên phần cứng sử dụng lần lượt là 21% LUT và 15,1% FF, cho thấy khả năng tích hợp hiệu quả trên nền tảng FPGA.
So sánh hiệu quả năng lượng và tốc độ với GPU: FPGA NetFPGA-SUME thể hiện hiệu suất xử lý vượt trội so với GPU NVIDIA Titan X Pascal, với tốc độ tăng từ 2,1 đến 3,5 lần và hiệu quả năng lượng cao hơn từ 2,3 đến 4,3 lần, phù hợp cho các ứng dụng yêu cầu xử lý thời gian thực và tiết kiệm năng lượng.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao đến từ việc kết hợp mô hình học máy tiên tiến với phần cứng khả cấu hình, tận dụng ưu điểm của FPGA trong việc xử lý song song và tối ưu hóa tài nguyên. Việc sử dụng mạng tự mã hoá giúp phát hiện các mẫu bất thường mới mà các phương pháp dựa trên mẫu cũ không thể nhận diện, giảm thiểu tỷ lệ âm tính giả.

So với các nghiên cứu trước đây, việc triển khai trực tiếp trên NetFPGA-SUME không chỉ nâng cao tốc độ xử lý mà còn giảm thiểu tiêu thụ năng lượng, điều mà GPU khó có thể cạnh tranh. Kết quả này có ý nghĩa quan trọng trong việc phát triển các hệ thống ANIDS có khả năng ứng dụng thực tế trong môi trường mạng lớn và phức tạp.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và FNR giữa các mô hình, cũng như bảng thống kê tài nguyên phần cứng và tốc độ xử lý, giúp minh họa rõ ràng hiệu quả của giải pháp đề xuất.

Đề xuất và khuyến nghị

Triển khai rộng rãi hệ thống ANIDS trên nền tảng FPGA: Khuyến nghị các tổ chức và doanh nghiệp áp dụng framework phát hiện và phân loại bất thường mạng trên phần cứng khả cấu hình để nâng cao hiệu quả bảo mật, với mục tiêu giảm tỷ lệ xâm nhập thành công xuống dưới 5% trong vòng 12 tháng.
Tối ưu hóa mô hình học máy cho từng môi trường mạng cụ thể: Đề xuất nghiên cứu thêm để điều chỉnh tham số mô hình ADA và ANC phù hợp với đặc điểm lưu lượng mạng tại từng địa phương hoặc tổ chức, nhằm tăng độ chính xác lên trên 92% trong 6 tháng tiếp theo.
Phát triển hệ thống cảnh báo sớm và phản hồi tự động: Xây dựng module cảnh báo và phản ứng nhanh dựa trên kết quả phát hiện bất thường, giúp giảm thời gian phản hồi sự cố xuống dưới 1 phút, do các đội ngũ an ninh mạng thực hiện trong vòng 9 tháng.
Đào tạo và nâng cao năng lực nhân sự an ninh mạng: Tổ chức các khóa đào tạo chuyên sâu về kỹ thuật học máy và FPGA cho cán bộ kỹ thuật, nhằm đảm bảo vận hành và bảo trì hệ thống hiệu quả, với kế hoạch thực hiện trong 1 năm.

Đối tượng nên tham khảo luận văn

Chuyên gia và nhà nghiên cứu an ninh mạng: Luận văn cung cấp kiến thức sâu về ứng dụng học máy và phần cứng khả cấu hình trong phát hiện xâm nhập, hỗ trợ phát triển các giải pháp bảo mật tiên tiến.
Kỹ sư phát triển hệ thống mạng và bảo mật: Tham khảo để áp dụng framework ANIDS trên nền tảng FPGA, giúp tăng tốc xử lý và cải thiện độ chính xác trong môi trường mạng doanh nghiệp.
Sinh viên và học viên cao học ngành Khoa học Máy tính, An toàn Thông tin: Tài liệu tham khảo quý giá về lý thuyết, phương pháp và thực nghiệm trong lĩnh vực phát hiện bất thường mạng sử dụng kỹ thuật học máy.
Doanh nghiệp và tổ chức quản lý hạ tầng mạng: Hướng dẫn triển khai hệ thống phát hiện xâm nhập hiệu quả, giảm thiểu rủi ro an ninh và tổn thất tài chính do các cuộc tấn công mạng.

Câu hỏi thường gặp

Tại sao sử dụng FPGA thay vì GPU cho hệ thống phát hiện xâm nhập?
FPGA cung cấp khả năng xử lý song song cao, tiêu thụ năng lượng thấp hơn và có thể tùy chỉnh phần cứng cho các thuật toán học máy, giúp tăng tốc độ xử lý và hiệu quả năng lượng so với GPU, đặc biệt trong các ứng dụng thời gian thực.
Mô hình Autoencoder hoạt động như thế nào trong phát hiện bất thường mạng?
Autoencoder học cách tái tạo dữ liệu bình thường, khi gặp dữ liệu bất thường, sai số tái tạo sẽ lớn hơn, từ đó phát hiện các hành vi xâm nhập mới mà không cần mẫu tấn công trước đó.
Các tập dữ liệu NSL-KDD, UNSW-NB15 và CIC-IDS2017 có điểm gì đặc biệt?
Đây là các bộ dữ liệu chuẩn, đa dạng về loại tấn công và lưu lượng mạng, được sử dụng rộng rãi để huấn luyện và đánh giá các hệ thống phát hiện xâm nhập, giúp đảm bảo tính khách quan và khả năng so sánh kết quả.
Khả năng mở rộng của framework này như thế nào?
Framework được thiết kế trên phần cứng khả cấu hình có thể tái cấu hình để tích hợp thêm các mô hình học máy mới hoặc mở rộng quy mô xử lý, phù hợp với các môi trường mạng có lưu lượng lớn và đa dạng.
Làm thế nào để đảm bảo độ chính xác và giảm tỷ lệ âm tính giả?
Bằng cách kết hợp mô hình mạng tự mã hoá và mạng nơ-ron nhân tạo, cùng với việc huấn luyện trên các tập dữ liệu đa dạng và tối ưu tham số, hệ thống đạt được độ chính xác cao và giảm thiểu tỷ lệ bỏ sót các cuộc tấn công.

Kết luận

Đã xây dựng thành công framework phát hiện và phân loại bất thường mạng dựa trên kỹ thuật học máy và phần cứng khả cấu hình NetFPGA-SUME.
Mô hình ADA đạt độ chính xác 90,87% trên tập NSL-KDD với FNR 7%, mô hình ANC đạt 87,22% trên UNSW-NB15 và CIC-IDS2017 với FNR 3%.
Tốc độ xử lý dữ liệu đạt tới 31 Gbps, hiệu suất tính toán lên đến 18,7 Gops, sử dụng tài nguyên phần cứng hiệu quả.
Giải pháp góp phần nâng cao khả năng phát hiện xâm nhập mạng trong môi trường thực tế, đồng thời tiết kiệm năng lượng và chi phí vận hành.
Đề xuất tiếp tục mở rộng nghiên cứu, tối ưu mô hình và phát triển hệ thống cảnh báo tự động trong các giai đoạn tiếp theo.

Hành động tiếp theo là triển khai thử nghiệm thực tế tại các tổ chức mạng lớn và phát triển các module tích hợp để hoàn thiện hệ thống ANIDS toàn diện, góp phần bảo vệ an ninh mạng quốc gia và doanh nghiệp.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HOÀNG QUỐC BẢO XÂY DỰNG FRAMEWORK PHÁT HIỆN VÀ PHÂN LOẠI BẤT THƯỜNG MẠNG DỰA TRÊN CÁC KỸ THUẬT HỌC MÁY VÀ PHẦN CỨNG KHẢ CẤU HÌNH Chuyên ngành: Khoa học Máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 7 năm 2022 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán bộ hướng dẫn khoa học : PGS. Trần Ngọc Thịnh Cán bộ chấm nhận xét 1 : PGS.

Đinh Đức Anh Vũ Cán bộ chấm nhận xét 2 : PGS. Trần Mạnh Hà Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 28 tháng 7 năm 2022. Thành phần Hội đồng đánh giá Luận văn thạc sĩ gồm: 1.

Chủ tịch: PGS. PHẠM QUỐC CƯỜNG 2. LÊ TRỌNG NHÂN 3. Phản biện 1: PGS.

ĐINH ĐỨC ANH VŨ 4. Phản biện 2: PGS. TRẦN MẠNH HÀ 5. Ủy viên: PGS.

TRẦN NGỌC THỊNH Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN HOÀNG QUỐC BẢO MSHV: 2070402 Ngày, tháng, năm sinh: 15/8/1996 Nơi sinh: Vũng Tàu Ngành: Khoa học máy tính Mã số: 8480101 I. TÊN ĐỀ TÀI: Xây dựng framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần cứng khả cấu hình. A framework for network anomaly detection and classification based on machine learning techniques and reconfigurable hardware.

NHIỆM VỤ VÀ NỘI DUNG: • Tìm hiểu các vấn đề về hành vi xâm nhập bất thường mạng, các tập dữ liệu phổ biến hiện nay, kỹ thuật học máy/học sâu, nền tảng phần cứng khả cấu hình cho thiết bị mạng và cơ sở lý thuyết liên quan. • Phân tích tập dữ liệu, đề xuất giải pháp phát hiện phân loại bất thường mạng sử dụng các kỹ thuật học máy/học sâu. • Xây dựng khung sườn lõi xử lý tính toán mô hình học máy ứng dụng phân loại hành vi bất thường mạng. • Xây dựng môi trường đánh giá, kiểm thử hệ thống, và đưa ra những định hướng phát triển trong tương lai.

NGÀY GIAO NHIỆM VỤ: 14/02/2022 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 10/06/2022 V. CÁN BỘ HƯỚNG DẪN: PGS. TRẦN NGỌC THỊNH.

HCM, ngày 28 tháng 7 năm 2022 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên và chữ ký) LỜI CÁM ƠN Lời đầu tiên, tác giả xin trân trọng gửi lời cảm ơn đến thầy hướng dẫn PGS. Trần Ngọc Thịnh đã không ngần ngại giúp đỡ trong quá trình thực hiện đề tài, cảm ơn thầy đã tận tình góp ý và định hướng trong quá trình tiến hành nghiên cứu. Một lần nữa, tác giả xin cảm ơn thầy hướng dẫn và thầy PGS. Phạm Quốc Cường đã tạo điều kiện thuận lợi để tác giả có thể thực hiện đề tài, cũng như môi trường làm việc học tập hiệu quả để có được kết quả như hôm nay.

Gửi đến những người bạn đồng hành trong CE Lab, cám ơn anh Ngô Đức Minh, anh Lê Tấn Long, và những anh chị khóa trước đã để lại những nền tảng cơ sở giúp cho tác giả có thể tiếp tục phát triển công trình nghiên cứu này. Gửi lời tri ân tới các bạn đồng hành Nguyễn Xuân Quang, Huỳnh Hoàng Kha và Huỳnh Phúc Nghị đã không quản ngại giúp đỡ tác giả trong quá trình hoàn thành luận văn này. Kính xin gửi những lời thân yêu và sự trân trọng tới gia đình bạn bè, và những người xung quanh đã luôn ủng hộ tác giả về mặt tinh thần trong những lúc khó khăn. Ngoài ra, tác giả cũng xin chân thành cảm ơn thầy cô trường Đại học Bách Khoa - ĐHQG - HCM đã tận tình truyền đạt kiến thức trong suốt quá trình theo học Thạc sĩ.

Cuối cùng xin gửi lời cảm ơn tới công ty Xilinx đã tài trợ bản quyền phần mềm và board NetFPGA-SUME để tác giả có thể điều kiện thực hiện nghiên cứu. Hồ Chí Minh, tháng 7 năm 2022 Trần Hoàng Quốc Bảo i TÓM TẮT LUẬN VĂN THẠC SĨ Phát hiện xâm nhập mạng dựa trên dấu hiệu bất thường (Anomaly-based Network Intrusion Detection System - ANIDS) được ứng dụng kỹ thuật học máy và học sâu, đang là lĩnh vực được nhiều công trình nghiên cứu trong thời gian gần đây. Trước những nguy cơ về tấn công mạng, môi trường mạng cần được đảm bảo an ninh nhằm giảm thiểu những rủi ro về mặt chi phí và thông tin cá nhân. Để phòng tránh được những tiềm ẩn đó, thì hệ thống ANIDS phải đáp ứng được khả năng nhận dạng hành vi bất thường và khả năng phản hồi khi có dấu hiệu rủi ro.

Trong những năm gần đây, kỹ thuật học máy và học sâu (Machine Learning/Deep Learning) đang được áp dụng trong nhiều lĩnh vực và đặc biệt IDS. Để đánh giá được khả năng nhận dạng bất thường một cách hiệu quả thì ANIDS cần được kiểm thử trên tập dữ liệu phổ biến như NSL-KDD, UNSW-NB15, và CIC-IDS2017. Trong đề tài này, tác giả đề xuất giải pháp xây dựng khung sườn tính toán mô hình học máy/học sâu trên phần cứng mạng khả cấu hình (NetFPGA) cho kiến trúc ANIDS. Khối thiết kế phát hiện bất thường bằng mạng tự mã hoá (Anomaly Detection Autoencoder - ADA) sẽ được dùng để xử lý dữ liệu cho bộ NSL-KDD.

Và mô hình đề xuất phân loại bằng mạng nơ-ron nhân tạo (Artificial Neural Classification - ANC) sẽ được dùng để phân loại cho dữ liệu của UNSW-NB15, và CIC-IDS2017. Thiết bị phần cứng hiện thực NetFPGA-SUME được thiết kế với mô hình ADA và ANC sử dụng 21% tài nguyên LUT, 15.1% FF, sử dụng lần lượt 19. Tốc độ truyền tải dữ liệu của ADA đạt được 28.7 Gbps và ANC là 31. Khi xét về lưu lượng xử lý số phép tính thì ADA có thể xử lý ở tốc độ 18.7 Gops, còn ADA là 9.1 Gops khi xét ở những dữ liệu khác nhau.

Còn đối với độ chính xác khi đánh giá trên tập dữ liệu NSL-KDD thì ADA đạt được 90.87% với tỷ lệ FNR (False Negative Rate) là 7. ANC khi xử lý trên dữ liệu UNSW-NB15 và CIC-IDS2017 có độ chính xác lần lượt là 87.22%, với tỷ lệ FNR đạt được 3. Từ khóa - Machine Learning, IDS, An ninh mạng, FPGA ii ABSTRACT Anomaly-based Network Intrusion Detection System (ANIDS) is applied with machine learning or deep learning techniques, which is a field of research in recent times. Before the risks of cyber attacks, the network environment needs to be secured to minimize the damage costs and personal information.

To avoid those potentials, the ANIDS must adapt the ability to recognize abnormal behavior and alert risky signs. In recent years, machine learning or deep learning techniques are being used in many fields and IDS. For evaluation of the ability to identify anomalies, ANIDS is tested on popular datasets such as NSL-KDD, UNSW-NB15, and CIC-IDS2017. In this study, the author proposes a solution to build a computational framework for machine learning/deep learning models on configurable network hardware (NetFPGA) in ANIDS.

The Anomaly Detection Autoencoder (ADA) design block will be used to process data for NSL-KDD. Artificial Neural Classification (ANC) will be used to classify data in UNSW-NB15, CIC-IDS2017. The NetFPGA-SUME which is an implementation hardware device is designed with ADA, ANC models using 21% LUTs resources, 15. The bandwidth of ADA is 28.7 Gbps, ANC is 31.

In terms of computational traffic, ADA can process at 18.7 Gops, while ADA is 9.1 Gops with different datasets. With the NSL-KDD dataset, the ADA achieved 90.87% accuracy and the FNR of 7. The ANC when processing on UNSW-NB15, CIC-IDS2017 has an accuracy of 87.22%, respectively, with FNR rates achieving 3. Keywords: Machine Learning, IDS, Cyber Security, FPGA.

iii iv Lời cam đoan Tôi xin cam đoan ngoại trừ các trường hợp tham khảo cụ thể đối với công việc của người khác thì nội dung này là bản gốc và chưa được đệ trình toàn bộ nội dung cho bất kỳ công trình nào khác. Nếu không đúng như đã nêu trên, tôi xin hoàn toàn chịu trách nhiệm về đề tài của mình. Một phần của công trình này đã được công bố dưới hình thức bài báo khoa học: 1. Tran Hoang Quoc Bao, Long Tan Le, Tran Ngoc Thinh and Cong- Kha Pham.

A High-Performance FPGA-Based Feature Engineering Architecture for Intrusion Detection System in SDN Networks. In The First International Conference on Intelligence of Things (ICIT 2022), Hanoi, Vietnam, 2022. Tran Ngoc Thinh, Tran Hoang Quoc Bao, Duc-Minh Ngo, Cuong Pham-Quoc. High-performance anomaly intrusion detection system with ensemble neural networks on reconfigurable hardware.

In Concurrency and Computation Practice and Experience, 2021, p. e6370, ISBN/ISSN: 1532-0634 (SCIE) Trần Hoàng Quốc Bảo MỤC LỤC Lời cám ơn i Tóm tắt Luận Văn Thạc sĩ ii Lời cam đoan iv Danh sách hình vẽ viii Danh sách bảng x 1 GIỚI THIỆU 1 1.1 Mục tiêu đề tài .3 Nội dung đề tài. 7 2 CƠ SỞ LÝ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN 8 2.1 Transmission Control Protocol / Internet Protocol Model .2 Nền tảng NetFPGA .1 Field-Programmable Gate Array .2 Kiến trúc NetFPGA .3 Hệ thống phát hiện xâm nhập mạng .1 Mạng nơ-ron học sâu nhân tạo .6 Tập dữ liệu. 35 v MỤC LỤC vi 2.7 Công trình liên quan .1 Các thuật toán học máy về phát hiện bất thường .2 Các công trình học máy phát hiện bất thường trên FPGA.

41 3 HỆ THỐNG ĐỀ XUẤT VÀ GIẢI PHÁP 43 3.1 Tổng hợp những yêu cầu hệ thống .1 Yêu cầu bảo mật trong mạng máy tính .2 Đặc trưng của dữ liệu .3 Yêu cầu về khả năng đáp ứng hiệu suất xử lý.4 Yêu cầu về tiết kiệm năng lượng .2 Tổng quan hệ thống đề xuất .3 Thiết kế và hiện thực ANIDS.1 Trích xuất & chuyển hoá đặc trưng (Feature Extraction & Normalization - FEN) .2 Phát hiện bất thường bằng mô hình mạng tự mã hoá (Anomaly Detection Autoencoder - ADA) .3 Mô hình phân loại sử dụng mạng nơ-ron nhân tạo (Artificial Neural Classification - ANC) .4 Xây dựng khung sườn lõi xử lý tính toán ADNN (Anomaly Detection Neural Network) .1 Kiến trúc tổng quan trên NetFPGA-SUME .2 Mô hình mạng nơ-ron trên phần cứng .3 Bộ xử lý lớp nơ-ron .5 Khối xử lý hàm mất mát .6 Khối phát hiện bất thường. 65 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 67 4.1 Các tiêu chí đánh giá hệ thống .1 Tài nguyên tổng hợp .2 Hiệu suất xử lý .3 Khả năng phân loại.2 Kết quả thực nghiệm .1 Chi tiết về tập dữ liệu .2 Kết quả tổng hợp .3 Kết quả đánh giá tốc độ xử lý. 74 MỤC LỤC vii 4.4 Kết quả đánh giá khả năng phân loại ANIDS.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Xây dựng framework phát hiện và phân loại bất thường mạng dựa trên các kỹ thuật học máy và phần cứng khả cấu hình

LỜI CÁM ƠN

TÓM TẮT LUẬN VĂN THẠC SĨ

LỜI CAM ĐOAN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

1. GIỚI THIỆU

1.1. Mục tiêu đề tài

1.2. Nội dung đề tài

2. CƠ SỞ LÝ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN

2.1. Transmission Control Protocol / Internet Protocol Model

2.2. Nền tảng NetFPGA

2.2.1. Field-Programmable Gate Array

2.2.2. Kiến trúc NetFPGA

2.3. Hệ thống phát hiện xâm nhập mạng

2.3.1. Mạng nơ-ron học sâu nhân tạo

2.3.2. Tập dữ liệu

2.7. Công trình liên quan

2.7.1. Các thuật toán học máy về phát hiện bất thường

2.7.2. Các công trình học máy phát hiện bất thường trên FPGA

3. HỆ THỐNG ĐỀ XUẤT VÀ GIẢI PHÁP

3.1. Tổng hợp những yêu cầu hệ thống

3.1.1. Yêu cầu bảo mật trong mạng máy tính

3.1.2. Đặc trưng của dữ liệu

3.1.3. Yêu cầu về khả năng đáp ứng hiệu suất xử lý

3.1.4. Yêu cầu về tiết kiệm năng lượng

3.2. Tổng quan hệ thống đề xuất

3.3. Thiết kế và hiện thực ANIDS

3.3.1. Trích xuất & chuyển hoá đặc trưng (Feature Extraction & Normalization - FEN)

3.3.2. Phát hiện bất thường bằng mô hình mạng tự mã hoá (Anomaly Detection Autoencoder - ADA)

3.3.3. Mô hình phân loại sử dụng mạng nơ-ron nhân tạo (Artificial Neural Classification - ANC)

3.3.4. Xây dựng khung sườn lõi xử lý tính toán ADNN (Anomaly Detection Neural Network)

3.3.4.1. Kiến trúc tổng quan trên NetFPGA-SUME

3.3.4.2. Mô hình mạng nơ-ron trên phần cứng

3.3.4.3. Bộ xử lý lớp nơ-ron

3.3.5. Khối xử lý hàm mất mát

3.3.6. Khối phát hiện bất thường

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Các tiêu chí đánh giá hệ thống

4.1.1. Tài nguyên tổng hợp

4.1.2. Hiệu suất xử lý

4.1.3. Khả năng phân loại

4.2. Kết quả thực nghiệm

4.2.1. Chi tiết về tập dữ liệu

4.2.2. Kết quả tổng hợp

4.2.3. Kết quả đánh giá tốc độ xử lý

4.4. Kết quả đánh giá khả năng phân loại ANIDS

5. KẾT LUẬN

Công bố khoa học

Tài liệu tham khảo

Lý lịch trích ngang

I. Tổng quan về Framework Phát Hiện và Phân Loại Bất Thường Mạng

1.1. Khái niệm về Bất Thường Mạng và Học Máy

1.2. Tầm quan trọng của An Ninh Mạng trong Thời Đại Số

II. Thách Thức trong Phát Hiện Bất Thường Mạng

2.1. Khó Khăn trong Việc Phát Hiện Cuộc Tấn Công Mới

2.2. Tốc Độ Xử Lý Dữ Liệu Lớn

III. Phương Pháp Xây Dựng Framework Phát Hiện Bất Thường Mạng

3.1. Sử Dụng Kỹ Thuật Học Máy Hiện Đại

3.2. Tích Hợp Phần Cứng Khả Cấu Hình

IV. Ứng Dụng Thực Tiễn của Framework Phát Hiện Bất Thường Mạng

4.1. Ứng Dụng trong Doanh Nghiệp

4.2. Ứng Dụng trong Chính Phủ

V. Kết Luận và Tương Lai của Framework Phát Hiện Bất Thường Mạng

5.1. Hướng Phát Triển Trong Tương Lai

5.2. Tác Động Đến An Ninh Mạng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Hoàng Quốc Bảo

Người hướng dẫn: PGS. Trần Ngọc Thịnh

Trường học: Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa học máy tính

Đề tài: Framework Phát Hiện và Phân Loại Bất Thường Mạng Dựa Trên Học Máy và Phần Cứng Khả Cấu Hình

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2022

Địa điểm: TP. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu