Luận án tiến sĩ kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng

Luận án tiến sĩ nghiên cứu kỹ thuật học máy và tiền xử lý dữ liệu nhằm nâng cao chất lượng phân lớp trong hệ thống phát hiện xâm nhập mạng.

Trường đại học

Trường Đại Học Lạc Hồng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2022

175

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

1. CHƯƠNG 1: HỆ THỐNG PHÁT HIỆN XÂM NHẬP

1.1. Giới thiệu về IDS

1.2. Phân loại IDS

1.3. IDS sử dụng kỹ thuật học máy

1.4. Tính cấp thiết của đề tài luận án

1.5. Mục tiêu nghiên cứu

1.6. Đối tượng và phạm vi nghiên cứu

1.6.1. Đối tượng nghiên cứu

1.6.2. Phạm vi nghiên cứu

1.7. Phương pháp nghiên cứu

1.8. Ý nghĩa khoa học và thực tiễn

1.8.1. Ý nghĩa khoa học

1.8.2. Ý nghĩa thực tiễn

1.9. Những điểm đóng góp mới

1.10. Kết cấu của luận án

2. CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Lựa chọn thuộc tính

2.2. Lấy mẫu lại tập dữ liệu

2.3. Kỹ thuật học máy

2.4. Tập dữ liệu sử dụng cho các IDS

2.5. Chỉ số đánh giá hiệu năng các IDS

2.6. Các nghiên cứu liên quan về học máy cho IDS

2.6.1. Lựa chọn thuộc tính

2.6.2. Lấy mẫu lại tập dữ liệu

2.6.3. Các mô hình học máy cho các IDS

3. GIẢI PHÁP LỰA CHỌN THUỘC TÍNH

3.1. Giải pháp lựa chọn thuộc tính đề xuất

3.1.1. Các chỉ số đo thông tin

3.1.2. Thuật toán loại bỏ thuộc tính ngược BFE

3.1.3. Thuật toán chọn thuộc tính thuận FFC

3.1.4. Thuật toán lựa chọn thuộc tính đề xuất

3.2. Kết quả thực hiện

3.2.1. Lựa chọn thuộc tính với kiểu tấn công Worms

3.2.2. Lựa chọn thuộc tính với kiểu tấn công Shellcode

3.2.3. Lựa chọn thuộc tính với kiểu tấn công Backdoor

3.2.4. Lựa chọn thuộc tính với kiểu tấn công Analysis

3.2.5. Lựa chọn thuộc tính với kiểu tấn công Recce

3.2.6. Lựa chọn thuộc tính với kiểu tấn công DoS

3.2.7. Lựa chọn thuộc tính với kiểu tấn công Fuzzers

3.2.8. Lựa chọn thuộc tính với kiểu tấn công Exploits

3.2.9. Lựa chọn thuộc tính với kiểu tấn công Generic

3.3. So sánh, nhận xét và đánh giá về giải pháp lựa chọn thuộc tính đề xuất

4. GIẢI PHÁP LẤY MẪU LẠI TẬP DỮ LIỆU

4.1. Giải pháp lấy mẫu lại tập dữ liệu đề xuất

4.1.1. Giải pháp tăng mẫu

4.1.2. Giải pháp giảm mẫu

4.2. Kết quả thực hiện

4.2.1. Tăng mẫu tập dữ liệu

4.2.2. Giảm mẫu tập dữ liệu

4.2.3. Tổng hợp kết quả và nhận xét về giải pháp lấy mẫu lại tập dữ liệu

5. KỸ THUẬT PHỐI HỢP CHO MÔ HÌNH IDS

5.1. Kỹ thuật phối hợp đề xuất

5.2. Kết quả thực hiện

5.2.1. Sử dụng kỹ thuật phối hợp với kiểu tấn công Worms

5.2.2. Sử dụng kỹ thuật phối hợp với kiểu tấn công Shellcode

5.2.3. Sử dụng kỹ thuật phối hợp với kiểu tấn công Backdoor

5.2.4. Sử dụng kỹ thuật phối hợp với kiểu tấn công Analysis

5.2.5. Sử dụng kỹ thuật phối hợp với kiểu tấn công Recce

5.2.6. Sử dụng kỹ thuật phối hợp với kiểu tấn công DoS

5.2.7. Sử dụng kỹ thuật phối hợp với kiểu tấn công Fuzzers

5.2.8. Sử dụng kỹ thuật phối hợp với kiểu tấn công Exploits

5.2.9. Sử dụng kỹ thuật phối hợp với kiểu tấn công Generic

5.3. Tổng hợp kết quả và nhận xét về kỹ thuật phối hợp

5.4. Mô hình phân lớp lai đề xuất

6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Đánh giá về các kết quả đạt được, hạn chế và hướng phát triển

6.2. Đánh giá ý nghĩa học thuật và thực tiễn của luận án

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG, BIỂU

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Giới thiệu về hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (IDS) là một phần quan trọng trong việc bảo vệ an ninh mạng. IDS có khả năng giám sát và phân tích lưu lượng mạng để phát hiện các hành vi bất thường hoặc tấn công. Việc phân lớp trong IDS là một yếu tố quyết định đến hiệu quả phát hiện. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng kỹ thuật học máy có thể nâng cao khả năng phát hiện xâm nhập. Tuy nhiên, các hệ thống này vẫn gặp phải nhiều thách thức, bao gồm độ chính xác thấp và tỷ lệ cảnh báo sai cao. Do đó, việc cải thiện chất lượng phân lớp là cần thiết để nâng cao hiệu quả của IDS.

1.1. Tính cấp thiết của đề tài luận án

Trong bối cảnh an ninh mạng ngày càng phức tạp, việc phát hiện xâm nhập trở nên cấp thiết hơn bao giờ hết. Các tấn công mạng ngày càng tinh vi, đòi hỏi các hệ thống IDS phải có khả năng phát hiện nhanh chóng và chính xác. Việc áp dụng kỹ thuật học máy trong phát hiện xâm nhập không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu tỷ lệ cảnh báo sai. Nghiên cứu này nhằm mục đích nâng cao chất lượng phân lớp của các hệ thống IDS thông qua việc cải tiến các kỹ thuật tiền xử lý dữ liệu và áp dụng các thuật toán học máy tiên tiến.

II. Các nghiên cứu liên quan

Nghiên cứu về phát hiện xâm nhập đã được thực hiện rộng rãi, với nhiều phương pháp khác nhau được áp dụng. Các nghiên cứu trước đây đã chỉ ra rằng việc lựa chọn thuộc tính và lấy mẫu lại tập dữ liệu là hai yếu tố quan trọng ảnh hưởng đến hiệu quả của IDS. Việc sử dụng các thuật toán học máy như Bagging, Boosting và Stacking đã cho thấy sự cải thiện đáng kể trong chất lượng phân lớp. Tuy nhiên, vẫn còn nhiều vấn đề cần giải quyết, đặc biệt là trong việc xử lý dữ liệu không cân bằng và tối ưu hóa các tham số của thuật toán. Các nghiên cứu gần đây cũng đã chỉ ra rằng việc áp dụng các kỹ thuật tiền xử lý dữ liệu có thể giúp cải thiện đáng kể hiệu suất của IDS.

2.1. Lựa chọn thuộc tính

Lựa chọn thuộc tính là một bước quan trọng trong quá trình phát triển các mô hình học máy. Việc lựa chọn đúng các thuộc tính có thể giúp giảm thiểu độ phức tạp của mô hình và cải thiện chất lượng phân lớp. Các thuật toán như FFC và BFE đã được sử dụng để lựa chọn các thuộc tính có liên quan nhất đến mục tiêu phân lớp. Nghiên cứu này đề xuất cải tiến các thuật toán này để nâng cao hiệu quả lựa chọn thuộc tính, từ đó cải thiện khả năng phát hiện xâm nhập của IDS.

III. Giải pháp cải tiến kỹ thuật tiền xử lý dữ liệu

Kỹ thuật tiền xử lý dữ liệu đóng vai trò quan trọng trong việc nâng cao chất lượng phân lớp của các hệ thống IDS. Nghiên cứu này đề xuất hai giải pháp chính: (1) Cải tiến các thuật toán lựa chọn thuộc tính và (2) Cải thiện các kỹ thuật lấy mẫu lại tập dữ liệu. Việc áp dụng các kỹ thuật như tăng mẫu và giảm mẫu giúp cân bằng dữ liệu, từ đó nâng cao khả năng phát hiện của IDS. Kết quả thử nghiệm cho thấy rằng các giải pháp đề xuất đã cải thiện đáng kể độ chính xác của các mô hình học máy trong phát hiện xâm nhập.

3.1. Cải tiến thuật toán lựa chọn thuộc tính

Nghiên cứu đã đề xuất hai thuật toán lựa chọn thuộc tính mới dựa trên các thuật toán FFC và BFE. Các thuật toán này được thiết kế để tối ưu hóa quá trình lựa chọn thuộc tính, giúp loại bỏ các thuộc tính không liên quan và giữ lại các thuộc tính quan trọng nhất. Kết quả cho thấy rằng việc áp dụng các thuật toán này đã giúp cải thiện đáng kể chất lượng phân lớp của các mô hình học máy, từ đó nâng cao khả năng phát hiện xâm nhập của IDS.

25/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu Trình bày những nội dung tổng quan nhất về luận án gồm: tính cấp thiết, đối tượng và phạm vi nghiên cứu; mục tiêu và nhiệm vụ; phương pháp nghiên cứu, những điểm đóng góp mới cũng như ý nghĩa khoa học và thực tiễn của luận án. - Chương 2: Các nghiên cứu liên quan Trình bày các nghiên cứu, vấn đề lý thuyết liên quan đến bài toán, so sánh một số phương pháp tiếp cận phát hiện xâm nhập mạng, cũng như nêu ra các hạn chế, tồn tại. - Chương 3: Giải pháp lựa chọn thuộc tính Trình bày các giải pháp lựa chọn thuộc tính đề xuất, kết quả thực hiện và một số nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS. - Chương 4: Giải pháp lấy mẫu lại tập dữ liệu Trình bày các giải pháp lấy mẫu lại tập dữ liệu huấn luyện, kết quả thực hiện và một số nhận xét, kết luận khi sử dụng giải pháp để tăng cường chất lượng phân lớp của các IDS.

- Chương 5: Kỹ thuật phối hợp cho mô hình IDS Trình bày giải pháp sử dụng kỹ thuật phối hợp để xây dựng các IDS, kết quả thực hiện và một số nhận xét, kết luận khi sử dụng giải pháp cũng đã được trình bày. - Chương 6: Kết luận và hướng phát triển Trình bày một số kết luận; Các hạn chế, tồn tại và hướng phát triển của luận án. - Danh mục các công trình đã công bố của luận án Liệt kê các công trình đã công bố có liên quan đến đề tài luận án. TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 8 CHƯƠNG 2.

CÁC NGHIÊN CỨU LIÊN QUAN Chương 2 trình bày các công trình nghiên cứu liên quan, các khái niệm cơ bản, nghiên cứu có liên quan trực tiếp đến các công trình cũng như đóng góp chính của luận án, gồm: (1) Việc lựa chọn thuộc tính sử dụng cho các IDS; (2) Lấy mẫu lại tập dữ liệu được sử dụng để huấn luyện các IDS; (3) Các kỹ thuật học máy để xây dựng các IDS, đặc biệt là kỹ thuật học máy phối hợp. Qua đó so sánh, làm rõ những tồn tại, thách thức cần được tiếp tục nghiên cứu, hoàn thiện và đó cũng là các mục tiêu nghiên cứu của luận án này.1 Lựa chọn thuộc tính 2.1 Phương pháp lựa chọn thuộc tính Khi dữ liệu tăng theo cấp số nhân, chất lượng dữ liệu để xử lý bằng khai phá dữ liệu, nhận dạng mẫu, xử lý hình ảnh và các thuật toán học máy, … giảm dần. Dữ liệu kích thước lớn hơn dẫn đến sự phổ biến của dữ liệu nhiễu, không liên quan và dư thừa. Điều đó làm tăng tỷ lệ lỗi, giảm độ chính xác dự báo của các thuật toán học máy.

Vấn đề chính là làm thế nào để cải thiện được hiệu quả phân lớp dựa trên những tri thức học được từ dữ liệu. Một trong những phương pháp cải thiện hiệu quả phân lớp như vậy là lựa chọn thuộc tính. Nếu ta chọn được các thuộc tính có liên quan đến nhãn lớp và loại bỏ các thuộc tính nhiễu, dư thừa, thì ta sẽ có được tập dữ liệu tốt hơn cho việc phân lớp. Điều đó giúp nâng cao hiệu quả phân lớp mà cụ thể là độ chính xác phân lớp, đồng thời giảm thời gian huấn luyện và kiểm tra [4], [5], [6].

Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm ra một tập con các thuộc tính từ M tập thuộc tính của tập dữ liệu ban đầu, như vậy phải xác định tiêu chuẩn lựa chọn thuộc tính. Theo cách này, kích cỡ của không gian thuộc tính được rút ngắn tối đa theo một tiêu chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được mở rộng, số phần tử của tập dữ liệu sẽ tăng lên, vì vậy việc tìm kiếm một tập đại diện tốt nhất thường gặp khó khăn và có nhiều vấn đề liên quan đến tập được chọn. Nhìn chung, một thuật toán lựa chọn gồm 4 bước cơ bản: sinh tập con, lượng giá tập con, điều kiện dừng và xác nhận kết quả.

Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản nó sinh ra những tập con dùng cho việc lượng giá. Gọi N là số các thuộc tính của tập dữ liệu gốc ban đầu, thì tổng số các tập con có thể được sinh ra sẽ là 2N, 2N tập này sẽ liệt kê toàn bộ các tập con của không gian. Mỗi tập con được sinh ra bằng thuật toán cần được lượng giá trị bằng một tiêu chuẩn lượng giá trị nhất định và được so sánh với tập con tốt nhất đã tìm được trước nó. Lựa chọn các thuộc tính có thể tiến hành theo hai cách: cách thứ nhất là xếp loại các thuộc tính theo một tiêu chuẩn nào đó và lấy ra k thuộc tính đầu tiên, do đó cách này là dựa vào ngưỡng để chọn thuộc tính.

Cách thứ hai là chọn ra tập con nhỏ nhất mà không làm giảm đi quá trình học, do đó với cách này tự động xác định số lượng thuộc tính. Lựa chọn thuộc TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 9 tính có thể dựa vào các mô hình, các chiến lược tìm kiếm, thước đo chất lượng thuộc tính và ước lượng. a) Chiến lược tìm kiếm Lựa chọn thuộc tính có thể được xem như là một vấn đề tìm kiếm, trong đó mỗi bước trong không gian tìm kiếm xác định ra một tập con thuộc tính liên quan. Giả sử ta có một tập dữ liệu với 3 thuộc tính (A1, A2, A3).

Một mảng nhị phân mà mỗi thành phần của mảng được thiết lập là 1 nếu thuộc tính có chỉ số tương ứng trong mảng nhị phân được chọn. Nếu mảng có giá trị (1, 1, 1) có nghĩa là cả 3 thuộc tính được chọn và (1, 0, 0) có nghĩa là chỉ thuộc tính A1 được chọn. Do đó, sẽ có tất cả 2N tập con có thể có, trong đó N là số lượng thuộc tính của tập dữ liệu. Một tập con tối ưu thường nằm đâu đó giữa điểm đầu và điểm cuối.

Câu hỏi đặt ra ở đây là: Ta nên bắt đầu tìm kiếm từ đâu. Vấn đề sẽ rất đơn giản nếu không gian tìm kiếm nhỏ. Tuy nhiên, trên thực tế không gian tìm kiếm thường rất lớn (2N), bắt đầu từ câu hỏi “Đâu là điểm tìm kiếm phù hợp” sẽ xuất hiện các câu hỏi khác: Chiến lược tìm kiếm phù hợp là gì? Trên thực tế chiến lược tìm kiếm lại bị ảnh hưởng bởi hướng tìm kiếm. Giả sử ban đầu ta chưa có một khái niệm cụ thể nào về tập thuộc tính tối ưu trong không gian tìm kiếm, thì sẽ không có sự khác biệt trong việc xác định điểm xuất phát nên bắt đầu từ đâu (một tập rỗng hay một tập đầy đủ các thuộc tính).

Do đó, đối với phần lớn các vấn đề trong tìm kiếm thì thời gian trung bình để tìm ra tập con tối ưu giữa các hướng tìm kiếm khác nhau không có sự khác biệt. Tuy nhiên, hướng tìm kiếm lại có mối liên hệ chặt chẽ trong việc tạo ra tập con thuộc tính. Một phương pháp tìm kiếm là tìm ra tập con tối ưu bắt đầu từ một tập rỗng các thuộc tính (như Forward Feature Construction: FFC), phương pháp còn lại là tìm ra tập con tối ưu bằng cách lần lượt loại bỏ các thuộc tính ít quan trọng từ một tập đầy đủ các thuộc tính ban đầu (như Backward Feature Elimination: BFE). b) Tiêu chuẩn lựa chọn Tất cả các chiến lược tìm kiếm đều có nhu cầu đánh giá một thuộc tính hoặc một tập con thuộc tính để xác định thuộc tính/tập con đó là tốt hay không tốt.

Việc đánh giá này thường là phức tạp và có nhiều chiều đánh giá. Ví dụ, đánh giá có thể được đo lường theo những khía cạnh: các thuộc tính được lựa chọn có làm tăng độ chính xác của bộ phân lớp hay không và các thuộc tính được lựa chọn có giúp làm đơn giản các kết quả học, do đó có thể dễ dàng để hiểu hay không, … Sau đây là một số đo lường thường được sử dụng. (1) Đo lường thông tin Một khái niệm cơ bản của lý thuyết thông tin là số lượng của thông tin trong thông báo, gọi là nội dung thông tin, nó có thể xác định và đo được bằng đại lượng toán học. Thuật ngữ “nội dung” ở đây không liên quan gì đến nội dung của thông báo được truyền đi, mà là xác suất nhận được thông báo đã cho từ một tập hợp các thông báo có thể.

Giá trị cao nhất đối với nội dung thông tin được gán cho thông báo có ít khả năng nhất, tức là có độ không xác định lớn nhất. Bởi vì độ không xác định của một phép thử càng lớn thì sự xác định kết quả của nó sẽ cho một thông tin càng lớn. Nếu thông báo được mong đợi với 100% chắc chắn thì nội dung của nó bằng 0, và khi đó độ không xác định của nó cũng bằng 0. TIEU LUAN MOI download : skknchat123@gmail.com moi nhat 10 (2) Đo lường khoảng cách Kiểu đo lường này cũng được biết đến như là đo lường khác biệt hoặc đo lường phân biệt.

Đo lường này được thực hiện thông qua việc đo khoảng cách giữa các hàm xác suất điều kiện lớp. Ví dụ đối với trường hợp có 2 lớp c1 và c2, D(X) là khoảng cách giữa P(X|c1) và P(X|c2), luật đánh giá thuộc tính xây dựng dựa trên khoảng cách D(X) nói rằng, trong hai thuộc tính X và Y, thuộc tính X được chọn nếu D(X) > D(Y). Mục đích của việc lựa chọn này là ta cố gắng tìm ra các thuộc tính sao cho khoảng cách giữa 2 lớp là xa nhất có thể. (3) Đo lường phụ thuộc Đo lường này cũng được biết đến như là đo lường mối quan hệ, đo lường mối liên hệ.

Đo lường này được thiết kế để lượng hóa mối quan hệ giữa hai biến bằng việc nếu biết được giá trị một biến ta có thể dự đoán được giá trị của biến còn lại. Trong đánh giá thuộc tính, thay bằng việc kiểm tra một thuộc tính thay đổi thông tin thu thập được hoặc thay đổi kỳ vọng xác suất lớp như thế nào, thì ta sẽ xem xét một thuộc tính liên hệ với một lớp như thế nào (mạnh hay yếu). Nói một cách khác, ta chọn thuộc tính có mối liên hệ chặt chẽ với lớp C hơn. Nếu X và C là độc lập thống kê thì giữa X và Y sẽ không có mối liên hệ và việc loại bỏ thuộc tính X sẽ không làm ảnh hưởng đến việc phân lớp các thuộc tính còn lại.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ mang tiêu đề "Nâng cao chất lượng phân lớp trong hệ thống phát hiện xâm nhập mạng thông qua học máy và tiền xử lý dữ liệu" của tác giả Hoàng Ngọc Thanh, dưới sự hướng dẫn của PGS. Trần Văn Lăng tại Trường Đại Học Lạc Hồng, tập trung vào việc cải thiện hiệu quả của các phương pháp phân lớp trong lĩnh vực phát hiện xâm nhập mạng. Bài viết trình bày các kỹ thuật học máy và quy trình tiền xử lý dữ liệu nhằm nâng cao độ chính xác và khả năng phát hiện các mối đe dọa mạng. Độc giả sẽ tìm thấy những thông tin hữu ích về cách áp dụng học máy trong an ninh mạng, cũng như các phương pháp tối ưu hóa dữ liệu để đạt được kết quả tốt hơn.

Nếu bạn quan tâm đến các khía cạnh khác liên quan đến công nghệ thông tin và quản lý giáo dục, hãy tham khảo thêm bài viết "Các yếu tố ảnh hưởng đến quyết định chọn nơi làm việc của sinh viên công nghệ thông tin tại Đà Nẵng", nơi phân tích các yếu tố tác động đến sự lựa chọn nghề nghiệp của sinh viên trong lĩnh vực công nghệ thông tin. Bên cạnh đó, bài viết "Luận án tiến sĩ về quản lý đổi mới phương pháp dạy học ở trường trung học phổ thông" cũng sẽ cung cấp cái nhìn sâu sắc về việc áp dụng các phương pháp giảng dạy hiện đại trong giáo dục, liên quan đến việc phát triển kỹ năng cho sinh viên. Cuối cùng, bài viết "Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ" sẽ giúp bạn hiểu rõ hơn về việc tích hợp công nghệ thông tin trong giáo dục, một chủ đề có liên quan mật thiết đến nghiên cứu của luận án này.

#an ninh mạng