Phương Pháp Học Máy Trong Hệ Thống Phát Hiện Xâm Nhập Trên Dữ Liệu Mất Cân Bằng

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp an toàn thông tin phương pháp học máy cho hệ thống phát hiện xâm nhập trên các tập dữ, vận dụng lý thuyết vào thực tế, đề xuất giải pháp

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Kỹ sư ngành An toàn thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2021

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Lý do lựa chọn đề tài

1.2. Phạm vi

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: KIẾN THỨC TỔNG QUAN

2.1. Hệ thống phát hiện xâm nhập dựa trên luồng lưu lượng mạng

2.2. Tổng quan về IDS

2.3. Các kỹ thuật phát hiện tấn công trong flow-based IDS

3. CHƯƠNG 3: PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH IDS MÁY HỌC TRÊN TẬP DỮ LIỆU MẤT CÂN BẰNG

3.1. Mô hình tổng quan

3.2. Bộ phân loại

3.3. Phương pháp tiến hành

3.4. Phân tích khám phá dữ liệu (EDA)

3.5. Tiền xử lý dữ liệu lỗi

3.6. Chuẩn hóa dữ liệu

3.7. Xây dựng các mô hình

4. CHƯƠNG 4: THỰC NGHIỆM & KẾT QUẢ

4.1. Môi trường triển khai

4.2. Các thuật toán VN

4.3. Các kịch bản thực hiện

4.4. Kết quả thực nghiệm

4.5. Thực hiện lấy kết quả control

4.6. So sánh các phương pháp chuẩn hóa

4.7. Trích xuất đặc trưng

4.8. Thực nghiệm các trọng số khác nhau

4.9. Random Under Sampling (RUS) kết hợp Over Sampling (OS)

4.10. Mô hình hybrid

5. CHƯƠNG 5: TỔNG KẾT

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC A

PHỤ LỤC C

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng Quan Về Phương Pháp Học Máy Trong IDS

Phương pháp học máy đã trở thành một công cụ quan trọng trong việc phát hiện xâm nhập (IDS) trên các tập dữ liệu mất cân bằng. Hệ thống IDS sử dụng học máy có khả năng tự động học từ dữ liệu và cải thiện khả năng phát hiện các cuộc tấn công. Tuy nhiên, việc áp dụng học máy trong IDS gặp nhiều thách thức, đặc biệt là khi dữ liệu không cân bằng. Điều này đòi hỏi các phương pháp đặc biệt để xử lý và tối ưu hóa hiệu suất của hệ thống.

1.1. Khái Niệm Về Hệ Thống Phát Hiện Xâm Nhập

Hệ thống phát hiện xâm nhập (IDS) là một công cụ giám sát và phân tích lưu lượng mạng nhằm phát hiện các hành vi bất thường. IDS có thể phân loại thành hai loại chính: HIDS và NIDS, mỗi loại có những ưu điểm và nhược điểm riêng.

1.2. Tầm Quan Trọng Của Dữ Liệu Mất Cân Bằng

Dữ liệu mất cân bằng là một thách thức lớn trong việc huấn luyện các mô hình học máy. Trong bối cảnh phát hiện xâm nhập, các cuộc tấn công thường xảy ra ít hơn so với lưu lượng bình thường, dẫn đến việc mô hình học máy có thể không học được các đặc điểm quan trọng của các cuộc tấn công.

II. Thách Thức Trong Việc Phát Hiện Xâm Nhập Trên Dữ Liệu Mất Cân Bằng

Một trong những thách thức lớn nhất trong việc phát hiện xâm nhập là sự mất cân bằng trong dữ liệu. Các cuộc tấn công thường ít xảy ra hơn so với lưu lượng bình thường, dẫn đến việc mô hình học máy có thể không đủ thông tin để phát hiện các cuộc tấn công. Điều này có thể dẫn đến tỷ lệ báo động giả cao và hiệu suất kém của hệ thống.

2.1. Tác Động Của Dữ Liệu Mất Cân Bằng Đến Mô Hình Học Máy

Dữ liệu mất cân bằng có thể làm giảm độ chính xác của mô hình học máy. Khi lớp thiểu số (các cuộc tấn công) không đủ lớn, mô hình có thể không học được các đặc điểm quan trọng, dẫn đến việc phát hiện không hiệu quả.

2.2. Các Giải Pháp Đối Phó Với Tình Trạng Mất Cân Bằng

Có nhiều phương pháp để xử lý dữ liệu mất cân bằng, bao gồm tăng cường dữ liệu cho lớp thiểu số và giảm số lượng mẫu cho lớp đa số. Những phương pháp này giúp cải thiện khả năng phát hiện của hệ thống IDS.

III. Phương Pháp Học Máy Được Sử Dụng Trong IDS

Các phương pháp học máy như học sâu và học tăng cường đã được áp dụng trong hệ thống phát hiện xâm nhập. Những phương pháp này giúp cải thiện khả năng phát hiện và giảm thiểu tỷ lệ báo động giả. Việc lựa chọn thuật toán phù hợp là rất quan trọng để đạt được hiệu quả tối ưu.

3.1. Học Sâu Trong Phát Hiện Xâm Nhập

Học sâu sử dụng các mạng nơ-ron để phát hiện các mẫu phức tạp trong dữ liệu. Phương pháp này có thể cải thiện khả năng phát hiện các cuộc tấn công mới mà không cần phải có dữ liệu trước đó.

3.2. Học Tăng Cường Và Ứng Dụng Của Nó

Học tăng cường cho phép mô hình học từ các phản hồi của môi trường. Điều này giúp cải thiện khả năng phát hiện xâm nhập trong các tình huống không chắc chắn.

IV. Ứng Dụng Thực Tiễn Của Phương Pháp Học Máy Trong IDS

Phương pháp học máy đã được áp dụng thành công trong nhiều hệ thống IDS hiện đại. Các nghiên cứu cho thấy rằng việc sử dụng học máy có thể cải thiện đáng kể khả năng phát hiện xâm nhập và giảm thiểu tỷ lệ báo động giả. Các ứng dụng này không chỉ giúp bảo vệ hệ thống mà còn tối ưu hóa tài nguyên.

4.1. Kết Quả Nghiên Cứu Về IDS Học Máy

Nhiều nghiên cứu đã chỉ ra rằng các mô hình học máy có thể đạt được độ chính xác cao trong việc phát hiện các cuộc tấn công. Các kết quả này cho thấy tiềm năng lớn của học máy trong lĩnh vực an ninh mạng.

4.2. Các Mô Hình IDS Thành Công

Một số mô hình IDS đã được triển khai thành công trong thực tế, cho thấy khả năng phát hiện xâm nhập hiệu quả. Những mô hình này thường sử dụng các thuật toán học máy tiên tiến để tối ưu hóa hiệu suất.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Phương pháp học máy trong hệ thống phát hiện xâm nhập trên dữ liệu mất cân bằng đang ngày càng trở nên quan trọng. Các nghiên cứu hiện tại đã chỉ ra rằng có nhiều phương pháp hiệu quả để xử lý vấn đề mất cân bằng dữ liệu. Tương lai của IDS sẽ phụ thuộc vào việc phát triển các thuật toán học máy mới và cải thiện khả năng phát hiện xâm nhập.

5.1. Tương Lai Của Hệ Thống IDS

Hệ thống IDS sẽ tiếp tục phát triển với sự hỗ trợ của học máy. Các nghiên cứu mới sẽ giúp cải thiện khả năng phát hiện và giảm thiểu tỷ lệ báo động giả.

5.2. Các Xu Hướng Nghiên Cứu Mới

Các xu hướng nghiên cứu mới trong lĩnh vực học máy và an ninh mạng sẽ mở ra nhiều cơ hội mới cho việc phát triển các hệ thống IDS hiệu quả hơn.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp an toàn thông tin phương pháp học máy cho hệ thống phát hiện xâm nhập trên các tập dữ liệu mất cân bằng

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 - Tổng quan đề tài: Giới thiệu tổng quan về dé tài nghiên cứu, mục đích nghiên cứu, phạm vi nghiên cứu và phương pháp nghiên cứu. - _ Chương 2 - Tổng quan lý thuyết: Giới thiệu tổng quan về các kiến thức nền tảng sử dụng trong đê tài và các nghiên cứu liên quan. - _ Chương 3 - Phương pháp tiến hành: Trinh bày giải pháp đề xuất cho dé tài va căn cứ thực hiện. - Chương 4 - Thực nghiệm & kết quả: Trinh bày kịch ban đã tiến hành và các kết quả thực nghiệm.

- _ Chương 5 - Tổng kết: Kết luận và hướng phát triển. KIÊN THỨC TONG QUAN 2. Hệ thống phát hiện xâm nhập dựa trên luồng lưu lượng mạng 2. Tổng quan về IDS Hệ thống phát hiện xâm nhập (IDS) là tập hợp các thiết bị phần cứng/phần mềm có khả năng giám sát, phân tích và đưa ra các cảnh báo về bất thường trong hệ thống.

IDS có thể được phân loại thành một số loại chính như ở Hình 2.1, cụ thể: - _ Dựa trên nguồn dt liệu: o_ Hệ thống phát hiện xâm nhập trên máy đích (Host-based IDS — HIDS), được sử dụng dé giám sát hoạt động cua các may được cài lên. Khác với các hệ thống chống thất thoát dit liệu, HIDS chủ yếu tập trung giám sát vào các yếu tô an ninh của máy như tính toàn vẹn, kiểm tra rootkit, tìm kiếm các hoạt động đáng ngờ. o Hệ thống phát hiện xâm nhập trong mang (Network-based IDS — NIDS) được sử dung dé phát hiện các bất thường trong hạ tang mạng. NIDS sử dụng 2 nguồn chính đề phát hiện xâm nhập: luồng lưu lượng mạng và gói tin.

Cả 2 nguồn này đều có những ưu và nhược điểm riêng đối với quá trình phát hiện xâm nhập. Chang hạn, nếu phân tích các gói tin thì sẽ đưa ra dự báo chính xác hon, nhưng tiêu hao tài nguyên nhiều hon và dé bi qua mặt bởi các gói tin đã được mã hóa. Trong khi đó, phân tích dựa trên luồng lưu lượng mạng chỉ chiếm dụng một lượng tài nguyên rất nhỏ, nhưng do không phân tích nội dung gói tin nên phân tích lưu lượng sẽ thiếu chính xác hơn. Host-based ___4| Audit source LL | location | | | | = —-_ Network-based | [Lẻ _—____— ____l | | | | | ;——- Packet-based Intrusion Detection |_ | | | System —=—— | t——¬ Flow-based Signature-based Detection Model Anomaly-based Hinh 2.

1: Phan loai cac IDS Error! Reference source not found. Ở góc độ phương pháp phát hiện: o Dựa trên dấu hiệu (Signature-based IDS): phát hiện dựa vào các dau hiệu đã được quy định trước. IDS dang này phát hiện rất tốt với các mau tan công đã ghi nhận và không có khả năng phát hiện các loại tân công mới hoàn toản. o Dựa trên bat thường (Anomaly-based IDS): phát hiện các thay đôi dựa trên một ngưỡng được cho là bình thường.

Dựa trên các đánh giá nhất định khi so sánh với ngưỡng này, IDS sẽ kết luận rằng mẫu đầu vào là bất thường hay bình thường. IDS loại này có nhược diém là tỉ lệ báo động giả thường rat cao so với phát hiện dựa trên dấu hiệu. Tuy nhiên, các IDS này có lợi thế ở việc có thể phát hiện các loại tấn công mới và đễ dàng triển khai, do không đòi hỏi phải thu thập các mẫu nhận diện từ trước. Tổng quan về luồng lưu lượng mang (network flow) Flow-based IDS phân tích đữ liệu các luồng lưu lượng mạng (network flow) dé phat hién tan công.

Một network flow được định nghĩa là một tập hop các gói tin/frame dữ liệu được đi qua một điểm quan sát trong một khoảng thời gian nhất định giữa hai hệ thong máy tính. Mọi gói tin nằm trong một network flow sẽ có một số các thuộc tính tương tự nhau (IP nguon/dich, port nguồn/đích, giao thức,.) như được mô tả tại Hình 2. Ngoài ra, một số thuộc tính khác sẽ được tính toán dựa trên dữ liệu thống kê của flow (số lượng packet/byte của flow trong một đơn vi thời gian, khoảng thời gian trung bình giữa các gói tin,. ATTRIBUTES IN FLOW-BASED NETWORK TRAFFIC.

|HOA-DMNKSW Attribute Date first seen Duration Transport protocol Source IP address Source port Destination IP address Destination port Number of transmitted bytes Number of transmitted packets 0 TCP flags Hình 2. 2: Cac thuộc tính co ban cua network flow Error! Reference source not found. Một hệ thống giám sát luồng lưu lượng mạng thường gồm 3 thành phan: (1) các điểm quan sát (observation point); (2) một trình kết xuất (flow exporter) vả (3) một trình thu thập (flow collector). Một flow exporter sẽ trích xuất header từ các gói tin đi qua các điểm quan sát (có thể là switch, router hoặc một thiết bị thu thập đặt trên đường truyền).

Sau đó, flow exporter sé tong hop và kết xuất ra các ban ghi về luồng lưu lượng mang (flow record) từ các thông tin trên và gửi đến cho collector. Các flow record sẽ được lưu trữ và chuẩn hóa tại collector để phục vụ cho việc phân tích của IDS (Hình 2. Packet Rules for Flow Record Capturing Template, Sending and Selection Time stamping Functions for > generating IPFIX Flow export packets Database Malicious: Raise Alert Flow feature : Decision Í Pre-Processing selection Engine Normal: Drop the flow Hinh 2. 3: Mot hé thống flow-based IDS sử dụng IPFIX Error! Reference source not found.

Một flow có thé được ghi lai đưới dang don hướng (unidirectional) hoặc song hướng (bidirectional) Error! Reference source not found. Một flow record đơn hướng sẽ tổng hợp mọi gói tin giữa 2 node trong mạng theo một hướng có định (từ A sang B là một record và ngược lại), trong khi một flow record song hướng sẽ tổng hợp mọi gói tin mà không cần quan tâm đến chiều truyền của gói tin. Một số định dạng network flow phổ biến có thé ké đến gồm: IPFIX Error! Reference source not found., NetFlow Error! Reference source not found., sFlow Error! Reference source not found. va OpenFlow Error! Reference source not found.

Các kỹ thuật phát hiện tấn công trong flow-based IDS Các kỹ thuật phát hiện phát hiện tấn công hiện tại (kế cả signature-based hay anomaly-based) có thé được chia thành 2 hướng chủ yếu: phân tích stateless (theo từng packet) và stateful (theo flow). Các IDS ngày nay đa số phân tích theo hướng stateful Error! Reference source not found., do việc phân tích theo flow sẽ cho IDS cái nhìn về “ngữ cảnh” thay vì rời rac như phân tích từng packet (stateless). Ngoài ra, việc phân tích theo network flow cũng làm giảm tiêu tốn tài nguyên cũng như không gặp khó khăn khi phải phân tích các traffic đã được mã hóa. Các flow-based anomaly IDS thường được phân loại bởi một số phương pháp huấn luyện (train) bao gồm (Hình 2.

4): phương pháp thống kê, phương pháp học máy (ML-based) và cơ sở tri thức (knowledge-base). Phương pháp thống kê Bao gồm các phương pháp thống kê đơn biến (univariate), đa biến (multivariate) và chuỗi thời gian (time-series). - _ Phương pháp thống kê đơn biến sẽ phân tích thông tin thống kê của một biến duy nhất tại một thời điểm xác định (chăng hạn trung bình, phân phối chuẩn). Kỹ thuật này đòi hỏi biết trước về phân phối của dữ liệu cần phân tích.

Thống kê đơn biến có thể là thống kê mô tả (các hệ số mô tả ngắn gọn hay tóm tắt về dữ liệu, đại điện cho toàn bộ hoặc một mẫu của một tổng thể) hoặc là thống kê suy diễn (suy ra tính chất của tổng thê từ mẫu). IDS sẽ dựa trên đó làm ngưỡng để nhận diện các hành vi bất thường. 10 - _ Phương pháp thống kê đa biến phân tích các mối quan hệ giữa hai hay nhiều biến. Do đó, khai thác được tổng hợp mỗi tương quan giữa các biến và phản ánh toàn điện, khách quan hơn so với thống kê đơn biến.

Một số dạng thống kê đa biến thường dùng gồm phân tích thành phần chính (Principal component analysis - PCA), phân tích biệt thức tuyến tính (linear discriminant analysis -LDA) va phân tích biệt số (discriminant analysis - DA). - Phuong pháp phân tích time-series sử dung các giá tri được quan sat trước một thời điểm nhất định dé dự đoán các giá trị mới. Chuỗi thời gian (time-series) có thê được định nghĩa là chuỗi các giá trị của một biến theo các khoảng thời gian cách đều nhau. Các phương pháp này phụ thuộc vào dữ liệu trong quá khứ, do đó yêu cầu các đữ liệu này có chất lượng cao, có tính đại diện cho tổng thé và ít biến động.

Các IDS sử dụng phân tích thống kê nhìn chung không yêu cầu các hiểu biết về các cuộc tan công. Nguyên nhân là do cơ chế phát hiện tan công của các IDS này chỉ dựa trên sự thay đôi về các phân phối dữ liệu trong mạng khi có một cuộc tấn công xảy ra, đặc biệt là các cuộc tấn công có lưu lượng lớn như DoS. Tuy nhiên, các cuộc tan công với vector đầu vào nhiều chiều/nhiều biến số ảnh hưởng rất lớn đến hiệu suất của các IDS này. Các cuộc tân công ít làm thay đồi dir liệu thống kê trong mạng cũng rất khó bị phát hiện bởi các IDS này.

Phương pháp học máy Bao gồm các phương pháp clustering, giải thuật di truyền (genetic algorithm), học sâu (Deep Learning - DL), mạng thần kinh nhân tạo (Artificial neural network - ANN), máy vector hỗ trợ (support vector machine - SVM). Hién tai, cac IDS hoc may dang chiém wu thé trong cac hé thong anomaly-based IDS [17]. Thống kê về các thuật toán sử dụng trong anomaly-based IDS được trình bày như trong Hình 2. 11 Các thuật toán học máy có điểm tương đồng với các phương pháp dựa trên cơ sở tri thức.

Tuy nhiên, các phương pháp dựa trên cơ sở tri thức cần phụ thuộc vào yêu tố con người và đòi hỏi kiến thức chuyên môn để xây dựng nên các profile. Tuy nhiên điều này được diễn ra hoàn toàn tự động với các phương pháp học máy. Các “profile” sẽ được tạo ra dưới dạng các mô hình học máy sau khi đã huấn luyện. Đôi lại, các mô hình học máy thường không có sự nhất quán như các profile từ cơ sở tri thức và thường rất khó dé thông dich (interpret) các mô hình này sang ngôn ngữ ma con người có thé dễ hiểu được.

12 Trong đó, các kỹ thuật sử dụng mạng thần kinh nhân tạo (ANN) hiện đang có một tiềm năng lớn nhờ sự phát triển về phần cứng và chất lượng các tập dữ liệu trong thời gian gần đây. ANN mô phỏng hoạt động não bộ của con người thông qua một mạng liên kết các đơn vị tính toán gọi là neuron. Mọi neuron trong ANN có bản chất là các hàm tính toán, nhận kết quả đầu vào và trả về kết quả đầu ra cho các layer tiếp theo (nếu có). Kết quả từ các neuron của layer cuối cùng sẽ được tổng hợp và đưa ra kết quả dự đoán tương ứng với đữ liệu đầu vào.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phương Pháp Học Máy Trong Hệ Thống Phát Hiện Xâm Nhập Trên Dữ Liệu Mất Cân Bằng" cung cấp cái nhìn sâu sắc về việc áp dụng các phương pháp học máy để phát hiện xâm nhập trong các hệ thống mạng, đặc biệt là khi dữ liệu không cân bằng. Tài liệu nhấn mạnh tầm quan trọng của việc sử dụng các kỹ thuật học máy để cải thiện độ chính xác và hiệu suất của hệ thống phát hiện xâm nhập, đồng thời đề xuất các giải pháp để xử lý vấn đề dữ liệu mất cân bằng, từ đó giúp tăng cường khả năng bảo mật cho các hệ thống thông tin.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Triên khai ứng dụng mạng neural trong phát hiện xâm nhập trái phép luận văn thạc sĩ, nơi bạn sẽ tìm thấy thông tin chi tiết về việc ứng dụng mạng neural trong phát hiện xâm nhập. Ngoài ra, tài liệu Async smote một giải pháp cho phân lớp dữ liệu mất cân bằng sẽ giúp bạn hiểu rõ hơn về các phương pháp xử lý dữ liệu mất cân bằng. Cuối cùng, tài liệu Khóa luận tốt nghiệp an toàn thông tin hệ thống bền vững và tin cậy cho phát hiện xâm nhập dựa trên học máy đối kháng và trí tuệ nhân tạo khả diễn giải sẽ cung cấp thêm thông tin về các hệ thống phát hiện xâm nhập bền vững và tin cậy. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này.

#phân tích lưu lượng mạng

#kỹ thuật tăng cường dữ liệu

#Học máy trong phát hiện xâm nhập

#Đánh giá hiệu quả IDS

#Kỹ thuật xử lý dữ liệu không cân bằng

#Dữ liệu mất cân bằng trong IDS

Chủ đề

Ứng dụng học máy trong an ninh mạng

Giải pháp cho dữ liệu mất cân bằng

Phát triển hệ thống phát hiện xâm nhập

Thách thức trong phát hiện xâm nhập