Luận văn thạc sĩ: Nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

Luận văn thạc sĩ nghiên cứu hay tìm hiểu nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

0.1. Lý do chọn đề tài

0.2. Mục tiêu nghiên cứu

0.3. Đối tƣợng và phạm vi nghiên cứu

0.4. Ý nghĩa thực tiễn của luận văn

0.5. Phƣơng pháp nghiên cứu

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP

1.1. Khái niệm về hệ thống phát hiện xâm nhập

1.2. Chức năng và vai trò của hệ thống phát hiện xâm nhập

1.2.1. Chức năng nhiệm vụ của IDS

1.2.2. Vai trò của hệ thống phát hiện xâm nhập

1.3. Mô hình kiến trúc của hệ thống phát hiện xâm nhập

1.3.1. Các thành phần cơ bản

1.3.2. Kiến trúc của hệ thống IDS

1.4. Phân loại các hệ thống phát hiện xâm nhập

1.4.1. Hệ thống phát hiện xâm nhập máy chủ (HIDS)

1.4.2. Hệ thống phát hiện xâm nhập mạng (NIDS)

1.5. Các kỹ thuật phát hiện xâm nhập của hệ thống IDS

1.5.1. Phát hiện dựa vào dấu hiệu (Signature-base detection)

1.5.2. Phát hiện dựa trên sự bất thường (Abnormaly-base detection)

1.5.3. Kỹ thuật phát hiện dựa vào phân tích trạng thái giao thức

1.5.4. Phát hiện dựa trên mô hình

1.6. Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

2. CHƯƠNG II: KHAI PHÁ DỮ LIỆU

2.1. Khái niệm về khai phá dữ liệu

2.2. Các bài toán chính trong khai phá dữ liệu

2.2.1. Quá trình phân lớp

2.2.2. Hồi quy và dự báo (Regression and Prediction)

2.2.3. Mô hình hoá sự phụ thuộc (dependency modeling)

2.2.4. Phát hiện sự biến đổi và độ lệch (change and deviation detection)

2.3. Ứng dụng và phân loại khai phá dữ liệu

2.4. Những thách thức và khó khăn trong khai phá dữ liệu

2.4.1. Các vấn đề về cơ sở dữ liệu

2.4.2. Một số vấn đề khác

3. CHƯƠNG III: MÔ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP

3.1. Đánh giá các kỹ thuật phân lớp

3.1.1. Khái niệm phân lớp

3.1.2. Mục đích của phân lớp

3.1.3. Các tiêu chí để đánh giá thuật toán phân lớp

3.1.4. Các phƣơng pháp đánh giá độ chính xác của mô hình phân lớp

3.2. Phân lớp dựa trên phƣơng pháp học Naïve Bayes

3.2.1. Bộ phân lớp Naïve Bayes

3.3. Phân lớp dựa trên cây quyết định (Decision Tree)

3.3.1. Khái niệm cây quyết định

3.3.2. Giải thuật qui nạp cây quyết định (ID3)

3.3.3. Độ lợi thông tin (Information Gain) trong cây quyết định

3.3.4. Nội dung giải thuật học cây quyết định cơ bản ID3

3.3.5. Những thiếu sót của giải thuật ID3

3.3.6. Các vấn đề cần xem xét khi phân lớp dựa trên cây quyết định

3.4. Xây dựng mô hình phát hiện xâm nhập trái phép sử dụng các kỹ thuật phân lớp

3.4.1. Mô hình bài toán

3.4.1.1. Thu thập dữ liệu

3.4.1.2. Trích rút và lựa chọn các thuộc tính

3.4.1.3. Xây dựng bộ phân lớp

3.4.2. Tiến hành thực nghiệm

3.4.2.1. Phân lớp đa lớp

3.4.2.2. Bộ phân lớp nhị phân

3.4.2.3. Phân tích đánh giá kết quả

Tóm tắt

I. Tổng quan về hệ thống phát hiện xâm nhập qua khai phá dữ liệu

Hệ thống phát hiện xâm nhập (IDS) là một công cụ quan trọng trong việc bảo vệ an ninh mạng. Nó giúp phát hiện và ngăn chặn các cuộc tấn công mạng bằng cách phân tích lưu lượng và hành vi của người dùng. Việc áp dụng khai phá dữ liệu vào IDS mang lại nhiều lợi ích, giúp cải thiện khả năng phát hiện các mối đe dọa mới và tinh vi hơn.

1.1. Khái niệm về hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (IDS) là phần mềm hoặc phần cứng được thiết kế để giám sát và phân tích hoạt động mạng nhằm phát hiện các hành vi xâm nhập trái phép. IDS có thể hoạt động dựa trên các quy tắc đã được định nghĩa trước hoặc thông qua khai phá dữ liệu để phát hiện các mẫu hành vi bất thường.

1.2. Vai trò của khai phá dữ liệu trong IDS

Khai phá dữ liệu giúp IDS phát hiện các mối đe dọa mới bằng cách phân tích các mẫu dữ liệu lớn. Phương pháp này cho phép hệ thống học hỏi từ các dữ liệu lịch sử và cải thiện khả năng phát hiện các cuộc tấn công chưa được biết đến.

II. Thách thức trong việc phát hiện xâm nhập qua khai phá dữ liệu

Mặc dù khai phá dữ liệu mang lại nhiều lợi ích cho hệ thống phát hiện xâm nhập, nhưng cũng tồn tại nhiều thách thức. Các vấn đề như độ chính xác của mô hình, khả năng xử lý dữ liệu lớn và sự thay đổi liên tục của các phương thức tấn công là những yếu tố cần được xem xét.

2.1. Độ chính xác của mô hình phát hiện

Một trong những thách thức lớn nhất là đảm bảo độ chính xác của các mô hình phát hiện. Các mô hình cần phải được huấn luyện với dữ liệu đủ lớn và đa dạng để có thể phát hiện chính xác các cuộc tấn công mà không tạo ra quá nhiều cảnh báo giả.

2.2. Khả năng xử lý dữ liệu lớn

Hệ thống IDS cần có khả năng xử lý một lượng lớn dữ liệu trong thời gian thực. Việc này đòi hỏi các thuật toán khai phá dữ liệu phải được tối ưu hóa để có thể hoạt động hiệu quả mà không làm chậm hệ thống.

III. Phương pháp phát hiện xâm nhập hiệu quả qua khai phá dữ liệu

Để phát hiện xâm nhập hiệu quả, có thể áp dụng nhiều phương pháp khác nhau trong khai phá dữ liệu. Các phương pháp này bao gồm phân lớp, hồi quy và phát hiện bất thường. Mỗi phương pháp có những ưu điểm và nhược điểm riêng.

3.1. Phương pháp phân lớp trong phát hiện xâm nhập

Phương pháp phân lớp sử dụng các thuật toán học máy để phân loại các hành vi mạng thành các lớp khác nhau, từ đó phát hiện các hành vi bất thường. Các thuật toán như Naïve Bayes và Decision Tree thường được sử dụng trong phương pháp này.

3.2. Phát hiện bất thường qua khai phá dữ liệu

Phát hiện bất thường là một phương pháp quan trọng trong IDS, cho phép phát hiện các hành vi không bình thường mà không cần phải biết trước các mẫu tấn công. Phương pháp này thường sử dụng các kỹ thuật thống kê và học máy để xác định các hành vi đáng ngờ.

IV. Ứng dụng thực tiễn của hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập qua khai phá dữ liệu đã được áp dụng rộng rãi trong nhiều lĩnh vực, từ ngân hàng đến y tế. Việc phát hiện kịp thời các cuộc tấn công giúp bảo vệ thông tin nhạy cảm và giảm thiểu thiệt hại.

4.1. Ứng dụng trong ngành ngân hàng

Trong ngành ngân hàng, IDS giúp phát hiện các hành vi gian lận và bảo vệ thông tin tài khoản của khách hàng. Hệ thống này có thể phát hiện các giao dịch bất thường và cảnh báo cho quản trị viên ngay lập tức.

4.2. Ứng dụng trong lĩnh vực y tế

Trong lĩnh vực y tế, IDS giúp bảo vệ thông tin bệnh nhân và các dữ liệu nhạy cảm khác. Việc phát hiện kịp thời các cuộc tấn công mạng có thể ngăn chặn việc rò rỉ thông tin và bảo vệ quyền riêng tư của bệnh nhân.

V. Kết luận và tương lai của hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập qua khai phá dữ liệu đang ngày càng trở nên quan trọng trong việc bảo vệ an ninh mạng. Tương lai của IDS sẽ phụ thuộc vào khả năng cải tiến công nghệ và phát triển các phương pháp mới để đối phó với các mối đe dọa ngày càng tinh vi.

5.1. Xu hướng phát triển công nghệ IDS

Công nghệ IDS sẽ tiếp tục phát triển với sự hỗ trợ của trí tuệ nhân tạo và học máy. Các hệ thống sẽ trở nên thông minh hơn, có khả năng tự học và cải thiện khả năng phát hiện theo thời gian.

5.2. Tương lai của khai phá dữ liệu trong an ninh mạng

Khai phá dữ liệu sẽ đóng vai trò quan trọng trong việc phát hiện các mối đe dọa mới. Các nghiên cứu và phát triển trong lĩnh vực này sẽ giúp nâng cao khả năng bảo vệ an ninh mạng cho các tổ chức.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay tìm hiểu nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển nhanh chóng của công nghệ thông tin và mạng Internet, việc bảo vệ an toàn thông tin mạng trở thành một vấn đề cấp thiết. Theo ước tính, các cuộc tấn công mạng ngày càng gia tăng về số lượng và tính phức tạp, đe dọa nghiêm trọng đến an ninh của các hệ thống thông tin. Hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) ra đời nhằm cung cấp giải pháp giám sát, phát hiện và cảnh báo kịp thời các hành vi xâm nhập trái phép trên mạng. Mục tiêu nghiên cứu của luận văn là tìm hiểu, nghiên cứu và xây dựng mô hình hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu, đồng thời đánh giá hiệu năng của các thuật toán phân lớp như Naïve Bayes và Decision Tree trong phát hiện xâm nhập. Phạm vi nghiên cứu tập trung vào phân tích tập dữ liệu mô phỏng tấn công KDD Cup 1999, sử dụng phần mềm WEKA để thực hiện các thực nghiệm. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao khả năng phát hiện các tấn công mới, chưa được định nghĩa trong cơ sở dữ liệu dấu hiệu, góp phần tăng cường an ninh mạng cho các tổ chức và doanh nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: hệ thống phát hiện xâm nhập (IDS) và khai phá dữ liệu (Data Mining). IDS là hệ thống phần cứng, phần mềm hoặc kết hợp cả hai, có chức năng giám sát lưu lượng mạng, phân tích các sự kiện để phát hiện các hành vi xâm nhập trái phép và cảnh báo cho nhà quản trị. Các kỹ thuật phát hiện xâm nhập bao gồm phát hiện dựa trên dấu hiệu (signature-based), phát hiện dựa trên sự bất thường (anomaly-based), phân tích trạng thái giao thức và phát hiện dựa trên mô hình học máy. Khai phá dữ liệu được định nghĩa là quá trình khám phá các mẫu, mối quan hệ và sự bất thường trong dữ liệu lớn, sử dụng các thuật toán như phân lớp, hồi quy, phân cụm và khai phá luật kết hợp. Trong nghiên cứu này, phân lớp dữ liệu được áp dụng để xây dựng mô hình phát hiện xâm nhập, với các thuật toán Naïve Bayes và Decision Tree làm trọng tâm.

Các khái niệm chính bao gồm:

Hệ thống phát hiện xâm nhập (IDS): Giám sát, cảnh báo và bảo vệ hệ thống mạng khỏi các hành vi xâm nhập.
Khai phá dữ liệu (Data Mining): Trích xuất tri thức từ dữ liệu lớn thông qua các thuật toán phân tích.
Phân lớp (Classification): Xác định nhãn lớp cho các mẫu dữ liệu dựa trên tập huấn luyện.
Thuật toán Naïve Bayes: Phân lớp dựa trên xác suất có điều kiện giả định các thuộc tính độc lập.
Cây quyết định (Decision Tree): Mô hình phân cấp sử dụng các luật phân chia dữ liệu dựa trên thuộc tính để phân loại.

Phương pháp nghiên cứu

Nguồn dữ liệu chính sử dụng trong nghiên cứu là tập dữ liệu mô phỏng tấn công mạng KDD Cup 1999, bao gồm khoảng 41 thuộc tính đặc trưng cho các kết nối mạng và các loại tấn công khác nhau như DoS, Probe, U2R, R2L. Phương pháp chọn mẫu là sử dụng toàn bộ tập dữ liệu này để đảm bảo tính đại diện và đa dạng của các hành vi tấn công.

Phân tích dữ liệu được thực hiện bằng phần mềm WEKA, một công cụ khai phá dữ liệu phổ biến, hỗ trợ nhiều thuật toán phân lớp. Quá trình nghiên cứu gồm các bước: tiền xử lý dữ liệu, trích rút và lựa chọn thuộc tính quan trọng, xây dựng mô hình phân lớp với Naïve Bayes và Decision Tree, đánh giá hiệu năng mô hình bằng các chỉ số độ chính xác, tốc độ xử lý và tỷ lệ cảnh báo giả. Timeline nghiên cứu kéo dài trong khoảng thời gian từ tháng 1 đến tháng 12 năm 2015, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân lớp của thuật toán Decision Tree: Thuật toán Decision Tree đạt độ chính xác phân lớp đa lớp khoảng 92%, cao hơn so với Naïve Bayes (khoảng 89%). Thời gian xây dựng mô hình của Decision Tree là khoảng 15 giây, nhanh hơn so với Naïve Bayes (khoảng 20 giây).
Khả năng phát hiện các loại tấn công khác nhau: Decision Tree thể hiện hiệu quả cao trong phát hiện các tấn công từ chối dịch vụ (DoS) với tỷ lệ phát hiện chính xác trên 95%, trong khi Naïve Bayes đạt khoảng 90%. Đối với các tấn công trinh sát hệ thống (Probe), cả hai thuật toán đều có độ chính xác trên 85%.
Tỷ lệ cảnh báo giả: Naïve Bayes có tỷ lệ cảnh báo giả thấp hơn, khoảng 5%, so với Decision Tree khoảng 7%. Điều này cho thấy Naïve Bayes có ưu thế trong việc giảm thiểu cảnh báo không chính xác.
Khả năng mở rộng và tính ổn định: Cả hai thuật toán đều duy trì hiệu năng ổn định khi tăng kích thước tập dữ liệu, tuy nhiên Decision Tree có khả năng mở rộng tốt hơn nhờ cấu trúc cây phân cấp giúp xử lý dữ liệu lớn hiệu quả.

Thảo luận kết quả

Nguyên nhân Decision Tree đạt độ chính xác cao hơn là do khả năng mô hình hóa các mối quan hệ phức tạp giữa các thuộc tính và phân chia dữ liệu theo các luật rõ ràng. Trong khi đó, Naïve Bayes dựa trên giả định các thuộc tính độc lập, điều này có thể không hoàn toàn phù hợp với dữ liệu mạng phức tạp, dẫn đến độ chính xác thấp hơn. Tuy nhiên, Naïve Bayes lại có ưu điểm về tốc độ và tỷ lệ cảnh báo giả thấp, phù hợp với các hệ thống cần phản hồi nhanh và giảm thiểu cảnh báo không cần thiết.

So sánh với các nghiên cứu khác trong lĩnh vực phát hiện xâm nhập dựa trên khai phá dữ liệu, kết quả này tương đồng với báo cáo của ngành khi Decision Tree thường được đánh giá cao về độ chính xác, còn Naïve Bayes được ưu tiên trong các ứng dụng yêu cầu xử lý nhanh. Việc trình bày dữ liệu qua biểu đồ so sánh độ chính xác và thời gian xây dựng mô hình giúp minh họa rõ ràng sự khác biệt giữa hai thuật toán, hỗ trợ nhà quản trị lựa chọn giải pháp phù hợp.

Ý nghĩa của kết quả nghiên cứu là cung cấp cơ sở khoa học để lựa chọn thuật toán phân lớp phù hợp cho hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu, góp phần nâng cao hiệu quả giám sát và bảo vệ an ninh mạng.

Đề xuất và khuyến nghị

Áp dụng thuật toán Decision Tree cho phát hiện tấn công DoS: Đề xuất sử dụng Decision Tree làm thuật toán chính trong phát hiện các tấn công từ chối dịch vụ nhằm tăng độ chính xác phát hiện trên 95%. Thời gian triển khai dự kiến trong 6 tháng, do bộ phận an ninh mạng thực hiện.
Kết hợp Naïve Bayes để giảm cảnh báo giả: Sử dụng Naïve Bayes như một lớp lọc bổ sung nhằm giảm tỷ lệ cảnh báo giả xuống dưới 5%, giúp nhà quản trị tập trung xử lý các cảnh báo thực sự nguy hiểm. Thời gian thực hiện song song với đề xuất trên.
Xây dựng hệ thống giám sát đa thuật toán: Phát triển hệ thống IDS tích hợp cả hai thuật toán phân lớp, cho phép lựa chọn thuật toán phù hợp theo từng loại tấn công cụ thể, nâng cao tính linh hoạt và hiệu quả phát hiện. Khuyến nghị triển khai trong vòng 12 tháng.
Đào tạo và nâng cao năng lực nhân sự: Tổ chức các khóa đào tạo chuyên sâu về khai phá dữ liệu và phân tích an ninh mạng cho đội ngũ kỹ thuật viên nhằm đảm bảo vận hành và bảo trì hệ thống IDS hiệu quả. Thời gian đào tạo liên tục hàng năm.

Đối tượng nên tham khảo luận văn

Nhà quản trị mạng và an ninh thông tin: Có thể áp dụng các kết quả nghiên cứu để lựa chọn và triển khai hệ thống phát hiện xâm nhập phù hợp, nâng cao khả năng bảo vệ hệ thống mạng.
Các nhà nghiên cứu và sinh viên ngành khoa học máy tính, an toàn thông tin: Sử dụng luận văn làm tài liệu tham khảo về ứng dụng khai phá dữ liệu trong phát hiện xâm nhập, cũng như các thuật toán phân lớp phổ biến.
Doanh nghiệp cung cấp giải pháp an ninh mạng: Tham khảo để phát triển các sản phẩm IDS tích hợp kỹ thuật khai phá dữ liệu, đáp ứng nhu cầu ngày càng cao về bảo mật mạng.
Cơ quan quản lý và chính sách công nghệ thông tin: Dựa trên nghiên cứu để xây dựng các tiêu chuẩn, quy định về an ninh mạng, khuyến khích áp dụng các công nghệ phát hiện xâm nhập tiên tiến.

Câu hỏi thường gặp

Hệ thống phát hiện xâm nhập (IDS) là gì và vai trò của nó?
IDS là hệ thống giám sát lưu lượng mạng và các sự kiện hệ thống để phát hiện các hành vi xâm nhập trái phép, cảnh báo kịp thời cho nhà quản trị nhằm bảo vệ an ninh mạng. Ví dụ, IDS có thể phát hiện các cuộc tấn công DoS hoặc truy cập trái phép vào máy chủ.
Khai phá dữ liệu đóng vai trò gì trong phát hiện xâm nhập?
Khai phá dữ liệu giúp trích xuất các mẫu hành vi tấn công từ dữ liệu lớn, xây dựng mô hình phát hiện xâm nhập tự động và chính xác hơn so với phương pháp dựa trên dấu hiệu truyền thống. Ví dụ, khai phá dữ liệu có thể phát hiện các tấn công mới chưa được định nghĩa trước.
Tại sao chọn thuật toán Naïve Bayes và Decision Tree để phân lớp trong IDS?
Hai thuật toán này phổ biến, dễ triển khai và có hiệu quả cao trong phân loại dữ liệu mạng. Decision Tree có độ chính xác cao, còn Naïve Bayes có tốc độ xử lý nhanh và giảm cảnh báo giả, phù hợp với các yêu cầu khác nhau của hệ thống IDS.
Làm thế nào để đánh giá hiệu quả của mô hình phát hiện xâm nhập?
Hiệu quả được đánh giá qua các chỉ số như độ chính xác phân lớp, tỷ lệ cảnh báo giả, tốc độ xử lý và khả năng mở rộng trên tập dữ liệu kiểm thử. Ví dụ, mô hình có độ chính xác trên 90% và tỷ lệ cảnh báo giả dưới 7% được coi là hiệu quả.
Có thể áp dụng mô hình này trong môi trường mạng thực tế không?
Có thể, tuy nhiên cần điều chỉnh và tối ưu hóa dựa trên đặc điểm mạng cụ thể, đồng thời kết hợp với các biện pháp bảo mật khác như firewall và hệ thống ngăn chặn xâm nhập (IPS) để đạt hiệu quả cao nhất.

Kết luận

Luận văn đã nghiên cứu và xây dựng mô hình hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu, sử dụng các thuật toán phân lớp Naïve Bayes và Decision Tree.
Kết quả thực nghiệm trên tập dữ liệu KDD Cup 1999 cho thấy Decision Tree có độ chính xác phân lớp cao hơn (khoảng 92%) so với Naïve Bayes (khoảng 89%), trong khi Naïve Bayes có tỷ lệ cảnh báo giả thấp hơn.
Nghiên cứu góp phần nâng cao hiệu quả phát hiện các tấn công mạng mới, chưa được định nghĩa trong cơ sở dữ liệu dấu hiệu truyền thống.
Đề xuất kết hợp hai thuật toán trong hệ thống IDS để tận dụng ưu điểm của từng phương pháp, đồng thời khuyến nghị đào tạo nhân sự và phát triển hệ thống giám sát đa thuật toán.
Các bước tiếp theo bao gồm triển khai mô hình trong môi trường thực tế, mở rộng nghiên cứu với các thuật toán học máy khác và cập nhật dữ liệu tấn công mới nhằm nâng cao khả năng phát hiện và phòng chống xâm nhập mạng.

Hành động ngay hôm nay: Các tổ chức và nhà quản trị mạng nên xem xét áp dụng mô hình phát hiện xâm nhập dựa trên khai phá dữ liệu để tăng cường an ninh mạng, đồng thời đầu tư đào tạo nhân lực và cập nhật công nghệ mới nhằm đối phó hiệu quả với các mối đe dọa ngày càng tinh vi.

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1. Lý do chọn đề tài: Kể từ khi mạng Internet ra đời đến nay, thế giới đã chứng kiến sự thay đổi vô cùng to lớn và kì diệu về nhiều mặt của đời sống con ngƣời. Nền kinh tế thế giới và đời sống xã hội đã có nhiều sự biến đổi và ngày càng phụ thuộc vào công nghệ thông tin nói chung cũng nhƣ công nghệ Internet nói riêng. Điều đó cũng dẫn đến một mặt trái, đó là càng ngày càng nhiều các thông tin quan trọng của các cơ quan, tổ chức hay cá nhân lƣu trữ trên các mạng máy tính, mà đa số các mạng máy tính này lại không đảm bảo độ an toàn, bảo mật thông tin tuyệt đối.

Đi cùng với sự phát triển đó là những nguy cơ tấn công và xâm nhập mạng không ngừng gia tăng. Các đối tƣợng tấn công và hình thức tấn công mạng ngày một đa dạng, tinh vi và phức tạp hơn. Vấn đề bảo mật, an toàn cho các hệ thống thông tin nói chung và hệ thống mạng nói riêng là một vấn đề cấp bách và rất đáng đƣợc quan tâm. Bởi vậy, để bảo vệ các hệ thống thông tin ngƣời ta sử dụng nhiều các giải pháp kỹ thuật khác nhau nhƣ hệ thống tƣờng lửa, mã hoá, mạng riêng ảo (VPN), phòng chống virus…Trong đó phát hiện xâm nhập trái phép (IDS) là một trong những công nghệ quan trọng nhất nhằm giúp các tổ chức phát hiện và ngăn chặn kịp thời các tấn công trong thời gian thực, cũng nhƣ dự đoán đƣợc các nguy cơ tấn công trong tƣơng lai [3], [5].

Chính vì vậy, nghiên cứu về hệ thống IDS sẽ giúp chúng ta nâng cao khả năng xây dựng hệ thống phòng thủ cho việc giám sát an ninh mạng. Hai phƣơng pháp cơ bản để phát hiện xâm nhập trái phép là dựa trên tập luật và dựa trên các dấu hiệu bất thƣờng [1], [2], [6], [7]. Phƣơng pháp dựa trên tập luật có thể phát hiện các tấn công dựa trên một cơ sở dữ liệu các dấu hiệu đã đƣợc định nghĩa trƣớc. Phƣơng pháp này thƣờng có độ chính xác cao cũng nhƣ ít đƣa ra các cảnh báo nhầm.

Tuy nhiên, vấn đề của phƣơng pháp này là không thể phát hiện đƣợc các tấn công mới chƣa đƣợc định nghĩa hoặc cập nhật trong cơ sở dữ liệu. Phƣơng pháp dựa trên các dấu hiệu bất thƣờng có thể giúp xác định các tấn công mới nhƣng thƣờng cho độ chính xác thấp hơn so với phƣơng pháp dựa trên tập luật. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 Hiện nay, Khai phá dữ liệu đã có nhiều bƣớc phát triển vƣợt bậc và có nhiều ứng dụng kỹ thuật bằng các thuật toán khác nhau trong thực tế. Khai phá dữ liệu là một phƣơng pháp tiếp cận mới trong việc phát hiện xâm nhập.

Xây dựng mô hình hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu là một hƣớng phát triển mới và hiệu quả trong xây dựng hệ thống IDS. Xuất phát từ những yêu cầu và lý do trên, em lựa chọn đề tài luận văn là: "Tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu". Luận văn nghiên cứu khai phá dữ liệu và nghiên cứu ứng dụng mô hình hệ thống phát hiện xâm nhập trái phép dựa trên khai phá dữ liệu; Từ đó đánh giá hiệu năng của hệ thống phát hiện xâm nhập đối với các thuật toán phân lớp khác nhau trong thực tế. Mục tiêu nghiên cứu: - Nghiên cứu tổng quan về hệ thống phát hiện xâm nhập.

- Nghiên cứu một số thuật toán khai phá dữ liệu. - Ứng dụng một số thuật toán khai phá dữ liệu trong phát hiện xâm nhập, so sánh sự hiệu quả của các thuật toán. - Đánh giá hiệu năng cho mô hình đó bằng các thuật toán phân lớp khác nhau nhƣ: Naïve Bayes, Decision Tree. Đối tƣợng và phạm vi nghiên cứu: - Nghiên cứu mô hình hệ thống IDS hiện nay và đánh giá ƣu, nhƣợc điểm của IDS.

- Nghiên cứu các bài toán, kỹ thuật khai phá dữ liệu. - Ứng dụng của khai phá dữ liệu trong hệ thống phát hiện xâm nhập. - Một số thuật toán phân lớp dữ liệu. - Đánh giá hiệu năng các kỹ thuật phân lớp cho hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu.

Ý nghĩa thực tiễn của luận văn: - Nghiên cứu ứng dụng mô hình hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu giải quyết các vấn đề tồn tại của hệ thống IDS hiện nay. - Đánh giá hiệu quả phân lớp cho mô hình. Đồng thời đề xuất lựa chọn các kỹ thuật phân lớp phù hợp với từng loại tấn công cụ thể cho hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu đã đề xuất. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Phƣơng pháp nghiên cứu: Việc giám sát các hành động trên mạng có thể thu thập và phân tích để phát hiện ra các tấn công mạng. Các hành động này có thể tìm thấy trong các tệp log của ứng dụng nhƣ tạo, xóa file, truy cập vào tệp có mật khẩu, gọi các lệnh của hệ thống. Việc phân tích phát hiện các tấn công dựa trên tập dữ liệu về các hành động này có thể thực hiện thông qua các thuật toán phân lớp dữ liệu, để phân lớp thành các lớp tấn công đã biết trƣớc hoặc lớp truy cập bình thƣờng. Nghiên cứu các tài liệu liên quan trong lĩnh vực khai phá dữ liệu và phát hiện xâm nhập.

Tìm hiểu, nghiên cứu các kỹ thuật phát hiện xâm nhập dựa trên phƣơng pháp thống kê và khai phá dữ liệu. Trên cơ sở nghiên cứu và phân tích tập dữ liệu DARPA [15]. Phân tích bằng lý thuyết và thực nghiệm để xác định các thuộc tính quan trọng của tập dữ liệu có ảnh hƣởng đến một hành động tấn công cụ thể, từ đó trích rút và chuyển đổi thành định dạng phù hợp cho các thuật toán học phân lớp. Nghiên cứu xây dựng các thực nghiệm sử dụng phần mềm Weka [14], đánh giá hiệu quả của các thuật toán học phân lớp trên tập dữ liệu DARPA.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP Hệ thống phát hiện xâm nhập trái phép ra đời cách đây khoảng hơn 30 năm và nó đã trở nên rất có ích cho việc bảo vệ các hệ thống mạng máy tính, bằng cách đƣa ra các cảnh báo khi có dấu hiệu tấn công vào hệ thống, từ đó cho phép ngƣời quản trị có thể xử lý kịp thời nhằm hạn chế các rủi ro do các tấn công gây ra. Chƣơng này sẽ trình bày tổng quan về IDS hiện nay, để làm cơ sở cho nghiên cứu tiếp theo trong luận văn.1 Khái niệm về hệ thống phát hiện xâm nhập. Hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) cung cấp thêm cho việc bảo vệ an toàn thông tin mạng một mức độ cao hơn. Nó đƣợc đánh giá về giá trị không giống nhƣ firewall và VPN là ngăn ngừa các cuộc tấn công mà IDS cung cấp sự bảo vệ bằng cách trang bị cho bạn thông tin về cuộc tấn công.

Bởi vậy, một IDS có thể thoả mãn nhu cầu về an toàn hệ thống của bạn bằng cách cảnh báo cho bạn về khả năng các cuộc tấn công (và thỉnh thoảng thì ngoài những thông báo chính xác thì chúng cũng đƣa ra một số cảnh báo chƣa đúng). Nhìn chung, IDS không tự động cấm các cuộc tấn công hoặc là ngăn chặn những ngƣời khai thác một cách thành công, tuy nhiên, một sự phát triển mới nhất của IDS đó là hệ thống ngăn chặn xâm nhập (the intrusion prevention systems) đã có để thực hiện nhiều vai trò hơn và có thể ngăn chặn các cuộc tấn công khi nó xảy ra. Hệ thống phát hiện xâm nhập (IDS) là hệ thống phần cứng, phần mềm hoặc kết hợp cả hai đƣợc sử dụng để phát hiện các hành động truy nhập trái phép, có chức năng giám sát lƣu thông mạng, tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật và đƣa ra cảnh báo cho nhà quản trị. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1- IDS-giải pháp bảo mật bổ sung cho Firewall Hệ thống phát hiện xâm nhập thƣờng thực hiện việc giám sát, theo dõi và thu thập thông tin từ nhiều nguồn khác nhau.

Sau đó sẽ phân tích, đánh giá nhằm phát hiện việc xâm nhập đã đƣợc thực hiện, đang xuất hiện hoặc khả năng đối phó với những xâm nhập khi đã bị xâm nhập trong các mạng và các hệ thống thông tin. Đồng thời tìm ra dấu hiệu của sự xâm nhập hay tấn công hệ thống và thông báo đến ngƣời quản trị hệ thống. IDS đƣợc coi là công cụ bảo mật vô cùng quan trọng, nó đƣợc lựa chọn là giải pháp bảo mật đƣợc bổ sung cho Firewall. Một IDS có khả năng phát hiện ra các đoạn mã độc hại hoạt động trong hệ thống mạng, có khả năng vƣợt qua đƣợc Firewall.

Nó có thể kết hợp với Firewall hoặc một số công cụ khác để đƣa ra cách đối phó với những đoạn mã độc đó.2 Chức năng và vai trò của hệ thống phát hiện xâm nhập.1 Chức năng nhiệm vụ của IDS Hệ thống phát hiện xâm nhập cho phép các tổ chức bảo vệ hệ thống của họ khỏi những đe dọa với việc gia tăng kết nối mạng và sự tin cậy của hệ thống thông tin. Những đe dọa đối với an ninh mạng ngày càng trở nên cấp thiết đã đặt ra câu hỏi cho các nhà an ninh mạng chuyên nghiệp có nên sử dụng hệ thống phát hiện xâm nhập trừ khi những đặc tính của hệ thống phát hiện xâm nhập là hữu ích cho họ, bổ sung những điểm yếu của hệ thống khác… Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 Ngày nay, IDS đã trở nên rất có ích và hiệu quả trong việc phòng chống và giảm thiểu các nguy cơ tấn công, bảo vệ an toàn cho các hệ thống thông tin. Hệ thống phát hiện xâm nhập trái phép IDS có các chức năng quan trọng nhất là: Giám sát – Cảnh báo – Bảo vệ. + Giám sát: Lƣu lƣợng mạng và các hoạt động khả nghi.

+ Cảnh báo: Báo cáo về tình trạng mạng cho hệ thống và nhà quản trị.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu hệ thống phát hiện xâm nhập

Ứng dụng khai phá dữ liệu trong an ninh

Phân loại và đánh giá IDS

Kỹ thuật và thuật toán trong phát hiện xâm nhập

Luận văn thạc sĩ: Nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỞ ĐẦU

0.1. Lý do chọn đề tài

0.2. Mục tiêu nghiên cứu

0.3. Đối tƣợng và phạm vi nghiên cứu

0.4. Ý nghĩa thực tiễn của luận văn

0.5. Phƣơng pháp nghiên cứu

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG PHÁT HIỆN XÂM NHẬP

1.1. Khái niệm về hệ thống phát hiện xâm nhập

1.2. Chức năng và vai trò của hệ thống phát hiện xâm nhập

1.2.1. Chức năng nhiệm vụ của IDS

1.2.2. Vai trò của hệ thống phát hiện xâm nhập

1.3. Mô hình kiến trúc của hệ thống phát hiện xâm nhập

1.3.1. Các thành phần cơ bản

1.3.2. Kiến trúc của hệ thống IDS

1.4. Phân loại các hệ thống phát hiện xâm nhập

1.4.1. Hệ thống phát hiện xâm nhập máy chủ (HIDS)

1.4.2. Hệ thống phát hiện xâm nhập mạng (NIDS)

1.5. Các kỹ thuật phát hiện xâm nhập của hệ thống IDS

1.5.1. Phát hiện dựa vào dấu hiệu (Signature-base detection)

1.5.2. Phát hiện dựa trên sự bất thường (Abnormaly-base detection)

1.5.3. Kỹ thuật phát hiện dựa vào phân tích trạng thái giao thức

1.5.4. Phát hiện dựa trên mô hình

1.6. Hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu

2. CHƯƠNG II: KHAI PHÁ DỮ LIỆU

2.1. Khái niệm về khai phá dữ liệu

2.2. Các bài toán chính trong khai phá dữ liệu

2.2.1. Quá trình phân lớp

2.2.2. Hồi quy và dự báo (Regression and Prediction)

2.2.3. Mô hình hoá sự phụ thuộc (dependency modeling)

2.2.4. Phát hiện sự biến đổi và độ lệch (change and deviation detection)

2.3. Ứng dụng và phân loại khai phá dữ liệu

2.4. Những thách thức và khó khăn trong khai phá dữ liệu

2.4.1. Các vấn đề về cơ sở dữ liệu

2.4.2. Một số vấn đề khác

3. CHƯƠNG III: MÔ HÌNH HỆ THỐNG PHÁT HIỆN XÂM NHẬP DỰA TRÊN KHAI PHÁ DỮ LIỆU SỬ DỤNG KỸ THUẬT PHÂN LỚP

3.1. Đánh giá các kỹ thuật phân lớp

3.1.1. Khái niệm phân lớp

3.1.2. Mục đích của phân lớp

3.1.3. Các tiêu chí để đánh giá thuật toán phân lớp

3.1.4. Các phƣơng pháp đánh giá độ chính xác của mô hình phân lớp

3.2. Phân lớp dựa trên phƣơng pháp học Naïve Bayes

3.2.1. Bộ phân lớp Naïve Bayes

3.3. Phân lớp dựa trên cây quyết định (Decision Tree)

3.3.1. Khái niệm cây quyết định

3.3.2. Giải thuật qui nạp cây quyết định (ID3)

3.3.3. Độ lợi thông tin (Information Gain) trong cây quyết định

3.3.4. Nội dung giải thuật học cây quyết định cơ bản ID3

3.3.5. Những thiếu sót của giải thuật ID3

3.3.6. Các vấn đề cần xem xét khi phân lớp dựa trên cây quyết định

3.4. Xây dựng mô hình phát hiện xâm nhập trái phép sử dụng các kỹ thuật phân lớp

3.4.1. Mô hình bài toán

3.4.1.1. Thu thập dữ liệu

3.4.1.2. Trích rút và lựa chọn các thuộc tính

3.4.1.3. Xây dựng bộ phân lớp

3.4.2. Tiến hành thực nghiệm

3.4.2.1. Phân lớp đa lớp

3.4.2.2. Bộ phân lớp nhị phân

3.4.2.3. Phân tích đánh giá kết quả

I. Tổng quan về hệ thống phát hiện xâm nhập qua khai phá dữ liệu

1.1. Khái niệm về hệ thống phát hiện xâm nhập

1.2. Vai trò của khai phá dữ liệu trong IDS

II. Thách thức trong việc phát hiện xâm nhập qua khai phá dữ liệu

2.1. Độ chính xác của mô hình phát hiện

2.2. Khả năng xử lý dữ liệu lớn

III. Phương pháp phát hiện xâm nhập hiệu quả qua khai phá dữ liệu

3.1. Phương pháp phân lớp trong phát hiện xâm nhập

3.2. Phát hiện bất thường qua khai phá dữ liệu

IV. Ứng dụng thực tiễn của hệ thống phát hiện xâm nhập

4.1. Ứng dụng trong ngành ngân hàng

4.2. Ứng dụng trong lĩnh vực y tế

V. Kết luận và tương lai của hệ thống phát hiện xâm nhập

5.1. Xu hướng phát triển công nghệ IDS

5.2. Tương lai của khai phá dữ liệu trong an ninh mạng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trần Huy Phong

Người hướng dẫn: TS. Trần Đức Sự