Luận văn thạc sĩ về hệ thống phát hiện xâm nhập sử dụng học sâu trong khoa học máy tính

Luận văn thạc sĩ nghiên cứu máy tính hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Lý do hình thành đề tài

1.2. Mục đích, đối tượng và phạm vi nghiên cứu

1.3. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

2. CHƯƠNG 2: TÌNH HÌNH NGHIÊN CỨU VÀ THÁCH THỨC

2.1. Các nghiên cứu liên quan đến đề tài

2.2. Vấn đề cần tập trung nghiên cứu, giải quyết

3. CHƯƠNG 3: PHƯƠNG PHÁP ÁP DỤNG MÔ HÌNH AUTOENCODER ĐỂ PHÁT HIỆN BẤT THƯỜNG CỦA REQUEST

3.1. Công nghệ sử dụng

3.2. Thu thập dữ liệu

3.3. Phân tích dữ liệu

3.4. Chuyển hóa dữ liệu thành dạng số

3.5. Xây dựng mô hình huấn luyện

3.6. Xây dựng hệ thống phát hiện và cảnh báo

4. CHƯƠNG 4: TÍNH TOÁN THỰC NGHIỆM VÀ PHÂN TÍCH

4.1. Những đại lượng đánh giá

4.2. Xây dựng mô hình mạng huấn luyện

4.3. Thử nghiệm trên bộ dữ liệu CSIC 2010

4.4. Áp dụng vào dữ liệu của Portal

4.5. Triển khai vào hệ thống thật, đánh giá hiệu năng

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Tài liệu tham khảo

Phụ lục

Tóm tắt

I. Hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập (IDS) là một thành phần quan trọng trong an ninh mạng, giúp giám sát và phân tích lưu lượng truy cập nhằm phát hiện các hành vi bất thường hoặc tấn công. Đặc biệt, với sự phát triển của công nghệ học sâu (deep learning), các hệ thống này đã có những cải tiến đáng kể trong khả năng nhận diện và phản ứng với các mối đe dọa. Việc áp dụng machine learning trong IDS cho phép hệ thống tự động học hỏi từ dữ liệu, từ đó nâng cao độ chính xác trong việc phát hiện các xâm nhập. Hệ thống này không chỉ giúp bảo vệ dữ liệu mà còn cung cấp thông tin phản hồi kịp thời cho quản trị viên, giúp họ đưa ra các biện pháp phòng ngừa hiệu quả.

1.1. Định nghĩa và vai trò của IDS

IDS được định nghĩa là một công cụ giám sát mạng nhằm phát hiện các hành vi xâm nhập trái phép vào hệ thống. Vai trò chính của IDS là phát hiện và cảnh báo về các tấn công, giúp bảo vệ thông tin nhạy cảm. Các hệ thống IDS hiện nay có thể phân loại thành hai loại chính: HIDS (Host-based Intrusion Detection System) và NIDS (Network-based Intrusion Detection System). HIDS tập trung vào việc bảo vệ các máy chủ, trong khi NIDS giám sát lưu lượng mạng. Đặc biệt, sự phát triển của các kỹ thuật học sâu đã mở ra khả năng phát hiện các tấn công tinh vi mà các phương pháp truyền thống khó có thể nhận diện.

II. Công nghệ học sâu trong IDS

Công nghệ học sâu đã trở thành một trong những phương pháp chủ chốt trong việc phát triển hệ thống phát hiện xâm nhập. Các mô hình như mạng nơ-ron (neural networks) và autoencoders đã được áp dụng để phân tích và phát hiện các mẫu hành vi bất thường trong lưu lượng mạng. Bằng cách sử dụng các tập dữ liệu lớn, hệ thống có thể học hỏi và cải thiện khả năng phát hiện của mình theo thời gian. Việc áp dụng mô hình autoencoder cho phép hệ thống phát hiện các yêu cầu không bình thường bằng cách so sánh chúng với các yêu cầu đã học được. Điều này không chỉ giúp nâng cao độ chính xác mà còn giảm thiểu tỷ lệ dương tính giả (false positive rate), một vấn đề lớn trong các hệ thống IDS truyền thống.

2.1. Các phương pháp học sâu trong phát hiện xâm nhập

Trong nghiên cứu này, các phương pháp học sâu như mạng nơ-ron tích chập (convolutional neural networks) và mạng autoencoder đã được sử dụng để phát hiện các hành vi xâm nhập. Mạng nơ-ron tích chập cho phép phân tích hình ảnh và dữ liệu phức tạp, trong khi autoencoder có khả năng học được các đặc điểm chính của dữ liệu vô hại. Qua đó, hệ thống có thể phát hiện các yêu cầu bất thường một cách hiệu quả. Sự kết hợp giữa các phương pháp này giúp nâng cao khả năng phát hiện và giảm thiểu các cảnh báo sai, từ đó cải thiện hiệu suất của hệ thống phát hiện xâm nhập.

III. Thực nghiệm và đánh giá hiệu năng

Các thử nghiệm đã được thực hiện trên tập dữ liệu thực tế để đánh giá hiệu năng của hệ thống phát hiện xâm nhập. Hệ thống đã được triển khai trên Cổng thông tin trường Đại học Bách Khoa, nơi mà dữ liệu nhạy cảm cần được bảo vệ. Qua các thử nghiệm, hệ thống đã cho thấy khả năng phát hiện cao đối với các yêu cầu bất thường, đồng thời cung cấp thông tin kịp thời cho quản trị viên. Các chỉ số hiệu suất như độ chính xác, độ nhạy và tỷ lệ dương tính giả đã được ghi nhận và phân tích, cho thấy sự vượt trội của hệ thống so với các phương pháp truyền thống.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy hệ thống phát hiện xâm nhập dựa trên học sâu đạt được độ chính xác lên tới 95% trong việc phát hiện các yêu cầu bất thường. Điều này cho thấy sự khả thi và hiệu quả của việc áp dụng công nghệ học sâu trong lĩnh vực an ninh mạng. Hệ thống không chỉ phát hiện các tấn công đã biết mà còn có khả năng nhận diện các hành vi bất thường chưa từng thấy trước đó. Điều này mở ra hướng đi mới trong việc bảo vệ dữ liệu nhạy cảm và nâng cao an ninh mạng cho các tổ chức, doanh nghiệp.

IV. Kết luận và hướng phát triển

Luận văn đã chỉ ra rằng việc áp dụng công nghệ học sâu trong hệ thống phát hiện xâm nhập là một giải pháp hiệu quả để nâng cao khả năng bảo vệ dữ liệu. Hệ thống không chỉ đáp ứng được nhu cầu bảo mật hiện tại mà còn có khả năng thích ứng với các mối đe dọa mới trong tương lai. Hướng phát triển tiếp theo có thể tập trung vào việc cải thiện khả năng học tập của hệ thống thông qua việc tích hợp thêm các mô hình học sâu khác và tối ưu hóa quy trình thu thập dữ liệu. Điều này không chỉ giúp hệ thống hoạt động hiệu quả hơn mà còn mở rộng khả năng phát hiện cho nhiều loại tấn công khác nhau.

4.1. Hướng phát triển trong tương lai

Các nghiên cứu tiếp theo có thể tập trung vào việc phát triển các mô hình học sâu mới hơn, cải thiện khả năng phát hiện và giảm thiểu tỷ lệ dương tính giả. Bên cạnh đó, việc tích hợp các công nghệ mới như blockchain để bảo vệ dữ liệu và tăng cường an ninh cho hệ thống cũng là một hướng đi tiềm năng. Việc nghiên cứu và phát triển thêm các giải pháp bảo mật sẽ giúp hệ thống phát hiện xâm nhập ngày càng hoàn thiện và hiệu quả hơn trong việc bảo vệ thông tin nhạy cảm.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, các mối đe dọa tấn công mạng ngày càng tinh vi và đa dạng, gây ra nhiều thiệt hại nghiêm trọng cho các tổ chức và cá nhân. Theo ước tính, mỗi ngày có hàng triệu máy tính trở thành nạn nhân của các cuộc xâm nhập trái phép, làm lộ thông tin nhạy cảm và gây thiệt hại về tài chính. Đặc biệt, dữ liệu của Cổng thông tin trường Đại học Bách Khoa (Portal) chứa đựng nhiều thông tin quan trọng về cán bộ, sinh viên và các đơn vị trực thuộc, do đó việc bảo vệ nguồn dữ liệu này là vô cùng cấp thiết.

Luận văn tập trung nghiên cứu xây dựng hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) ở tầng máy chủ (Host-based IDS - HIDS) cho Portal, nhằm phát hiện các truy cập bất thường và cảnh báo kịp thời cho quản trị viên. Mục tiêu cụ thể là phát triển giải thuật học sâu (deep learning) sử dụng mô hình mạng autoencoder để học đặc trưng của các HTTP request bình thường, từ đó phát hiện các request bất thường có nguy cơ xâm nhập. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 9/2021 đến tháng 6/2022 tại trường Đại học Bách Khoa, ĐHQG TP.HCM.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả phát hiện xâm nhập ở tầng ứng dụng, khắc phục hạn chế của các hệ thống IDS truyền thống như Snort vốn không thể xử lý dữ liệu mã hóa HTTPS và khó phát hiện các tấn công phức tạp như SQL injection hay cross-site scripting (XSS). Hệ thống được xây dựng có khả năng xử lý gần 100.000 HTTP request thu thập thực tế, góp phần bảo vệ an toàn thông tin cho Portal và có thể mở rộng ứng dụng cho các hệ thống tương tự khác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính:

Hệ thống phát hiện xâm nhập (IDS): Phân loại thành Signature-based IDS (SIDS) và Anomaly-based IDS (AIDS). SIDS dựa trên chữ ký các cuộc tấn công đã biết, có độ chính xác cao với các tấn công cũ nhưng không phát hiện được tấn công mới (zero-day). AIDS dựa trên mô hình hành vi bình thường, phát hiện các bất thường nhưng gặp khó khăn với dữ liệu mã hóa và có thể gây ra nhiều cảnh báo giả.
Mô hình mạng Autoencoder trong học sâu: Autoencoder là mạng neural học không giám sát, được huấn luyện để tái tạo dữ liệu đầu vào. Qua đó, mô hình học được đặc trưng của dữ liệu bình thường. Khi gặp dữ liệu bất thường, lỗi tái kiến trúc sẽ lớn hơn ngưỡng cho phép, giúp phát hiện các request độc hại. Các biến thể của autoencoder được sử dụng gồm Vanilla Autoencoder, Deep Autoencoder và Convolutional Autoencoder (CAE) để khai thác đặc trưng dữ liệu dạng ma trận.

Các khái niệm chuyên ngành quan trọng bao gồm HTTP request, tokenization, reconstruction error, false positive rate (FPR), true positive rate (TPR), threshold (ngưỡng phát hiện), và các tầng trong mô hình OSI (đặc biệt tầng ứng dụng).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là gần 100.000 HTTP request thực tế thu thập từ Cổng thông tin Portal của trường Đại học Bách Khoa trong 3 đợt, mỗi đợt kéo dài một tuần, đảm bảo bao phủ đa dạng dịch vụ và đối tượng người dùng (cán bộ, sinh viên, khách truy cập). Dữ liệu được thu thập tại tầng máy chủ, nơi các gói tin HTTPS đã được giải mã, giúp xử lý trực tiếp nội dung request.

Phương pháp phân tích gồm các bước:

Tiền xử lý dữ liệu: Tokenization các thành phần của HTTP request (method, URL, query, body) thành các token định nghĩa sẵn, chuyển đổi thành ma trận số để làm đầu vào cho mô hình học sâu.
Xây dựng mô hình học sâu: Huấn luyện các mô hình autoencoder trên tập dữ liệu chỉ chứa request bình thường để học đặc trưng. Mô hình sử dụng thư viện Keras trên Python, với các kiến trúc Vanilla, Deep và Convolutional Autoencoder.
Xác định ngưỡng phát hiện: Tính toán ngưỡng dựa trên lỗi tái kiến trúc trung bình và độ lệch chuẩn, điều chỉnh tham số trade-off α để cân bằng giữa tỉ lệ phát hiện đúng và tỉ lệ cảnh báo giả.
Phát hiện và cảnh báo: Áp dụng mô hình đã huấn luyện để đánh giá các request mới, so sánh lỗi tái kiến trúc với ngưỡng để phân loại request bình thường hoặc bất thường, gửi cảnh báo đến quản trị viên qua hệ thống giám sát.

Timeline nghiên cứu kéo dài từ tháng 9/2021 đến tháng 6/2022, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm trên bộ dữ liệu CSIC 2010 và dữ liệu Portal, triển khai thực tế và đánh giá hiệu năng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình autoencoder trên bộ dữ liệu CSIC 2010: Mô hình Convolutional Autoencoder đạt độ chính xác phát hiện lên đến khoảng 98%, vượt trội so với Vanilla và Deep Autoencoder. Điều này chứng tỏ khả năng khai thác đặc trưng dữ liệu dạng ma trận giúp cải thiện hiệu suất.
Hiệu quả trên bộ dữ liệu Portal thực tế: Mô hình CAE đạt độ chính xác khoảng 95%, với tỉ lệ dương tính giả (false positive rate) dưới 2%, giảm đáng kể so với các phương pháp học máy truyền thống. Số lượng request xử lý trung bình trong khung giờ cao điểm đạt khoảng 10.000 request/ngày với thời gian xử lý trung bình dưới 0.5 giây/request.
Ảnh hưởng của tham số ngưỡng α: Khi tăng α, tỉ lệ dương tính giả giảm nhưng tỉ lệ phát hiện đúng cũng giảm theo. Giá trị α tối ưu được xác định trong khoảng 1.5 đến 2.0 để cân bằng hiệu quả phát hiện và giảm cảnh báo giả.
Triển khai thực tế và cảnh báo: Hệ thống phát hiện xâm nhập được triển khai trên máy chủ thứ cấp, không ảnh hưởng đến hiệu năng máy chủ chính. Các cảnh báo được gửi qua email đến quản trị viên với thông tin chi tiết về request bất thường, giúp kịp thời xử lý.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng mô hình học sâu autoencoder, đặc biệt là Convolutional Autoencoder, có khả năng học được đặc trưng phức tạp của HTTP request ở tầng ứng dụng, vượt qua hạn chế của các hệ thống IDS truyền thống như Snort vốn chỉ hoạt động hiệu quả ở tầng mạng và không xử lý được dữ liệu mã hóa. Việc tokenization và chuyển đổi dữ liệu thành ma trận số giúp mô hình khai thác được mối quan hệ tương quan giữa các thành phần trong request, từ đó nâng cao độ chính xác phát hiện.

So sánh với các nghiên cứu trước đây sử dụng học có giám sát trên các bộ dữ liệu mạng tổng quát, nghiên cứu này tập trung vào dữ liệu thực tế, không cần gán nhãn, giúp phát hiện các kiểu tấn công mới chưa biết trước. Việc triển khai trên hệ thống thực tế của Portal cũng chứng minh tính khả thi và hiệu quả ứng dụng.

Biểu đồ so sánh độ chính xác và tỉ lệ dương tính giả giữa các mô hình được trình bày rõ ràng, giúp minh họa sự ưu việt của mô hình CAE. Bảng thống kê số lượng request và thời gian xử lý theo khung giờ cũng cho thấy hệ thống đáp ứng tốt yêu cầu vận hành thực tế.

Đề xuất và khuyến nghị

Triển khai mở rộng hệ thống phát hiện xâm nhập HIDS cho các dịch vụ khác trong trường: Áp dụng phương pháp tokenization và mô hình autoencoder cho các hệ thống web khác của trường Đại học Bách Khoa nhằm bảo vệ toàn diện hơn. Thời gian thực hiện dự kiến 6-12 tháng, do phòng CNTT chủ trì.
Cập nhật và mở rộng bộ dữ liệu huấn luyện liên tục: Thu thập dữ liệu HTTP request định kỳ hàng tháng để cập nhật mô hình, giúp phát hiện các kiểu tấn công mới và cải thiện độ chính xác. Đề xuất xây dựng quy trình tự động hóa thu thập và huấn luyện lại mô hình.
Phát triển module cảnh báo thông minh: Tích hợp hệ thống cảnh báo tự động phân loại mức độ nguy hiểm và đề xuất biện pháp xử lý cho quản trị viên, giảm thiểu thời gian phản ứng. Thời gian phát triển 3-6 tháng, phối hợp giữa nhóm nghiên cứu và phòng an ninh mạng.
Nghiên cứu kết hợp HIDS và NIDS: Xây dựng hệ thống phát hiện xâm nhập kết hợp cả tầng mạng và tầng máy chủ để tăng cường khả năng phát hiện toàn diện, giảm thiểu điểm mù bảo mật. Đây là hướng phát triển dài hạn trong 1-2 năm tới.

Đối tượng nên tham khảo luận văn

Nhà quản lý CNTT và an ninh mạng các tổ chức, doanh nghiệp: Có thể áp dụng giải pháp phát hiện xâm nhập tầng ứng dụng để bảo vệ hệ thống web và dữ liệu quan trọng, giảm thiểu rủi ro mất an toàn thông tin.
Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, An toàn Thông tin: Tài liệu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học sâu trong phát hiện xâm nhập, hỗ trợ nghiên cứu và phát triển các hệ thống IDS mới.
Phòng CNTT các trường đại học, cơ sở giáo dục: Tham khảo để xây dựng hệ thống bảo mật cho các cổng thông tin, hệ thống quản lý đào tạo, đảm bảo an toàn dữ liệu sinh viên và cán bộ.
Nhà phát triển phần mềm và kỹ sư bảo mật: Áp dụng kỹ thuật tokenization và mô hình autoencoder để phát triển các sản phẩm bảo mật ứng dụng web, nâng cao khả năng phát hiện tấn công zero-day và các hành vi bất thường.

Câu hỏi thường gặp

Hệ thống phát hiện xâm nhập này có thể phát hiện được những loại tấn công nào?
Hệ thống chủ yếu phát hiện các request HTTP bất thường như SQL injection, cross-site scripting (XSS), và các payload độc hại khác dựa trên sự khác biệt về đặc trưng so với request bình thường. Ví dụ, các request chứa từ khóa nhạy cảm như "SELECT", "DROP TABLE" sẽ được cảnh báo.
Tại sao lại chọn mô hình autoencoder thay vì các mô hình học máy có giám sát?
Autoencoder là mô hình học không giám sát, không cần dữ liệu gán nhãn, phù hợp với thực tế khó khăn trong việc thu thập và gán nhãn dữ liệu tấn công. Mô hình này học đặc trưng của dữ liệu bình thường và phát hiện bất thường dựa trên lỗi tái kiến trúc.
Hệ thống có thể xử lý dữ liệu mã hóa HTTPS như thế nào?
Dữ liệu được thu thập tại tầng máy chủ, nơi các gói tin HTTPS đã được giải mã, nên hệ thống có thể phân tích trực tiếp nội dung HTTP request mà không bị ảnh hưởng bởi mã hóa.
Tỉ lệ cảnh báo giả (false positive) của hệ thống là bao nhiêu?
Thử nghiệm trên dữ liệu thực tế cho thấy tỉ lệ cảnh báo giả dưới 2%, thấp hơn nhiều so với các hệ thống IDS truyền thống, giúp giảm thiểu phiền toái cho quản trị viên.
Hệ thống có thể mở rộng áp dụng cho các dịch vụ web khác không?
Có thể. Phần tiền xử lý dữ liệu (tokenization) có thể được điều chỉnh theo đặc thù của từng dịch vụ web, giúp hệ thống dễ dàng thích nghi và bảo vệ các hệ thống khác ngoài Portal.

Kết luận

Đề tài đã xây dựng thành công hệ thống phát hiện xâm nhập tầng máy chủ cho Cổng thông tin Portal sử dụng mô hình học sâu autoencoder, xử lý trực tiếp HTTP request thực tế.
Mô hình Convolutional Autoencoder cho hiệu quả phát hiện cao, tỉ lệ cảnh báo giả thấp, phù hợp với môi trường dữ liệu phức tạp và đa dạng.
Hệ thống được triển khai thực tế, đáp ứng tốt yêu cầu xử lý lưu lượng lớn và cảnh báo kịp thời cho quản trị viên.
Nghiên cứu góp phần khắc phục hạn chế của các hệ thống IDS truyền thống, mở ra hướng phát triển mới cho bảo mật ứng dụng web.
Các bước tiếp theo bao gồm mở rộng hệ thống cho các dịch vụ khác, cập nhật dữ liệu liên tục và phát triển module cảnh báo thông minh nhằm nâng cao hiệu quả bảo vệ.

Quý độc giả và các nhà quản lý an ninh mạng được khuyến khích áp dụng và phát triển thêm dựa trên kết quả nghiên cứu này để bảo vệ an toàn thông tin trong môi trường số ngày càng phức tạp.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Trong chương này trình bày lý do hình thành đề tài, mục đích, đối tượng và phạm vi nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu.1 Lý do hình thành đề tài Xâm nhập (Intrusion) trong thuật ngữ máy tính có thể được định nghĩa là hành động làm tổn hại cho hệ thống máy tính bằng cách phá vỡ tính bảo mật của hệ thống đó. Mỗi ngày có hàng triệu máy tính là nạn nhân của cách làm này khiến các doanh nghiệp thua lỗ do để lộ thông tin bí mật của họ trong các cuộc cạnh tranh doanh nghiệp. Vì lí do đó, an ninh mạng ngày càng trở nên quan trọng cho máy tính của người dùng và các tổ chức. Để ngăn chặn truy cập trái phép vào các hệ thống, một số lượng lớn công cụ phát hiện xâm nhập đã được tạo ra cho phép theo dõi, giám sát, nắm bắt và phát hiện những truy cập không mong muốn trong mạng hoặc trong một thiết bị mạng.

Cả 2 hệ thống trên đều kiểm tra các gói tin và chặn các gói đáng ngờ, cũng như là cảnh báo cho quản trị viên về các nỗ lực tấn công. IPS có thể được định nghĩa là hệ thống kiểm soát hoạt động trong mạng nhằm ngăn chặn các mối đe dọa sắp đến và ngăn chặn các cuộc tấn công đang diễn ra trong khi IDS là công cụ phát hiện và giám sát nhằm cảnh báo cho người dùng về những lưu lượng nguy hiểm tiềm ẩn. IDS là một hướng tiếp cận phù hợp trong thời điểm hiện tại nhằm xây dựng một hệ thống phát hiện xâm nhập cho Cổng thông tin của trường đại học Bách Khoa (Portal) nhằm phát hiện bất thường, cung cấp cho quản trị viên thông tin về các cuộc tấn công mạng vào Portal sau đó đưa đến sự phân tích và phát triển thêm IPS cho hệ thống trong tương lai. Hệ thống mạng của trường hiện tại đang sử dụng Snort.

Snort là một hệ thống phát hiện xâm nhập nguồn mở sử dụng một danh sách các quy tắc giúp xác định hoạt động mạng độc hại và sử dụng các quy tắc đó để tìm các gói tin vi phạm cảnh báo cho quản trị viên. Snort trước đây trong hệ thống hoạt động khá hiệu quả khi các bộ qui tắc của Snort có thể can Trang 1 Hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập thiệp sâu vào nội dung dữ liệu và đưa ra đánh giá gói tin đó. Tuy nhiên, trong thời gian hiện tại, hệ thống Snort này đang ngày càng trở nên không hiệu quả vì nhiều nguyên do. • Thứ nhất, giao thức mạng hiện nay đa số sử dụng HTTPS, đồng nghĩa với việc dữ liệu trong gói tin đã được mã hóa, các bộ qui tắc của Snort liên quan đến dữ liệu gói tin hoàn toàn không có tác dụng trong khi đa số các cuộc tấn công hiện nay chứa các mã độc nằm trong phần dữ liệu và dễ dàng vượt qua được hệ thống Snort này.

• Thứ hai, Snort là một hệ thống phát hiện xâm nhập tầng mạng (NIDS) nên độ tổng quát khi đánh giá một gói tin rất là rộng. Điều này dẫn đến trong một số khía cạnh nào đó, sẽ gặp khó khăn khi đánh giá một hệ thống IDS hoạt động có thật sự hiệu quả hay là không. Qua thực tế cho thấy, các cảnh báo mà Snort phát hiện hiện nay chủ yếu là cảnh báo về tấn công về "Challenge-Response Buffer Overflow" trong giao thức điều khiển từ xa SSH, bỏ qua nhiều mối nguy hại cho các tầng phía trên (Tầng phiên - Session, Tầng trình bày - Presentation, Tầng ứng dụng - Application), ví dụ điển hình là SQL injection, cross site scripting (XSS). Vì thế, việc xây dựng một hệ thống phát hiện xâm nhập ở các tầng phía trên (cụ thể trong luận văn này là tầng ứng dụng) để bảo vệ nguồn dữ liệu cho Portal là thực sự cần thiết.2 Mục đích, đối tượng và phạm vi nghiên cứu Đề tài này hướng tới việc xây dựng một hệ thống phát hiện xâm nhập ở tầng máy chủ (HIDS), cụ thể ở đây là xây dựng hệ thống phát hiện xâm nhập cho Cổng thông tin trường Đại học Bách Khoa, Đại học Quốc gia TP.

Từ những vấn đề đã được trình bày ở mục Lý do hình thành đề tài, đề tài tập trung cho việc phát hiện xâm nhập cho một dịch vụ - cụ thể ở đây là trang Portal, hướng tới việc phát hiện xâm nhập ở tầng máy chủ (HIDS). Các hệ thống IDS thông thường không hoạt động tốt như mong đợi vì một số lí do: • Hạn chế về phân loại: Nhiều hệ thống IDS hoạt động trên các chiến lược dựa trên các quy tắc hoặc các giải thuật học máy có giám sát để Trang 2 Hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập phân biệt các request bình thường và các request tấn công, với yêu cầu đòi hỏi một lượng lớn dữ liệu huấn luyện gắn nhãn để huấn luyện các giải thuật học. Tuy nhiên, thật khó và tốn kém để có được dữ liệu huấn luyện này cho các ứng dụng tùy chỉnh tùy ý. Ngoài ra, dữ liệu được gắn nhẵn thường rất mất cân bằng nhiều vì các request tấn công cho các hệ thống tự điều chỉnh khó nhận biết hơn các request bình thường, điều này đặt ra một thách thức lớn cho các nhà phân loại.

Hơn nữa, mặc dù các phương pháp học có giám sát có thể phân biệt các cuộc tấn công đã biết hiện có, nhưng các kiểu tấn công và lỗ hổng mới xuất hiện liên tục, vì vậy chúng có thể phân loại sai. • Hạn chế về dương tính (báo động) giả: Mặc dù các công việc trước đây đã áp dụng các giải thuật học không giám sát (ví dụ như PCA, SVM) để phát hiện các cuộc tấn công, các hướng tiếp cận này yêu cầu lựa chọn thủ công các tính năng cụ thể của cuộc tấn công. Hơn nữa, trong khi các phương pháp này đạt được hiệu suất có thể chấp nhận được, nhưng chúng cũng phải chịu tỉ lệ dương tính giả (fasle positive rate) quá cao. Ví dụ, số dương tính giả tăng 1% có thể khiến hệ thống IDS gắn cờ không chính xác cho nhiều người dùng hợp pháp.

Do đó điều cần thiết là phải giảm tỉ lệ dương tính giả này. Để khắc phục những hạn chế trên, đề tài áp dụng mô hình học sâu đầu cuối (deep learning end-to-end) để phát hiện các cuộc tấn công mạng một cách tự động trong thời gian thực và thích ứng một cách hiệu quả, có quy mô và an toàn để ngăn chặn chúng. [5] Dữ liệu được dùng để nghiên cứu là xoay quanh việc thu thập các yêu cầu (request) của người dùng khi người dùng thực hiện lệnh gọi (System call) đến trang Portal - ở đây là thông qua API (Application Program Interface), các request này đến từ tất cả người dùng truy cập đến trang Portal, bao gồm cả cán bộ, sinh viên, học viên, nghiên cứu sinh,. thuộc trường ĐHBK-ĐHQG-HCM và người dùng khách khi truy cập đến trang Portal.

Đề tài hướng tới việc xây dựng một hệ thống phát hiện xâm nhập nhằm giúp giảm thiểu tối đa rủi ro cho trang Portal khỏi các tác nhân gây hại. Hệ thống này gồm có 2 thành phần chính: • Phần phát hiện xâm nhập và cảnh báo cho quản trị viên qua một hệ thống giám sát, cung cấp cho quản trị viên thông tin cụ thể của một request bất thường. Trang 3 Hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập • Phần học thuật sẽ thực hiện việc huấn luyện với bộ dữ liệu liên tục được thu thập theo thời gian dựa vào các kỹ thuật học sâu không giám sát và bán giám sát. Dựa vào các tập luật phân tích thông tin để liên tục cập nhật bộ phân loại, có thể phát hiện được thêm được các kiểu tấn công mới, cải thiện hiệu suất phát hiện cho hệ thống phát hiện xâm nhập này.3 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu Về mặt khoa học, đề tài đóng góp vào việc nghiên cứu xây dựng, phát triển một hệ thống phát hiện xâm nhập tầng máy chủ, chú tâm vào việc phân tích trực tiếp nguồn dữ liệu mà người dùng truy cập đến hệ thống.

Đề tài này còn đưa ra giải pháp về mô hình mạng autoencoder mới để tiếp tục phát triển sau này. Về mặt thực tiễn, kết quả của nghiên cứu mang lại cho các doanh nghiệp, các cơ sở đào tạo có thể áp dụng, đưa ra giải pháp và tích hợp vào hệ thống bảo mật để bảo vệ nguồn tài nguyên của mình. Sau cùng, bài nghiên cứu này sẽ là tài liệu tham khảo cho các nhà nghiên cứu về sau, cho các cá nhân, tổ chức quan tâm đến vấn đề phát hiện xâm nhập ở tầng máy chủ, vấn đề bảo mật hệ thống thông tin. Trang 4 Hướng tiếp cận học sâu cho hệ thống phát hiện xâm nhập 2 TÌNH HÌNH NGHIÊN CỨU VÀ THÁCH THỨC Trong chương này sẽ phân tích, đánh giá các công trình nghiên cứu đã có của các tác giả trong và ngoài nước liên quan mật thiết đến đề tài; những vấn đề còn tồn tại; những vấn đề mà đề tài cần tập trung nghiên cứu, giải quyết 2.1 Các nghiên cứu liên quan đến đề tài Survey of intrusion detection systems: techniques, datasets and challenges, năm 2019 Bài báo này [2] trình bày về tổng quan của IDS, bao gồm về phần kỹ thuật, bộ dữ liệu và các thử thách của hệ thống này.

Một số kỹ thuật về IDS bài báo này có đề cập đến bao gồm Signature-based (SIDS), Anomaly- based (AIDS), Network-based (NIDS), Host-based (HIDS). SIDS Hệ thống phát hiện xâm nhập dựa trên chữ ký (SIDS) dựa trên các kỹ thuật đối sánh mẫu để tìm ra một cuộc tấn công đã biết, chúng còn được gọi là sự phát hiện dựa trên sự hiểu biết hoặc sự phát hiện lạm dụng. Trong SIDS, phương pháp so khớp đã được sử dụng để tìm một lần xâm nhập trước đó, nghĩa là khi một chữ ký xâm nhập khớp với chữ ký của một lần xâm nhập trước đó đã được lưu trong cơ sở dữ liệu, hệ thống sẽ phát báo động. [2] Với cơ chế này SIDS thường sẽ có độ chính xác phát hiện cao cho các cuộc tấn công đã biết trước đây, nhưng sẽ gặp khó khăn trong việc phát hiện các cuộc tấn công dạng zero-day 1 vì lý do không có chữ ký nào phù hợp tồn tại trong cơ sở dữ liệu cho đến khi nó được cập nhật và lưu trữ.

[2] Tỷ lệ ngày càng tăng của các cuộc tấn công zero-day đã làm cho SIDS ngày càng kém hiệu quả hơn vì không tồn tại chữ ký trước cho bất kỳ cuộc tấn công nào như vậy.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về hệ thống phát hiện xâm nhập sử dụng học sâu trong khoa học máy tính" của tác giả Nguyễn Quang Sang, dưới sự hướng dẫn của PGS.TS Trần Văn Hoài tại Đại học Quốc gia TP.HCM, trình bày một phương pháp tiếp cận mới trong việc phát hiện xâm nhập bằng cách áp dụng các kỹ thuật học sâu. Nghiên cứu này không chỉ giúp tăng cường khả năng phát hiện các mối đe dọa an ninh mạng mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực an toàn thông tin. Độc giả sẽ tìm thấy nhiều lợi ích từ việc nắm vững công nghệ học sâu và ứng dụng của nó trong bảo mật hệ thống.

Nếu bạn quan tâm đến các nghiên cứu liên quan, hãy khám phá thêm về Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, nơi mà các kỹ thuật mạng neural cũng được áp dụng để giải quyết vấn đề bảo mật. Ngoài ra, bạn có thể tìm hiểu về Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, một nghiên cứu khác trong lĩnh vực học sâu với ứng dụng trong nhận diện giọng nói. Cuối cùng, hãy tham khảo Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, để thấy được sự đa dạng trong ứng dụng của học sâu trong các lĩnh vực khác nhau. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về công nghệ học sâu trong khoa học máy tính.

#Luận văn Thạc sĩ

#an ninh mạng

#khoa học máy tính

#phát hiện xâm nhập

#hệ thống phát hiện xâm nhập

Chủ đề

Nghiên cứu và phát triển trong khoa học máy tính

An ninh mạng và bảo mật thông tin

Công nghệ học máy và ứng dụng

Xu hướng và thách thức trong phát hiện xâm nhập