Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, các mối đe dọa tấn công mạng ngày càng tinh vi và đa dạng, gây ra nhiều thiệt hại nghiêm trọng cho các tổ chức và cá nhân. Theo ước tính, mỗi ngày có hàng triệu máy tính trở thành nạn nhân của các cuộc xâm nhập trái phép, làm lộ thông tin nhạy cảm và gây thiệt hại về tài chính. Đặc biệt, dữ liệu của Cổng thông tin trường Đại học Bách Khoa (Portal) chứa đựng nhiều thông tin quan trọng về cán bộ, sinh viên và các đơn vị trực thuộc, do đó việc bảo vệ nguồn dữ liệu này là vô cùng cấp thiết.

Luận văn tập trung nghiên cứu xây dựng hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS) ở tầng máy chủ (Host-based IDS - HIDS) cho Portal, nhằm phát hiện các truy cập bất thường và cảnh báo kịp thời cho quản trị viên. Mục tiêu cụ thể là phát triển giải thuật học sâu (deep learning) sử dụng mô hình mạng autoencoder để học đặc trưng của các HTTP request bình thường, từ đó phát hiện các request bất thường có nguy cơ xâm nhập. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 9/2021 đến tháng 6/2022 tại trường Đại học Bách Khoa, ĐHQG TP.HCM.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả phát hiện xâm nhập ở tầng ứng dụng, khắc phục hạn chế của các hệ thống IDS truyền thống như Snort vốn không thể xử lý dữ liệu mã hóa HTTPS và khó phát hiện các tấn công phức tạp như SQL injection hay cross-site scripting (XSS). Hệ thống được xây dựng có khả năng xử lý gần 100.000 HTTP request thu thập thực tế, góp phần bảo vệ an toàn thông tin cho Portal và có thể mở rộng ứng dụng cho các hệ thống tương tự khác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính:

  1. Hệ thống phát hiện xâm nhập (IDS): Phân loại thành Signature-based IDS (SIDS) và Anomaly-based IDS (AIDS). SIDS dựa trên chữ ký các cuộc tấn công đã biết, có độ chính xác cao với các tấn công cũ nhưng không phát hiện được tấn công mới (zero-day). AIDS dựa trên mô hình hành vi bình thường, phát hiện các bất thường nhưng gặp khó khăn với dữ liệu mã hóa và có thể gây ra nhiều cảnh báo giả.

  2. Mô hình mạng Autoencoder trong học sâu: Autoencoder là mạng neural học không giám sát, được huấn luyện để tái tạo dữ liệu đầu vào. Qua đó, mô hình học được đặc trưng của dữ liệu bình thường. Khi gặp dữ liệu bất thường, lỗi tái kiến trúc sẽ lớn hơn ngưỡng cho phép, giúp phát hiện các request độc hại. Các biến thể của autoencoder được sử dụng gồm Vanilla Autoencoder, Deep Autoencoder và Convolutional Autoencoder (CAE) để khai thác đặc trưng dữ liệu dạng ma trận.

Các khái niệm chuyên ngành quan trọng bao gồm HTTP request, tokenization, reconstruction error, false positive rate (FPR), true positive rate (TPR), threshold (ngưỡng phát hiện), và các tầng trong mô hình OSI (đặc biệt tầng ứng dụng).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là gần 100.000 HTTP request thực tế thu thập từ Cổng thông tin Portal của trường Đại học Bách Khoa trong 3 đợt, mỗi đợt kéo dài một tuần, đảm bảo bao phủ đa dạng dịch vụ và đối tượng người dùng (cán bộ, sinh viên, khách truy cập). Dữ liệu được thu thập tại tầng máy chủ, nơi các gói tin HTTPS đã được giải mã, giúp xử lý trực tiếp nội dung request.

Phương pháp phân tích gồm các bước:

  • Tiền xử lý dữ liệu: Tokenization các thành phần của HTTP request (method, URL, query, body) thành các token định nghĩa sẵn, chuyển đổi thành ma trận số để làm đầu vào cho mô hình học sâu.

  • Xây dựng mô hình học sâu: Huấn luyện các mô hình autoencoder trên tập dữ liệu chỉ chứa request bình thường để học đặc trưng. Mô hình sử dụng thư viện Keras trên Python, với các kiến trúc Vanilla, Deep và Convolutional Autoencoder.

  • Xác định ngưỡng phát hiện: Tính toán ngưỡng dựa trên lỗi tái kiến trúc trung bình và độ lệch chuẩn, điều chỉnh tham số trade-off α để cân bằng giữa tỉ lệ phát hiện đúng và tỉ lệ cảnh báo giả.

  • Phát hiện và cảnh báo: Áp dụng mô hình đã huấn luyện để đánh giá các request mới, so sánh lỗi tái kiến trúc với ngưỡng để phân loại request bình thường hoặc bất thường, gửi cảnh báo đến quản trị viên qua hệ thống giám sát.

Timeline nghiên cứu kéo dài từ tháng 9/2021 đến tháng 6/2022, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm trên bộ dữ liệu CSIC 2010 và dữ liệu Portal, triển khai thực tế và đánh giá hiệu năng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình autoencoder trên bộ dữ liệu CSIC 2010: Mô hình Convolutional Autoencoder đạt độ chính xác phát hiện lên đến khoảng 98%, vượt trội so với Vanilla và Deep Autoencoder. Điều này chứng tỏ khả năng khai thác đặc trưng dữ liệu dạng ma trận giúp cải thiện hiệu suất.

  2. Hiệu quả trên bộ dữ liệu Portal thực tế: Mô hình CAE đạt độ chính xác khoảng 95%, với tỉ lệ dương tính giả (false positive rate) dưới 2%, giảm đáng kể so với các phương pháp học máy truyền thống. Số lượng request xử lý trung bình trong khung giờ cao điểm đạt khoảng 10.000 request/ngày với thời gian xử lý trung bình dưới 0.5 giây/request.

  3. Ảnh hưởng của tham số ngưỡng α: Khi tăng α, tỉ lệ dương tính giả giảm nhưng tỉ lệ phát hiện đúng cũng giảm theo. Giá trị α tối ưu được xác định trong khoảng 1.5 đến 2.0 để cân bằng hiệu quả phát hiện và giảm cảnh báo giả.

  4. Triển khai thực tế và cảnh báo: Hệ thống phát hiện xâm nhập được triển khai trên máy chủ thứ cấp, không ảnh hưởng đến hiệu năng máy chủ chính. Các cảnh báo được gửi qua email đến quản trị viên với thông tin chi tiết về request bất thường, giúp kịp thời xử lý.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng mô hình học sâu autoencoder, đặc biệt là Convolutional Autoencoder, có khả năng học được đặc trưng phức tạp của HTTP request ở tầng ứng dụng, vượt qua hạn chế của các hệ thống IDS truyền thống như Snort vốn chỉ hoạt động hiệu quả ở tầng mạng và không xử lý được dữ liệu mã hóa. Việc tokenization và chuyển đổi dữ liệu thành ma trận số giúp mô hình khai thác được mối quan hệ tương quan giữa các thành phần trong request, từ đó nâng cao độ chính xác phát hiện.

So sánh với các nghiên cứu trước đây sử dụng học có giám sát trên các bộ dữ liệu mạng tổng quát, nghiên cứu này tập trung vào dữ liệu thực tế, không cần gán nhãn, giúp phát hiện các kiểu tấn công mới chưa biết trước. Việc triển khai trên hệ thống thực tế của Portal cũng chứng minh tính khả thi và hiệu quả ứng dụng.

Biểu đồ so sánh độ chính xác và tỉ lệ dương tính giả giữa các mô hình được trình bày rõ ràng, giúp minh họa sự ưu việt của mô hình CAE. Bảng thống kê số lượng request và thời gian xử lý theo khung giờ cũng cho thấy hệ thống đáp ứng tốt yêu cầu vận hành thực tế.

Đề xuất và khuyến nghị

  1. Triển khai mở rộng hệ thống phát hiện xâm nhập HIDS cho các dịch vụ khác trong trường: Áp dụng phương pháp tokenization và mô hình autoencoder cho các hệ thống web khác của trường Đại học Bách Khoa nhằm bảo vệ toàn diện hơn. Thời gian thực hiện dự kiến 6-12 tháng, do phòng CNTT chủ trì.

  2. Cập nhật và mở rộng bộ dữ liệu huấn luyện liên tục: Thu thập dữ liệu HTTP request định kỳ hàng tháng để cập nhật mô hình, giúp phát hiện các kiểu tấn công mới và cải thiện độ chính xác. Đề xuất xây dựng quy trình tự động hóa thu thập và huấn luyện lại mô hình.

  3. Phát triển module cảnh báo thông minh: Tích hợp hệ thống cảnh báo tự động phân loại mức độ nguy hiểm và đề xuất biện pháp xử lý cho quản trị viên, giảm thiểu thời gian phản ứng. Thời gian phát triển 3-6 tháng, phối hợp giữa nhóm nghiên cứu và phòng an ninh mạng.

  4. Nghiên cứu kết hợp HIDS và NIDS: Xây dựng hệ thống phát hiện xâm nhập kết hợp cả tầng mạng và tầng máy chủ để tăng cường khả năng phát hiện toàn diện, giảm thiểu điểm mù bảo mật. Đây là hướng phát triển dài hạn trong 1-2 năm tới.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý CNTT và an ninh mạng các tổ chức, doanh nghiệp: Có thể áp dụng giải pháp phát hiện xâm nhập tầng ứng dụng để bảo vệ hệ thống web và dữ liệu quan trọng, giảm thiểu rủi ro mất an toàn thông tin.

  2. Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, An toàn Thông tin: Tài liệu cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng học sâu trong phát hiện xâm nhập, hỗ trợ nghiên cứu và phát triển các hệ thống IDS mới.

  3. Phòng CNTT các trường đại học, cơ sở giáo dục: Tham khảo để xây dựng hệ thống bảo mật cho các cổng thông tin, hệ thống quản lý đào tạo, đảm bảo an toàn dữ liệu sinh viên và cán bộ.

  4. Nhà phát triển phần mềm và kỹ sư bảo mật: Áp dụng kỹ thuật tokenization và mô hình autoencoder để phát triển các sản phẩm bảo mật ứng dụng web, nâng cao khả năng phát hiện tấn công zero-day và các hành vi bất thường.

Câu hỏi thường gặp

  1. Hệ thống phát hiện xâm nhập này có thể phát hiện được những loại tấn công nào?
    Hệ thống chủ yếu phát hiện các request HTTP bất thường như SQL injection, cross-site scripting (XSS), và các payload độc hại khác dựa trên sự khác biệt về đặc trưng so với request bình thường. Ví dụ, các request chứa từ khóa nhạy cảm như "SELECT", "DROP TABLE" sẽ được cảnh báo.

  2. Tại sao lại chọn mô hình autoencoder thay vì các mô hình học máy có giám sát?
    Autoencoder là mô hình học không giám sát, không cần dữ liệu gán nhãn, phù hợp với thực tế khó khăn trong việc thu thập và gán nhãn dữ liệu tấn công. Mô hình này học đặc trưng của dữ liệu bình thường và phát hiện bất thường dựa trên lỗi tái kiến trúc.

  3. Hệ thống có thể xử lý dữ liệu mã hóa HTTPS như thế nào?
    Dữ liệu được thu thập tại tầng máy chủ, nơi các gói tin HTTPS đã được giải mã, nên hệ thống có thể phân tích trực tiếp nội dung HTTP request mà không bị ảnh hưởng bởi mã hóa.

  4. Tỉ lệ cảnh báo giả (false positive) của hệ thống là bao nhiêu?
    Thử nghiệm trên dữ liệu thực tế cho thấy tỉ lệ cảnh báo giả dưới 2%, thấp hơn nhiều so với các hệ thống IDS truyền thống, giúp giảm thiểu phiền toái cho quản trị viên.

  5. Hệ thống có thể mở rộng áp dụng cho các dịch vụ web khác không?
    Có thể. Phần tiền xử lý dữ liệu (tokenization) có thể được điều chỉnh theo đặc thù của từng dịch vụ web, giúp hệ thống dễ dàng thích nghi và bảo vệ các hệ thống khác ngoài Portal.

Kết luận

  • Đề tài đã xây dựng thành công hệ thống phát hiện xâm nhập tầng máy chủ cho Cổng thông tin Portal sử dụng mô hình học sâu autoencoder, xử lý trực tiếp HTTP request thực tế.
  • Mô hình Convolutional Autoencoder cho hiệu quả phát hiện cao, tỉ lệ cảnh báo giả thấp, phù hợp với môi trường dữ liệu phức tạp và đa dạng.
  • Hệ thống được triển khai thực tế, đáp ứng tốt yêu cầu xử lý lưu lượng lớn và cảnh báo kịp thời cho quản trị viên.
  • Nghiên cứu góp phần khắc phục hạn chế của các hệ thống IDS truyền thống, mở ra hướng phát triển mới cho bảo mật ứng dụng web.
  • Các bước tiếp theo bao gồm mở rộng hệ thống cho các dịch vụ khác, cập nhật dữ liệu liên tục và phát triển module cảnh báo thông minh nhằm nâng cao hiệu quả bảo vệ.

Quý độc giả và các nhà quản lý an ninh mạng được khuyến khích áp dụng và phát triển thêm dựa trên kết quả nghiên cứu này để bảo vệ an toàn thông tin trong môi trường số ngày càng phức tạp.