Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin và mạng Internet phát triển nhanh chóng, các tổ chức và doanh nghiệp ngày càng phụ thuộc vào hệ thống mạng để vận hành và phát triển. Tuy nhiên, cùng với sự phát triển đó là sự gia tăng phức tạp và đa dạng của các cuộc tấn công mạng, gây ra nhiều rủi ro nghiêm trọng về an toàn thông tin. Theo báo cáo của ngành, thiệt hại do virus máy tính tại Việt Nam năm 2020 vượt mốc 1 tỷ USD, tăng mạnh so với năm trước đó. Các cuộc tấn công như tấn công từ chối dịch vụ (DoS/DDoS), tấn công trung gian (MitM), tấn công lừa đảo (Phishing), và mã độc (Malware) ngày càng tinh vi và khó phát hiện hơn.

Mục tiêu nghiên cứu của luận văn là xây dựng mô hình phát hiện tấn công mạng dựa trên kỹ thuật học không giám sát, nhằm phát hiện các hành vi bất thường trong lưu lượng mạng mà không cần dữ liệu gán nhãn trước. Phạm vi nghiên cứu tập trung vào dữ liệu mạng thu thập từ bộ dữ liệu CICIDS2017, với các cuộc tấn công điển hình như DDoS, Portscan, và tấn công web brute-force. Nghiên cứu được thực hiện trong năm 2022 tại thành phố Hồ Chí Minh, với ứng dụng thực nghiệm trên mạng LAN và tấn công khai thác lỗ hổng CVE-2015-3043.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao khả năng phát hiện các tấn công mới, giảm thiểu tỷ lệ cảnh báo sai, đồng thời giảm chi phí triển khai và vận hành hệ thống so với các phương pháp truyền thống. Kết quả nghiên cứu góp phần tăng cường năng lực bảo mật mạng cho các tổ chức, doanh nghiệp trong bối cảnh an ninh mạng ngày càng trở nên cấp thiết.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của lĩnh vực máy học (Machine Learning), một nhánh của trí tuệ nhân tạo, tập trung vào việc phát triển các thuật toán cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình rõ ràng. Trong đó, học không giám sát (Unsupervised Learning) là phương pháp chính được áp dụng, sử dụng dữ liệu chưa gán nhãn để tìm kiếm cấu trúc hoặc mẫu ẩn trong dữ liệu.

Hai thuật toán phân cụm chủ đạo được nghiên cứu là K-Means và DBSCAN. Thuật toán K-Means được lựa chọn do tính phổ biến, hiệu quả và chi phí tính toán thấp, phù hợp với việc phân cụm dữ liệu mạng để phát hiện hành vi bất thường. DBSCAN cũng được giới thiệu như một thuật toán phân cụm dựa trên mật độ, có khả năng phát hiện các điểm ngoại lai (outliers) trong dữ liệu.

Các khái niệm chính bao gồm:

  • Tấn công mạng (Cyberattack): Hành vi khai thác trái phép hệ thống mạng nhằm gây hại hoặc đánh cắp thông tin.
  • Hệ thống phát hiện xâm nhập (IDS): Công cụ giám sát và cảnh báo các hành vi xâm nhập bất thường trong mạng.
  • Phân cụm (Clustering): Kỹ thuật nhóm các điểm dữ liệu tương đồng vào cùng một cụm để phát hiện mẫu hoặc bất thường.
  • Đặc trưng (Feature): Thuộc tính hoặc biến số được trích xuất từ dữ liệu để phục vụ cho việc phân tích và học máy.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là bộ dữ liệu CICIDS2017, một tập dữ liệu mạng có chứa các mẫu lưu lượng bình thường và các cuộc tấn công mạng điển hình. Bộ dữ liệu này cung cấp hơn 80 đặc trưng liên quan đến lưu lượng mạng, giúp mô hình học máy có thể phân biệt các hành vi bất thường.

Phương pháp nghiên cứu bao gồm các bước:

  1. Tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu, chuẩn hóa và lựa chọn bộ đặc trưng phù hợp cho từng loại tấn công dựa trên học có giám sát.
  2. Xây dựng mô hình phân cụm: Sử dụng thuật toán K-Means để phân cụm dữ liệu mạng, từ đó phát hiện các cụm biểu thị hành vi bất thường hoặc tấn công.
  3. Phát hiện và cảnh báo: Dựa trên kết quả phân cụm, xác định các điểm dữ liệu ngoại lai hoặc cụm có đặc trưng tấn công để cảnh báo kịp thời.
  4. Thực nghiệm và đánh giá: Áp dụng mô hình trên môi trường mạng LAN với tấn công khai thác lỗ hổng CVE-2015-3043 sử dụng công cụ Metasploit để kiểm tra hiệu quả phát hiện.

Cỡ mẫu nghiên cứu bao gồm toàn bộ dữ liệu trong CICIDS2017 với hàng triệu bản ghi lưu lượng mạng, được chọn lọc và xử lý phù hợp. Phương pháp chọn mẫu là toàn bộ dữ liệu có sẵn, đảm bảo tính đại diện cho các loại tấn công phổ biến. Phân tích dữ liệu được thực hiện bằng các thuật toán phân cụm và đánh giá hiệu suất dựa trên các chỉ số như độ chính xác, tỷ lệ cảnh báo sai (False Positive) và khả năng phát hiện tấn công mới.

Timeline nghiên cứu kéo dài trong năm 2022, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, lập trình ứng dụng và thực nghiệm đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân cụm K-Means trong phát hiện tấn công: Mô hình phân cụm K-Means đã phân nhóm chính xác các hành vi bất thường trong dữ liệu mạng, với tỷ lệ phát hiện tấn công DDoS đạt khoảng 95%, vượt trội so với các phương pháp truyền thống. Tỷ lệ cảnh báo sai được giảm xuống dưới 5%, cải thiện đáng kể so với các hệ thống IDS dựa trên chữ ký.

  2. Trích chọn đặc trưng phù hợp: Việc lựa chọn bộ đặc trưng dựa trên học có giám sát giúp tăng độ chính xác phát hiện các loại tấn công điển hình như DDoS, Portscan và web brute-force. Ví dụ, nhóm đặc trưng tấn công DDoS gồm các biến liên quan đến lưu lượng TCP SYN và số lượng gói tin đã giúp mô hình phân biệt rõ ràng các cụm tấn công.

  3. Khả năng phát hiện tấn công mới: Mô hình học không giám sát cho phép phát hiện các hành vi tấn công chưa từng xuất hiện trong dữ liệu huấn luyện, thể hiện qua việc phát hiện thành công lưu lượng tấn công khai thác lỗ hổng CVE-2015-3043 trong môi trường thực nghiệm mạng LAN.

  4. Ứng dụng thực tế: Ứng dụng phát hiện tấn công mạng được xây dựng dựa trên mô hình K-Means đã phát hiện lưu lượng tấn công trong mạng LAN với độ chính xác cao, giúp cảnh báo kịp thời và ngăn chặn các cuộc tấn công mạng hiệu quả.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao đến từ việc kết hợp kỹ thuật phân cụm K-Means với trích chọn đặc trưng phù hợp, giúp mô hình tập trung vào các biến quan trọng nhất phản ánh hành vi tấn công. So với các nghiên cứu trước đây sử dụng học có giám sát hoặc dựa trên chữ ký, phương pháp học không giám sát giảm thiểu được nhược điểm về việc không phát hiện được các tấn công mới hoặc zero-day.

Kết quả cũng cho thấy chi phí tính toán và vận hành hệ thống thấp hơn đáng kể so với các hệ thống IDS truyền thống, do thuật toán K-Means có độ phức tạp tính toán thấp và dễ dàng triển khai trên các hệ thống thực tế. Biểu đồ phân cụm và bảng so sánh tỷ lệ phát hiện tấn công minh họa rõ ràng sự vượt trội của mô hình đề xuất.

Tuy nhiên, tỷ lệ cảnh báo sai vẫn còn tồn tại do đặc tính phân cụm không hoàn toàn chính xác trong mọi trường hợp, đòi hỏi cần có thêm các bước xử lý hậu kỳ hoặc kết hợp với các kỹ thuật học máy khác để nâng cao hiệu quả.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống phát hiện tấn công dựa trên học không giám sát: Các tổ chức nên áp dụng mô hình phân cụm K-Means kết hợp trích chọn đặc trưng để phát hiện sớm các hành vi tấn công mạng, đặc biệt là các tấn công mới chưa có trong cơ sở dữ liệu chữ ký. Thời gian triển khai dự kiến trong vòng 6 tháng, do tính đơn giản và hiệu quả của thuật toán.

  2. Tăng cường đào tạo và nâng cao nhận thức an ninh mạng: Đào tạo đội ngũ quản trị mạng về kỹ thuật học máy và cách vận hành hệ thống phát hiện tấn công để nâng cao khả năng ứng phó và xử lý cảnh báo. Khuyến nghị tổ chức các khóa đào tạo định kỳ hàng năm.

  3. Phát triển ứng dụng giám sát và cảnh báo tự động: Xây dựng phần mềm ứng dụng tích hợp mô hình học không giám sát để giám sát lưu lượng mạng theo thời gian thực, tự động cảnh báo và hỗ trợ quản trị viên trong việc xử lý sự cố. Thời gian phát triển ứng dụng khoảng 9 tháng.

  4. Nâng cấp và mở rộng hệ thống giám sát: Mở rộng hệ thống phát hiện tấn công trên toàn bộ mạng doanh nghiệp, bao gồm cả các phân đoạn mạng nhỏ và các thiết bị đầu cuối, nhằm đảm bảo toàn diện và giảm thiểu điểm mù trong giám sát. Thời gian thực hiện trong vòng 12 tháng.

  5. Kết hợp đa phương pháp phát hiện: Khuyến nghị kết hợp mô hình học không giám sát với các kỹ thuật học có giám sát và phân tích chữ ký để tăng cường độ chính xác và giảm tỷ lệ cảnh báo sai, đồng thời nâng cao khả năng phát hiện các tấn công phức tạp.

Đối tượng nên tham khảo luận văn

  1. Chuyên gia và nhà nghiên cứu an ninh mạng: Luận văn cung cấp cơ sở lý thuyết và phương pháp thực nghiệm về phát hiện tấn công mạng dựa trên học không giám sát, giúp họ phát triển các giải pháp mới và nâng cao hiệu quả bảo mật.

  2. Quản trị viên hệ thống và mạng: Các cá nhân chịu trách nhiệm quản lý an ninh mạng có thể áp dụng mô hình và ứng dụng đề xuất để cải thiện khả năng phát hiện và phản ứng với các cuộc tấn công mạng trong tổ chức.

  3. Doanh nghiệp và tổ chức sử dụng mạng máy tính: Các doanh nghiệp có nhu cầu bảo vệ hệ thống thông tin và dữ liệu quan trọng có thể tham khảo để triển khai hệ thống phát hiện tấn công mạng hiệu quả, giảm thiểu rủi ro mất mát thông tin.

  4. Sinh viên và học viên ngành khoa học máy tính, an toàn thông tin: Luận văn là tài liệu tham khảo quý giá cho việc nghiên cứu, học tập và phát triển các đề tài liên quan đến máy học và an ninh mạng, đặc biệt trong lĩnh vực phát hiện xâm nhập.

Câu hỏi thường gặp

  1. Học không giám sát khác gì so với học có giám sát trong phát hiện tấn công mạng?
    Học không giám sát sử dụng dữ liệu chưa gán nhãn để tìm kiếm cấu trúc hoặc mẫu ẩn, phù hợp để phát hiện các tấn công mới hoặc chưa biết trước. Trong khi đó, học có giám sát dựa trên dữ liệu đã gán nhãn để phân loại, hiệu quả với các tấn công đã biết nhưng hạn chế với tấn công mới.

  2. Tại sao chọn thuật toán K-Means cho phân cụm trong nghiên cứu này?
    K-Means được chọn vì tính đơn giản, hiệu quả và chi phí tính toán thấp, phù hợp với việc xử lý lượng lớn dữ liệu mạng. Thuật toán này giúp phân nhóm các hành vi tương đồng và phát hiện điểm bất thường dễ dàng.

  3. Mô hình có thể phát hiện được những loại tấn công nào?
    Mô hình tập trung phát hiện các tấn công phổ biến như DDoS, Portscan, tấn công web brute-force và các tấn công khai thác lỗ hổng mới như CVE-2015-3043, đồng thời có khả năng phát hiện các hành vi bất thường chưa từng xuất hiện.

  4. Tỷ lệ cảnh báo sai (False Positive) của mô hình là bao nhiêu?
    Mô hình đạt tỷ lệ cảnh báo sai dưới 5%, thấp hơn nhiều so với các hệ thống truyền thống, giúp giảm thiểu cảnh báo không cần thiết và tăng hiệu quả xử lý sự cố.

  5. Ứng dụng thực nghiệm được triển khai như thế nào?
    Ứng dụng được lập trình và cài đặt trên môi trường mạng LAN, sử dụng thuật toán K-Means để phân tích lưu lượng mạng và phát hiện tấn công khai thác lỗ hổng CVE-2015-3043 bằng công cụ Metasploit, với kết quả phát hiện thành công lưu lượng tấn công.

Kết luận

  • Nghiên cứu đã xây dựng thành công mô hình phát hiện tấn công mạng dựa trên học không giám sát sử dụng thuật toán phân cụm K-Means, với hiệu quả phát hiện cao và chi phí thấp.
  • Việc trích chọn đặc trưng dựa trên học có giám sát giúp nâng cao độ chính xác và khả năng phân biệt các loại tấn công điển hình.
  • Ứng dụng thực nghiệm trên mạng LAN đã chứng minh khả năng phát hiện các tấn công mới và bất thường, góp phần tăng cường an ninh mạng cho tổ chức.
  • Mô hình đề xuất giảm thiểu tỷ lệ cảnh báo sai, hỗ trợ quản trị viên trong việc xử lý sự cố nhanh chóng và hiệu quả.
  • Các bước tiếp theo bao gồm mở rộng triển khai hệ thống, kết hợp đa phương pháp phát hiện và phát triển ứng dụng giám sát thời gian thực để nâng cao khả năng bảo vệ mạng.

Quý độc giả và các nhà quản trị mạng được khuyến khích áp dụng và phát triển mô hình này nhằm nâng cao năng lực bảo mật, bảo vệ hệ thống thông tin trước các mối đe dọa ngày càng phức tạp.