Tổng quan nghiên cứu

Trong bối cảnh số lượng người dùng Internet toàn cầu đạt khoảng 4.39 tỷ người vào năm 2019, tương đương 57% dân số thế giới, các hệ thống công nghệ thông tin và truyền thông (ICT) ngày càng trở thành mục tiêu của các cuộc tấn công mạng tinh vi và đa dạng. Theo báo cáo của chuyên trang công nghệ Technology, thiệt hại do tội phạm mạng gây ra đã lên tới 600 tỷ đô la vào năm 2017 và vượt quá 1 nghìn tỷ đô la vào năm 2018, tương đương GDP của một quốc gia lớn như Úc. Những con số này dự kiến sẽ tiếp tục tăng mạnh trong những năm tới. Trước thực trạng đó, việc phát triển các hệ thống phát hiện xâm nhập mạng bất thường (Network Intrusion Detection System - NIDS) trở nên cấp thiết nhằm bảo vệ tài sản và thông tin người dùng.

Luận văn tập trung nghiên cứu phát hiện xâm nhập mạng bất thường dựa trên phân tích lưu lượng mạng sử dụng các kỹ thuật trong Machine Learning, đặc biệt là các mô hình mạng neural hồi quy như LSTM và GRU kết hợp với bộ phân lớp SVM. Mục tiêu chính là phân tích, thiết kế và đánh giá hiệu năng của các mô hình này trên bộ dữ liệu thực nghiệm Kyoto Dataset 2013 và 2015, nhằm nâng cao độ chính xác và hiệu quả phát hiện các cuộc tấn công mạng mới, chưa được biết trước. Phạm vi nghiên cứu tập trung vào xử lý dữ liệu mạng, huấn luyện và đánh giá mô hình trên dữ liệu thu thập từ hệ thống honeypot tại Đại học Kyoto, Nhật Bản.

Nghiên cứu có ý nghĩa quan trọng trong việc cải thiện khả năng phát hiện các hành vi xâm nhập bất thường, góp phần tăng cường an ninh mạng cho các doanh nghiệp và tổ chức. Các chỉ số đánh giá như Accuracy score và Confusion matrix được sử dụng để đo lường hiệu quả mô hình, từ đó đề xuất giải pháp tối ưu cho hệ thống NIDS trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy hiện đại, bao gồm:

  • Mạng Neural nhân tạo (Artificial Neural Network - ANN): Mô hình cơ bản gồm các lớp input, hidden và output, sử dụng các hàm kích hoạt như sigmoid, tanh, ReLU để xử lý dữ liệu. ANN được sử dụng để phân loại dữ liệu mạng dựa trên các đặc trưng trích xuất.

  • Mạng Neural hồi quy (Recurrent Neural Network - RNN) và các biến thể: RNN có khả năng xử lý dữ liệu dạng chuỗi tuần tự, tuy nhiên gặp vấn đề vanishing gradient khi học các phụ thuộc dài hạn. Hai biến thể cải tiến là Long Short Term Memory (LSTM) và Gated Recurrent Unit (GRU) được áp dụng để khắc phục nhược điểm này. LSTM sử dụng ba cổng (input, forget, output) để kiểm soát thông tin trong bộ nhớ dài hạn, còn GRU có hai cổng (update, reset) giúp đơn giản hóa cấu trúc nhưng vẫn giữ hiệu quả cao.

  • Support Vector Machine (SVM): Thuật toán phân lớp tối ưu hóa siêu phẳng phân tách dữ liệu với margin lớn nhất. Soft-margin SVM được sử dụng để xử lý dữ liệu có nhiễu hoặc không hoàn toàn tách biệt, phù hợp với dữ liệu mạng phức tạp. SVM được kết hợp với mạng neural để thay thế hàm Softmax trong lớp output, giúp giảm độ phức tạp tính toán và tăng độ chính xác phân loại.

Các khái niệm chính bao gồm: hàm mất mát (loss function), gradient descent, backpropagation, confusion matrix, accuracy score, và các đặc trưng mạng như duration, service, source bytes, destination bytes, cùng các tỷ lệ lỗi SYN và trạng thái kết nối.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ Kyoto Dataset 2013 và 2015, được thu thập từ hệ thống honeypot tại Đại học Kyoto, Nhật Bản. Bộ dữ liệu này bao gồm hơn 24 đặc trưng mạng, trong đó có 14 đặc trưng cơ bản và 10 đặc trưng bổ sung, phản ánh các hành vi kết nối và cảnh báo an ninh mạng.

Phương pháp nghiên cứu bao gồm:

  • Xử lý dữ liệu: Chuẩn hóa, chuyển đổi định dạng từ CSV sang NPY, áp dụng one-hot encoding cho các biến phân loại, và trích xuất các đặc trưng quan trọng.

  • Thiết kế mô hình: Đề xuất mô hình LSTM kết hợp với bộ phân lớp đa lớp SVM (LSTM-SVM) để phát hiện xâm nhập mạng bất thường. Mô hình này được so sánh với mô hình GRU-SVM tham khảo từ nghiên cứu quốc tế.

  • Phân tích và đánh giá: Sử dụng các chỉ số Accuracy score và Confusion matrix để đánh giá hiệu năng mô hình trên cả tập huấn luyện và tập kiểm thử của Kyoto Dataset 2013 và 2015. Các tham số hyper-parameter được tinh chỉnh để tối ưu hiệu quả.

  • Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong năm 2020, bao gồm khảo sát lý thuyết, xử lý dữ liệu, xây dựng mô hình, thực nghiệm và phân tích kết quả.

Phương pháp phân tích sử dụng kỹ thuật học sâu kết hợp với thuật toán phân lớp SVM, tận dụng ưu điểm của cả hai để nâng cao khả năng phát hiện các cuộc tấn công mạng mới và phức tạp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu năng mô hình LSTM-SVM vượt trội: Trên tập kiểm thử Kyoto Dataset 2015, mô hình LSTM-SVM đạt độ chính xác khoảng 85%, cao hơn so với mô hình GRU-SVM đạt khoảng 84.15%. Trên tập Kyoto Dataset 2013, LSTM-SVM cũng cho kết quả tương tự với độ chính xác trên 83%.

  2. Giảm tỷ lệ phát hiện nhầm (False Positive Rate - FPR): Mô hình LSTM-SVM có FPR thấp hơn khoảng 5% so với GRU-SVM, giúp giảm cảnh báo giả và tăng tính tin cậy của hệ thống.

  3. Confusion matrix cho thấy khả năng phân loại chính xác: Biểu đồ confusion matrix minh họa rõ ràng tỷ lệ phân loại đúng các gói tin độc hại (True Positive Rate - TPR) đạt trên 90%, trong khi tỷ lệ loại trừ nhầm (False Negative Rate - FNR) được giữ ở mức thấp dưới 7%.

  4. Thời gian dự đoán hợp lý: Mô hình LSTM-SVM có thời gian dự đoán trên tập dữ liệu kiểm thử khoảng 1.4 phút, tương đương với GRU-SVM, đảm bảo khả năng ứng dụng thực tế trong các hệ thống giám sát mạng.

Thảo luận kết quả

Nguyên nhân chính giúp LSTM-SVM vượt trội là do cấu trúc LSTM với ba cổng điều khiển giúp mô hình ghi nhớ và quên thông tin hiệu quả hơn, đặc biệt trong việc xử lý các phụ thuộc dài hạn trong chuỗi dữ liệu mạng. Việc kết hợp với bộ phân lớp SVM thay thế hàm Softmax giúp giảm độ phức tạp tính toán và tăng khả năng phân loại chính xác các mẫu dữ liệu phức tạp.

So sánh với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng áp dụng mạng neural hồi quy trong phát hiện xâm nhập mạng, đồng thời khẳng định ưu thế của việc kết hợp LSTM với SVM. Các biểu đồ confusion matrix và accuracy score được trình bày chi tiết trong luận văn giúp minh chứng rõ ràng hiệu quả mô hình.

Ý nghĩa của kết quả nghiên cứu là mở ra hướng phát triển các hệ thống NIDS thông minh, có khả năng tự học và thích nghi với các mối đe dọa mới, góp phần nâng cao an ninh mạng cho các tổ chức và doanh nghiệp trong bối cảnh tội phạm mạng ngày càng tinh vi.

Đề xuất và khuyến nghị

  1. Triển khai mô hình LSTM-SVM trong hệ thống NIDS thực tế: Đề nghị các tổ chức an ninh mạng áp dụng mô hình LSTM-SVM để nâng cao độ chính xác phát hiện xâm nhập, giảm thiểu cảnh báo giả. Thời gian thực hiện trong vòng 6-12 tháng, phối hợp giữa đội ngũ kỹ thuật và chuyên gia an ninh.

  2. Tăng cường thu thập và cập nhật dữ liệu mạng: Khuyến nghị xây dựng hệ thống thu thập dữ liệu mạng liên tục, đa dạng hóa nguồn dữ liệu để huấn luyện mô hình, đảm bảo mô hình luôn cập nhật các mẫu tấn công mới. Thời gian triển khai liên tục, chủ thể là các phòng CNTT và trung tâm an ninh mạng.

  3. Phát triển hệ thống cảnh báo tự động và phản ứng nhanh: Kết hợp mô hình phát hiện với hệ thống cảnh báo tự động, giúp giảm thiểu thời gian phản ứng trước các cuộc tấn công. Đề xuất hoàn thiện trong 12 tháng, do các nhà phát triển phần mềm và chuyên gia an ninh thực hiện.

  4. Đào tạo và nâng cao năng lực nhân sự: Tổ chức các khóa đào tạo về Machine Learning và an ninh mạng cho đội ngũ kỹ thuật, giúp họ hiểu và vận hành hiệu quả các mô hình phát hiện xâm nhập. Thời gian đào tạo 3-6 tháng, do các viện đào tạo và chuyên gia hướng dẫn.

  5. Nghiên cứu mở rộng mô hình kết hợp các thuật toán khác: Khuyến khích nghiên cứu thêm các mô hình kết hợp khác như CNN-LSTM, Attention Mechanism để cải thiện hiệu năng phát hiện. Thời gian nghiên cứu 1-2 năm, do các nhóm nghiên cứu chuyên sâu thực hiện.

Đối tượng nên tham khảo luận văn

  1. Chuyên gia và kỹ sư an ninh mạng: Luận văn cung cấp kiến thức chuyên sâu về các mô hình Machine Learning ứng dụng trong phát hiện xâm nhập mạng, giúp họ nâng cao hiệu quả công tác giám sát và bảo vệ hệ thống.

  2. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Tài liệu chi tiết về lý thuyết, phương pháp và thực nghiệm mô hình LSTM-SVM, GRU-SVM trên bộ dữ liệu thực tế, hỗ trợ nghiên cứu và phát triển các đề tài liên quan.

  3. Doanh nghiệp và tổ chức triển khai hệ thống NIDS: Cung cấp giải pháp kỹ thuật và đánh giá hiệu quả mô hình phát hiện xâm nhập, giúp doanh nghiệp lựa chọn công nghệ phù hợp để bảo vệ hạ tầng mạng.

  4. Nhà phát triển phần mềm và hệ thống giám sát mạng: Tham khảo để tích hợp các thuật toán Machine Learning tiên tiến vào sản phẩm, nâng cao khả năng phát hiện và phản ứng với các mối đe dọa mạng.

Câu hỏi thường gặp

  1. Tại sao chọn bộ dữ liệu Kyoto Dataset để thực nghiệm?
    Kyoto Dataset được thu thập từ hệ thống honeypot thực tế tại Đại học Kyoto, phản ánh các cuộc tấn công mạng hiện đại với đa dạng đặc trưng và cảnh báo. Bộ dữ liệu này có độ tin cậy cao và phù hợp để huấn luyện các mô hình phát hiện xâm nhập mạng.

  2. Ưu điểm của mô hình LSTM so với GRU là gì?
    LSTM có cấu trúc phức tạp hơn với ba cổng điều khiển giúp kiểm soát thông tin tốt hơn, đặc biệt trong việc xử lý các phụ thuộc dài hạn. Điều này giúp LSTM thường đạt hiệu quả cao hơn trong các bài toán chuỗi dữ liệu phức tạp như lưu lượng mạng.

  3. Tại sao kết hợp SVM với mạng neural thay vì dùng Softmax?
    SVM có chi phí tính toán thấp hơn và khả năng phân loại chính xác cao trong các bài toán nhị phân hoặc đa lớp. Việc thay thế Softmax bằng SVM giúp giảm độ phức tạp và tăng hiệu quả phân loại trong mô hình neural network.

  4. Mô hình có thể áp dụng cho các loại tấn công mạng nào?
    Mô hình được huấn luyện để phát hiện nhiều loại tấn công như MSSQL StackOverflow, SMB Large Return Field, SYN Flood, Trojan, Worm, và các shellcode độc hại, phù hợp với các mối đe dọa phổ biến hiện nay.

  5. Làm thế nào để cải thiện thêm hiệu năng mô hình trong tương lai?
    Có thể mở rộng nghiên cứu bằng cách kết hợp các mô hình deep learning khác như CNN, Attention Mechanism, hoặc áp dụng kỹ thuật tăng cường dữ liệu, đồng thời cập nhật liên tục bộ dữ liệu huấn luyện để mô hình thích nghi với các mối đe dọa mới.

Kết luận

  • Luận văn đã phân tích và đánh giá hiệu quả của mô hình LSTM kết hợp với SVM trong phát hiện xâm nhập mạng bất thường, cho kết quả vượt trội so với mô hình GRU-SVM tham khảo.
  • Bộ dữ liệu Kyoto Dataset 2013 và 2015 được sử dụng làm cơ sở thực nghiệm, phản ánh chính xác các đặc trưng lưu lượng mạng thực tế.
  • Các chỉ số Accuracy score và Confusion matrix minh chứng khả năng phân loại chính xác và giảm thiểu cảnh báo giả của mô hình đề xuất.
  • Nghiên cứu góp phần nâng cao hiệu quả hệ thống NIDS, đáp ứng yêu cầu bảo mật trong bối cảnh tội phạm mạng ngày càng tinh vi.
  • Đề xuất các bước tiếp theo bao gồm triển khai thực tế, mở rộng nghiên cứu mô hình kết hợp và đào tạo nhân lực chuyên môn.

Hành động tiếp theo: Các tổ chức và nhà nghiên cứu nên áp dụng và phát triển mô hình LSTM-SVM trong hệ thống giám sát mạng, đồng thời tiếp tục cập nhật và mở rộng dữ liệu để nâng cao khả năng phát hiện các mối đe dọa mới.