Tổng quan nghiên cứu

Tấn công Deface là một trong những kiểu tấn công an ninh mạng phổ biến, khai thác lỗ hổng bảo mật để thay đổi nội dung hiển thị trên các trang web thông qua hình ảnh, văn bản, âm thanh hoặc video. Theo thống kê từ năm 2015 đến 2023, số lượng các cuộc tấn công Deface có xu hướng giảm nhưng vẫn duy trì ở mức cao, khoảng 100 nghìn lượt tấn công trong năm 2023. Những cuộc tấn công này không chỉ gây thiệt hại về kinh tế mà còn ảnh hưởng nghiêm trọng đến uy tín của cá nhân, doanh nghiệp và tổ chức chính phủ, thậm chí có thể gây bất ổn về an ninh xã hội.

Mục tiêu của luận văn là đề xuất và hiện thực một giải pháp phát hiện kịp thời kiểu tấn công Deface nhằm giảm thiểu thiệt hại cho các đối tượng bị ảnh hưởng. Phạm vi nghiên cứu tập trung vào các trang web có nội dung tiếng Anh và tiếng Việt, bao gồm hai thành phần chính là văn bản và hình ảnh trong tệp HTML tải về. Nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2024 đến giữa năm 2024, với dữ liệu thu thập từ các trang web bị tấn công Deface và các trang web bình thường thuộc nhiều lĩnh vực khác nhau.

Giải pháp được đề xuất có ý nghĩa quan trọng trong việc nâng cao khả năng cảnh báo sớm các cuộc tấn công Deface, giúp quản trị viên nhanh chóng phát hiện và xử lý, từ đó bảo vệ an toàn thông tin và duy trì uy tín cho các tổ chức, doanh nghiệp. Các chỉ số đánh giá hiệu quả như độ chính xác phát hiện, tỷ lệ cảnh báo sai và tỷ lệ phát hiện đúng được sử dụng để đo lường hiệu suất của hệ thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: hàm băm và học máy.

  • Hàm băm (Hash function): Hàm băm là một hàm ánh xạ dữ liệu đầu vào có độ dài bất kỳ thành một giá trị băm có độ dài cố định, được sử dụng để kiểm tra toàn vẹn dữ liệu. Các hàm băm phổ biến như MD5, SHA-1 được áp dụng để phát hiện sự thay đổi nội dung trang web thông qua so sánh giá trị băm của các thành phần HTML, hình ảnh. Hàm băm có tính một chiều và bền vững đụng độ, đảm bảo không thể dễ dàng tạo ra hai dữ liệu khác nhau có cùng giá trị băm.

  • Học máy (Machine Learning): Phương pháp học máy được sử dụng để phân loại trang web bị tấn công Deface hay bình thường dựa trên đặc trưng trích xuất từ nội dung văn bản. Thuật toán cây quyết định (Decision Tree) được lựa chọn do tính hiệu quả và khả năng tối ưu hóa tham số. Kỹ thuật trích xuất đặc trưng sử dụng mô hình túi từ (bag-of-words) với n-gram (n=2) và chọn 300 từ có tần suất cao nhất làm đặc trưng đầu vào.

Ngoài ra, luận văn còn áp dụng các khái niệm về chuỗi con chung dài nhất (Longest Common Substring) để tự động sinh chữ ký tấn công từ dữ liệu thu thập được, cũng như xây dựng bộ quy tắc loại bỏ các từ phổ biến không phải dấu hiệu tấn công (danh sách trắng).

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm với quy trình gồm:

  • Nguồn dữ liệu: Thu thập dữ liệu huấn luyện gồm 9.260 trang web, trong đó 5.174 trang bị tấn công Deface lấy từ zone-h.org và 4.086 trang web bình thường tiếng Anh, tiếng Việt từ các nguồn internet phổ biến. Dữ liệu kiểm thử gồm 142 trang web (70 trang bị Deface, 45 trang bình thường) thu thập sau thời gian huấn luyện.

  • Phương pháp phân tích:

    • Tiền xử lý dữ liệu HTML để trích xuất thành phần văn bản và hình ảnh.
    • Sinh chữ ký tấn công tự động dựa trên chuỗi con chung dài nhất với độ dài tối thiểu 3 ký tự và ngưỡng tần suất xuất hiện 3 lần.
    • Huấn luyện mô hình cây quyết định với đặc trưng tần suất từ (Term Frequency) sử dụng thư viện scikit-learn.
    • Hiệu chỉnh siêu tham số mô hình bằng GridSearchCV để tối ưu độ sâu cây, số nút lá, chiến lược phân chia, v.v.
    • Giai đoạn phát hiện kết hợp so sánh chữ ký tấn công và phân loại bằng mô hình học máy.
  • Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 01/2024, hoàn thành thu thập và xử lý dữ liệu trong tháng 03-04/2024, huấn luyện và đánh giá mô hình trong tháng 05/2024, bảo vệ luận văn vào tháng 06/2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất phát hiện tấn công bằng chữ ký tự động: Với 5.174 trang web bị Deface, hệ thống sinh được 573 chữ ký tấn công từ thành phần văn bản và hình ảnh. Tỷ lệ phát hiện đúng (TPR) đạt khoảng 43.4%, cao hơn so với các nghiên cứu trước đó chỉ đạt từ 22.5% đến 47% với số lượng chữ ký thấp hơn.

  2. Hiệu suất mô hình lai kết hợp chữ ký và học máy: Mô hình lai đạt độ chính xác (ACC) 91.3%, tỷ lệ cảnh báo sai (FPR) khoảng 6.5%, tỷ lệ dự đoán đúng (PPV) và điểm F1 cũng ở mức cao, cho thấy sự cải thiện đáng kể so với các phương pháp chỉ sử dụng học máy hoặc chỉ dựa trên chữ ký.

  3. Tác động của tham số chuỗi con chung: Việc lựa chọn độ dài chuỗi con tối thiểu là 3 ký tự và ngưỡng tần suất xuất hiện 3 lần giúp cân bằng giữa tỷ lệ phát hiện và tỷ lệ cảnh báo sai, tránh việc nhận diện nhầm các thành phần phổ biến không phải dấu hiệu tấn công.

  4. Phân bố thành phần trang web: Văn bản và hình ảnh chiếm hơn 94% nội dung trang web bị Deface, khẳng định tính hiệu quả của việc tập trung sinh chữ ký và phân tích trên hai thành phần này.

Thảo luận kết quả

Kết quả cho thấy phương pháp sinh chữ ký tự động dựa trên chuỗi con chung dài nhất là một hướng tiếp cận khả thi để khai thác dữ liệu từ các cuộc tấn công đã biết, giúp tăng tỷ lệ phát hiện tấn công Deface. Việc kết hợp mô hình học máy cây quyết định với dữ liệu chữ ký tạo thành mô hình lai giúp cải thiện độ chính xác và giảm tỷ lệ cảnh báo sai so với các phương pháp truyền thống chỉ dựa vào so sánh giá trị băm hoặc học máy đơn thuần.

So sánh với các nghiên cứu trước, mô hình lai đạt hiệu suất vượt trội, đặc biệt là tỷ lệ phát hiện đúng cao hơn đáng kể. Tuy nhiên, tỷ lệ cảnh báo sai vẫn còn ở mức 6.5%, cho thấy cần tiếp tục tối ưu bộ quy tắc và dữ liệu chữ ký để giảm thiểu cảnh báo giả. Ngoài ra, việc áp dụng mô hình trên các trang web có nội dung thay đổi liên tục vẫn là thách thức do đặc tính động của dữ liệu.

Dữ liệu có thể được trình bày qua các biểu đồ hộp thể hiện tần suất xuất hiện thành phần văn bản, biểu đồ bánh phân bố tỷ lệ thành phần trang web, và bảng so sánh các chỉ số đánh giá hiệu suất giữa các phương pháp. Các biểu đồ này giúp trực quan hóa hiệu quả của mô hình và các tham số cấu hình.

Đề xuất và khuyến nghị

  1. Tăng cường cập nhật và mở rộng cơ sở dữ liệu chữ ký tấn công: Định kỳ thu thập và xử lý dữ liệu mới từ các trang web bị Deface để bổ sung chữ ký, nâng cao khả năng phát hiện các biến thể tấn công mới. Thời gian cập nhật đề xuất là hàng tháng, do bộ phận an ninh mạng hoặc nhóm nghiên cứu thực hiện.

  2. Tối ưu bộ quy tắc loại bỏ từ phổ biến (danh sách trắng): Rà soát và mở rộng danh sách các từ không phải dấu hiệu tấn công để giảm tỷ lệ cảnh báo sai, đồng thời áp dụng kỹ thuật học máy để tự động điều chỉnh bộ quy tắc dựa trên dữ liệu thực tế. Thời gian thực hiện trong 3-6 tháng, do nhóm phát triển phần mềm và chuyên gia an ninh mạng phối hợp.

  3. Phát triển mô hình học sâu kết hợp đặc trưng văn bản và hình ảnh: Nghiên cứu áp dụng các thuật toán học sâu như BiLSTM cho văn bản và EfficientNet cho hình ảnh để nâng cao độ chính xác phân loại, đặc biệt với các trang web có nội dung đa dạng và thay đổi liên tục. Cần đầu tư tài nguyên tính toán và thời gian huấn luyện khoảng 6-12 tháng.

  4. Triển khai hệ thống giám sát từ xa đa trang web với cảnh báo tự động: Xây dựng hệ thống giám sát tập trung, có khả năng theo dõi nhiều trang web cùng lúc, gửi cảnh báo qua email hoặc các kênh thông báo khác cho quản trị viên khi phát hiện tấn công. Thời gian triển khai dự kiến 3-4 tháng, do đội ngũ kỹ thuật vận hành.

  5. Tăng cường đào tạo và nâng cao nhận thức về an ninh mạng cho quản trị viên: Tổ chức các khóa đào tạo về nhận biết và xử lý tấn công Deface, sử dụng công cụ giám sát hiệu quả nhằm giảm thiểu thiệt hại do tấn công gây ra. Thời gian tổ chức định kỳ hàng quý, do phòng đào tạo và an ninh mạng phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

  1. Quản trị viên hệ thống và an ninh mạng: Luận văn cung cấp giải pháp thực tiễn để phát hiện và cảnh báo tấn công Deface, giúp họ nâng cao khả năng bảo vệ hệ thống, giảm thiểu thiệt hại và duy trì hoạt động ổn định của trang web.

  2. Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, An ninh mạng: Tài liệu trình bày chi tiết về phương pháp sinh chữ ký tự động, mô hình học máy cây quyết định và mô hình lai, là nguồn tham khảo quý giá cho các nghiên cứu tiếp theo trong lĩnh vực phát hiện tấn công mạng.

  3. Doanh nghiệp phát triển phần mềm và dịch vụ bảo mật: Các công ty có thể ứng dụng giải pháp đề xuất để tích hợp vào sản phẩm giám sát an ninh mạng, nâng cao giá trị dịch vụ và đáp ứng nhu cầu bảo vệ khách hàng trước các cuộc tấn công Deface.

  4. Cơ quan quản lý nhà nước và tổ chức chính phủ: Luận văn giúp các cơ quan này hiểu rõ hơn về nguy cơ tấn công Deface, từ đó xây dựng chính sách, quy trình giám sát và phản ứng kịp thời nhằm bảo vệ hệ thống thông tin quan trọng.

Câu hỏi thường gặp

  1. Tấn công Deface là gì và tại sao cần phát hiện sớm?
    Tấn công Deface là việc thay đổi nội dung trang web trái phép nhằm gây mất uy tín hoặc phá hoại. Phát hiện sớm giúp ngăn chặn thiệt hại về kinh tế và uy tín, đồng thời bảo vệ an ninh thông tin.

  2. Phương pháp sinh chữ ký tự động hoạt động như thế nào?
    Phương pháp dựa trên việc tìm các chuỗi con chung dài tối thiểu 3 ký tự xuất hiện nhiều lần trong các trang web bị tấn công, từ đó tạo ra chữ ký đặc trưng để nhận diện các dấu hiệu tấn công mới.

  3. Tại sao kết hợp học máy với chữ ký tấn công lại hiệu quả hơn?
    Chữ ký tấn công giúp nhận diện các mẫu đã biết, trong khi học máy phân loại dựa trên đặc trưng nội dung mới. Kết hợp cả hai giúp tăng độ chính xác và giảm cảnh báo sai.

  4. Mô hình cây quyết định có ưu điểm gì trong bài toán này?
    Cây quyết định dễ hiểu, hiệu quả với dữ liệu văn bản, có thể tối ưu tham số để đạt hiệu suất cao, đồng thời tiêu tốn ít tài nguyên tính toán hơn so với các mô hình học sâu.

  5. Giải pháp này có thể áp dụng cho các trang web động không?
    Có, mô hình lai xử lý được cả trang web tĩnh và động nhờ không chỉ dựa vào giá trị băm mà còn phân tích đặc trưng văn bản và hình ảnh, phù hợp với nội dung thay đổi liên tục.

Kết luận

  • Đề tài đã xây dựng thành công giải pháp cảnh báo kiểu tấn công Deface dựa trên mô hình lai kết hợp chữ ký tấn công tự động và học máy cây quyết định.
  • Hệ thống đạt độ chính xác 91.3% với tỷ lệ phát hiện đúng 43.4% từ chữ ký và giảm thiểu cảnh báo sai ở mức 6.5%.
  • Phương pháp sinh chữ ký tự động dựa trên chuỗi con chung dài nhất là hướng tiếp cận mới, giúp khai thác hiệu quả dữ liệu từ các cuộc tấn công đã biết.
  • Kết quả thực nghiệm khẳng định tính khả thi và hiệu quả của mô hình trong môi trường thực tế với trang web tiếng Anh và tiếng Việt.
  • Hướng phát triển tiếp theo tập trung vào mở rộng cơ sở dữ liệu chữ ký, áp dụng học sâu, tối ưu bộ quy tắc và triển khai hệ thống giám sát đa trang web.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các giải pháp dựa trên kết quả này để nâng cao khả năng bảo vệ hệ thống trước các cuộc tấn công Deface ngày càng tinh vi.