Tổng quan nghiên cứu

Trong bối cảnh Internet và World Wide Web ngày càng trở nên phổ biến và thiết yếu trong đời sống hiện đại, các trang web đóng vai trò quan trọng trong việc chia sẻ thông tin, quảng bá thương hiệu và phục vụ nhu cầu giải trí. Tuy nhiên, sự phát triển này cũng kéo theo sự gia tăng các hành vi tấn công mạng, trong đó tấn công deface là một trong những mối đe dọa nghiêm trọng nhất đối với an ninh mạng. Tấn công deface là hành vi xâm nhập và thay đổi giao diện hoặc nội dung của trang web nhằm mục đích phá hoại hình ảnh, gây mất uy tín hoặc chiếm đoạt thông tin. Theo báo cáo của ngành, Việt Nam nằm trong danh sách các quốc gia chịu nhiều cuộc tấn công mạng, trong đó deface chiếm tỷ lệ đáng kể.

Mục tiêu nghiên cứu của luận văn là phát triển một kỹ thuật phát hiện tấn công deface trong thời gian thực, có khả năng phân biệt hành vi tấn công và hành vi bình thường, đồng thời cung cấp giải pháp phục hồi trang web về trạng thái ban đầu nhằm giảm thiểu thiệt hại. Phạm vi nghiên cứu tập trung vào các website có lưu lượng truy cập vừa phải, có tính năng cho phép người dùng thay đổi nội dung như đăng bình luận hoặc cập nhật ảnh đại diện, trong khoảng thời gian từ tháng 12/2022 đến tháng 6/2023 tại Việt Nam.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả giám sát và bảo vệ website, góp phần đảm bảo an toàn thông tin quốc gia, giảm thiểu thiệt hại tài chính và uy tín cho các tổ chức, doanh nghiệp. Kỹ thuật phát hiện deface được đề xuất có thể ứng dụng rộng rãi trong các hệ thống quản trị web, đặc biệt trong bối cảnh các cuộc tấn công ngày càng tinh vi và đa dạng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình nghiên cứu chính:

  1. Mô hình phân loại máy học (Machine Learning Classification): Sử dụng các thuật toán như Support Vector Machine (SVM), Random Forest và Gradient Boosting để phân loại các thành phần HTML của website thành hai nhóm: tĩnh (static) và động (dynamic). Việc phân loại này giúp xác định các thành phần có thể thay đổi bình thường và các thành phần cần giám sát chặt chẽ để phát hiện tấn công.

  2. Phân tích Document Object Model (DOM): DOM là cấu trúc cây của các phần tử HTML trên trang web. Phân tích DOM giúp phát hiện các thay đổi bất thường trong các thuộc tính như src, href của các thẻ ,