## Tổng quan nghiên cứu

Trong bối cảnh Internet ngày càng phát triển, tấn công lừa đảo trực tuyến (phishing) trở thành một trong những mối đe dọa phổ biến và nghiêm trọng nhất. Theo báo cáo của APWG, trong quý 4 năm 2022 đã ghi nhận hơn 1.037 cuộc tấn công phishing, với mức tăng trưởng trung bình 150% mỗi năm trong 4 năm gần nhất, gây thiệt hại hàng triệu đô la. Phương pháp truyền thống dựa trên danh sách đen URL lừa đảo có hạn chế lớn do phải xác minh thủ công và không kịp thời cập nhật các trang web mới. Mục tiêu nghiên cứu của luận văn là xây dựng một mô hình phát hiện phishing tự động, hiệu quả và linh hoạt, sử dụng các đặc trưng đa dạng phản ánh đặc điểm khó giả mạo của các trang web lừa đảo. Nghiên cứu tập trung vào việc áp dụng các thuật toán học máy như Decision Tree và Random Forests để nâng cao độ chính xác phát hiện, giảm tỷ lệ cảnh báo sai, đồng thời mở rộng bộ dữ liệu với hơn 40.000 URL lừa đảo và 1.000 URL hợp pháp thu thập từ các nguồn uy tín. Phạm vi nghiên cứu tập trung tại Việt Nam và quốc tế trong giai đoạn 2023, với ý nghĩa quan trọng trong việc bảo vệ người dùng mạng và hỗ trợ các nhà cung cấp dịch vụ cập nhật danh sách đen kịp thời, góp phần giảm thiểu thiệt hại do phishing gây ra.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học máy giám sát (Supervised Machine Learning):** Sử dụng các thuật toán Decision Tree và Random Forests để phân loại URL thành hợp pháp hoặc lừa đảo dựa trên bộ đặc trưng đã trích xuất.
- **Cơ chế bảo mật TLS, X.509 PKI và HTTPS:** Là nền tảng xác thực danh tính trang web, cung cấp các đặc trưng liên quan đến chứng chỉ số giúp phân biệt trang web hợp pháp và giả mạo.
- **Phân tích đặc trưng tĩnh và động:** Bao gồm các đặc trưng về URL, HTTP headers, DNS records, trạng thái máy chủ, WHOIS, và chuỗi chuyển hướng HTTP.
- **Khái niệm phishing và kỹ thuật ẩn giấu (cloaking):** Hiểu rõ các phương thức tấn công và cách kẻ xấu ngụy trang để thiết kế bộ đặc trưng phù hợp.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập 20.000 URL hợp pháp từ danh sách Majestic top one million và 20.000 URL lừa đảo từ PhishTank trong khoảng thời gian từ 01/05/2023 đến 01/06/2023.
- **Phương pháp chọn mẫu:** Lựa chọn mẫu dựa trên danh sách đen và danh sách trắng đã được kiểm chứng, loại bỏ các URL không chính xác qua kiểm tra SafeBrowsing.
- **Phương pháp phân tích:** Trích xuất đặc trưng từ nhiều nguồn dữ liệu khác nhau (chứng chỉ số, trạng thái máy chủ, HTTP headers, DNS, WHOIS, chuyển hướng HTTP), xây dựng bộ dữ liệu đặc trưng dưới dạng vectơ, huấn luyện và đánh giá mô hình phân loại bằng thuật toán Decision Tree và Random Forests.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong 6 tháng, từ tháng 2 đến tháng 7 năm 2023, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Random Forests đạt độ chính xác tổng thể 97% trong việc phân loại URL lừa đảo và hợp pháp, với tỷ lệ cảnh báo sai thấp, vượt trội hơn so với Decision Tree.
- Khoảng 70% các trang web hợp pháp có chứng chỉ HTTPS, trong khi chỉ khoảng 56% các URL lừa đảo có chứng chỉ này, cho thấy chứng chỉ số là đặc trưng quan trọng.
- Các đặc trưng liên quan đến trạng thái máy chủ như số lượng cổng mở và hệ điều hành máy chủ có sự khác biệt rõ rệt giữa trang web hợp pháp và lừa đảo, hỗ trợ phân loại hiệu quả.
- Chuỗi chuyển hướng HTTP dài và vượt qua nhiều tên miền khác nhau là dấu hiệu đặc trưng của các trang web lừa đảo, giúp mô hình phát hiện chính xác các hành vi che giấu danh tính.

### Thảo luận kết quả

Nguyên nhân mô hình đạt hiệu quả cao là do việc kết hợp đa dạng các đặc trưng từ nhiều nguồn dữ liệu, bao gồm cả các đặc trưng khó giả mạo như trạng thái máy chủ và chứng chỉ số. So với các nghiên cứu trước đây chỉ tập trung vào đặc trưng URL hoặc nội dung HTML, mô hình này giảm thiểu được ảnh hưởng của kỹ thuật ẩn giấu và các chiêu trò tinh vi của kẻ tấn công. Kết quả có thể được trình bày qua biểu đồ ROC với diện tích dưới đường cong (AUC) gần 1, minh chứng cho khả năng phân biệt tốt giữa các lớp. So sánh với các phương pháp dựa trên danh sách đen truyền thống, mô hình học máy này cho phép phát hiện kịp thời các URL mới chưa có trong danh sách, nâng cao tính chủ động trong phòng chống phishing.

## Đề xuất và khuyến nghị

- **Triển khai mô hình học máy tự động:** Áp dụng mô hình Random Forests vào hệ thống giám sát URL của các nhà cung cấp dịch vụ để tự động cập nhật danh sách đen, giảm thiểu thời gian phản hồi và tăng độ chính xác phát hiện.
- **Tăng cường thu thập đặc trưng đa nguồn:** Liên tục bổ sung và cập nhật các đặc trưng mới từ chứng chỉ số, trạng thái máy chủ và WHOIS nhằm nâng cao khả năng phát hiện các hình thức tấn công mới.
- **Đào tạo và nâng cao nhận thức người dùng:** Tổ chức các chương trình đào tạo về nhận biết phishing cho người dùng cuối, giảm thiểu rủi ro do người dùng truy cập các trang web giả mạo.
- **Phối hợp với các cơ quan quản lý và tổ chức bảo mật:** Thiết lập cơ chế chia sẻ thông tin về các URL lừa đảo giữa các tổ chức để tăng cường hiệu quả phòng chống phishing trên quy mô rộng.
- **Thời gian thực hiện:** Các giải pháp nên được triển khai trong vòng 12 tháng tới, với sự phối hợp chặt chẽ giữa các bên liên quan.

## Đối tượng nên tham khảo luận văn

- **Các nhà phát triển phần mềm bảo mật:** Có thể ứng dụng mô hình học máy để phát triển các công cụ phát hiện phishing tự động, nâng cao hiệu quả bảo vệ người dùng.
- **Các nhà quản lý hệ thống mạng:** Sử dụng kết quả nghiên cứu để xây dựng chính sách bảo mật, cập nhật danh sách đen URL kịp thời, giảm thiểu rủi ro tấn công.
- **Nhà nghiên cứu và sinh viên ngành khoa học máy tính:** Tham khảo phương pháp trích xuất đặc trưng và ứng dụng học máy trong an ninh mạng, mở rộng nghiên cứu về phát hiện tấn công mạng.
- **Cơ quan quản lý và tổ chức bảo mật:** Áp dụng mô hình để giám sát và cảnh báo sớm các mối đe dọa phishing, hỗ trợ xây dựng hệ sinh thái an toàn mạng.

## Câu hỏi thường gặp

1. **Phương pháp học máy nào được sử dụng trong nghiên cứu?**  
   Thuật toán chính là Random Forests và Decision Tree, trong đó Random Forests cho kết quả chính xác và ổn định hơn.

2. **Bộ dữ liệu nghiên cứu gồm những gì?**  
   Gồm hơn 40.000 URL lừa đảo từ PhishTank và 20.000 URL hợp pháp từ Majestic top one million, được kiểm tra và làm sạch kỹ lưỡng.

3. **Các đặc trưng quan trọng nhất để phát hiện phishing là gì?**  
   Bao gồm đặc trưng chứng chỉ số X.509, trạng thái máy chủ (cổng mở, hệ điều hành), HTTP headers, DNS records, WHOIS và chuỗi chuyển hướng HTTP.

4. **Mô hình có thể áp dụng thực tế như thế nào?**  
   Mô hình có thể tích hợp vào hệ thống giám sát URL của các nhà cung cấp dịch vụ để tự động phát hiện và cập nhật danh sách đen.

5. **Làm thế nào để giảm thiểu tỷ lệ cảnh báo sai?**  
   Sử dụng bộ đặc trưng đa dạng và thuật toán Random Forests giúp cân bằng giữa độ chính xác và tỷ lệ cảnh báo sai, ưu tiên giảm thiểu cảnh báo sai để tránh ảnh hưởng đến người dùng hợp pháp.

## Kết luận

- Đã xây dựng thành công mô hình phát hiện phishing tự động với độ chính xác 97% và tỷ lệ cảnh báo sai thấp.  
- Kết hợp đa dạng các đặc trưng từ chứng chỉ số, trạng thái máy chủ, DNS, WHOIS và HTTP headers giúp mô hình chống lại kỹ thuật ẩn giấu tinh vi.  
- Mô hình có khả năng cập nhật danh sách đen kịp thời, hỗ trợ bảo vệ người dùng mạng hiệu quả.  
- Nghiên cứu mở ra hướng phát triển ứng dụng học máy trong an ninh mạng, đặc biệt trong phát hiện tấn công phishing.  
- Khuyến nghị triển khai mô hình trong hệ thống giám sát URL của các nhà cung cấp dịch vụ trong vòng 12 tháng tới để nâng cao an toàn mạng.

Hành động tiếp theo: Triển khai thử nghiệm mô hình trên quy mô thực tế, mở rộng bộ dữ liệu và phát triển giao diện người dùng để hỗ trợ cảnh báo phishing hiệu quả hơn.