## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và công nghệ số, các trang web lừa đảo ngày càng gia tăng với tốc độ đáng báo động, gây thiệt hại nghiêm trọng về mặt kinh tế và an toàn thông tin. Theo báo cáo của tổ chức APWG, số lượng trang web lừa đảo được phát hiện trong quý II năm 2019 lên tới khoảng 182.000, tăng so với các quý trước đó. Tại Việt Nam, trong 6 tháng đầu năm 2019, có hơn 3.000 cuộc tấn công mạng, trong đó loại hình tấn công lừa đảo (phishing) chiếm tỷ lệ lớn. Vấn đề này đặt ra yêu cầu cấp thiết về việc phát hiện và ngăn chặn các trang web lừa đảo nhằm bảo vệ người dùng và tổ chức.

Mục tiêu nghiên cứu của luận văn là đề xuất và thử nghiệm một kiến trúc nhiều tầng ứng dụng học máy để phát hiện và ngăn chặn trang web lừa đảo hiệu quả. Nghiên cứu tập trung vào việc xây dựng mô hình phát hiện dựa trên thuật toán Random Forest, kết hợp với các dịch vụ chuyên gia như PhishTank và Google Safe Browsing để chuẩn đoán chính xác hơn. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ kho dữ liệu UCI với hơn 11.000 bản ghi, cùng với việc triển khai thử nghiệm trên môi trường thực tế tại Việt Nam.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả phát hiện trang web lừa đảo, giảm thiểu thiệt hại cho người dùng và doanh nghiệp, đồng thời góp phần phát triển các giải pháp an toàn thông tin trong kỷ nguyên công nghiệp 4.0.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn áp dụng các lý thuyết và mô hình nghiên cứu sau:

- **Học máy (Machine Learning):** Sử dụng các thuật toán phân lớp như Random Forest, Logistic Regression, Decision Tree, Naive Bayes và Support Vector Machine để xây dựng mô hình phát hiện trang web lừa đảo dựa trên đặc trưng URL và nội dung trang web.
- **Kiến trúc nhiều tầng (Multi-layer Architecture):** Phân chia nhiệm vụ phát hiện thành các tầng riêng biệt nhằm tối ưu hóa hiệu suất và độ chính xác. Tầng một và hai thực hiện sàng lọc nhanh bằng mô hình học máy, tầng ba và bốn thực hiện chuẩn đoán dựa trên danh sách đen (blacklist) và tham vấn dịch vụ chuyên gia.
- **Kỹ thuật trích chọn đặc trưng (Feature Extraction):** Bao gồm 17 đặc trưng chính được trích xuất từ URL và nội dung HTML/JavaScript của trang web, như địa chỉ IP trong URL, độ dài URL, biểu tượng “@”, favicon, tỉ lệ liên kết đến tên miền khác, v.v.
- **Xác suất và thống kê:** Áp dụng lý thuyết Bayes trong thuật toán Naive Bayes và các phương pháp kiểm soát tỷ lệ dương tính giả nhằm cân bằng giữa phát hiện chính xác và giảm sai sót.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng tập dữ liệu gồm 11.055 bản ghi trang web từ kho dữ liệu UCI, trong đó có 7.262 bản ghi trang web lừa đảo và 3.793 bản ghi trang web lành tính. Dữ liệu được chia thành tập huấn luyện (9.488 bản ghi) và tập kiểm tra độc lập (2.000 bản ghi).
- **Phương pháp phân tích:** Huấn luyện mô hình phân lớp bằng thuật toán Random Forest trên tập huấn luyện với 8 đặc trưng cho tầng một và 9 đặc trưng cho tầng hai. Kiểm soát tỷ lệ dương tính giả để giảm thiểu sai sót trong phát hiện. Mô hình được tích hợp vào extension trình duyệt sử dụng JavaScript để trích xuất đặc trưng và gửi lên máy chủ xử lý.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong năm 2019, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, thử nghiệm trên môi trường thực tế và đánh giá kết quả.
- **Công cụ và môi trường:** Sử dụng Python cho thuật toán học máy, JavaScript cho extension trình duyệt, PHP và MySQL cho máy chủ và cơ sở dữ liệu. Môi trường thử nghiệm gồm máy tính với CPU Intel Core i5, RAM 4GB, hệ điều hành Windows 10 Pro 64-bit.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Tăng trưởng số lượng trang web lừa đảo:** Số lượng trang web lừa đảo tăng từ khoảng 138.000 trong quý IV năm 2018 lên 182.000 trong quý II năm 2019, cho thấy xu hướng gia tăng liên tục.
- **Hiệu quả mô hình học máy:** Mô hình Random Forest trên tầng một và tầng hai đạt tỷ lệ dương tính giả gần như bằng 0, giúp sàng lọc chính xác các trang web lừa đảo nhanh chóng.
- **Tích hợp dịch vụ chuyên gia:** Việc kết nối API với PhishTank và Google Safe Browsing trên tầng ba và tầng bốn giúp chuẩn đoán chính xác các trang web chưa được phát hiện ở các tầng trước, giảm thiểu sai sót.
- **Tỷ lệ phát hiện và sai sót:** Mô hình đạt tỷ lệ phát hiện trang web lừa đảo cao, đồng thời kiểm soát tốt tỷ lệ dương tính giả và âm tính giả, nâng cao độ tin cậy của hệ thống.

### Thảo luận kết quả

Nguyên nhân của sự gia tăng các trang web lừa đảo là do tội phạm mạng liên tục thay đổi phương thức hoạt động, tạo ra hàng nghìn biến thể URL để tránh bị phát hiện. Việc áp dụng kiến trúc nhiều tầng giúp phân tách nhiệm vụ, giảm tải xử lý và tăng hiệu quả phát hiện. So với các nghiên cứu trước đây chỉ sử dụng một phương pháp duy nhất, giải pháp kết hợp học máy và dịch vụ chuyên gia cho thấy ưu thế vượt trội về độ chính xác và khả năng cập nhật nhanh chóng.

Dữ liệu có thể được trình bày qua biểu đồ thể hiện số lượng trang web lừa đảo theo từng tháng, bảng so sánh tỷ lệ phát hiện và sai sót giữa các tầng, cũng như sơ đồ kiến trúc hệ thống nhiều tầng. Kết quả nghiên cứu góp phần nâng cao an toàn thông tin cho người dùng Internet, đặc biệt trong bối cảnh tấn công mạng ngày càng tinh vi.

## Đề xuất và khuyến nghị

- **Phát triển và mở rộng mô hình học máy:** Tiếp tục cải tiến thuật toán Random Forest và mở rộng tập đặc trưng để nâng cao độ chính xác phát hiện, đặt mục tiêu giảm tỷ lệ dương tính giả xuống dưới 0.5% trong vòng 12 tháng tới, do các nhóm nghiên cứu an toàn thông tin thực hiện.
- **Tích hợp sâu hơn với các dịch vụ chuyên gia:** Mở rộng hợp tác với các dịch vụ như PhishTank, Google Safe Browsing để cập nhật danh sách đen kịp thời, đảm bảo phát hiện các trang web lừa đảo mới trong thời gian thực.
- **Triển khai rộng rãi extension trình duyệt:** Đẩy mạnh việc phát triển và phân phối tiện ích mở rộng trên các trình duyệt phổ biến nhằm bảo vệ người dùng cá nhân và doanh nghiệp, hướng tới 100.000 lượt cài đặt trong 6 tháng.
- **Tăng cường đào tạo và nâng cao nhận thức:** Tổ chức các chương trình đào tạo, hội thảo về an toàn thông tin và nhận diện trang web lừa đảo cho người dùng cuối, đặc biệt là các tổ chức tài chính và ngân hàng.
- **Xây dựng hệ thống tự động cập nhật blacklist:** Phát triển hệ thống tự động cập nhật danh sách đen dựa trên kết quả phát hiện từ mô hình và dịch vụ chuyên gia, giảm thiểu thời gian phản hồi và tăng tính hiệu quả của hệ thống.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành An toàn thông tin:** Nghiên cứu cung cấp phương pháp và mô hình học máy tiên tiến, giúp phát triển các đề tài liên quan đến phát hiện tấn công mạng và bảo mật web.
- **Doanh nghiệp và tổ chức tài chính:** Áp dụng giải pháp để bảo vệ hệ thống và khách hàng khỏi các trang web lừa đảo, giảm thiểu rủi ro mất mát tài chính và uy tín.
- **Nhà phát triển phần mềm và công nghệ:** Tham khảo kiến trúc nhiều tầng và kỹ thuật tích hợp API để xây dựng các công cụ bảo mật hiệu quả, đặc biệt là các tiện ích mở rộng trình duyệt.
- **Cơ quan quản lý và chính sách:** Sử dụng kết quả nghiên cứu để xây dựng các chính sách, quy định về an toàn thông tin và phòng chống tội phạm mạng, góp phần nâng cao nhận thức cộng đồng.

## Câu hỏi thường gặp

1. **Làm thế nào để mô hình phát hiện trang web lừa đảo hoạt động hiệu quả?**  
Mô hình sử dụng thuật toán Random Forest được huấn luyện trên tập dữ liệu lớn với các đặc trưng trích xuất từ URL và nội dung trang web, kết hợp kiểm soát tỷ lệ dương tính giả để đảm bảo phát hiện chính xác và giảm sai sót.

2. **Kiến trúc nhiều tầng có ưu điểm gì so với phương pháp truyền thống?**  
Kiến trúc phân chia nhiệm vụ thành các tầng giúp xử lý dữ liệu nhanh hơn, giảm tải cho hệ thống, đồng thời kết hợp nhiều phương pháp phát hiện để tăng độ chính xác và khả năng cập nhật.

3. **Dữ liệu huấn luyện mô hình được lấy từ đâu?**  
Dữ liệu được lấy từ kho dữ liệu UCI với hơn 11.000 bản ghi trang web đã được gán nhãn lừa đảo và lành tính, đảm bảo tính đại diện và độ tin cậy cho mô hình.

4. **Làm thế nào để cập nhật danh sách đen các trang web lừa đảo?**  
Hệ thống tự động cập nhật danh sách đen dựa trên kết quả phát hiện từ mô hình học máy và tham vấn dịch vụ chuyên gia như PhishTank và Google Safe Browsing, giúp phản ứng kịp thời với các mối đe dọa mới.

5. **Giải pháp này có thể áp dụng cho các trình duyệt phổ biến không?**  
Có, giải pháp được triển khai dưới dạng extension tích hợp vào các trình duyệt phổ biến như Chrome, giúp người dùng cá nhân và doanh nghiệp dễ dàng sử dụng và bảo vệ an toàn khi truy cập web.

## Kết luận

- Đề xuất kiến trúc nhiều tầng kết hợp học máy và dịch vụ chuyên gia giúp phát hiện và ngăn chặn trang web lừa đảo hiệu quả.  
- Mô hình Random Forest được huấn luyện trên tập dữ liệu lớn, đạt tỷ lệ dương tính giả gần như bằng 0, nâng cao độ chính xác phát hiện.  
- Hệ thống tự động cập nhật danh sách đen và tích hợp API từ PhishTank, Google Safe Browsing tăng khả năng phản ứng nhanh với các mối đe dọa mới.  
- Giải pháp được triển khai thành công dưới dạng extension trình duyệt, dễ dàng áp dụng trong thực tế.  
- Khuyến nghị tiếp tục phát triển mô hình, mở rộng hợp tác dịch vụ chuyên gia và tăng cường đào tạo nâng cao nhận thức an toàn thông tin.

**Hành động tiếp theo:** Triển khai mở rộng giải pháp trên quy mô lớn, phối hợp với các tổ chức an toàn thông tin và doanh nghiệp để bảo vệ người dùng trước các nguy cơ lừa đảo trực tuyến.