Luận văn thạc sĩ về phát hiện phishing sử dụng phương pháp học máy

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

2023

75
5
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Cơ chế bảo mật TLS, X.509 PKI và HTTPS

1.2. Khái niệm Phishing

1.3. Tình hình Phishing hiện nay

1.4. Đóng góp của luận văn

2. NGHIÊN CỨU LIÊN QUAN

2.1. Các phương pháp dựa trên phỏng đoán thông qua danh sách đen

2.2. Phương pháp sử dụng học máy

3. CƠ SỞ KIẾN THỨC

4. LỰA CHỌN ĐẶC TRƯNG

4.1. Đặc trưng liên quan đến chứng chỉ xác thực

4.2. Các đặc trưng liên quan đến trạng thái máy chủ

4.3. Các đặc trưng mạng

4.4. Các đặc trưng liên quan đến từ vựng của URL

4.5. Đặc trưng liên quan đến các bản ghi của WHOIS

4.6. Các đặc trưng của DNS

4.7. Các đặc trưng chuyển hướng HTTP (HTTP Redirection)

5. THIẾT KẾ MÔ HÌNH

5.1. Thiết kế mô hình phân loại

5.2. Thu thập dữ liệu

5.3. Các thuật toán Học máy

5.4. Các chỉ số đánh giá

6. ĐÁNH GIÁ KẾT QUẢ

6.1. Thiết lập thử nghiệm

6.2. Tinh chỉnh siêu tham số của mô hình (Hyperparameter Tuning)

6.3. Tương quan giữa các đặc trưng

6.4. Đánh giá bộ đặc trưng

6.5. So sánh với các nghiên cứu khác

6.6. Đánh giá đối với các trang web có thứ hạng thấp hơn ngoài top 100

7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CHO TƯƠNG LAI

7.1. Hướng phát triển cho tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh an ninh mạng ngày càng trở nên quan trọng, phishing đã trở thành một trong những hình thức tấn công phổ biến nhất, đe dọa đến an toàn thông tin của người dùng. Phishing không chỉ đơn thuần là việc giả mạo một trang web, mà còn bao gồm nhiều hình thức tấn công tinh vi khác. Việc phát hiện và ngăn chặn phishing là một nhiệm vụ cấp bách, và phương pháp học máy (học máy) đã được chứng minh là một công cụ hiệu quả để thực hiện điều này. Luận văn này đề xuất một mô hình phát hiện phishing dựa trên học máy, nhằm nâng cao khả năng phát hiện các trang web giả mạo một cách tự động và hiệu quả.

1.1 Khái niệm Phishing

Phishing là một kỹ thuật tấn công trực tuyến nhằm mục đích đánh lừa người dùng cung cấp thông tin nhạy cảm. Kẻ tấn công thường giả mạo các tổ chức uy tín để tạo ra các trang web giả mạo. Hình thức này thường được thực hiện qua email, nơi kẻ tấn công gửi liên kết đến một trang web giả mạo. Theo báo cáo của APWG, số lượng cuộc tấn công phishing đã gia tăng đáng kể trong những năm gần đây, cho thấy sự cần thiết phải phát triển các phương pháp phát hiện hiệu quả hơn. Mô hình học máy được đề xuất trong luận văn này nhằm mục đích cải thiện khả năng phát hiện các trang web giả mạo, từ đó bảo vệ người dùng khỏi những rủi ro tiềm ẩn.

II. Tình hình Phishing hiện nay

Theo báo cáo từ APWG, số lượng cuộc tấn công phishing đã tăng lên 150% mỗi năm trong 4 năm qua. Các kẻ tấn công ngày càng tinh vi hơn, sử dụng các tên miền hợp pháp để thực hiện hành vi lừa đảo. Hơn nữa, 66% các trang web lừa đảo được xây dựng trên các tên miền có trả phí, cho thấy sự đầu tư của kẻ tấn công vào các phương thức tấn công. Điều này không chỉ gây thiệt hại về tài chính mà còn ảnh hưởng đến uy tín của các tổ chức. Do đó, việc phát hiện và ngăn chặn phishing là một vấn đề cấp thiết trong lĩnh vực an ninh mạng.

2.1 Các phương pháp phát hiện hiện tại

Nhiều công cụ đã được phát triển để phát hiện phishing, như SafeBrowsing của Google và SmartScreen của Microsoft. Tuy nhiên, những công cụ này vẫn có những hạn chế, đặc biệt là trong việc phát hiện các trang web mới xuất hiện hoặc các trang web đã được phân tích không chính xác. Những hệ thống này thường dựa vào danh sách đen, nhưng danh sách này không phải lúc nào cũng được cập nhật kịp thời. Điều này dẫn đến việc nhiều trang web giả mạo vẫn có thể vượt qua các hệ thống bảo vệ. Do đó, việc phát triển một mô hình tự động và hiệu quả để phát hiện phishing là rất cần thiết.

III. Mô hình phát hiện phishing

Luận văn này đề xuất một mô hình phát hiện phishing dựa trên thuật toán học máy, cụ thể là Random Forests. Mô hình này sử dụng một bộ đặc trưng phong phú, bao gồm các đặc trưng liên quan đến chứng chỉ xác thực, trạng thái máy chủ, và các thông tin DNS. Những đặc trưng này được thu thập từ nhiều nguồn khác nhau, giúp mô hình có khả năng phát hiện cao và tỷ lệ cảnh báo sai thấp. Kết quả thử nghiệm cho thấy mô hình có khả năng phát hiện nhanh chóng các trang web giả mạo, từ đó giảm thiểu thiệt hại cho người dùng.

3.1 Đặc trưng và thuật toán

Mô hình sử dụng các đặc trưng như chuỗi URL, thông tin WHOIS, và các tiến trình chuyển hướng HTTP. Những đặc trưng này giúp mô hình phát hiện các hành vi bất thường và nhận diện các trang web giả mạo một cách chính xác. Việc sử dụng thuật toán học máy giúp cải thiện hiệu suất phát hiện, đồng thời giảm thiểu thời gian xử lý. Mô hình này không chỉ có khả năng phát hiện các trang web giả mạo mà còn có thể cập nhật danh sách đen một cách tự động và kịp thời.

IV. Kết luận và hướng phát triển

Luận văn đã chứng minh rằng việc áp dụng học máy trong phát hiện phishing mang lại nhiều lợi ích. Mô hình được đề xuất không chỉ cải thiện khả năng phát hiện mà còn giảm thiểu thiệt hại cho người dùng. Tuy nhiên, vẫn cần tiếp tục nghiên cứu và cải tiến mô hình để đối phó với những hình thức tấn công ngày càng tinh vi. Hướng phát triển trong tương lai có thể bao gồm việc tích hợp thêm các nguồn dữ liệu và cải thiện thuật toán để nâng cao độ chính xác và hiệu suất phát hiện.

4.1 Hướng phát triển cho tương lai

Trong tương lai, cần nghiên cứu thêm về việc tích hợp trí tuệ nhân tạo và các công nghệ mới vào mô hình phát hiện phishing. Việc khai thác dữ liệu lớn và học sâu có thể giúp cải thiện khả năng phát hiện và giảm thiểu tỷ lệ cảnh báo sai. Đồng thời, việc phát triển các công cụ hỗ trợ người dùng trong việc nhận diện các trang web giả mạo cũng là một hướng đi quan trọng nhằm nâng cao an ninh mạng.

10/01/2025

Bài luận văn thạc sĩ của Vũ Thành Tài, với tiêu đề Luận văn thạc sĩ về phát hiện phishing sử dụng phương pháp học máy, được hướng dẫn bởi TS. Nguyễn Lê Duy Lai tại Đại học Bách Khoa - ĐHQG - HCM, tập trung vào việc áp dụng các kỹ thuật học máy để phát hiện các cuộc tấn công phishing. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện có mà còn đưa ra những giải pháp tiềm năng để cải thiện khả năng bảo mật trong môi trường trực tuyến. Độc giả sẽ nhận được những kiến thức quý giá về cách thức hoạt động của phishing và các phương pháp học máy có thể áp dụng để phát hiện và ngăn chặn các cuộc tấn công này.

Nếu bạn quan tâm đến các ứng dụng học máy trong lĩnh vực công nghệ thông tin, hãy tham khảo thêm bài viết Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, nơi trình bày cách mạng neural có thể được sử dụng để phát hiện các cuộc tấn công mạng. Ngoài ra, bài viết Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ cũng mang đến cái nhìn thú vị về ứng dụng học sâu trong ngữ nghĩa, mở rộng khả năng hiểu biết về công nghệ học máy. Cuối cùng, bài viết Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ sẽ giúp bạn tìm hiểu thêm về các kỹ thuật học sâu trong nhận diện giọng nói, một lĩnh vực liên quan chặt chẽ đến phát hiện phishing qua việc phân tích và hiểu ngữ cảnh.