Luận văn thạc sĩ về phát hiện phishing sử dụng phương pháp học máy

Trường đại học

Đại học Bách Khoa - ĐHQG - HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT NỘI DUNG

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Cơ chế bảo mật TLS, X.509 PKI và HTTPS

1.2. Khái niệm Phishing

1.3. Tình hình Phishing hiện nay

1.4. Đóng góp của luận văn

2. NGHIÊN CỨU LIÊN QUAN

2.1. Các phương pháp dựa trên phỏng đoán thông qua danh sách đen

2.2. Phương pháp sử dụng học máy

3. CƠ SỞ KIẾN THỨC

4. LỰA CHỌN ĐẶC TRƯNG

4.1. Đặc trưng liên quan đến chứng chỉ xác thực

4.2. Các đặc trưng liên quan đến trạng thái máy chủ

4.3. Các đặc trưng mạng

4.4. Các đặc trưng liên quan đến từ vựng của URL

4.5. Đặc trưng liên quan đến các bản ghi của WHOIS

4.6. Các đặc trưng của DNS

4.7. Các đặc trưng chuyển hướng HTTP (HTTP Redirection)

5. THIẾT KẾ MÔ HÌNH

5.1. Thiết kế mô hình phân loại

5.2. Thu thập dữ liệu

5.3. Các thuật toán Học máy

5.4. Các chỉ số đánh giá

6. ĐÁNH GIÁ KẾT QUẢ

6.1. Thiết lập thử nghiệm

6.2. Tinh chỉnh siêu tham số của mô hình (Hyperparameter Tuning)

6.3. Tương quan giữa các đặc trưng

6.4. Đánh giá bộ đặc trưng

6.5. So sánh với các nghiên cứu khác

6.6. Đánh giá đối với các trang web có thứ hạng thấp hơn ngoài top 100

7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CHO TƯƠNG LAI

7.1. Hướng phát triển cho tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh an ninh mạng ngày càng trở nên quan trọng, phishing đã trở thành một trong những hình thức tấn công phổ biến nhất, đe dọa đến an toàn thông tin của người dùng. Phishing không chỉ đơn thuần là việc giả mạo một trang web, mà còn bao gồm nhiều hình thức tấn công tinh vi khác. Việc phát hiện và ngăn chặn phishing là một nhiệm vụ cấp bách, và phương pháp học máy (học máy) đã được chứng minh là một công cụ hiệu quả để thực hiện điều này. Luận văn này đề xuất một mô hình phát hiện phishing dựa trên học máy, nhằm nâng cao khả năng phát hiện các trang web giả mạo một cách tự động và hiệu quả.

1.1 Khái niệm Phishing

Phishing là một kỹ thuật tấn công trực tuyến nhằm mục đích đánh lừa người dùng cung cấp thông tin nhạy cảm. Kẻ tấn công thường giả mạo các tổ chức uy tín để tạo ra các trang web giả mạo. Hình thức này thường được thực hiện qua email, nơi kẻ tấn công gửi liên kết đến một trang web giả mạo. Theo báo cáo của APWG, số lượng cuộc tấn công phishing đã gia tăng đáng kể trong những năm gần đây, cho thấy sự cần thiết phải phát triển các phương pháp phát hiện hiệu quả hơn. Mô hình học máy được đề xuất trong luận văn này nhằm mục đích cải thiện khả năng phát hiện các trang web giả mạo, từ đó bảo vệ người dùng khỏi những rủi ro tiềm ẩn.

II. Tình hình Phishing hiện nay

Theo báo cáo từ APWG, số lượng cuộc tấn công phishing đã tăng lên 150% mỗi năm trong 4 năm qua. Các kẻ tấn công ngày càng tinh vi hơn, sử dụng các tên miền hợp pháp để thực hiện hành vi lừa đảo. Hơn nữa, 66% các trang web lừa đảo được xây dựng trên các tên miền có trả phí, cho thấy sự đầu tư của kẻ tấn công vào các phương thức tấn công. Điều này không chỉ gây thiệt hại về tài chính mà còn ảnh hưởng đến uy tín của các tổ chức. Do đó, việc phát hiện và ngăn chặn phishing là một vấn đề cấp thiết trong lĩnh vực an ninh mạng.

2.1 Các phương pháp phát hiện hiện tại

Nhiều công cụ đã được phát triển để phát hiện phishing, như SafeBrowsing của Google và SmartScreen của Microsoft. Tuy nhiên, những công cụ này vẫn có những hạn chế, đặc biệt là trong việc phát hiện các trang web mới xuất hiện hoặc các trang web đã được phân tích không chính xác. Những hệ thống này thường dựa vào danh sách đen, nhưng danh sách này không phải lúc nào cũng được cập nhật kịp thời. Điều này dẫn đến việc nhiều trang web giả mạo vẫn có thể vượt qua các hệ thống bảo vệ. Do đó, việc phát triển một mô hình tự động và hiệu quả để phát hiện phishing là rất cần thiết.

III. Mô hình phát hiện phishing

Luận văn này đề xuất một mô hình phát hiện phishing dựa trên thuật toán học máy, cụ thể là Random Forests. Mô hình này sử dụng một bộ đặc trưng phong phú, bao gồm các đặc trưng liên quan đến chứng chỉ xác thực, trạng thái máy chủ, và các thông tin DNS. Những đặc trưng này được thu thập từ nhiều nguồn khác nhau, giúp mô hình có khả năng phát hiện cao và tỷ lệ cảnh báo sai thấp. Kết quả thử nghiệm cho thấy mô hình có khả năng phát hiện nhanh chóng các trang web giả mạo, từ đó giảm thiểu thiệt hại cho người dùng.

3.1 Đặc trưng và thuật toán

Mô hình sử dụng các đặc trưng như chuỗi URL, thông tin WHOIS, và các tiến trình chuyển hướng HTTP. Những đặc trưng này giúp mô hình phát hiện các hành vi bất thường và nhận diện các trang web giả mạo một cách chính xác. Việc sử dụng thuật toán học máy giúp cải thiện hiệu suất phát hiện, đồng thời giảm thiểu thời gian xử lý. Mô hình này không chỉ có khả năng phát hiện các trang web giả mạo mà còn có thể cập nhật danh sách đen một cách tự động và kịp thời.

IV. Kết luận và hướng phát triển

Luận văn đã chứng minh rằng việc áp dụng học máy trong phát hiện phishing mang lại nhiều lợi ích. Mô hình được đề xuất không chỉ cải thiện khả năng phát hiện mà còn giảm thiểu thiệt hại cho người dùng. Tuy nhiên, vẫn cần tiếp tục nghiên cứu và cải tiến mô hình để đối phó với những hình thức tấn công ngày càng tinh vi. Hướng phát triển trong tương lai có thể bao gồm việc tích hợp thêm các nguồn dữ liệu và cải thiện thuật toán để nâng cao độ chính xác và hiệu suất phát hiện.

4.1 Hướng phát triển cho tương lai

Trong tương lai, cần nghiên cứu thêm về việc tích hợp trí tuệ nhân tạo và các công nghệ mới vào mô hình phát hiện phishing. Việc khai thác dữ liệu lớn và học sâu có thể giúp cải thiện khả năng phát hiện và giảm thiểu tỷ lệ cảnh báo sai. Đồng thời, việc phát triển các công cụ hỗ trợ người dùng trong việc nhận diện các trang web giả mạo cũng là một hướng đi quan trọng nhằm nâng cao an ninh mạng.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phát hiện phishing bằng phương pháp học máy

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh Internet ngày càng phát triển, tấn công lừa đảo trực tuyến (phishing) trở thành một trong những mối đe dọa phổ biến và nghiêm trọng nhất. Theo báo cáo của APWG, trong quý 4 năm 2022 đã ghi nhận hơn 1.037 cuộc tấn công phishing, với mức tăng trưởng trung bình 150% mỗi năm trong 4 năm gần nhất, gây thiệt hại hàng triệu đô la. Phương pháp truyền thống dựa trên danh sách đen URL lừa đảo có hạn chế lớn do phải xác minh thủ công và không kịp thời cập nhật các trang web mới. Mục tiêu nghiên cứu của luận văn là xây dựng một mô hình phát hiện phishing tự động, hiệu quả và linh hoạt, sử dụng các đặc trưng đa dạng phản ánh đặc điểm khó giả mạo của các trang web lừa đảo. Nghiên cứu tập trung vào việc áp dụng các thuật toán học máy như Decision Tree và Random Forests để nâng cao độ chính xác phát hiện, giảm tỷ lệ cảnh báo sai, đồng thời mở rộng bộ dữ liệu với hơn 40.000 URL lừa đảo và 1.000 URL hợp pháp thu thập từ các nguồn uy tín. Phạm vi nghiên cứu tập trung tại Việt Nam và quốc tế trong giai đoạn 2023, với ý nghĩa quan trọng trong việc bảo vệ người dùng mạng và hỗ trợ các nhà cung cấp dịch vụ cập nhật danh sách đen kịp thời, góp phần giảm thiểu thiệt hại do phishing gây ra.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học máy giám sát (Supervised Machine Learning):** Sử dụng các thuật toán Decision Tree và Random Forests để phân loại URL thành hợp pháp hoặc lừa đảo dựa trên bộ đặc trưng đã trích xuất.
- **Cơ chế bảo mật TLS, X.509 PKI và HTTPS:** Là nền tảng xác thực danh tính trang web, cung cấp các đặc trưng liên quan đến chứng chỉ số giúp phân biệt trang web hợp pháp và giả mạo.
- **Phân tích đặc trưng tĩnh và động:** Bao gồm các đặc trưng về URL, HTTP headers, DNS records, trạng thái máy chủ, WHOIS, và chuỗi chuyển hướng HTTP.
- **Khái niệm phishing và kỹ thuật ẩn giấu (cloaking):** Hiểu rõ các phương thức tấn công và cách kẻ xấu ngụy trang để thiết kế bộ đặc trưng phù hợp.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập 20.000 URL hợp pháp từ danh sách Majestic top one million và 20.000 URL lừa đảo từ PhishTank trong khoảng thời gian từ 01/05/2023 đến 01/06/2023.
- **Phương pháp chọn mẫu:** Lựa chọn mẫu dựa trên danh sách đen và danh sách trắng đã được kiểm chứng, loại bỏ các URL không chính xác qua kiểm tra SafeBrowsing.
- **Phương pháp phân tích:** Trích xuất đặc trưng từ nhiều nguồn dữ liệu khác nhau (chứng chỉ số, trạng thái máy chủ, HTTP headers, DNS, WHOIS, chuyển hướng HTTP), xây dựng bộ dữ liệu đặc trưng dưới dạng vectơ, huấn luyện và đánh giá mô hình phân loại bằng thuật toán Decision Tree và Random Forests.
- **Timeline nghiên cứu:** Nghiên cứu được thực hiện trong 6 tháng, từ tháng 2 đến tháng 7 năm 2023, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Random Forests đạt độ chính xác tổng thể 97% trong việc phân loại URL lừa đảo và hợp pháp, với tỷ lệ cảnh báo sai thấp, vượt trội hơn so với Decision Tree.
- Khoảng 70% các trang web hợp pháp có chứng chỉ HTTPS, trong khi chỉ khoảng 56% các URL lừa đảo có chứng chỉ này, cho thấy chứng chỉ số là đặc trưng quan trọng.
- Các đặc trưng liên quan đến trạng thái máy chủ như số lượng cổng mở và hệ điều hành máy chủ có sự khác biệt rõ rệt giữa trang web hợp pháp và lừa đảo, hỗ trợ phân loại hiệu quả.
- Chuỗi chuyển hướng HTTP dài và vượt qua nhiều tên miền khác nhau là dấu hiệu đặc trưng của các trang web lừa đảo, giúp mô hình phát hiện chính xác các hành vi che giấu danh tính.

### Thảo luận kết quả

Nguyên nhân mô hình đạt hiệu quả cao là do việc kết hợp đa dạng các đặc trưng từ nhiều nguồn dữ liệu, bao gồm cả các đặc trưng khó giả mạo như trạng thái máy chủ và chứng chỉ số. So với các nghiên cứu trước đây chỉ tập trung vào đặc trưng URL hoặc nội dung HTML, mô hình này giảm thiểu được ảnh hưởng của kỹ thuật ẩn giấu và các chiêu trò tinh vi của kẻ tấn công. Kết quả có thể được trình bày qua biểu đồ ROC với diện tích dưới đường cong (AUC) gần 1, minh chứng cho khả năng phân biệt tốt giữa các lớp. So sánh với các phương pháp dựa trên danh sách đen truyền thống, mô hình học máy này cho phép phát hiện kịp thời các URL mới chưa có trong danh sách, nâng cao tính chủ động trong phòng chống phishing.

## Đề xuất và khuyến nghị

- **Triển khai mô hình học máy tự động:** Áp dụng mô hình Random Forests vào hệ thống giám sát URL của các nhà cung cấp dịch vụ để tự động cập nhật danh sách đen, giảm thiểu thời gian phản hồi và tăng độ chính xác phát hiện.
- **Tăng cường thu thập đặc trưng đa nguồn:** Liên tục bổ sung và cập nhật các đặc trưng mới từ chứng chỉ số, trạng thái máy chủ và WHOIS nhằm nâng cao khả năng phát hiện các hình thức tấn công mới.
- **Đào tạo và nâng cao nhận thức người dùng:** Tổ chức các chương trình đào tạo về nhận biết phishing cho người dùng cuối, giảm thiểu rủi ro do người dùng truy cập các trang web giả mạo.
- **Phối hợp với các cơ quan quản lý và tổ chức bảo mật:** Thiết lập cơ chế chia sẻ thông tin về các URL lừa đảo giữa các tổ chức để tăng cường hiệu quả phòng chống phishing trên quy mô rộng.
- **Thời gian thực hiện:** Các giải pháp nên được triển khai trong vòng 12 tháng tới, với sự phối hợp chặt chẽ giữa các bên liên quan.

## Đối tượng nên tham khảo luận văn

- **Các nhà phát triển phần mềm bảo mật:** Có thể ứng dụng mô hình học máy để phát triển các công cụ phát hiện phishing tự động, nâng cao hiệu quả bảo vệ người dùng.
- **Các nhà quản lý hệ thống mạng:** Sử dụng kết quả nghiên cứu để xây dựng chính sách bảo mật, cập nhật danh sách đen URL kịp thời, giảm thiểu rủi ro tấn công.
- **Nhà nghiên cứu và sinh viên ngành khoa học máy tính:** Tham khảo phương pháp trích xuất đặc trưng và ứng dụng học máy trong an ninh mạng, mở rộng nghiên cứu về phát hiện tấn công mạng.
- **Cơ quan quản lý và tổ chức bảo mật:** Áp dụng mô hình để giám sát và cảnh báo sớm các mối đe dọa phishing, hỗ trợ xây dựng hệ sinh thái an toàn mạng.

## Câu hỏi thường gặp

1. **Phương pháp học máy nào được sử dụng trong nghiên cứu?**  
   Thuật toán chính là Random Forests và Decision Tree, trong đó Random Forests cho kết quả chính xác và ổn định hơn.

2. **Bộ dữ liệu nghiên cứu gồm những gì?**  
   Gồm hơn 40.000 URL lừa đảo từ PhishTank và 20.000 URL hợp pháp từ Majestic top one million, được kiểm tra và làm sạch kỹ lưỡng.

3. **Các đặc trưng quan trọng nhất để phát hiện phishing là gì?**  
   Bao gồm đặc trưng chứng chỉ số X.509, trạng thái máy chủ (cổng mở, hệ điều hành), HTTP headers, DNS records, WHOIS và chuỗi chuyển hướng HTTP.

4. **Mô hình có thể áp dụng thực tế như thế nào?**  
   Mô hình có thể tích hợp vào hệ thống giám sát URL của các nhà cung cấp dịch vụ để tự động phát hiện và cập nhật danh sách đen.

5. **Làm thế nào để giảm thiểu tỷ lệ cảnh báo sai?**  
   Sử dụng bộ đặc trưng đa dạng và thuật toán Random Forests giúp cân bằng giữa độ chính xác và tỷ lệ cảnh báo sai, ưu tiên giảm thiểu cảnh báo sai để tránh ảnh hưởng đến người dùng hợp pháp.

## Kết luận

- Đã xây dựng thành công mô hình phát hiện phishing tự động với độ chính xác 97% và tỷ lệ cảnh báo sai thấp.  
- Kết hợp đa dạng các đặc trưng từ chứng chỉ số, trạng thái máy chủ, DNS, WHOIS và HTTP headers giúp mô hình chống lại kỹ thuật ẩn giấu tinh vi.  
- Mô hình có khả năng cập nhật danh sách đen kịp thời, hỗ trợ bảo vệ người dùng mạng hiệu quả.  
- Nghiên cứu mở ra hướng phát triển ứng dụng học máy trong an ninh mạng, đặc biệt trong phát hiện tấn công phishing.  
- Khuyến nghị triển khai mô hình trong hệ thống giám sát URL của các nhà cung cấp dịch vụ trong vòng 12 tháng tới để nâng cao an toàn mạng.

Hành động tiếp theo: Triển khai thử nghiệm mô hình trên quy mô thực tế, mở rộng bộ dữ liệu và phát triển giao diện người dùng để hỗ trợ cảnh báo phishing hiệu quả hơn.

Bài luận văn thạc sĩ của Vũ Thành Tài, với tiêu đề Luận văn thạc sĩ về phát hiện phishing sử dụng phương pháp học máy, được hướng dẫn bởi TS. Nguyễn Lê Duy Lai tại Đại học Bách Khoa - ĐHQG - HCM, tập trung vào việc áp dụng các kỹ thuật học máy để phát hiện các cuộc tấn công phishing. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp hiện có mà còn đưa ra những giải pháp tiềm năng để cải thiện khả năng bảo mật trong môi trường trực tuyến. Độc giả sẽ nhận được những kiến thức quý giá về cách thức hoạt động của phishing và các phương pháp học máy có thể áp dụng để phát hiện và ngăn chặn các cuộc tấn công này.

Nếu bạn quan tâm đến các ứng dụng học máy trong lĩnh vực công nghệ thông tin, hãy tham khảo thêm bài viết Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép, nơi trình bày cách mạng neural có thể được sử dụng để phát hiện các cuộc tấn công mạng. Ngoài ra, bài viết Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ cũng mang đến cái nhìn thú vị về ứng dụng học sâu trong ngữ nghĩa, mở rộng khả năng hiểu biết về công nghệ học máy. Cuối cùng, bài viết Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ sẽ giúp bạn tìm hiểu thêm về các kỹ thuật học sâu trong nhận diện giọng nói, một lĩnh vực liên quan chặt chẽ đến phát hiện phishing qua việc phân tích và hiểu ngữ cảnh.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#an ninh mạng

#khoa học máy tính

#thuật toán học máy

#phát hiện gian lận

Chủ đề

Nghiên cứu và phát triển trong công nghệ thông tin

Khoa học máy tính và ứng dụng

Học máy trong phát hiện gian lận