Ứng dụng Representation Learning trong phát hiện tấn công Phishing

Khám phá ứng dụng của representation learning trong việc phát hiện tấn công phishing, nâng cao bảo mật mạng và bảo vệ thông tin cá nhân.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

1. CHƯƠNG 1: TỔNG QUAN TẤN CÔNG PHISHING VÀ REPRESENTATION LEARNING

1.1. Lý do chọn đề tài

1.2. Tổng quan về vấn đề nghiên cứu

1.3. Mục đích nghiên cứu

1.4. Đối tượng nghiên cứu

1.5. Phạm vi nghiên cứu

1.6. Phương pháp nghiên cứu

1.7. Bố cục luận văn

1.8. Tổng quan về tấn công Phishing

1.9. Các phương pháp phòng chống và phát hiện Phishing trên mạng

1.10. Tổng quan về representation learning

1.11. Một số đặc điểm nổi bật của representation learning

1.12. Mạng nơ-ron và deep learning

1.13. Các công trình ở trong nước

1.14. Các công trình trên thế giới

2. CHƯƠNG 2: XÂY DỰNG MÔ HÌNH PHÁT HIỆN TẤN CÔNG PHISHING

2.1. Thiết kế mô hình

2.2. Giới thiệu về ResNet

2.3. Bộ dữ liệu của bài toán

2.4. Phương pháp đánh giá

2.5. Hiện thực mô hình

2.6. Xây dựng mô hình ResNet18

2.7. THÍ NGHIỆM VÀ ĐÁNH GIÁ

2.7.1. Các trường hợp thí nghiệm

2.7.2. Luyện và kiểm thử mô hình

2.7.3. Kết quả và nhận xét

3. KẾT LUẬN VÀ KIẾN NGHỊ

3.1. Kết quả nghiên cứu của đề tài

3.2. Hạn chế luận văn

3.3. Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Tấn Công Phishing Hiểu Rõ Mối Nguy Hiểm

Tấn công phishing là một trong những mối đe dọa an ninh mạng phổ biến và nguy hiểm nhất hiện nay. Chúng nhắm vào việc đánh cắp thông tin nhạy cảm của người dùng như tên đăng nhập, mật khẩu, thông tin tài khoản ngân hàng và thẻ tín dụng. Kẻ tấn công thường giả mạo các tổ chức uy tín như ngân hàng, công ty tài chính hoặc mạng xã hội để lừa người dùng cung cấp thông tin cá nhân thông qua email, tin nhắn văn bản hoặc trang web giả mạo. Thiệt hại do tấn công phishing gây ra có thể rất lớn, ảnh hưởng đến cá nhân, doanh nghiệp và thậm chí cả quốc gia. Theo nghiên cứu của Học viện Công nghệ Bưu chính Viễn thông, đây là một trong những lý do chọn đề tài này, vì sự nguy hiểm và tính cấp thiết của việc phòng chống tấn công phishing. Các phương pháp tấn công ngày càng tinh vi, đòi hỏi các giải pháp phòng thủ tiên tiến và hiệu quả hơn.

1.1. Các Loại Tấn Công Phishing Phổ Biến Hiện Nay

Có nhiều hình thức tấn công phishing, bao gồm email phishing, website phishing, spear phishing và whaling. Email phishing là hình thức phổ biến nhất, sử dụng email giả mạo để lừa người dùng. Website phishing tạo ra các trang web giả mạo giống hệt các trang web thật để đánh cắp thông tin đăng nhập. Spear phishing nhắm mục tiêu vào các cá nhân cụ thể với các email được cá nhân hóa cao. Whaling nhắm mục tiêu vào các lãnh đạo cấp cao của tổ chức. Hình 1 trong tài liệu gốc minh họa các loại tấn công phishing khác nhau.

1.2. Hậu Quả Nghiêm Trọng Của Tấn Công Phishing

Hậu quả của tấn công phishing có thể rất nghiêm trọng. Nạn nhân có thể bị mất tiền, bị đánh cắp danh tính, bị xâm phạm quyền riêng tư hoặc bị tổn hại danh tiếng. Doanh nghiệp có thể bị mất dữ liệu quan trọng, bị gián đoạn hoạt động, bị tổn thất tài chính hoặc bị ảnh hưởng uy tín. Các cuộc tấn công này ngày càng tinh vi, sử dụng các kỹ thuật machine learning và deep learning để vượt qua các biện pháp bảo mật truyền thống.

II. Thách Thức Trong Phát Hiện Tấn Công Phishing Hiện Nay

Mặc dù đã có nhiều nỗ lực trong việc phát hiện và ngăn chặn tấn công phishing, nhưng vẫn còn nhiều thách thức. Các phương pháp tấn công ngày càng tinh vi và đa dạng, khiến cho việc phát hiện trở nên khó khăn hơn. Các mô hình học máy truyền thống thường dựa vào các đặc trưng (features) thủ công, đòi hỏi nhiều thời gian và công sức để thiết kế và duy trì. Hơn nữa, các mô hình này thường không thể thích ứng tốt với các tấn công phishing mới. Theo tác giả Abdul Basit, Maham Zafar, cần phân tích và thực nghiệm các phương pháp Machine learning và phương pháp Deep learning để phát hiện tấn công Phishing có độ chính xác cao [2].

2.1. Giới Hạn Của Các Phương Pháp Phát Hiện Truyền Thống

Các phương pháp phát hiện phishing truyền thống dựa trên danh sách đen, bộ lọc spam và phân tích heuristic thường không hiệu quả trong việc đối phó với các tấn công phishing mới và biến thể. Chúng dễ bị vượt qua bởi các kỹ thuật ngụy trang và giả mạo. Ngoài ra, việc duy trì và cập nhật các danh sách đen và bộ lọc spam đòi hỏi nhiều nguồn lực và thời gian.

2.2. Sự Thay Đổi Liên Tục Của Các Kỹ Thuật Tấn Công Phishing

Kẻ tấn công phishing liên tục thay đổi và cải tiến các kỹ thuật của chúng để tránh bị phát hiện. Chúng sử dụng các kỹ thuật ngụy trang như rút ngắn URL, sử dụng hình ảnh thay vì văn bản, hoặc thay đổi nội dung email một cách tinh vi. Điều này đòi hỏi các giải pháp phát hiện phishing phải liên tục được cập nhật và thích ứng.

III. Ứng Dụng Representation Learning Giải Pháp Mới Hiệu Quả

Representation learning, hay học biểu diễn, là một nhánh của machine learning cho phép máy tính tự động học cách biểu diễn dữ liệu một cách hiệu quả. Trong bối cảnh phát hiện tấn công phishing, representation learning có thể được sử dụng để tự động trích xuất các đặc trưng quan trọng từ email, trang web hoặc URL mà không cần sự can thiệp thủ công. Điều này giúp giảm thiểu thời gian và công sức cần thiết để thiết kế và duy trì các mô hình phát hiện phishing. Theo nghiên cứu, các công việc trích xuất các tính năng trang Web từ nhiều khía cạnh thông qua kết hợp giữa representation learning và mạng học sâu có thể cải thiện hiệu quả phát hiện các trang Web lừa đảo.

3.1. Tự Động Trích Xuất Đặc Trưng Với Học Biểu Diễn

Representation learning cho phép tự động trích xuất các đặc trưng (features) quan trọng từ dữ liệu, giúp giảm bớt công việc thiết kế và lựa chọn đặc trưng thủ công. Các mô hình học biểu diễn có thể học được các biểu diễn dữ liệu phức tạp và trừu tượng, giúp cải thiện hiệu quả phát hiện phishing.

3.2. Ưu Điểm Vượt Trội Của Representation Learning

So với các phương pháp truyền thống, representation learning có nhiều ưu điểm vượt trội. Nó có thể tự động học các đặc trưng quan trọng, thích ứng tốt với các tấn công phishing mới, và giảm thiểu sự phụ thuộc vào kiến thức chuyên gia. Điều này giúp tăng cường khả năng phát hiện phishing và giảm thiểu chi phí bảo trì.

3.3. Ứng dụng xử lý ngôn ngữ tự nhiên NLP trong representation learning

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọng trong representation learning, đặc biệt trong việc phân tích nội dung email phishing và website phishing. Các kỹ thuật NLP như mô hình biểu diễn văn bản có thể giúp trích xuất các đặc trưng ngữ nghĩa từ văn bản, từ đó phát hiện các dấu hiệu lừa đảo một cách hiệu quả.

IV. Mô Hình ResNet18 Ứng Dụng Deep Learning Phát Hiện Phishing

Luận văn này tập trung vào việc xây dựng và đánh giá một mô hình phát hiện tấn công phishing dựa trên mạng nơ-ron sâu ResNet18. ResNet18 là một kiến trúc deep learning mạnh mẽ đã được chứng minh là hiệu quả trong nhiều bài toán thị giác máy tính. Mô hình này được huấn luyện trên một tập dữ liệu lớn các email và trang web phishing để học cách phân biệt giữa các mẫu lừa đảo và hợp pháp. Theo nghiên cứu, Manh Thang Nguyen, Alexander Kozachok trình bày mô hình biểu diễn các yêu cầu Web, dựa trên mô hình không gian vectơ và các thuộc tính của các yêu cầu đó sử dụng giao thức HTTP, sử dụng bộ dữ liệu KDD 99 [6] trong đào tạo cũng như phát hiện tấn công đi kèm với việc biểu diễn truy vấn dựa trên không gian vectơ và phân loại dựa trên mô hình cây quyết định.

4.1. Giới Thiệu Chi Tiết Về Kiến Trúc ResNet18

ResNet18 là một mạng nơ-ron tích chập sâu (CNN) với 18 lớp, được thiết kế để giải quyết vấn đề biến mất gradient trong quá trình huấn luyện các mô hình sâu. Kiến trúc này sử dụng các kết nối tắt (skip connections) để cho phép thông tin truyền trực tiếp từ các lớp đầu vào đến các lớp sau, giúp cải thiện hiệu quả huấn luyện và độ chính xác của mô hình.

4.2. Quá Trình Huấn Luyện Và Đánh Giá Mô Hình ResNet18

Mô hình ResNet18 được huấn luyện trên một tập dữ liệu lớn các email và trang web phishing đã được gắn nhãn. Quá trình huấn luyện sử dụng thuật toán tối ưu hóa Adam và hàm mất mát cross-entropy. Sau khi huấn luyện, mô hình được đánh giá trên một tập dữ liệu kiểm tra riêng biệt để đánh giá khả năng phát hiện phishing của nó.

V. Kết Quả Thực Nghiệm Đánh Giá Hiệu Quả Mô Hình ResNet18

Các kết quả thực nghiệm cho thấy mô hình ResNet18 đạt được độ chính xác cao trong việc phát hiện tấn công phishing. Mô hình này có khả năng phân biệt chính xác giữa các email và trang web phishing và hợp pháp, với độ chính xác và độ phủ cao. Kết quả này chứng minh tính hiệu quả của việc sử dụng representation learning và deep learning trong bài toán phát hiện phishing. Bảng 1 trong tài liệu gốc so sánh các thuật toán phát hiện tấn công phishing.

5.1. So Sánh Hiệu Suất Với Các Phương Pháp Khác

Hiệu suất của mô hình ResNet18 được so sánh với các phương pháp phát hiện phishing truyền thống như bộ lọc spam và phân tích heuristic. Kết quả cho thấy mô hình ResNet18 vượt trội hơn so với các phương pháp truyền thống về độ chính xác, độ phủ và khả năng thích ứng với các tấn công phishing mới.

5.2. Phân Tích Ưu Điểm Và Hạn Chế Của Mô Hình ResNet18

Mô hình ResNet18 có nhiều ưu điểm như độ chính xác cao, khả năng thích ứng tốt và khả năng tự động trích xuất đặc trưng. Tuy nhiên, nó cũng có một số hạn chế như đòi hỏi nhiều dữ liệu huấn luyện và chi phí tính toán cao. Cần có các nghiên cứu sâu hơn để khắc phục những hạn chế này.

5.3. Bảng so sánh các thuật toán phát hiện tấn công phishing

Bảng 1 trong tài liệu gốc thể hiện chi tiết sự so sánh hiệu suất giữa các thuật toán khác nhau trong việc phát hiện tấn công phishing, cung cấp cái nhìn tổng quan về ưu nhược điểm của từng phương pháp.

VI. Kết Luận Hướng Phát Triển Nâng Cao An Ninh Mạng

Luận văn này đã trình bày một phương pháp tiếp cận hiệu quả để phát hiện tấn công phishing bằng cách sử dụng representation learning và deep learning. Mô hình ResNet18 đã chứng minh khả năng phát hiện phishing với độ chính xác cao. Nghiên cứu này mở ra nhiều hướng phát triển tiềm năng trong việc nâng cao an ninh mạng và bảo vệ người dùng khỏi các mối đe dọa trực tuyến. Phương pháp này là một hướng đi quan trọng được hướng tới trong tương lai.

6.1. Tổng Kết Những Đóng Góp Của Nghiên Cứu

Nghiên cứu này đã đóng góp vào việc phát triển các giải pháp phát hiện phishing hiệu quả hơn, giúp bảo vệ người dùng khỏi các mối đe dọa trực tuyến. Nó cũng cung cấp một nền tảng cho các nghiên cứu tiếp theo trong lĩnh vực này.

6.2. Đề Xuất Các Hướng Nghiên Cứu Tiếp Theo

Các hướng nghiên cứu tiếp theo có thể tập trung vào việc cải thiện hiệu suất của mô hình, giảm chi phí tính toán, và phát triển các phương pháp bảo vệ chủ động chống lại phishing. Ngoài ra, cần nghiên cứu các kỹ thuật học biểu diễn mới và các kiến trúc deep learning tiên tiến hơn.

6.3. Tầm quan trọng của phòng chống tấn công Phishing

Phòng chống tấn công phishing là một vấn đề quan trọng và cấp thiết trong bối cảnh an ninh mạng ngày càng phức tạp. Việc phát triển và triển khai các giải pháp hiệu quả có thể giúp bảo vệ người dùng và tổ chức khỏi những thiệt hại to lớn do phishing gây ra.

25/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng representation learning phát hiện tấn công phishing 2

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tấn công phishing là một trong những mối đe dọa an ninh mạng nghiêm trọng nhất hiện nay, với khoảng 50% các URL trên mạng được xác định là lừa đảo hoặc giả mạo. Phishing sử dụng các kỹ thuật giả mạo tinh vi nhằm đánh cắp thông tin cá nhân, tài khoản ngân hàng, mật khẩu và các dữ liệu nhạy cảm khác của người dùng. Mức độ tinh vi và đa dạng của các hình thức phishing như email phishing, spear phishing, smishing, vishing, pharming, và content-injection phishing khiến việc phát hiện trở nên khó khăn. Mục tiêu của nghiên cứu là xây dựng một mô hình phát hiện tấn công phishing dựa trên phương pháp representation learning nhằm nâng cao độ chính xác và hiệu quả phát hiện, đồng thời giảm thiểu thời gian phản hồi.

Phạm vi nghiên cứu tập trung vào việc thu thập và xử lý dữ liệu URL phishing và hợp pháp từ bộ dữ liệu Web page Phishing Detection với hơn 11,400 mẫu, cân bằng giữa phishing và legitimate. Nghiên cứu được thực hiện trong môi trường mạng LAN nhỏ với các máy chủ ảo có kết nối Internet, mô phỏng các cuộc tấn công phishing thực tế. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số chính như độ chính xác phát hiện (đạt trên 99%), giảm tỷ lệ báo động giả và thời gian phát hiện trung bình, góp phần nâng cao an toàn thông tin cho các tổ chức và cá nhân trong bối cảnh tội phạm mạng ngày càng gia tăng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: học biểu diễn (representation learning) và mạng nơ-ron sâu (deep learning). Representation learning cho phép hệ thống tự động trích xuất các đặc trưng quan trọng từ dữ liệu thô, thay thế cho việc trích xuất thủ công truyền thống. Các khái niệm chính bao gồm:

Representation Learning (RL): Kỹ thuật học các biểu diễn dữ liệu có khả năng tóm tắt thông tin quan trọng, bao gồm supervised và unsupervised learning.
Mạng nơ-ron sâu (Deep Neural Networks): Mạng gồm nhiều lớp ẩn, có khả năng học các đặc trưng phức tạp từ dữ liệu, trong đó ResNet là một kiến trúc nổi bật với khả năng khắc phục vấn đề vanishing gradient nhờ các kết nối tắt (residual connections).
Tokenization: Quá trình chuyển đổi chuỗi URL thành các token số để xử lý bằng mô hình học máy.
Phân tích ma trận tương quan: Giúp hiểu mối quan hệ giữa các đặc trưng của URL, hỗ trợ trong việc lựa chọn và xử lý dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu Web page Phishing Detection gồm 11,430 mẫu URL với 89 thuộc tính, trong đó 50% là phishing và 50% là hợp pháp. Dữ liệu được tiền xử lý bằng kỹ thuật tokenization để chuyển đổi URL thành ma trận số, sau đó chuyển thành ảnh grayscale phục vụ cho việc huấn luyện mô hình ResNet18.

Phương pháp phân tích sử dụng deep learning với kiến trúc ResNet18, nổi bật với khả năng học sâu và xử lý các lớp mạng sâu mà không bị mất mát thông tin do vanishing gradient. Quá trình nghiên cứu được thực hiện theo timeline gồm: thu thập và tiền xử lý dữ liệu, xây dựng mô hình, huấn luyện và đánh giá mô hình trên tập kiểm thử, phân tích kết quả và tối ưu mô hình.

Cỡ mẫu nghiên cứu là toàn bộ bộ dữ liệu 11,430 URL, được chia thành tập huấn luyện và kiểm thử theo tỷ lệ 80:20. Phương pháp chọn mẫu là sử dụng toàn bộ dữ liệu có sẵn để đảm bảo tính đại diện và cân bằng giữa các lớp phishing và hợp pháp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác mô hình ResNet18 đạt trên 99% khi phát hiện các URL phishing trên bộ dữ liệu thử nghiệm, vượt trội so với các phương pháp truyền thống như SVM, Random Forest với độ chính xác khoảng 90-95%.
Thời gian phát hiện trung bình chỉ khoảng 25 giây cho một lượt kiểm tra, phù hợp với yêu cầu phản hồi nhanh trong môi trường thực tế.
Ma trận tương quan giữa các đặc trưng cho thấy một số tính năng như Favicon và popUpWindow có tương quan dương cao (gần +1), giúp mô hình dễ dàng phân biệt các URL phishing dựa trên các đặc điểm này.
Mô hình ResNet18 với tokenization và chuyển đổi URL thành ảnh grayscale giúp tận dụng hiệu quả các kỹ thuật thị giác máy tính trong việc phát hiện phishing, mở ra hướng đi mới cho lĩnh vực an toàn thông tin.

Thảo luận kết quả

Kết quả cho thấy việc ứng dụng representation learning kết hợp mạng nơ-ron sâu ResNet18 là một giải pháp hiệu quả để phát hiện tấn công phishing. Việc chuyển đổi dữ liệu URL thành dạng ảnh grayscale giúp mô hình khai thác được các đặc trưng phức tạp mà các phương pháp truyền thống khó nắm bắt. So với các nghiên cứu trước đây sử dụng các thuật toán như Decision Tree, Random Forest hay SVM, mô hình này đạt độ chính xác cao hơn khoảng 5-10%.

Biểu đồ thể hiện độ chính xác và loss trong quá trình huấn luyện cho thấy mô hình hội tụ nhanh và ổn định, minh chứng cho hiệu quả của kiến trúc ResNet18 trong xử lý dữ liệu phishing. Ngoài ra, việc sử dụng ma trận tương quan giúp lựa chọn các đặc trưng quan trọng, giảm thiểu tính dư thừa và tăng hiệu suất mô hình.

Tuy nhiên, mô hình vẫn còn hạn chế về khả năng xử lý các URL phishing mới chưa xuất hiện trong dữ liệu huấn luyện (zero-day phishing), đòi hỏi nghiên cứu tiếp tục mở rộng bộ dữ liệu và áp dụng các kỹ thuật học sâu nâng cao hơn.

Đề xuất và khuyến nghị

Triển khai hệ thống phát hiện phishing dựa trên mô hình ResNet18 trong các tổ chức, doanh nghiệp nhằm nâng cao khả năng bảo vệ thông tin cá nhân và tài sản số, với mục tiêu đạt độ chính xác trên 99% trong vòng 6 tháng.
Tăng cường thu thập và cập nhật dữ liệu phishing mới liên tục để cải thiện khả năng phát hiện các cuộc tấn công zero-day, đảm bảo mô hình luôn được huấn luyện trên dữ liệu mới nhất, thực hiện hàng quý.
Tổ chức các khóa đào tạo và tập huấn cho nhân viên về nhận biết phishing và sử dụng công cụ phát hiện tự động, nhằm giảm thiểu rủi ro do yếu tố con người, triển khai trong vòng 3 tháng.
Phát triển ứng dụng tích hợp trên nền tảng di động và trình duyệt web để cảnh báo người dùng khi truy cập các URL nghi ngờ phishing, hướng tới giảm thiểu thiệt hại cá nhân và doanh nghiệp, hoàn thành trong 1 năm.
Nâng cấp mô hình bằng cách kết hợp các kỹ thuật học sâu khác như Bi-LSTM, CNN đa kênh để tăng cường khả năng trích xuất đặc trưng và cải thiện độ chính xác, nghiên cứu và thử nghiệm trong 12 tháng tiếp theo.

Đối tượng nên tham khảo luận văn

Chuyên gia an ninh mạng và kỹ sư bảo mật: Có thể áp dụng mô hình phát hiện phishing để xây dựng hệ thống bảo vệ mạng, nâng cao hiệu quả phòng chống tấn công.
Nhà nghiên cứu và sinh viên ngành công nghệ thông tin: Tham khảo phương pháp ứng dụng representation learning và deep learning trong lĩnh vực an toàn thông tin, phục vụ cho các đề tài nghiên cứu tiếp theo.
Doanh nghiệp và tổ chức tài chính: Sử dụng kết quả nghiên cứu để triển khai các giải pháp bảo mật, giảm thiểu rủi ro mất mát tài sản và dữ liệu khách hàng.
Nhà phát triển phần mềm và ứng dụng: Tích hợp mô hình phát hiện phishing vào các sản phẩm bảo mật, trình duyệt hoặc ứng dụng di động nhằm bảo vệ người dùng cuối.

Câu hỏi thường gặp

Phishing là gì và tại sao nó nguy hiểm?
Phishing là hình thức tấn công mạng giả mạo các trang web hoặc email uy tín để đánh cắp thông tin cá nhân. Nó nguy hiểm vì người dùng thường không nhận ra và dễ bị lừa cung cấp dữ liệu nhạy cảm.
Representation learning có ưu điểm gì trong phát hiện phishing?
Phương pháp này tự động học các đặc trưng quan trọng từ dữ liệu thô, giảm sự phụ thuộc vào trích xuất thủ công, giúp mô hình phát hiện chính xác hơn và thích ứng với dữ liệu mới.
Tại sao lại chuyển URL thành ảnh grayscale để huấn luyện mô hình?
Việc này giúp tận dụng các kỹ thuật thị giác máy tính mạnh mẽ của mạng nơ-ron sâu như ResNet, khai thác các đặc trưng phức tạp trong chuỗi URL mà các phương pháp truyền thống khó xử lý.
Mô hình ResNet18 có thể áp dụng trong môi trường thực tế không?
Có, với độ chính xác trên 99% và thời gian phát hiện nhanh, mô hình phù hợp để triển khai trong các hệ thống bảo mật doanh nghiệp và cá nhân.
Làm thế nào để cập nhật mô hình khi xuất hiện các hình thức phishing mới?
Cần liên tục thu thập dữ liệu mới và huấn luyện lại mô hình định kỳ, đồng thời kết hợp các kỹ thuật học sâu nâng cao để tăng khả năng phát hiện các cuộc tấn công zero-day.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình phát hiện tấn công phishing dựa trên representation learning và mạng nơ-ron sâu ResNet18 với độ chính xác trên 99%.
Phương pháp chuyển đổi URL thành ảnh grayscale giúp tận dụng hiệu quả các kỹ thuật thị giác máy tính trong lĩnh vực an toàn thông tin.
Mô hình cho thấy khả năng phát hiện nhanh và chính xác, phù hợp với yêu cầu thực tế trong môi trường mạng hiện nay.
Các đề xuất nâng cấp và mở rộng mô hình sẽ giúp tăng cường khả năng phát hiện các hình thức phishing mới và phức tạp hơn.
Khuyến nghị triển khai mô hình trong các tổ chức, doanh nghiệp và phát triển ứng dụng bảo mật nhằm nâng cao an toàn thông tin cho người dùng.

Hành động tiếp theo là tiến hành triển khai thử nghiệm mô hình trong môi trường thực tế, đồng thời mở rộng bộ dữ liệu và nghiên cứu các kỹ thuật học sâu mới để nâng cao hiệu quả phát hiện phishing. Các chuyên gia và nhà quản lý an ninh mạng được khuyến khích áp dụng kết quả nghiên cứu để bảo vệ hệ thống và người dùng khỏi các mối đe dọa ngày càng tinh vi.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan tấn công phishing và representation learning Chương 2: Xây dựng mô hình phát hiện tấn công phishing Chương 3: Thí nghiệm và đánh giá Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 20 of 98. TỔNG QUAN TẤN CÔNG PHISHING VÀ REPRESENTATION LEARNING 1. Tổng quan về tấn công Phishing Phishing [1] là một trong những loại tấn công mạng nguy hiểm do các tội phạm mạng gây ra bằng cách tạo ra các thông tin giả mạo từ các website, cơ sở, doanh nghiệp uy tín nhằm lừa đảo và chiếm đoạt thông tin của người dùng. Phishing kết hợp nhiều kỹ thuật giả mạo tinh vi đến mức người dùng không thể phát hiện ra và tự động cung cấp thông tin quan trọng cho kẻ xấu.

Loại tấn công này thường chủ yếu nhắm đến những người thiếu kiến thức về bảo mật trên môi trường mạng, không quan tâm đến quyền riêng tư về thông tin của các loại tài khoản như Facebook, Gmail, tài khoản thẻ tín dụng ngân hàng và các loại tài khoản liên quan đến tài chính khác,… Các loại tấn công Phishing được tiếp cận rất đa dạng và biến hóa khôn lường. Một số các loại tấn công Phishing có thể kể đến như [14]: • Email Phishing: Ở loại tấn công này, các tội phạm mạng sẽ gửi mail đến người dùng và yêu cầu người dùng xác thực hoặc cập nhật thông tin vào một biểu mẫu hoặc đường link được đính kèm trong mail. Người dùng dễ dàng mắc bẫy nếu không kiểm tra cẩn thận các mail được gửi đến và từ đó vô tình để lộ thông tin cá nhân quan trọng của mình khi click vào các đường link hoặc. • Spear Phishing: Các tội phạm mạng sẽ tấn công vào một tổ chức hoặc một cá nhân cụ thể.

Đây là kiểu tấn công chuyên sâu, các tội phạm mạng đã nắm bắt rõ các thông tin liên quan đến cá nhân hoặc tổ chức đó. • Whailing: Kiểu tấn công này sẽ nhắm vào những cá nhân có vai trò quan trọng trong một công ty hoặc tổ chức ví dụ như CEO, CFO,… nhằm chiếm đoạt thông tin từ cá nhân này cũng như những người liên quan khác một cách dễ dàng hơn. Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 21 of 98. 11 • Smishing: Cách tấn công này sẽ tiếp cận người dùng thông qua tin nhắn SMS, kẻ tấn công sẽ gửi tin nhắn kèm theo link lừa đảo với nội dung đa dạng nhằm hấp dẫn người dùng click vào link để chiếm đoạt thông tin.

• Vishing: Loại tấn công này còn có tên gọi khác là Voice Vishing, tiếp cận nạn nhân thông qua đoạn tin nhắn hội thoại với danh xưng là nhân viên của một dịch vụ hoặc tổ chức mà nạn nhân đang sử dụng (thường là nhân viên ngân hàng), sau đó yêu cầu nạn nhân gọi vào các số điện thoại miễn phí cước nhằm chiếm đoạt các thông tin liên quan đến ngân hàng của nạn nhân. • Pharming: Tấn công đến máy tính nạn nhân bằng mã độc, thay đổi file host trên máy tính nạn nhân, khai thác các lỗ hổng DNS để dẫn người dùng đến một trang web giả mạo khi người dùng truy cập vào một trang web uy tín. • Content-injection Phishing: Kẻ tấn công sẽ thay đổi ngẫu nhiên một số nội dung của một trang web uy tín và các nội dung này tương tự với nội dung trên trang web uy tín để người dùng dễ dàng tin tưởng và nhập các thông tin cá nhân. • Search Engine Phishing: Ở loại tấn công này, kẻ tấn công sẽ tạo ra một website thu hút người dùng với những khuyến mãi, quà tặng trúng thưởng và đặc biệt là với nội dung website phù hợp với các công cụ tìm kiếm, từ đó người dùng sẽ dễ dàng tìm đến website như thế này và bị lừa để nhập các thông tin cá nhân để nhận thưởng.

Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 22 of 98.1: Các loại tấn công Phishing [14] 1. Các phương pháp phòng chống và phát hiện Phishing trên mạng Tấn công Phishing luôn tiềm ẩn và khó nhận biết vì mức độ tinh vi của nó với bất kì cá nhân hoặc tổ chức nào, vì vậy các cá nhân hoặc tổ chức cần nâng cao cảnh giác đối với các loại tài khoản cũng như thông tin cá nhân của mình. Một số cách phòng chống tấn công Phishing được trang Trung tâm an ninh mạng quốc gia của chính phủ nước Anh đề xuất [15] như sau: • Cấu hình tài khoản: các tổ chức nên cấu hình các loại tài khoản của nhân viên theo nguyên tắc giảm thiểu tối đa các loại đặc quyền, chỉ cấp các quyền cần thiết cho nhân viên. Điều này sẽ giảm thiểu rủi ro đáng kể nếu như tài khoản của nhân viên bị tấn công Phishing.

Ngoài ra, để tăng cường thêm tính bảo mật và giảm rủi ro khi bị tấn công bằng các loại mã độc thì các tổ chức cần đảm bảo rằng nhân viên không truy cập vào bất cứ website hay kiểm tra email bằng tài khoản được cấp bởi tổ chức. Thêm vào đó, tính năng Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 23 of 98. 13 xác thực hai bước (2FA) trên tài khoản (ví dụ như email) cũng sẽ nâng cao tính bảo mật cho tài khoản. • Tập huấn cho nhân viên: Các nhân viên trong một tổ chức cần được tập huấn để hiểu được cách hoạt động bình thường của hệ thống, từ đó có thể tự trang bị cho bản thân các kiến thức cũng như nhận biết được những lúc hệ thống có các hoạt động bất thường.

• Kiểm tra các dấu hiệu của Phishing: nâng cao cảnh giác với một số email đến từ nước ngoài, có nội dung không hoàn chỉnh (lỗi chính tả, sai dấu chấm câu,…). Tuy nhiên với thủ đoạn ngày càng tinh vi, các email được gửi được tinh chỉnh nội dung và hình thức một cách chuyên nghiệp, vì vậy chỉ nên click vào các đường dẫn trong mail nếu có sự chỉ đạo từ cấp trên hoặc thật sự tin tưởng. Ngoài ra, các email có nội dung đe dọa như buộc tội, vu khống và yêu cầu phải click vào đường link ngay lập tức cũng là dấu hiệu cho thấy đây là mail giả mạo nhằm mục đích chiếm đoạt thông tin hoặc cài các phần mềm mã độc vào máy tính. Thêm vào đó, cần chú ý đến tên và địa chỉ các email được gửi từ cấp trên phải trùng khớp với tên và địa chỉ của email chính chủ.

• Báo cáo lại tất cả các cuộc tấn công: bản thân nhân viên của một tổ chức nếu có phát hiện bất cứ trường hợp tấn công nào hoặc có thể đã trở thành nạn nhân của cuộc tấn công thì cần báo cáo lại với cấp trên để được hỗ trợ kịp thời, tránh những rủi ro đáng tiếc xảy ra. • Kiểm tra dấu vết thông tin cá nhân: kẻ tấn công thường sẽ tìm đến thông tin của tổ chức và thông tin các nhân viên liên quan để tạo ra các cuộc tấn công Phishing với khả năng thành công cao, vì vậy cần ý thức đến việc chia sẻ thông tin nhạy cảm về cơ quan, tổ chức hoặc thông tin cá nhân trên các trang mạng xã hội để tránh các cuộc tấn công có thể xảy đến. Bên cạnh đó, cần phải đảm bảo được các đối tác, nhà cung cấp của cơ quan, tổ chức không chia sẻ thông tin liên quan đến cơ quan hay tổ chức này một cách tùy tiện. Ngoài ra, thay vì kiểm soát chặt chẽ thông tin cá nhân của nhân viên, các tổ Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 24 of 98.

14 chức nên điều chỉnh và tập huấn cho nhân viên nhận biết được những thông tin nào có thể chia sẻ được và ngược lại. Tổng quan về representation learning Representation learning là tập hợp các kỹ thuật cho phép một hệ thống tự động khám phá các biểu diễn cần thiết để phát hiện hoặc phân loại đặc trưng từ bộ dữ liệu thô [16] [17]. Điều này sẽ thay thế kỹ thuật trích xuất đặc trưng và cho phép máy có khả năng vừa học các đặc trưng vừa sử dụng chúng để thực hiện một tác vụ cụ thể. Ở các miền dữ liệu về khoa học như trí tuệ nhân tạo (AI), tin sinh học (Bioinformatics) hay tài chính, việc học các dữ liệu đặc trưng là một bước quan trọng để tạo điều kiện cho quá trình phân lớp, rút trích và đề xuất các tác vụ tiếp sau đó [18].

Mạng nơ-ron sâu có thể được coi là mô hình RL thường mã hóa thông tin được chiếu vào một không gian con khác. Sau đó, những biểu diễn này thường được chuyển cho một bộ phân loại tuyến tính, ví dụ, để huấn luyện một bộ phân loại. RL có thể chia thành: • Supervised representation learning: học các biểu diễn về nhiệm vụ A bằng cách sử dụng dữ liệu được chú thích và được sử dụng để giải quyết nhiệm vụ B. • Unsupervised representation learning: học các biểu diễn về một nhiệm vụ theo cách không được giám sát (dữ liệu không có nhãn).

Sau đó, chúng được sử dụng để giải quyết các tác vụ xuôi dòng và giảm nhu cầu về dữ liệu có chú thích khi tìm hiểu các tác vụ tin tức. Các mô hình mạnh mẽ như GPT và BERT tận dụng việc học đại diện không giám sát để giải quyết các nhiệm vụ ngôn ngữ. Các kĩ thuật Representation Learning lần đầu tiên được phát triển để phục vụ cho quá trình xử lí ngôn ngữ tự nhiên, tuy nhiên chúng đã được mở rộng sang kiểu xử lí dữ liệu khác như là hình ảnh, video và hệ thống mạng. Trong lĩnh vực phân tích dữ liệu, RL đóng vai trò quan trọng trong việc dự đoán các tác vụ, phát hiện gian lận trong quá trình giao dịch qua thẻ tín dụng [19].

Thêm vào đó, RL cũng đã trở thành một kĩ thuật không thể thiếu trong các nghiên cứu và ứng dụng Tng hp các án, khóa lun, tiu lun, chuyên và lun vn tt nghip i hc v các chuyên ngành: Kinh t, Tài Chính & Ngân Hàng, Công ngh thông tin document, khoa luan, tieu luan, 123 25 of 98.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu này tập trung vào việc phát triển các công cụ học máy nhằm tìm kiếm lỗ hổng bảo mật trong ứng dụng web, một chủ đề ngày càng quan trọng trong bối cảnh an ninh mạng hiện nay. Nó cung cấp cái nhìn sâu sắc về cách mà công nghệ học máy có thể được áp dụng để phát hiện và khắc phục các lỗ hổng bảo mật, từ đó giúp bảo vệ thông tin và dữ liệu của người dùng.

Để mở rộng thêm kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo Luận văn tốt nghiệp khoa học máy tính nghiên cứu và phát triển công cụ sử dụng học máy tìm kiếm lỗ hổng bảo mật trong ứng dụng web, nơi bạn sẽ tìm thấy những nghiên cứu chi tiết hơn về các công cụ học máy trong bảo mật. Ngoài ra, tài liệu Khóa luận tốt nghiệp an toàn thông tin kỹ thuật lừa dối và tăng cường dữ liệu dựa trên cyclegan cho phát hiện tấn công trong mạng khả lập trình sẽ giúp bạn hiểu rõ hơn về các kỹ thuật nâng cao trong việc phát hiện tấn công mạng. Cuối cùng, bạn cũng có thể tìm hiểu về Nghiên cứu ứng dụng mạng nơron trong bài toán phát hiện truy cập trái phép, một nghiên cứu thú vị về việc sử dụng mạng nơron để phát hiện các hành vi xâm nhập trái phép. Những tài liệu này sẽ cung cấp cho bạn cái nhìn toàn diện hơn về các phương pháp và công nghệ hiện đại trong lĩnh vực bảo mật thông tin.

#an ninh mạng

#phân tích dữ liệu mạng

#kỹ thuật học sâu

#machine learning trong bảo mật

#Phát hiện tấn công phishing

#Mô hình hóa hành vi người dùng

Chủ đề

Công nghệ học máy trong bảo mật

Ứng dụng AI trong an ninh mạng

Phát hiện và ngăn chặn tấn công mạng

Xu hướng mới trong nghiên cứu bảo mật