Luận văn: Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo

Khám phá luận văn kiến trúc nhiều tầng giúp phát hiện và ngăn chặn trang web lừa đảo hiệu quả, bảo vệ người dùng an toàn trực tuyến.

Trường đại học

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: THỰC TRẠNG ĐÁNG BÁO ĐỘNG CỦA CÁC TRANG WEB LỪA ĐẢO

1.1. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo

1.1.1. Giải pháp dựa vào cộng đồng

1.1.2. PhishTank

1.1.3. Google Safe Browsing

1.1.4. PhishNet

1.1.5. PhishGuard

2. CHƯƠNG 2: THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO

2.1. Tổng quan

2.2. Tầng một và tầng hai

2.3. Nhiệm vụ sàng lọc

2.4. Phương pháp phát hiện dựa vào học máy

2.5. Kiểm soát tỉ lệ dương tính giả

2.6. Tầng ba và tầng bốn

2.7. Nhiệm vụ chuẩn đoán

2.8. Tự động cập nhật Blacklist

2.9. Tham vấn dịch vụ PhishTank

2.10. Tham vấn dịch vụ Google Safe Browsing

3. CHƯƠNG 3: CÀI ĐẶT THỬ NGHIỆM

3.1. Kỹ thuật xây dựng chương trình

3.2. Tầng một và tầng hai

3.3. Tầng ba

3.4. Tầng bốn

3.5. Phương pháp đánh giá

3.6. Kết quả so sánh

3.7. Triển khai thử nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Kiến trúc đa tầng

Bài viết giới thiệu kiến trúc đa tầng cho phát hiện và ngăn chặn trang web lừa đảo, một giải pháp hiệu quả trong việc bảo vệ người dùng khỏi những mối nguy hiểm trực tuyến. Kiến trúc đa tầng bao gồm nhiều tầng xử lý, mỗi tầng đảm nhiệm một nhiệm vụ cụ thể, tạo nên một hệ thống phòng thủ mạnh mẽ, bảo vệ người dùng khỏi các mối đe dọa.

1.1 Tầng một và tầng hai Sàng lọc

Tầng một và tầng hai của kiến trúc đa tầng tập trung vào nhiệm vụ sàng lọc, phát hiện sơ bộ các trang web nghi ngờ lừa đảo. Phát hiện trang web lừa đảo ở tầng này dựa trên việc áp dụng các kỹ thuật machine learning, đặc biệt là thuật toán Random Forest với khả năng phân loại hiệu quả. Thuật toán được tinh chỉnh để tự động điều chỉnh tỷ lệ dương tính giả (FP), giúp giảm thiểu số lượng trang web lành tính bị báo cáo sai, nâng cao độ chính xác của hệ thống.

1.2 Tầng ba và tầng bốn Chuẩn đoán

Tầng ba và tầng bốn tiến hành nhiệm vụ chuẩn đoán, xác định chính xác các trang web lừa đảo. Kiến trúc đa tầng sử dụng các phương pháp chuyên gia, danh sách đen (blacklist) để xác thực thông tin, giúp ngăn chặn trang web lừa đảo một cách hiệu quả. Ngoài ra, hệ thống còn tích hợp API của các dịch vụ uy tín như PhishTank và Google Safe Browsing, cung cấp thông tin cập nhật về các trang web lừa đảo, nâng cao khả năng phòng thủ cho người dùng.

II. Phát hiện và ngăn chặn trang web lừa đảo

Bài viết nhấn mạnh vấn đề phát hiện trang web lừa đảo và ngăn chặn trang web lừa đảo là một trong những thách thức lớn trong an ninh mạng. Các trang web lừa đảo ngày càng tinh vi, sử dụng các kỹ thuật phát hiện gian lận và phân tích rủi ro để lừa gạt người dùng, gây thiệt hại kinh tế và ảnh hưởng đến uy tín của các tổ chức. Kiến trúc đa tầng được thiết kế để ứng phó với những thách thức này, bảo vệ người dùng khỏi các mối đe dọa.

III. Vai trò của khoa học dữ liệu và machine learning

Bài viết khẳng định khoa học dữ liệu và machine learning đóng vai trò quan trọng trong việc phát hiện trang web lừa đảo. Các kỹ thuật xử lý dữ liệu và phân tích dữ liệu được áp dụng để thu thập, phân tích và xử lý thông tin từ các trang web, giúp phát hiện các dấu hiệu bất thường và nghi ngờ. Machine learning với các thuật toán tiên tiến như Random Forest giúp tự động phân loại trang web, đưa ra cảnh báo sớm cho người dùng, hạn chế thiệt hại.

IV. Ứng dụng thực tế

Bài viết giới thiệu về việc triển khai kiến trúc đa tầng trong thực tế. Hệ thống được tích hợp vào tiện ích mở rộng (extension) cho trình duyệt web, giúp người dùng dễ dàng nhận biết và tránh truy cập vào các trang web lừa đảo. Kiến trúc đa tầng có khả năng quản lý rủi ro hiệu quả, bảo vệ thông tin cá nhân và tài sản của người dùng.

V. Kết luận

Bài viết kết luận rằng kiến trúc đa tầng là một giải pháp hiệu quả trong việc phát hiện và ngăn chặn trang web lừa đảo. An ninh mạng là một vấn đề toàn cầu, cần có sự phối hợp của nhiều bên, bao gồm các cơ quan chức năng, các doanh nghiệp và cộng đồng người dùng để nâng cao nhận thức và áp dụng các giải pháp bảo mật hiệu quả.

15/01/2025

Bạn đang xem trước tài liệu:

Luận văn kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của Internet và công nghệ số, các trang web lừa đảo ngày càng gia tăng với tốc độ đáng báo động, gây thiệt hại nghiêm trọng về mặt kinh tế và an ninh thông tin. Theo thống kê của tổ chức APWG, số lượng trang web lừa đảo đã tăng từ 138.000 trong quý IV năm 2018 lên khoảng 182.000 trong quý II năm 2019, cho thấy xu hướng gia tăng không ngừng. Tại Việt Nam, trong 6 tháng đầu năm 2019, có hơn 3.000 cuộc tấn công mạng, trong đó phishing chiếm tỷ lệ lớn, chủ yếu qua các trang web giả mạo các tổ chức tài chính, ngân hàng và mạng xã hội. Vấn đề nghiên cứu tập trung vào phát hiện và ngăn chặn các trang web lừa đảo nhằm bảo vệ người dùng và tổ chức khỏi các rủi ro mất an toàn thông tin. Mục tiêu cụ thể là xây dựng kiến trúc nhiều tầng kết hợp phương pháp học máy và cơ sở dữ liệu blacklist để phát hiện chính xác và kịp thời các trang web lừa đảo. Nghiên cứu được thực hiện trong phạm vi dữ liệu từ quý IV năm 2018 đến quý II năm 2019, với ứng dụng thử nghiệm tại Việt Nam. Ý nghĩa của nghiên cứu được đánh giá qua các chỉ số như tỷ lệ phát hiện chính xác, tỷ lệ dương tính giả thấp, và khả năng cập nhật blacklist tự động, góp phần nâng cao hiệu quả bảo mật trên môi trường mạng.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai nhóm lý thuyết chính:  
- **Lý thuyết học máy (Machine Learning):** Áp dụng các thuật toán phân lớp như Random Forest, Logistic Regression, Decision Tree, Naive Bayes và Support Vector Machine để xây dựng mô hình phát hiện trang web lừa đảo dựa trên đặc trưng URL và nội dung trang web.  
- **Lý thuyết an toàn thông tin và kỹ thuật phòng chống phishing:** Bao gồm các khái niệm về Social Engineering, kỹ thuật tạo trang web giả mạo, và các phương pháp blacklist, whitelist trong bảo mật mạng.  

Các khái niệm chuyên ngành quan trọng gồm:  
- **Phishing:** Hình thức tấn công mạng nhằm chiếm đoạt thông tin nhạy cảm qua trang web giả mạo.  
- **Blacklist:** Danh sách các URL, domain được xác định là lừa đảo, dùng để chặn truy cập.  
- **Random Forest:** Thuật toán học máy dựa trên tập hợp các cây quyết định để phân loại dữ liệu.  
- **False Positive Rate (FPR) và True Positive Rate (TPR):** Các chỉ số đánh giá hiệu quả mô hình phát hiện.  

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu gồm 11.055 bản ghi trang web, trong đó 7.262 bản ghi được gán nhãn là lừa đảo và 3.793 bản ghi là lành tính, lấy từ kho lưu trữ học máy UCI. Dữ liệu được chia thành tập huấn luyện gồm 9.488 bản ghi và tập kiểm tra độc lập gồm 2.000 bản ghi. Phương pháp phân tích sử dụng thuật toán Random Forest được tùy biến để tối ưu tỷ lệ dương tính giả, kết hợp với kỹ thuật trích chọn 17 đặc trưng quan trọng từ URL và nội dung HTML/JavaScript của trang web. Quá trình nghiên cứu bao gồm:  
- Trích xuất đặc trưng từ URL và nội dung trang web.  
- Huấn luyện mô hình Random Forest trên tập huấn luyện.  
- Đánh giá mô hình trên tập kiểm tra với các chỉ số như độ chính xác, tỷ lệ dương tính giả.  
- Thiết kế kiến trúc nhiều tầng gồm tầng sàng lọc (tầng 1 và 2) và tầng chuẩn đoán (tầng 3 và 4) sử dụng blacklist và tham vấn dịch vụ chuyên gia như PhishTank và Google Safe Browsing.  
- Triển khai thử nghiệm thực tế qua extension trình duyệt và máy chủ xử lý.  

Timeline nghiên cứu kéo dài từ quý IV năm 2018 đến quý II năm 2019, tập trung vào thu thập dữ liệu, phát triển mô hình, thử nghiệm và đánh giá hiệu quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Tăng trưởng số lượng trang web lừa đảo:** Số lượng trang web lừa đảo tăng từ 138.000 (quý IV/2018) lên 182.000 (quý II/2019), tương đương mức tăng khoảng 32%.  
- **Hiệu quả mô hình Random Forest:** Mô hình phát hiện trên tầng một và tầng hai đạt tỷ lệ dương tính giả gần như bằng 0, giúp sàng lọc chính xác các trang web lừa đảo.  
- **Tỷ lệ phát hiện chính xác:** Mô hình kết hợp với blacklist và dịch vụ chuyên gia đạt tỷ lệ phát hiện trên 95%, giảm thiểu sai sót so với các phương pháp dựa trên blacklist đơn thuần.  
- **Khả năng cập nhật blacklist tự động:** Hệ thống tự động cập nhật danh sách đen khi phát hiện trang web lừa đảo mới, giúp giảm thiểu thời gian phản ứng và tăng hiệu quả bảo vệ người dùng.  

### Thảo luận kết quả

Nguyên nhân của sự gia tăng các trang web lừa đảo là do kỹ thuật tạo trang web giả mạo ngày càng tinh vi, kết hợp với yếu tố tác động tâm lý người dùng (Social Engineering). Mô hình học máy Random Forest được tùy biến giúp kiểm soát tốt tỷ lệ dương tính giả, điều này rất quan trọng để tránh cảnh báo sai cho người dùng. So với các nghiên cứu trước đây chỉ dựa vào blacklist hoặc phương pháp học máy đơn lẻ, kiến trúc nhiều tầng kết hợp ưu điểm của cả hai phương pháp đã nâng cao đáng kể hiệu quả phát hiện. Dữ liệu có thể được trình bày qua biểu đồ tăng trưởng số lượng trang web lừa đảo theo quý và bảng so sánh tỷ lệ phát hiện giữa các phương pháp. Ý nghĩa của kết quả là cung cấp một giải pháp toàn diện, khả thi và hiệu quả cho việc bảo vệ an toàn thông tin trên môi trường mạng, đặc biệt trong bối cảnh tấn công mạng ngày càng phức tạp.

## Đề xuất và khuyến nghị

- **Triển khai rộng rãi kiến trúc nhiều tầng:** Áp dụng hệ thống phát hiện và ngăn chặn trang web lừa đảo nhiều tầng trên các trình duyệt phổ biến nhằm nâng cao tỷ lệ phát hiện và giảm thiểu rủi ro cho người dùng.  
- **Tăng cường cập nhật và chia sẻ blacklist:** Xây dựng cơ chế tự động cập nhật blacklist và chia sẻ dữ liệu giữa các tổ chức, doanh nghiệp để phản ứng nhanh với các mối đe dọa mới.  
- **Đào tạo nâng cao nhận thức người dùng:** Tổ chức các chương trình đào tạo, tuyên truyền về nhận biết và phòng tránh phishing, giúp giảm thiểu tác động của kỹ thuật Social Engineering.  
- **Phát triển công cụ hỗ trợ cho doanh nghiệp:** Cung cấp các giải pháp tích hợp API của hệ thống phát hiện vào hạ tầng CNTT của doanh nghiệp, đặc biệt trong lĩnh vực tài chính, ngân hàng để bảo vệ khách hàng.  

Các giải pháp trên cần được thực hiện trong vòng 12-18 tháng, với sự phối hợp của các cơ quan quản lý, doanh nghiệp công nghệ và cộng đồng người dùng.

## Đối tượng nên tham khảo luận văn

- **Các nhà nghiên cứu và sinh viên ngành An toàn Thông tin:** Nghiên cứu phương pháp học máy ứng dụng trong phát hiện phishing và xây dựng hệ thống bảo mật mạng.  
- **Doanh nghiệp công nghệ và bảo mật:** Áp dụng kiến trúc nhiều tầng và mô hình học máy để nâng cao khả năng phát hiện và ngăn chặn các trang web lừa đảo.  
- **Cơ quan quản lý và chính phủ:** Xây dựng chính sách, quy định và hỗ trợ kỹ thuật nhằm bảo vệ an toàn thông tin quốc gia và người dân.  
- **Người dùng Internet phổ thông:** Nâng cao nhận thức về các mối nguy hiểm từ trang web lừa đảo và cách phòng tránh hiệu quả.  

Mỗi nhóm đối tượng có thể sử dụng kết quả nghiên cứu để phát triển công cụ, chính sách hoặc chương trình đào tạo phù hợp với nhu cầu thực tế.

## Câu hỏi thường gặp

1. **Phương pháp học máy nào được sử dụng trong nghiên cứu?**  
Thuật toán Random Forest được tùy biến để phát hiện trang web lừa đảo dựa trên đặc trưng URL và nội dung trang web, giúp kiểm soát tỷ lệ dương tính giả rất thấp.

2. **Blacklist là gì và vai trò của nó trong hệ thống?**  
Blacklist là danh sách các URL, domain được xác định là lừa đảo, dùng để chặn truy cập. Hệ thống tự động cập nhật blacklist giúp phát hiện nhanh các trang web mới.

3. **Kiến trúc nhiều tầng hoạt động như thế nào?**  
Hệ thống gồm bốn tầng: tầng 1 và 2 dùng mô hình học máy để sàng lọc nhanh; tầng 3 và 4 dùng blacklist và tham vấn dịch vụ chuyên gia để chuẩn đoán chính xác hơn.

4. **Làm thế nào để người dùng được bảo vệ khi truy cập trang web?**  
Khi phát hiện trang web lừa đảo, extension trình duyệt sẽ ngăn chặn truy cập và cảnh báo người dùng, đồng thời cập nhật blacklist để bảo vệ cộng đồng.

5. **Nghiên cứu có thể áp dụng trong thực tế như thế nào?**  
Kết quả nghiên cứu đã được tích hợp thành công vào extension trình duyệt và có thể mở rộng cho các doanh nghiệp, tổ chức để bảo vệ khách hàng và người dùng Internet.

## Kết luận

- Nghiên cứu đã xây dựng thành công kiến trúc nhiều tầng kết hợp học máy và blacklist để phát hiện trang web lừa đảo với độ chính xác cao.  
- Thuật toán Random Forest tùy biến giúp kiểm soát tỷ lệ dương tính giả gần như bằng 0, nâng cao hiệu quả sàng lọc.  
- Hệ thống tự động cập nhật blacklist, kết nối với dịch vụ chuyên gia như PhishTank và Google Safe Browsing, đảm bảo khả năng phản ứng nhanh với các mối đe dọa mới.  
- Giải pháp đã được thử nghiệm thực tế qua extension trình duyệt, mang lại hiệu quả bảo vệ người dùng Internet tại Việt Nam.  
- Đề xuất triển khai rộng rãi, phối hợp đào tạo và phát triển công cụ hỗ trợ nhằm nâng cao an toàn thông tin trong kỷ nguyên số.  

Tiếp theo, cần mở rộng nghiên cứu để tích hợp thêm các thuật toán học sâu và mở rộng phạm vi dữ liệu nhằm nâng cao khả năng phát hiện các hình thức tấn công mới. Mời các tổ chức, doanh nghiệp và nhà nghiên cứu cùng hợp tác phát triển và ứng dụng giải pháp này để bảo vệ cộng đồng mạng hiệu quả hơn.

Trích đoạn nội dung tài liệu

Chương 1. Giới thiệu Chương này trình bày thực trạng đáng báo động của các trang web lừa đảo trên thế giới nói chung và tại Việt Nam nói riêng. Trình bày các giải pháp phát hiện đã có dựa vào cộng đồng và phương pháp học máy trong phát hiện trang web lừa đảo. Chương 1 cũng trình bày tóm tắt cách tiếp cận của luận văn; tóm tắt kết quả đạt được và khả năng ứng dụng của nghiên cứu.

Thiết kế kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo Trình bày tổng quan kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo. Sau phần tổng quan là trình bày phương pháp học máy sử dụng trên thuật toán rừng ngẫu nhiên (Random Forest - RF) tùy biến tham số, tự điều chỉnh tỉ lệ dương tính giả trong phát hiện trang web lừa đảo, thực hiện nhiệm vụ sàng lọc cho tầng một và tầng hai của kiến trúc. Cuối chương này trình bày các phương pháp phát hiện dựa trên hệ chuyên gia, danh sách đen (blacklist) trên tầng ba và gọi API của PhishTank, Google Safe Browsing trên tầng bốn. Cài đặt thử nghiệm Là chương kết thúc của luận văn, trình bày kỹ thuật cài đặt thử nghiệm và các bước được triển khai trên mỗi tầng.

Lựa chọn phương pháp và tiến hành đánh giá, so sánh kết quả thử nghiệm. Đồng thời, nghiên cứu và triển khai thử nghiệm tích hợp kết quả nghiên cứu vào một tiện ích mở rộng (extension) cài đặt vào trình duyệt của người dùng. Trong quá trình thực hiện luận văn không tránh khỏi những thiếu sót trong nội dung cũng như trong trình bày. Với mong muốn được phát triển hơn nữa trong lĩnh vực đang nghiên cứu, tác giả của luận văn rất mong nhận được sự đóng góp ý kiến của các thầy cô giáo và của các anh/chị học viên.

Thực trạng đáng báo động của các trang web lừa đảo Trang web lừa đảo được tạo ra bởi các đối tượng tội phạm nhằm mục đích chiếm đoạt những thông tin nhạy cảm của người dùng như tên đăng nhập, mật khẩu, mã số thẻ tín dụng, mã xác thực OTP và các thông tin liên quan tới tài khoản ngân hàng, .Với sự kết hợp giữa hai yếu tố chính, đó là: Sử dụng kỹ thuật tạo trang web giả mạo với trang web của các tổ chức hợp pháp và yếu tố tác động tâm lý của người dùng (hay còn được biết đến là Social Engineering - Kỹ nghệ xã hội) đã góp phần thành công giúp các đối tượng tội phạm thực hiện hành vi lừa đảo. Trên thế giới, theo số liệu báo cáo của tổ chức APWG [1] (Anti Phishing Working Group), trong quý II năm 2019 đã phát hiện có tổng số 182. Con số này tăng lên đáng kể so với quý I năm 2019 phát hiện là 180.768 và quý IV năm 2018 là 138. Thống kê số lượng trang web lừa đảo từ quý IV năm 2018 đến quý II năm 201 Quý IV - Năm 2018 Quý I - Năm 2019 Quý II - Năm 2019 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10 11 12 1 2 3 4 5 6 56.889 (Tổng hợp số liệu trích từ nguồn của APWG) Tuy nhiên, khi một trang web lừa đảo được tạo ra, các đối tượng tội phạm lập tức tiến hành thay đổi thành hàng nghìn các biến thể địa chỉ URL của những trang web đó trước khi phát tán tới người dùng.

Do đó, khi người dùng truy cập vào những địa chỉ này thì sẽ đều được điều hướng tới cùng một trang đích lừa đảo. Số liệu mà APWG đã tiến hành thống kê số lượng được dựa vào tính duy nhất của các trang web lừa đảo (không tính đến những URL biến thể của cùng một trang web). Qua số liệu được báo cáo từ APWG có thể dễ dàng nhận thấy, số lượng các trang web lừa đảo xuất hiện trong những năm trở lại đây ngày càng có xu hướng 13 gia tăng mà không có dấu hiệu giảm xuống. Điều này gây ra những tổn thất nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an toàn thông tin nói riêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân.

Số lượng trang web lừa đảo từ Quý IV - 2018 đến Quý II - 2019 90,000 80,000 70,000 60,000 50,000 40,000 30,000 20,000 10,000 0 Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng Tháng 10/2018 11/2018 12/2018 1/2019 2/2019 3/2019 4/2019 5/2019 6/2019 Hình 1. Biểu đồ thống kê số lượng trang web lừa đảo từ 10/2018 đến 06/2019 Mục tiêu của các cuộc tấn công lừa đảo được các đối tượng hướng tới chủ yếu tập trung vào một số lĩnh vực như: Phần mềm dưới dạng dịch vụ, dịch vụ webmail, dịch vụ thanh toán, dịch vụ của các tổ chức tài chính, thương mại điện tử, dịch vụ lưu trữ trực tuyến,. Biểu đồ tỉ lệ phần trăm các lĩnh vực là mục tiêu của tấn công lừa đảo 14 Tại Việt Nam, theo số liệu thống kê của Bộ Thông tin và Truyền thông tại thời điểm 6 tháng đầu năm 2019, trong tổng số 3.159 cuộc tấn công mạng vào hệ thống thông tin, có 968 cuộc tấn công thay đổi giao diện (Deface), 635 cuộc tấn công cài cắm mã độc (Malware) và đặc biệt đối với loại hình tấn công lừa đảo (Phishing) có tới 1. Trong đó, các cuộc tấn công lừa đảo chủ yếu được tiến hành thông qua việc xây dựng các trang web giả mạo với các tổ chức hợp pháp hoạt động trong các lĩnh vực tài chính, ngân hàng, mạng xã hội,.

nhằm lừa gạt người dùng cung cấp thông tin nhạy cảm cá nhân hòng chiếm đoạt chúng. Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành những cách thức như sau: Hình 1. Tiến trình tấn công lừa đảo - Tạo một trang web giả mạo: Là một phần kế hoạch của cuộc tấn công lừa đảo, những đối tượng tấn công tạo ra một trang web giả mạo có giao diện và tương tác tương tự với trang web gốc. Chúng sử dụng những tính năng chính của trang web gốc như logo, bố cục và nội dung của trang web để người dùng không phát hiện đấy là trang web giả mạo.

- Liên kết một trang web giả mạo qua email: Sau khi tạo ra trang web giả mạo, đối tượng tấn công tạo ra những email với nhiều nội dung khác nhau như gây tính tò mò, sự kích thích về tâm lý của người dùng như: cập nhật thông 15 tin tài khoản trong các dịch vụ tài chính - ngân hàng, khai báo thông tin cá nhân tham gia chương trình trúng thưởng, .Sau đó, chúng gửi hàng nghìn email kiểu này đến người dùng và làm cho người nhận (người dùng) kích vào một URL để chuyển hướng đến trang web giả mạo. - Kích chuột vào một URL độc hại: Người dùng không biết URL độc hại được cung cấp trong email, lập tức kích chuột vào và dễ dàng bị chuyển hướng đến trang web giả mạo do đối tượng lừa đảo đã tạo ra. Tại đây, một cuộc tấn công lừa đảo bắt đầu diễn ra. - Nhập thông tin nhạy cảm: Khi người dùng được chuyển hướng đến trang web giả mạo, các thông tin nhạy cảm như tên đăng nhập, mật khẩu, mã số thẻ tín dụng và các thông tin khác được người dùng lần lượt nhập trên trang web do những đối tượng lừa đảo đã tạo ra.

- Tập hợp dữ liệu sau khi đánh cắp và sử dụng nó: Khi người dùng đã nhập những thông tin nhạy cảm, tất cả những dữ liệu này sẽ được những đối tượng lừa đảo thu thập, tổng hợp để thực hiện những mục đích riêng như: Bán dữ liệu người dùng, giao dịch bất hợp pháp, thực hiện hoạt động rửa tiền. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo 1. Giải pháp dựa vào cộng đồng Hiện nay, có nhiều giải pháp dựa trên cộng đồng được đề xuất để phát hiện và ngăn chặn trang web lừa đảo. Một số giải pháp được tiếp cận bao gồm: PhishTank, Google Safe Browsing, PhishNet, PhishGuard, SpoofGuard, BaitAlarm.

- PhishTank: Là một giải pháp giúp cộng đồng người dùng có thể dễ dàng phát hiện những trang web nghi ngờ có dấu hiệu lừa đảo. PhishTank được xây dựng và phát triển bởi tổ chức OpenDNS [2], nó cung cấp một hệ thống xác minh lừa đảo dựa vào cộng đồng nơi người dùng gửi URL của những trang web bị nghi ngờ lừa đảo và những người dùng khác “bỏ phiếu”cho URL đó có hay khôg sự lừa đảo. Thực chất, giải pháp của PhishTank chính là việc duy trì một danh sách đen (blacklist) bởi người sử dụng. Dữ liệu tại đây được cung cấp miễn phí để tải xuống hoặc truy cập thông qua lệnh gọi API, gồm cả cho mục đích thương mại.

16 - Google Safe Browsing: Đây là giả pháp sử dụng các URL trong danh sách đen để khám phá các cuộc tấn công lừa đảo [3]. Mỗi URL cần kiểm tra được sử dụng làm dữ liệu đầu vào và thực hiện kiểm tra URL đó trong kho danh sách đen. Nếu URL có trong kho danh sách đen thì xác định đây là trang web lừa đảo; ngược lại, trang web là lành tính. Với giải pháp này, điểm hạn chế chính là không có khả phát hiện những trang web có URL không tồn tại trong danh sách đen, điểm này sẽ làm tăng tỉ lệ dương tính giả trong phát hiện trang web lừa đảo.

- PhishNet: Giải pháp này có thể khắc phục các vấn đề liên quan đến danh sách đen. Giải pháp bao gồm hai bước chính: Tạo ra các biến thể URL so với các biến thể ban đầu để phát triển danh sách đen và cấu trúc dữ liệu gán từng điểm số cho URL dựa trên sự tương đồng của URL hiện có [4]. Trong bước thứ nhất, nó sử dụng các phương pháp phỏng đoán khác nhau để tạo các URL mới thay thế tên miền cấp cao nhất (TLD - Top level domain), tương đương địa chỉ IP, tương tự cấu trúc thư mục, thay thế chuỗi truy vấn, tương đương với tên thương hiệu. Trong bước thức hai gồm, kỹ thuật đối sách giúp kiểm tra địa chỉ IP, tên máy chủ,.

- PhishGuard: Đây là giải pháp thực hiện trên thuật toán ObURL để đánh giá các trang web đáng ngờ dựa trên sự xuất hiện trực quan của các trang web [5]. Thuật toán này được xác định bằng cách: Kiểm tra danh sách đen và danh sách trắng (whitelist), kiểm tra địa chỉ IP, kiểm tra sử dụng dịch vụ rút gọn URL, kiểm tra DNS và kiểm tra trên khuôn mẫu. + Kiểm tra danh sách đen và danh sách trắng: Trong thử nghiệm này, tất cả các URL lần lượt được xác minh trong danh sách đen và danh sách trắng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn "Kiến trúc nhiều tầng cho phát hiện và ngăn chặn trang web lừa đảo" của tác giả Phạm Ngọc Thọ, được hướng dẫn bởi TS. Lê Đình Thanh tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, trình bày một kiến trúc hiệu quả để bảo vệ người dùng khỏi các mối nguy hiểm trực tuyến. Luận văn tập trung vào việc phân tích các kỹ thuật phát hiện và ngăn chặn trang web lừa đảo, đồng thời giới thiệu một kiến trúc đa tầng dựa trên các kỹ thuật học máy tiên tiến.

Với kiến trúc này, người dùng có thể yên tâm hơn khi truy cập Internet, giảm thiểu nguy cơ bị lừa đảo hoặc mất thông tin cá nhân. Để tìm hiểu sâu hơn về các kỹ thuật học máy trong an ninh mạng, bạn có thể tham khảo thêm bài luận văn Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android, với chủ đề liên quan đến học máy và ứng dụng trong an ninh mạng.

Bên cạnh đó, luận văn Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt cũng là một tài liệu bổ ích cho bạn, giúp bạn hiểu rõ hơn về các kỹ thuật phát hiện và phòng chống gian lận trong môi trường trực tuyến.

Cuối cùng, nếu bạn quan tâm đến ứng dụng công nghệ thông tin trong lĩnh vực giáo dục, luận văn Năng lực ứng dụng công nghệ thông tin để dạy học lịch sử và địa lí trong đào tạo giáo viên tiểu học sẽ mang đến những kiến thức bổ ích và thực tiễn.

#Phân tích dữ liệu

#an ninh mạng

#công nghệ bảo mật

#hệ thống phát hiện xâm nhập

#kiến trúc đa tầng

#phát hiện trang web lừa đảo

Chủ đề

An ninh mạng và bảo mật thông tin

công nghệ phát hiện lừa đảo

kiến trúc hệ thống thông tin

trí tuệ nhân tạo trong an ninh mạng