Tài liệu Kỹ thuật: Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo

Tìm hiểu các kỹ thuật phát hiện trang web giả mạo hiệu quả, phương pháp ứng dụng thực tế giúp bảo vệ an toàn thông tin trực tuyến.

Trường đại học

Trường Đại học Công Nghệ Thông Tin Và Truyền Thông - Đại Học Thái Nguyên

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2016

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng Quan Về An Ninh Mạng Và Giả Mạo Website

An ninh mạng là một lĩnh vực quan trọng trong thời đại công nghệ thông tin hiện nay. Giả mạo website hay phishing là một trong những mối đe dọa lớn nhất đối với người dùng internet. Theo báo cáo từ Anti Phishing Working Group (APWG), số lượng trang web giả mạo tăng đột biến hàng năm. Các kỹ thuật phát hiện trang web giả mạo trở thành công cụ thiết yếu để bảo vệ người dùng. Những kẻ tấn công thường sử dụng các phương pháp tinh vi để lừa dối người dùng, đánh cắp thông tin cá nhân và tài chính. Việc hiểu rõ về các nguy cơ và kỹ thuật phòng chống là rất cần thiết.

1.1. Định Nghĩa Giả Mạo Website

Trang web giả mạo là những trang web được tạo ra nhằm mục đích lừa lừa người dùng bằng cách giả mạo ngoại hình và chức năng của các trang web hợp pháp. Chúng thường có thiết kế gần giống với trang gốc nhưng chứa mã độc hoặc được thiết kế để thu thập thông tin người dùng. Người dùng khó phát hiện sự khác biệt này nếu không có sự hỗ trợ của các công cụ phát hiện chuyên biệt.

1.2. Tác Động Của Giả Mạo Website

Giả mạo website gây ra những hậu quả nghiêm trọng bao gồm mất mát tài chính, đánh cắp dữ liệu cá nhân, và xâm phạm quyền riêng tư. Phishing qua email kết hợp với trang web giả mạo là phương pháp tấn công phổ biến nhất. Các doanh nghiệp và cá nhân mất hàng tỷ đô la mỗi năm do các cuộc tấn công này.

II. Các Kỹ Thuật Phát Hiện Trang Web Giả Mạo

Để phát hiện trang web giả mạo hiệu quả, các chuyên gia sử dụng nhiều kỹ thuật khác nhau kết hợp giữa phân tích nội dung và hành vi. Phương pháp TF-IDF (Term Frequency-Inverse Document Frequency) là một trong những kỹ thuật cơ bản nhất, giúp xác định tính độc đáo của từ khóa trong các trang web. Thuật toán Naive Bayes là một phương pháp thống kê mạnh mẽ trong phân loại trang web. Ngoài ra, thuật toán so khớp chuỗi như Boyer-Moore và Rabin-Karp được sử dụng để phát hiện các phần tử giống nhau giữa trang gốc và trang giả mạo. Các kỹ thuật này khi được kết hợp lại tạo thành một hệ thống phát hiện toàn diện.

2.1. Phương Pháp TF IDF

TF-IDF là phương pháp tính toán trọng số của các từ trong tài liệu. Term Frequency (TF) đo lường tần suất xuất hiện của từ, trong khi Inverse Document Frequency (IDF) đo lường mức độ hiếm gặp của từ trong toàn bộ tập dữ liệu. Kết hợp TF × IDF giúp xác định các từ đặc trưng của mỗi trang web.

2.2. Thuật Toán Naive Bayes

Naive Bayes là thuật toán phân loại dựa trên định lý xác suất Bayes. Nó hoạt động bằng cách tính xác suất một trang web là giả mạo dựa trên các đặc trưng của nó. Thuật toán này đơn giản nhưng hiệu quả cao, thường được sử dụng trong các hệ thống phát hiện phishing.

2.3. Thuật Toán So Khớp Chuỗi

Thuật toán Boyer-Moore và Rabin-Karp được dùng để tìm kiếm các chuỗi ký tự tương tự giữa trang gốc và trang giả mạo. Những thuật toán này có thể xác định các đoạn mã HTML hoặc JavaScript được sao chép, giúp phát hiện các trang web sao chép.

III. Áp Dụng Các Luật Phát Hiện Giả Mạo

Trong thực tế, phát hiện giả mạo website dựa vào nhiều quy tắc và đặc trưng khác nhau. Phát hiện dựa trên thanh địa chỉ URL là phương pháp đầu tiên và đơn giản nhất, kiểm tra xem URL có bất thường hoặc lạ lẫm. Phát hiện dựa trên các đặc tính bất thường như thời gian tải trang, số lượng frame hoặc popup cũng rất hữu ích. Phát hiện dựa trên nội dung HTML và JavaScript giúp phát hiện các mã độc hoặc hành vi lạ. Cuối cùng, phát hiện dựa trên tên miền kiểm tra tính hợp lệ của miền và xem nó có khác biệt đáng kể so với miền gốc hay không. Sự kết hợp các luật này tạo nên một hệ thống phát hiện toàn diện và đáng tin cậy.

3.1. Phát Hiện Dựa Trên URL

Kiểm tra URL là bước đầu tiên trong phát hiện giả mạo. Hacker thường sử dụng các URL giống nhưng không hoàn toàn giống với trang gốc. Các dấu hiệu đáng nghi như sử dụng IP thay vì tên miền, các ký tự đặc biệt, hoặc các tiền tố lạ có thể chỉ ra trang web giả mạo.

3.2. Phát Hiện Dựa Trên Đặc Tính Bất Thường

Đặc tính bất thường như số lượng frame, form input bất thường, hoặc số lượng popup quá nhiều có thể chỉ ra giả mạo. Trang web giả mạo thường có cấu trúc khác biệt so với trang gốc, được thiết kế để lừa người dùng nhập thông tin.

3.3. Phát Hiện Dựa Trên Tên Miền

Kiểm tra tên miền bao gồm xác minh tính hợp lệ của chứng chỉ SSL/TLS, tuổi miền, và nhà đăng ký miền. Các tên miền giả mạo thường được đăng ký gần đây hoặc sử dụng các nhà đăng ký ненадежные.

IV. Ứng Dụng Thực Tiễn Và Hướng Phát Triển

Các kỹ thuật phát hiện trang web giả mạo đã được triển khai trong nhiều ứng dụng thực tiễn bao gồm các trình duyệt web, phần mềm diệt virus, và các dịch vụ bảo mật mạng. Hệ thống phát hiện tự động sử dụng machine learning có khả năng học từ các mẫu mới và cải thiện độ chính xác theo thời gian. Các công cụ như WEKA (Waikato Environment for Knowledge Analysis) cung cấp các thuật toán mạnh mẽ cho việc xây dựng các mô hình phát hiện. Trong tương lai, phát hiện giả mạo sẽ sử dụng các công nghệ tiên tiến hơn như deep learning và xử lý ngôn ngữ tự nhiên. Việc kết hợp giữa phân tích tĩnh và động sẽ làm tăng đáng kể hiệu quả phát hiện.

4.1. Triển Khai Hệ Thống Phát Hiện

Hệ thống phát hiện giả mạo được triển khai qua các mô-đun phân tích URL, nội dung HTML/JavaScript, và các đặc tính của trang web. Giao diện người dùng cung cấp cảnh báo rõ ràng khi phát hiện trang web đáng nghi. Sử dụng thuật toán Naive Bayes kết hợp với các luật heuristic cho kết quả chính xác cao.

4.2. Hướng Phát Triển Trong Tương Lai

Tương lai của phát hiện trang web giả mạo sẽ bao gồm sử dụng deep learning để phân tích các mẫu phức tạp hơn. Kỹ thuật phân tích hình ảnh để so sánh giao diện trang web, và xử lý ngôn ngữ tự nhiên để phân tích nội dung text sẽ trở thành các công nghệ chính trong lĩnh vực này.

18/12/2025

Bạn đang xem trước tài liệu:

Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 TONG QUAN VE AN NINH MẠNG VÀ BÀI TOÁN GIÁ MẠO WEBSITE. Tổng quan về an ninh mạng 1. Giới thiệu về an ninh mang Ngày nay an ninh mạng là một vấn đề được nhiều người quan tâm. Có tất nhiều trang web bị tấn công.

Các cuộc tấn công này gây ra thiệt hại lớn về thông tin, tài sin, uy tín của các công ty, tổ chức. [2] "Theo thống kê của Bkav, trong năm 2012 vẫn có tới 2.203 website của các cơ quan doanh nghiệp tại Việt Nam bị tấn công, chủ yếu thông qua các lỗ hỗng trên hệ thống mạng. So với năm 2011 (cỗ 2.245 website bị tắn công) con số này hầu như không giảm. Cuối năm 2013, việc lợi đụng các file văn bản đề cài phần mềm gián điệp đã tiễn thêm một bước, không cần thông qua lỗ hồng mà chuyển sang sử dung hình thức phishing.

Trung tuin tháng 12, Bkav phát hiện một loạt các vụ tin tic chèn mã độc vào file văn bản không sử dụng lỗ hồng. Mã độc ân dui "hình thức một ảnh thu nhỏ được nhúng trực tiếp vào file văn bản. Để đọc nội dung, chắc chấn người đùng sẽ click để mỡ ảnh lớn hơn, nhưvậy sẽ kích hoạt ma độc. Ông Ngô Tuần Anh, Phó chủ tịch phụ trách An ninh mạng của Bkav, cho biết: “Với hình thức này, bất kỳ máy tính nào cũng sẽ bị cai phần mềm gián điệp mà không cần lỗ hồng.

Phishing dé cai đặt phần mềm gián điệp sẽ được sử đụng rộng rãi và là xu hướng trong năm 2014" Co thé thấy, an ninh mạng ngày càng phức tạp và là vấn đề nồng trong những năm gần đây 5 Hình 1. Báo cáo về tội phạm Internet. Dữ liệu bị đánh cắp từ các tô chức esi sco neat _ gest onl Stim cigy Gots || MT iach donk 'Hình 1. Số lượng dữ liệu bị đánh cắp.

Nguy cơ ảnh hưỡngtối an toàn mạng Các hacker thường xuyên lợi đụng lỗ hông có sẵn để tấn công. Dưới đây là thống kê năm 2009 về một vài phương pháp tấn công phổ biển ‘Web Vulnerabilities by Clas QQ2289 Hình 1. Tÿ lệ lỗ hong trén các trang web 1. Các khái niệm cơ bản 1.1 Tắn công giả mạo Tấn công giã mạo làm cho địa chỉ nguồn của gói tin bị thay đổi và có về như được xuất phát từ một địa chỉ (máy tính) khác.

Trong đó kế tấn công thiết lập một thế giới giả giống như thật xung quanh nạn nhân. Nạn nhân có thể sẽ không nhận ra sự khác biệt giữa thật và giả đó. Hành động gây mắt thông tin Là những quyết định, hành động của người đùng có thể dẫn tới hậu quả như bị tiếtlộ, thất thoát những thông tin bí mật của bản thân hoặc bị kế khác vi phạm quyền riêng tw. Khung cảnh / bỗi cảnh Trinh duyét hiển thị cho người đùng nhiều loại khung cảnh, người đùng đựa vào đó để đưa ra các quyết định của mình.

16 hing Các lỗ hông bảo mật trên một hệ thống là các điểm yếu có thể tạo ra sự ngưng trệ của địch vụ, thêm quyền đối với người sử đụng hoặc cho phép các truy nhập không hợp pháp vào hệ thống. Các lỗ hồng cũng có thể nằm ng: các dịch vụ cung cấp như sendmail, web, Ñtp. Ngoài ra các lỗ hồng còn tồn tại ngay chính tại hệ điều hành nhw trong Windows NT, Windows 95, UNIX: hoặc trong các ứng dụng mà người sử dụng thường xuyên sử đụng như Word processing, cic hé databases Theo cách phân loại của Bộ quốc phòng Mỹ, các loại lỗ hổng bão mật trên một hệ thống được chia như sau: ỗ hồng loại C: Các lỗ hỗng loại này cho phép thực hiện các phương thức tấn công theo DoS Dinal of Services - Từ chối địch vụ). Mức độ nguy hiểm thấp, chỉ ảnh hưởng tới chất lượng dịch vụ, có thể làm ngưng trệ, gián đoạn hệ thống; không làm phá hỏng dữ liệu hoặc đạt được quyền truy nhập ‘vat hop phap + Lễ hỗng loại B: Các lỗ hỗng cho phép người sit dung cô thêm các quyền trên hệ thống mà không cần thực hiện kiểm tra tính hợp lệ.

Mite độ nguy hiểm trung bình; Những lỗ hỗng này thường có trong các ứng đụng trên hệ thống; 6 có thê dẫn đến. ất hoặc lộ thông tin yêu cầu bảo mật. + Lễ hỗng loại A: Cac lỗ hồng nà cho phép người sử dụng ở ngoài có thể truy nhập vào hệ thống bất hợp pháp. Lỗ hồng rất nguy hiểm, có thể làm.

phá hủy toàn bộ hệ thống. Web gid mao 'Web giả mạo giống như là 1 trang web mà những kẻ tấn công tạo ra từ một trang web ban đầu. Các trang web giả mạo trông giống y hệt với trang web thực. Nô cô giao điện và các liên kết tương tự.

Kẻ tấn công sẽ kiểm soát các trang web giả để giám sát, thu thập những thông tin của những nạn nhân. đi vào cũng như những trang web mà nạn nhân dẫn kế tấn công đi tới 1. Các loại tấn công mạng 1. Tắn công hệ điều hành Những kẻ tấn công tìm kiềm các lỗ hông hệ thống và khai thác chúng.

để được truy cập vào một hệ thống mạng. Một số lỗi hệ điều hành như: Tran bộ đệm Lỗi trong hệ điều hành. 'Hệ thống chưa được vá hệ điều hành 1. Tắn công câu hình sai Các thông tin cấu hình của hệ thống bị chỉnh sửa, cấu hình sai bởi người quản trị hoặc bị nhiễm virus, giúp hacker tận đụng những lỗ hồng này để khai thác và xâm nhập vào hệ thống như chỉnh sữa sai DNS, thông tin cấu hình ip.

Tân công các cấp độ img dung Phần mềm ứng dụng đi kèm với nhiều chức năng và cả tính năng, nhưng chưa kiểm tra lỗi kỹ đẫn đến lỗ hỏng đề hacker khai thác, bao gêm các cuộc tắn công như: + Trần bộ đệm + xss © Tấn công từ chối địch vụ + Lữađão ® Chiếm quyền điều khiển + Man-in-Midđle aHack 1. Các phương thức tấn công 1. Tấn cong MAC Switch thi có bộ nhớ giới hạn cho việc ánh xa dia chi MAC va port vat lý trên switch. Tấn công MAC là tấn công làm ngập lụt switch với một số.

lượng lớn yêu cầu, lúc này switch hoạt động như hub và lúc này các gồi tin sẽ được gửi ra tất cả các máy trên cùng miền mạng và kế tấn công có thể đễ đàng. Ngập lụt MAC làm cho bộ nhớ giới han cia switch đẩy lên bằng cách giả mạo nhiều địa chỉ MAC khác nhau và gũi đến switch. Bảng CAM của switch thì cô kích thước giới hạn. No chỉ lưu trữ thông tin như địa chỉ MAC gắn với công tương ứng trên switch cùng với các tham.

số miễn mạng LAN. SHEEE he ame ae ll ee "Hình 1. Mô tả hoạt động cũa băng CAM Khi máy A gửi gói tin đến máy B, nô sẽ tìm trong bảng địa chi MAC của nó, coi thử cô địa chỉ MAC của máy B hay không, nếu không có máy A. sẽ gửi gói in ARP đến suutch để hỏi địa chỉ MAC của máy B.

Máy B lúc này nhận được gồi tia gửi phân hồi lại cho máy A sau đó các gồi tin được lưu chuyển từ A đến B mà không chuyén sang các máy khác. "Một khi bing CAM trén switch diy thì các lưu lượng ARP request sẽ làm ngập lụt mỗi cổng cia switch. Lúc này switch hoạt động cơ bản như hub, và tấn công lúc này sẽ làm diy bang CAM cia switch. Tắn công DHCP Để hiểu được cách tấn công địch vụ DHCP đâu tiên ta cà được cách thức cấp phátvà nhận ¡p từ máy trạm đến máy chủ.

Đầu tiên, một DHCP client muốn nhận mới một địa chỉ IP (chứ không. phải muốn phục hồi lại thời gian “thuê” của một địa chỉ IP mà nó đang sử. dung) sẽ gũi lên toàn mạng (broadcast) mét thông điệp DHCP Discover có chứa địa chỉ MAC của nó để tìm kiếm sự hiện điện của DHCP server. "Nếu tổn tại sự hoạt động của (các) DHCP server thuộc cùng subnet với TDHCP client trên thì (các) server nay sẽ phản hỏi lại cho client bằng một thông điệp DHCP Offer c6 chita mét dia chi IP (và các thiét lap TCP/IP khác) hư là một lời đề nghị cho “thué” (lease) dia chi 10 Ngay khi nhận được gói DHCP Offer dén dau tién, client sé trả lời lại cho server (đĩ nhiên là gửi cho server nào mà nó nhận duge g6i DHCP Offer đến đầu tiên trong trường hợp có nhiều DHCP server nằm cùng subnet với n6) một thông điệp DHCP Request như là sự chấp thuận lời đề nghị cho "thuê" trên Cuối cùng, server gửi lại cho client thông digp DHCP Acknowledgment để xác nhận lần cuối "hợp đồng cho thuê địa chỉ” với client.

Và từ đây client có thể sử dụng địa chỉ IP vừa "thuê" được đễ truyền thông với các máy khác trên mạng 2 Xa thcp Sener Hình 1. Quá trinh cp phat ip tir may chi DHCP Như vậy, nhìn chung DHCP làm việc khá đơn giản nhưng điểm mẫu chốt ở đây là xi suốt quá trình trao đổi thông điệp giữa server và client không hề có sự xác thực hay kiểm soát truy cập nào. Server không có cách nào biết được rằng nó có đang liên lạc với một legitimate client (tạm dịch là máy hợp pháp, tức là một máy không bị điều khiển để thực hiện các mục đích xấu) hay không và ngược lại client cũng không thể biết được là nô có đang liên lạc với một legitimate server hay không. u ‘Kha nang trong mang xvat hién cdc rogue DHCP client va rogue DHCP server (rogue tam dich 1a may “DHCP gia”, tic 1a mét máy giả tạo, bị điều khiển để thực hiện các hành vi xấu) tạo ra nhiêu vấn đề đáng quan tâm.

Một rogue server có thể cung cấp cho các legitimate client các thông số cấu hinh TCP/IP gia va trái phép như: địa chỉ IP không hợp lệ, sai subnet mask, hoặc sai địa chỉ của default gateway, DNS server nhằm ngăn chặn client truy cp tài nguyên, địch vụ trong mạng nội bộ hoặc Intemet (day là trình thức của tấn công DoS). ‘Set Your Dota Gameny Rogue DHCP TƯ Sarver At 100 1.1/26 Valid DHCP Server Hình 1.6 Minh hoa DHCP Rouge 'Việc thiết lập một rogue server như vậy có thể thực hiện được bằng cách sử đụng các kỹ thuật "social engineering” để có được khả năng tiếp cận vật lý rồi kết nối rouge server vào mạng. Attacker có thé thoả hiệp thành công với mét legitimate client nào đó trong mạng và thực hiện cài đặt rồi thực thỉ trên client nay một chương trình ụ có chức năng liên tục gửi tới DHCP server các gồi tin yêu cầu xin cấp IP với các địa chỉ MAC nguồn không có thực cho tới khi toàn bộ dai IP trong scope của DHCP server này bị nó “thuê” hết.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu Kỹ thuật: Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo

I. Tổng Quan Về An Ninh Mạng Và Giả Mạo Website

1.1. Định Nghĩa Giả Mạo Website

1.2. Tác Động Của Giả Mạo Website

II. Các Kỹ Thuật Phát Hiện Trang Web Giả Mạo

2.1. Phương Pháp TF IDF

2.2. Thuật Toán Naive Bayes

2.3. Thuật Toán So Khớp Chuỗi

III. Áp Dụng Các Luật Phát Hiện Giả Mạo

3.1. Phát Hiện Dựa Trên URL

3.2. Phát Hiện Dựa Trên Đặc Tính Bất Thường

3.3. Phát Hiện Dựa Trên Tên Miền

IV. Ứng Dụng Thực Tiễn Và Hướng Phát Triển

4.1. Triển Khai Hệ Thống Phát Hiện

4.2. Hướng Phát Triển Trong Tương Lai

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thị Huyền

Người hướng dẫn: Ts. Nguyễn Ngọc Cương

Trường học: Trường Đại học Công Nghệ Thông Tin Và Truyền Thông - Đại Học Thái Nguyên

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2016

Địa điểm: Thái Nguyên

Tài liệu Kỹ thuật: Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo

I. Tổng Quan Về An Ninh Mạng Và Giả Mạo Website

1.1. Định Nghĩa Giả Mạo Website

1.2. Tác Động Của Giả Mạo Website

II. Các Kỹ Thuật Phát Hiện Trang Web Giả Mạo

2.1. Phương Pháp TF IDF

2.2. Thuật Toán Naive Bayes

2.3. Thuật Toán So Khớp Chuỗi

III. Áp Dụng Các Luật Phát Hiện Giả Mạo

3.1. Phát Hiện Dựa Trên URL

3.2. Phát Hiện Dựa Trên Đặc Tính Bất Thường

3.3. Phát Hiện Dựa Trên Tên Miền

IV. Ứng Dụng Thực Tiễn Và Hướng Phát Triển

4.1. Triển Khai Hệ Thống Phát Hiện

4.2. Hướng Phát Triển Trong Tương Lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thị Huyền

Người hướng dẫn: Ts. Nguyễn Ngọc Cương

Trường học: Trường Đại học Công Nghệ Thông Tin Và Truyền Thông - Đại Học Thái Nguyên

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Nghiên cứu một số kỹ thuật phát hiện trang web giả mạo và ứng dụng

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2016

Địa điểm: Thái Nguyên

Có thể bạn quan tâm