Xây Dựng Bộ Lọc Phát Hiện Các Website Có Nội Dung Khiêu Dâm Dựa Trên URL và Text Content

Luận văn thạc sĩ kỹ thuật phân tích xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải

Trường đại học

Trường Đại Học Lạc Hồng

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Mục tiêu đề tài

1.3. Nội dung thực hiện

1.4. Phƣơng pháp thực hiện

2. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE

2.1. Giới thiệu

2.2. Các loại bộ lọc WEB có nội dung khiêu dâm

2.2.1. Bộ lọc WEB dựa vào địa chỉ mạng

2.2.1.1. Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List)

2.2.1.2. Lọc qua địa chỉ IP

2.2.1.3. Bức tường lửa (Firewall)

2.2.2. Bộ lọc WEB dựa vào URL (Universal Resource Locator)

2.2.2.1. Dựa vào từ khóa của URL

2.2.2.2. Dựa vào URL

2.2.2.3. Tùy chọn bộ lọc URL

2.2.3. Bộ lọc WEB dựa vào DNS

3. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN

3.1. Rút trích nội dung của website

3.1.1. Phân tích mã HTML

3.1.2. So sánh khung mẫu

3.1.3. Xử lý ngôn ngữ tự nhiên

3.2. Phân tích nội dung thành các token

3.2.1. Tiền xử lý dữ liệu

3.2.2. Tách câu dựa trên Maximum Entropy

3.2.2.1. Phƣơng pháp Maximum Matching

3.2.2.2. Phƣơng pháp Transformation – based learning – TBL

3.2.3. Mô hình tách từ bằng WFST và mạng Neural

3.2.4. Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di truyền

3.3. Thuật toán KEA

3.3.1. Chọn cụm ứng viên

3.3.2. Tính toán đặc trƣng

3.3.3. Rút trích những cụm từ khóa

3.4. Thuật toán KIP

3.5. Nhận diện thực thể có tên

3.6. Phân tích URL

4. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT

4.1. Phân tích mô hình hệ thống

4.2. Module xử lý dựa vào URL

4.3. Module lọc theo nội dung

4.3.1. Giai đoạn huấn luyện

4.3.1.1. Tiền xử lý văn bản

4.3.1.2. Trích lọc đặc trƣng

4.3.1.3. Thuật toán Naïve Bayes

4.3.2. Giai đoạn phân lớp, nhận dạng

5. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

5.1. Môi trƣờng thử nghiệm

5.2. Giao diện chƣơng trình

5.2.1. Giao diện chính

5.2.2. Giao diện học từ lấy TOKEN phân lớp nội dung Website

5.2.3. Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN

5.2.4. Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN

5.2.5. Giao diện danh sách các TOKEN từ phân lớp nội dung Website

5.2.6. Giao diện lấy TOKEN URL

5.2.7. Giao diện danh sách các TOKEN URL để phân lớp URL của Website

5.3. Thu thập dữ liệu

5.3.1. Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL

5.3.2. Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung

5.4. Đánh giá kết quả thực nghiệm

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Xây Dựng Bộ Lọc Phát Hiện Website Khiêu Dâm

Bộ lọc phát hiện website khiêu dâm là một công cụ quan trọng trong việc bảo vệ người dùng, đặc biệt là trẻ em, khỏi những nội dung không lành mạnh trên Internet. Việc xây dựng bộ lọc này dựa trên hai yếu tố chính: URL và nội dung văn bản. Mục tiêu là phát hiện và ngăn chặn truy cập vào các trang web có nội dung khiêu dâm, từ đó bảo vệ an toàn cho người sử dụng.

1.1. Khái Niệm Về Bộ Lọc Website Khiêu Dâm

Bộ lọc website khiêu dâm là phần mềm hoặc hệ thống giúp nhận diện và chặn các trang web có nội dung khiêu dâm. Nó hoạt động dựa trên việc phân tích URL và nội dung văn bản của trang web.

1.2. Tầm Quan Trọng Của Bộ Lọc Trong Bảo Mật Internet

Bộ lọc không chỉ giúp ngăn chặn nội dung khiêu dâm mà còn bảo vệ người dùng khỏi các phần mềm độc hại. Việc sử dụng bộ lọc là cần thiết để đảm bảo an toàn cho trẻ em và người dùng Internet.

II. Vấn Đề Và Thách Thức Trong Việc Phát Hiện Nội Dung Khiêu Dâm

Mặc dù có nhiều công nghệ hiện đại, việc phát hiện nội dung khiêu dâm vẫn gặp nhiều thách thức. Các trang web khiêu dâm thường thay đổi địa chỉ và nội dung, làm cho việc phát hiện trở nên khó khăn hơn. Ngoài ra, sự đa dạng về ngôn ngữ và cách diễn đạt cũng là một vấn đề lớn.

2.1. Sự Thay Đổi Liên Tục Của Các Trang Web Khiêu Dâm

Các trang web khiêu dâm thường xuyên thay đổi URL và nội dung để tránh bị phát hiện. Điều này tạo ra thách thức lớn cho các bộ lọc trong việc duy trì hiệu quả.

2.2. Đa Dạng Ngôn Ngữ Và Cách Diễn Đạt

Nội dung khiêu dâm không chỉ xuất hiện bằng tiếng Việt mà còn bằng nhiều ngôn ngữ khác. Sự đa dạng này làm cho việc phát hiện trở nên phức tạp hơn.

III. Phương Pháp Xây Dựng Bộ Lọc Phát Hiện Website Khiêu Dâm

Để xây dựng bộ lọc hiệu quả, cần áp dụng các phương pháp phân tích URL và nội dung văn bản. Việc sử dụng các thuật toán học máy như Naïve Bayes có thể giúp cải thiện độ chính xác trong việc phân loại nội dung.

3.1. Phân Tích URL Để Nhận Diện Nội Dung Khiêu Dâm

Phân tích URL là bước đầu tiên trong việc phát hiện nội dung khiêu dâm. Các từ khóa trong URL có thể giúp xác định nhanh chóng trang web có nội dung không phù hợp.

3.2. Sử Dụng Thuật Toán Học Máy Để Phân Tích Nội Dung

Thuật toán Naïve Bayes là một trong những phương pháp hiệu quả để phân tích nội dung văn bản. Nó giúp xác định xác suất nội dung là khiêu dâm hay không dựa trên các đặc trưng đã được huấn luyện.

IV. Ứng Dụng Thực Tiễn Của Bộ Lọc Phát Hiện Website Khiêu Dâm

Bộ lọc phát hiện website khiêu dâm có thể được áp dụng trong nhiều lĩnh vực khác nhau, từ gia đình đến trường học và doanh nghiệp. Việc sử dụng bộ lọc này giúp bảo vệ người dùng khỏi những nội dung không lành mạnh và tăng cường an ninh mạng.

4.1. Ứng Dụng Trong Gia Đình

Trong gia đình, bộ lọc giúp cha mẹ kiểm soát nội dung mà trẻ em có thể truy cập, từ đó bảo vệ trẻ khỏi những tác động tiêu cực từ Internet.

4.2. Ứng Dụng Trong Trường Học

Tại các trường học, bộ lọc giúp ngăn chặn học sinh truy cập vào các trang web không phù hợp, tạo môi trường học tập an toàn hơn.

V. Kết Luận Về Tương Lai Của Bộ Lọc Phát Hiện Website Khiêu Dâm

Với sự phát triển không ngừng của công nghệ, bộ lọc phát hiện website khiêu dâm sẽ ngày càng trở nên hiệu quả hơn. Việc áp dụng công nghệ AI và machine learning sẽ giúp cải thiện khả năng phát hiện và ngăn chặn nội dung không lành mạnh.

5.1. Xu Hướng Phát Triển Công Nghệ AI Trong Bộ Lọc

Công nghệ AI sẽ giúp bộ lọc phát hiện nội dung khiêu dâm một cách chính xác hơn, từ đó nâng cao hiệu quả bảo vệ người dùng.

5.2. Tương Lai Của An Ninh Mạng

Bộ lọc phát hiện website khiêu dâm sẽ đóng vai trò quan trọng trong việc bảo vệ an ninh mạng, đặc biệt trong bối cảnh Internet ngày càng phát triển.

30/06/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Internet đã trở thành một phần không thể thiếu trong đời sống hiện đại, với hàng triệu người truy cập mỗi ngày để giải trí, học tập và làm việc. Tại Việt Nam, từ ngày 19/11/1997, Internet chính thức được kết nối toàn cầu và phát triển nhanh chóng. Tuy nhiên, bên cạnh những lợi ích, Internet cũng mang lại nhiều hệ lụy, đặc biệt là sự lan truyền của các website có nội dung khiêu dâm, ảnh hưởng tiêu cực đến giới trẻ và xã hội. Theo báo cáo ngành, việc truy cập các trang web khiêu dâm có thể dẫn đến hành vi lệch chuẩn như mại dâm, hiếp dâm ở lứa tuổi vị thành niên, đồng thời gây mất an ninh mạng do phần mềm độc hại đi kèm.

Mục tiêu của luận văn là xây dựng một bộ lọc tự động phát hiện các website có nội dung khiêu dâm dựa trên URL và nội dung văn bản (text content) nhằm ngăn chặn truy cập không lành mạnh. Nghiên cứu tập trung vào việc thu thập và phân tích dữ liệu URL và nội dung từ các trang web khiêu dâm và không khiêu dâm, áp dụng các thuật toán xử lý ngôn ngữ tự nhiên và học máy để phân loại chính xác. Phạm vi nghiên cứu được thực hiện tại Việt Nam trong giai đoạn trước năm 2014, với dữ liệu thu thập từ các trang web phổ biến trong nước và quốc tế.

Việc phát triển bộ lọc này có ý nghĩa quan trọng trong việc bảo vệ người dùng, đặc biệt là trẻ em và vị thành niên, đồng thời góp phần nâng cao an ninh mạng và đạo đức xã hội. Các chỉ số hiệu quả như tỷ lệ phát hiện chính xác website khiêu dâm và giảm thiểu sai sót trong phân loại được đặt ra làm tiêu chí đánh giá thành công của hệ thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Xử lý ngôn ngữ tự nhiên (NLP): Áp dụng các kỹ thuật tách câu, tách từ tiếng Việt, loại bỏ stopword để chuẩn hóa và trích xuất đặc trưng từ nội dung văn bản. Các phương pháp như Maximum Entropy cho tách câu, thuật toán tách từ dựa trên thống kê và giải thuật di truyền được sử dụng để xử lý đặc thù ngôn ngữ tiếng Việt.
Thuật toán học máy Naïve Bayes: Được sử dụng để phân loại văn bản và URL dựa trên xác suất tiên nghiệm và xác suất điều kiện của các token (từ đơn, từ ghép) trong dữ liệu huấn luyện. Thuật toán này đơn giản nhưng hiệu quả trong việc phân loại các trang web có nội dung khiêu dâm.
Mô hình rút trích cụm từ khóa KEA: Giúp xác định các cụm từ khóa đặc trưng trong nội dung website, dựa trên các đặc trưng như TF-IDF, vị trí xuất hiện, chiều dài cụm từ và độ tương quan ngữ nghĩa.
Phân tích URL: Phân tích cấu trúc URL để trích xuất các token đặc trưng, dựa trên danh sách từ khóa đen và trắng nhằm phân loại URL thuộc website khiêu dâm hay không.

Phương pháp nghiên cứu

Nguồn dữ liệu: Thu thập dữ liệu gồm URL và nội dung văn bản của các website có nội dung khiêu dâm (danh sách đen) và các website lành mạnh (danh sách trắng) từ các trang báo mạng, trang giáo dục giới tính và các trang web phổ biến trong nước.
Tiền xử lý dữ liệu: Loại bỏ các thẻ HTML, ký tự đặc biệt, chuẩn hóa văn bản, tách câu và tách từ tiếng Việt, loại bỏ stopword để chuẩn bị dữ liệu cho phân tích.
Trích lọc đặc trưng: Từ URL và nội dung văn bản, trích xuất các token đặc trưng dựa trên bộ từ điển đã được huấn luyện, tính toán tần suất xuất hiện và trọng số TF-IDF.
Phân loại: Áp dụng thuật toán Naïve Bayes để huấn luyện mô hình phân loại dựa trên các đặc trưng token URL và nội dung văn bản. Mô hình được đánh giá qua các chỉ số như độ chính xác, tỷ lệ phát hiện và tỷ lệ sai sót.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong năm 2014, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, huấn luyện mô hình, thử nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại URL: Bộ lọc dựa trên URL đạt tỷ lệ phát hiện chính xác khoảng 85% các website có nội dung khiêu dâm trong tập dữ liệu thử nghiệm. Các token đặc trưng như "sex", "porn", "xx" xuất hiện với tần suất cao trong URL của các trang web xấu.
Hiệu quả phân loại nội dung văn bản: Sử dụng thuật toán Naïve Bayes trên token nội dung văn bản, hệ thống đạt tỷ lệ chính xác khoảng 90% trong việc phân loại nội dung khiêu dâm và không khiêu dâm. Việc áp dụng kỹ thuật tách từ tiếng Việt chính xác giúp nâng cao hiệu quả phân loại.
Kết hợp URL và nội dung: Khi kết hợp cả hai module phân loại URL và nội dung, tỷ lệ phát hiện chính xác tăng lên khoảng 93%, giảm thiểu sai sót so với chỉ dùng một trong hai phương pháp. Điều này cho thấy sự bổ trợ hiệu quả giữa phân tích URL và nội dung.
So sánh với các phần mềm hiện có: So với các phần mềm lọc web phổ biến trong nước và quốc tế, bộ lọc đề xuất có ưu điểm về khả năng xử lý tiếng Việt và tự động học từ dữ liệu mới, trong khi các phần mềm khác chủ yếu dựa vào danh sách đen/trắng và từ khóa tiếng Anh.

Thảo luận kết quả

Nguyên nhân chính giúp bộ lọc đạt hiệu quả cao là do việc kết hợp phân tích URL và nội dung văn bản, tận dụng đặc trưng ngôn ngữ tiếng Việt qua các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến. Việc sử dụng thuật toán Naïve Bayes giúp mô hình có khả năng học và thích nghi với dữ liệu mới, giảm thiểu sai sót do các trang web khiêu dâm thay đổi địa chỉ hoặc ngôn ngữ.

So với các nghiên cứu trước đây, kết quả này vượt trội hơn nhờ áp dụng kỹ thuật tách từ tiếng Việt dựa trên thống kê và giải thuật di truyền, cũng như mô hình rút trích cụm từ khóa KEA giúp nhận diện chính xác các đặc trưng nội dung. Các biểu đồ so sánh tỷ lệ phát hiện giữa các phương pháp (chỉ URL, chỉ nội dung, kết hợp) minh họa rõ sự cải thiện khi kết hợp hai module.

Ý nghĩa của kết quả này không chỉ giúp ngăn chặn truy cập các website không lành mạnh mà còn góp phần nâng cao nhận thức về an toàn thông tin và bảo vệ trẻ em trên môi trường mạng.

Đề xuất và khuyến nghị

Phát triển hệ thống lọc tích hợp đa ngôn ngữ: Mở rộng bộ lọc để xử lý hiệu quả các nội dung khiêu dâm bằng nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Việt và tiếng Anh, nhằm tăng phạm vi ứng dụng và hiệu quả lọc.
Cập nhật và tự động học liên tục: Xây dựng cơ chế tự động cập nhật bộ dữ liệu token URL và nội dung, kết hợp học máy để thích nghi với các trang web mới xuất hiện, giảm thiểu việc bỏ sót các trang khiêu dâm mới.
Tăng cường giao diện quản lý và cảnh báo: Phát triển giao diện người dùng thân thiện cho phép quản trị viên dễ dàng theo dõi, điều chỉnh danh sách đen/trắng và nhận cảnh báo kịp thời khi phát hiện các trang web không lành mạnh.
Hợp tác với các nhà mạng và cơ quan quản lý: Đề xuất phối hợp với các nhà cung cấp dịch vụ Internet và cơ quan chức năng để triển khai bộ lọc ở cấp độ mạng, đảm bảo hiệu quả ngăn chặn truy cập trên diện rộng.
Thời gian thực hiện: Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, ưu tiên phát triển hệ thống tự động học và cập nhật dữ liệu để đáp ứng nhanh với sự biến đổi của môi trường Internet.

Đối tượng nên tham khảo luận văn

Các nhà phát triển phần mềm bảo mật và lọc nội dung: Luận văn cung cấp cơ sở lý thuyết và phương pháp thực tiễn để xây dựng bộ lọc nội dung khiêu dâm hiệu quả, đặc biệt cho ngôn ngữ tiếng Việt.
Cơ quan quản lý nhà nước về an ninh mạng và truyền thông: Tham khảo để xây dựng chính sách, quy định và công cụ kỹ thuật nhằm kiểm soát nội dung không lành mạnh trên Internet.
Các tổ chức giáo dục và gia đình: Áp dụng bộ lọc để bảo vệ trẻ em và học sinh khỏi các nội dung độc hại, nâng cao nhận thức về an toàn mạng.
Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Tài liệu tham khảo quý giá về ứng dụng xử lý ngôn ngữ tự nhiên, học máy trong phân loại văn bản và phát hiện nội dung không phù hợp.

Câu hỏi thường gặp

Bộ lọc này có thể phát hiện các trang web khiêu dâm mới chưa có trong danh sách đen không?
Có, nhờ áp dụng thuật toán học máy Naïve Bayes và trích xuất đặc trưng từ URL và nội dung, bộ lọc có khả năng nhận diện các trang web mới dựa trên đặc điểm tương đồng với dữ liệu huấn luyện.
Phương pháp tách từ tiếng Việt có ảnh hưởng thế nào đến hiệu quả phân loại?
Việc tách từ chính xác giúp trích xuất token đặc trưng đúng nghĩa, từ đó nâng cao độ chính xác của mô hình phân loại. Các kỹ thuật tách từ dựa trên thống kê và giải thuật di truyền đã được chứng minh hiệu quả trong nghiên cứu.
Bộ lọc có thể áp dụng cho các nội dung không lành mạnh khác ngoài khiêu dâm không?
Có thể mở rộng bộ lọc để nhận diện các loại nội dung không phù hợp khác như bạo lực, phản động bằng cách huấn luyện thêm dữ liệu và điều chỉnh bộ từ điển đặc trưng.
Bộ lọc có ảnh hưởng đến tốc độ truy cập Internet không?
Bộ lọc được thiết kế tối ưu để xử lý nhanh, đặc biệt khi áp dụng ở cấp độ máy chủ hoặc nhà mạng, giảm thiểu tác động đến tốc độ truy cập của người dùng.
Làm thế nào để cập nhật bộ dữ liệu token khi có các trang web mới?
Hệ thống có thể được thiết kế với module tự động thu thập và huấn luyện lại mô hình định kỳ, hoặc cho phép quản trị viên thêm thủ công các token mới vào danh sách đen/trắng.

Kết luận

Luận văn đã xây dựng thành công bộ lọc phát hiện website có nội dung khiêu dâm dựa trên phân tích URL và nội dung văn bản tiếng Việt, đạt tỷ lệ phát hiện chính xác trên 90%.
Kỹ thuật xử lý ngôn ngữ tự nhiên và thuật toán Naïve Bayes là nền tảng hiệu quả cho bài toán phân loại nội dung khiêu dâm.
Việc kết hợp phân tích URL và nội dung giúp tăng cường độ chính xác và giảm thiểu sai sót trong phân loại.
Bộ lọc có thể được ứng dụng rộng rãi trong bảo vệ trẻ em, an ninh mạng và quản lý nội dung Internet tại Việt Nam.
Đề xuất phát triển hệ thống tự động cập nhật, mở rộng đa ngôn ngữ và hợp tác với các nhà mạng để nâng cao hiệu quả trong tương lai.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp có thể áp dụng mô hình này, đồng thời mở rộng phạm vi ứng dụng sang các lĩnh vực kiểm soát nội dung khác nhằm góp phần xây dựng môi trường Internet lành mạnh hơn.

Trích đoạn nội dung tài liệu

MỞ ĐẦU. 1 Lý do chọn đề tài. 1 Mục tiêu đề tài. 2 Nội dung thực hiện.

2 Phƣơng pháp thực hiện. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE .2 Các loại bộ lọc WEB có nội dung khiêu dâm .1 Bộ lọc WEB dựa vào địa chị mạng .2 Bộ lọc WEB dựa vào URL .3 Bộ lọc WEB dựa vào DNS .4 Bộ lọc WEB dựa vào từ khóa .5 Bộ lọc WEB dựa vào nội dung text và hình ảnh.3 Các công trình liên quan. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN .1 Rút trích nội dung của website .1 Phân tích mã HTML .2 So sánh khung mẫu .3 Xử lý ngôn ngữ tự nhiên .2 Phân tích nội dung thành các token .1 Tiền xử lý dữ liệu .2 Tách câu dựa trên Maximum Entropy .1 Phƣơng pháp Maximum Matching .2 Phƣơng pháp Transformation – based learning – TBL.3 Mô hình tách từ bằng WFST và mạng Neural .4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di truyền .4 Thuật toán KEA .1 Chọn cụm ứng viên .2 Tính toán đặc trƣng .4 Rút trích những cụm từ khóa .5 Thuật toán KIP .6 Nhận diện thực thể có tên.3 Phân tích URL. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT .1 Phân tích mô hình hệ thống .2 Module xử lý dựa vào URL .3 Module lọc theo nội dung .1 Giai đoạn huấn luyện .1 Tiền xử lý văn bản .2 Trích lọc đặc trƣng .3 Thuật toán Naïve Bayes .2 Giai đoạn phân lớp, nhận dạng.

THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .1 Môi trƣờng thử nghiệm.2 Giao diện chƣơng trình .1 Giao diện chính .2 Giao diện học từ lấy TOKEN phân lớp nội dung Website .3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN .4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN .5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website.6 Giao diện lấy TOKEN URL.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website.3 Thu thập dữ liệu.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL .2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .4 Đánh giá kết quả thực nghiệm. 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN. 60 TÀI LIỆU THAM KHẢO KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit LRMM Left Right Maximum Matching MM Maximum Matching NB Naïve Bayes pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation -based Learning TF Term Frequency WFST Weighted Finit State Transducer DANH SÁCH CÁC HÌNH VẼ Hình 2.1 - Hệ thống bóc tách nội dung của VietSpider .2 – Mô hình bóc tách nội dung chính bằng so sánh khung mẫu .3 – Sơ đồ thuật toán KEA .1 – Mô hình hệ thống lọc Website có nội dung khiêu dâm .2 – Quy trình huấn luyện lấy TOKEN URL .3 – Quy trình huấn luyện TOKEN nội dung .4 – Quy trình tách từ .5 – Mô hình huấn luyện từ .6 – Mô hình giai đoạn phân lớp .1 – Giao diện lúc khởi động bộ lọc .2 – Giao diện đăng nhập.3 – Giao diện khi duyệt một địa chỉ WEB tốt .4 – Giao diện khi duyệt một địa chỉ WEB xấu .5 – Giao diện danh sách địa chỉ WEB tốt, xấu .6 – Giao diện chức năng hệ thống .7 – Giao diện huấn luyện từ đơn, từ ghép .8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN .9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN .10 – Giao diện duyệt TOKEN từ đơn và từ ghép .11 – Giao diện huấn luyện TOKEN URL .12 – Giao diện danh sách các TOKEN URL sau huấn luyện .13 – Địa chỉ URL thu thập đƣợc .14 – File tốt thu thập đƣợc .15 – File xấu thu thập đƣợc .16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện. 58 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 – Kết quả đánh giá NET PROJECT .2 – Một số sản phẩm lọc WEB theo URL .1 – Xác định cụm ứng viên .1 – Thống kê một số từ điển thông dụng tiếng việt .2 – Số liệu thống kê bảng từ điển .3 – Ví dụ minh họa tần số xuất hiện các TOKEN .4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn .1 – Kết quả thực nghiệm File nội dung .2 – Kết quả thực nghiệm URL.

Lý do chọn đề tài Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày 19/11/1997 là ngày đầu tiên Việt Nam chính thức hòa vào mạng Internet toàn cầu, sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết, một phƣơng tiện truyền thông ai ai cũng đang sử dụng, thậm chí với một số bộ phận còn phụ thuộc hoàn toàn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nó bắt đầu phát huy công dụng giải trí của mình, ngƣời ta không chỉ có thể tìm tƣ liệu mà còn xem phim, nghe nhạc, chơi game trên mạng.

Hàng triệu triệu ngƣời vào mạng mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít. Với sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng mừng trƣớc sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhƣng đằng sau nó là những hệ lụy từ Internet mang lại cho con ngƣời, trong đó đặc biệt là giới trẻ. Song song với các trò chơi trên mạng, thì việc tò mò truy cập vào các trang có nội dung không lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn có hành vi quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi chƣa đủ tuổi vị thành niên.

1 Website khiêu dâm không chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ mà còn ảnh hƣởng đến đạo đức làm việc nơi công sở 2. Ngoài ra, nó còn gây mất an ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn không cho ngƣời sử dụng truy cập vào các Website có nội dung khiêu dâm là vấn đề đang đƣợc xã hội quan tâm. Hiện nay trong nƣớc và ngoài nƣớc cũng có nhiều phần mềm đƣợc nghiên cứu nhƣ: Nghiên cứu trong nƣớc có thể đề cập đến một số phần mềm sau: Phần mềm Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của Công ty Điện toán và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer 1 http://vi.org/wiki/Internet_t%E1%BA%A1i_Vi%E1%BB%87t_Nam 2 http://baohay.vn/chuyen-de/nhung-dieu-can-biet/288247/Web-sex-dang-tro-thanh-mon-giai- tri-o-chon-cong-so.html 2 (DWK) của Vũ Lƣơng Bằng, nhân viên công ty Điện thoại Đông, quận 10 (TP HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (công tác tại phòng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website có nội dung không lành mạnh, luận văn thạc sĩ công nghệ thông tin của Cao Nguyễn Thủy Tiên.

Nghiên cứu ngoài nƣớc có thể kể đến một số phần mềm sau: STOP P-O-R- N 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software; Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.0 đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ; iShield 1.0 đƣợc phát hành bởi Guardware. Thực tế cho thấy các phần mềm ngoài nƣớc đa phần muốn sử dụng thì phải trả phí và thƣờng lọc hình ảnh khiêu dâm còn lọc nội dung khiêu dâm chủ yếu bằng tiếng anh còn bằng tiếng việt thì hạn chế, còn các phần mềm trong nƣớc thì cũng còn những hạn chế trong việc chặn từ khóa khiêu dâm thông dụng và chặn URL cụ thể của Website. Qua đó cho thấy còn nhiều vấn đề cần phải nghiên cứu làm sáng tỏ, làm tốt hơn và đó là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa chọn cho luận văn này. Mục tiêu đề tài Xây dựng bộ lọc WEB có thể tự động phát hiện các Website cần truy cập có nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website.

Nội dung thực hiện Thu thập các URL và TEXT CONTENT của các Website có nội dung khiêu dâm và không khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục vụ cho việc phân loại các Website có nội dung khiêu dâm và không khiêu dâm. Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đó đề xuất mô hình lọc các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT. Cài đặt bộ lọc Website hiện thực hóa vấn đề nghiên cứu. Phƣơng pháp thực hiện Dùng các công cụ, phần mềm đã có trong nƣớc và ngoài nƣớc để thu thập dữ liệu của các trang tin tức, các trang Web có nội dung khiêu dâm.

Dữ liệu cần thu thập là URL và nội dung của Website. Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn luyện từ các URL thu thập đƣợc. Để phân lớp nội dung của một Website cần duyệt thuộc lớp có nội dung Khiêu dâm hay không thì dựa vào danh sách ToKen nội dung.

Danh sách ToKen nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và xấu để chọn ra các ToKen từ có trọng số cao rồi so sánh với bộ từ điển dữ liệu để chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website. Nghiên cứu và áp dụng các thuật toán tách câu, tách từ trong văn bản tiếng việt, kết hợp với thuật toán Naïve Bayes để tính xác suất nội dung văn bản của Website cần duyệt để phân lớp Website là khiêu dâm hay không khiêu dâm. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE 1. Giới thiệu Lọc trang WEB là một vấn đề không phải là mới.

Làm sao để phát hiện đƣợc các trang WEB có nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia đình có sử dụng Internet thì cha mẹ không muốn con mình tiếp xúc với các trang WEB có nội dung và hình ảnh khiêu dâm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Xây Dựng Bộ Lọc Phát Hiện Website Khiêu Dâm Dựa Trên URL và Nội Dung cung cấp cái nhìn sâu sắc về cách xây dựng một bộ lọc hiệu quả nhằm phát hiện và ngăn chặn truy cập vào các trang web khiêu dâm. Tài liệu này không chỉ nêu rõ các phương pháp phân tích URL và nội dung mà còn trình bày các lợi ích của việc áp dụng bộ lọc này trong việc bảo vệ người dùng, đặc biệt là trẻ em, khỏi những nội dung không phù hợp.

Để mở rộng kiến thức của bạn về các phương pháp phân tích và khai thác dữ liệu, bạn có thể tham khảo tài liệu Luận văn nghiên cứu các phụ thuộc hàm trong cơ sở dữ liệu hướng đối tượng mờ, nơi cung cấp cái nhìn sâu sắc về cách phân tích dữ liệu trong các hệ thống thông tin. Ngoài ra, tài liệu Phân ụm dữ liệu định tính sử dụng lý thuyết tập thô sẽ giúp bạn hiểu rõ hơn về các phương pháp khai thác dữ liệu và phân cụm. Cuối cùng, bạn có thể tìm hiểu thêm về Luận văn nghiên cứu phương pháp cây quyết định và cài đặt mô phỏng thuật toán id3, tài liệu này sẽ cung cấp cho bạn những kiến thức bổ ích về các thuật toán khai thác dữ liệu.

Những tài liệu này không chỉ giúp bạn mở rộng kiến thức mà còn cung cấp những góc nhìn khác nhau về các vấn đề liên quan đến phân tích và xử lý dữ liệu.

#phân tích URL

#bộ lọc website khiêu dâm

#phát hiện nội dung khiêu dâm

#URL và nội dung

#công nghệ lọc nội dung

#an toàn internet cho trẻ em

Chủ đề

Phân tích và xử lý dữ liệu

Tác động của nội dung khiêu dâm

công nghệ phát hiện nội dung

an toàn trực tuyến cho người dùng