Phát Hiện Thư Rác Tiếng Việt Sử Dụng Các Mô Hình Học Sâu

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp công nghệ thông tin phát hiện thư rác tiếng việt sử dụng các mô hình học sâu, vận dụng lý thuyết vào thực tế, đề xuất giải pháp cụ thể

Trường đại học

Đại Học Quốc Gia TP HCM

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giới thiệu về thư điện tử

1.2. Tác hại của thư rác

1.3. Các giải pháp ngăn chặn thư rác

1.4. Các đặc trưng của thư rác

1.5. Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt

1.6. Phát biểu bài toán và đóng góp của luận văn

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

3. CHƯƠNG 3: GIẢI PHÁP ĐỀ XUẤT

3.1. Xây dựng bộ dữ liệu thư rác tiếng Việt

3.2. Ứng dụng các mô hình học sâu

3.2.1. Mô hình mạng CNN

3.2.2. Mô hình mạng BiLSTM

3.2.3. Mô hình mạng PhoBERT

3.3. Giải thuật thực hiện

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Môi trường huấn luyện

4.2. Huấn luyện mô hình

4.3. Kết quả huấn luyện và dự đoán

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết luận

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phát hiện thư rác tiếng Việt bằng mô hình học sâu

Phát hiện thư rác tiếng Việt là một thách thức lớn trong lĩnh vực công nghệ thông tin. Với sự gia tăng nhanh chóng của thư điện tử, việc phân loại và phát hiện thư rác trở nên cần thiết hơn bao giờ hết. Mô hình học sâu đã được áp dụng để giải quyết vấn đề này, giúp nâng cao độ chính xác trong việc phân loại thư rác và thư thông thường.

1.1. Khái niệm thư rác và tầm quan trọng của việc phát hiện

Thư rác hay SPAM là những thư không mong muốn, gây phiền toái cho người dùng. Việc phát hiện thư rác không chỉ giúp tiết kiệm thời gian mà còn bảo vệ người dùng khỏi các mối đe dọa tiềm ẩn.

1.2. Lịch sử phát triển của công nghệ phát hiện thư rác

Công nghệ phát hiện thư rác đã trải qua nhiều giai đoạn phát triển, từ các bộ lọc đơn giản đến các mô hình học sâu phức tạp. Sự phát triển này phản ánh nhu cầu ngày càng cao trong việc bảo vệ người dùng khỏi thư rác.

II. Những thách thức trong phát hiện thư rác tiếng Việt

Phát hiện thư rác tiếng Việt gặp nhiều thách thức do sự đa dạng của nội dung và hình thức thư rác. Các mô hình hiện tại chủ yếu được huấn luyện trên dữ liệu tiếng Anh, dẫn đến khó khăn trong việc áp dụng cho tiếng Việt.

2.1. Đặc điểm ngôn ngữ tiếng Việt và ảnh hưởng đến mô hình

Ngôn ngữ tiếng Việt có nhiều đặc điểm riêng biệt, như cấu trúc ngữ pháp và từ vựng phong phú, điều này ảnh hưởng đến khả năng phân loại của các mô hình học sâu.

2.2. Sự thay đổi liên tục của nội dung thư rác

Nội dung thư rác thường xuyên thay đổi để tránh bị phát hiện, điều này đặt ra thách thức lớn cho các hệ thống phát hiện thư rác hiện tại.

III. Phương pháp phát hiện thư rác bằng mô hình học sâu

Các mô hình học sâu như CNN, BiLSTM và PhoBERT đã được áp dụng để phát hiện thư rác tiếng Việt. Những mô hình này cho phép xử lý và phân tích nội dung thư một cách hiệu quả.

3.1. Mô hình CNN trong phát hiện thư rác

Mô hình CNN sử dụng các lớp tích chập để trích xuất đặc trưng từ nội dung thư, giúp nâng cao độ chính xác trong việc phân loại thư rác.

3.2. Mô hình BiLSTM và khả năng xử lý ngữ cảnh

BiLSTM cho phép mô hình hiểu được ngữ cảnh của từ trong nội dung thư, từ đó cải thiện khả năng phát hiện thư rác.

3.3. PhoBERT và ứng dụng trong ngôn ngữ tiếng Việt

PhoBERT là một mô hình ngôn ngữ lớn được thiết kế đặc biệt cho tiếng Việt, giúp cải thiện độ chính xác trong việc phát hiện thư rác.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu cho thấy các mô hình học sâu có thể đạt được độ chính xác cao trong việc phát hiện thư rác tiếng Việt. Kết quả này mở ra hướng đi mới cho việc phát triển các hệ thống bảo mật thông tin.

4.1. Đánh giá hiệu quả của các mô hình

Các mô hình học sâu đã được thử nghiệm và cho thấy độ chính xác cao, với CNN đạt 88% trong việc phát hiện thư rác.

4.2. Ứng dụng trong các hệ thống email

Kết quả nghiên cứu có thể được áp dụng trong các hệ thống email để cải thiện khả năng phát hiện thư rác, bảo vệ người dùng khỏi các mối đe dọa.

V. Kết luận và hướng phát triển tương lai

Phát hiện thư rác tiếng Việt bằng mô hình học sâu là một lĩnh vực đầy tiềm năng. Nghiên cứu này không chỉ góp phần nâng cao độ chính xác trong phát hiện thư rác mà còn mở ra hướng đi mới cho các nghiên cứu tiếp theo.

5.1. Tương lai của công nghệ phát hiện thư rác

Công nghệ phát hiện thư rác sẽ tiếp tục phát triển, với sự xuất hiện của các mô hình học sâu mới và cải tiến hơn.

5.2. Khuyến nghị cho các nghiên cứu tiếp theo

Cần tiếp tục nghiên cứu và phát triển các bộ dữ liệu thư rác tiếng Việt để cải thiện khả năng phát hiện và phân loại thư rác.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin phát hiện thư rác tiếng việt sử dụng các mô hình học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Thư điện tử (email) là phương tiện trao đổi thông tin phổ biến toàn cầu, tuy nhiên, sự gia tăng của thư rác (spam) đã trở thành một vấn nạn nghiêm trọng. Theo thống kê của DataProt năm 2022, khoảng 56,5% tổng số thư điện tử là thư rác, chủ yếu là thư quảng cáo không mong muốn. Thư rác không chỉ gây mất thời gian, làm giảm hiệu suất làm việc mà còn tiềm ẩn nguy cơ lừa đảo, đánh cắp thông tin cá nhân và tài sản. Một nhân viên có thể mất khoảng hai ngày làm việc mỗi năm chỉ để xử lý thư rác, gây lãng phí tài nguyên cho tổ chức.

Trong bối cảnh đó, việc phát hiện thư rác tiếng Việt trở nên cấp thiết, nhất là khi các mô hình phát hiện thư rác hiện nay chủ yếu được huấn luyện trên dữ liệu tiếng Anh, chưa đáp ứng hiệu quả cho ngôn ngữ tiếng Việt. Luận văn này tập trung xây dựng bộ dữ liệu thư rác tiếng Việt gồm 4.359 thư điện tử, trong đó 2.329 thư thông thường và 2.030 thư rác, thu thập từ thư cá nhân và báo cáo người dùng. Mục tiêu nghiên cứu là phát triển và đánh giá các mô hình học sâu gồm CNN, BiLSTM và PhoBERT để phát hiện thư rác tiếng Việt với độ chính xác cao.

Phạm vi nghiên cứu tập trung vào thư điện tử tiếng Việt thu thập trong khoảng thời gian gần đây tại Việt Nam. Kết quả nghiên cứu không chỉ góp phần nâng cao hiệu quả phát hiện thư rác tiếng Việt mà còn hỗ trợ giảm thiểu thiệt hại do thư rác gây ra, đồng thời cung cấp cơ sở dữ liệu và mô hình ứng dụng cho các hệ thống lọc thư điện tử trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình học sâu (Deep Learning): Bao gồm mạng nơ-ron tích chập (CNN), mạng hồi tiếp dài hạn hai chiều (BiLSTM) và mô hình ngôn ngữ lớn PhoBERT dựa trên kiến trúc BERT. Các mô hình này có khả năng trích xuất đặc trưng ngữ cảnh và xử lý chuỗi dữ liệu văn bản hiệu quả.
Biểu diễn từ ngữ (Word Embedding): Sử dụng Word2Vec để biểu diễn từ dưới dạng vector số, giúp mô hình học sâu hiểu được ngữ cảnh và mối quan hệ giữa các từ trong văn bản.
Phân loại nhị phân: Bài toán phát hiện thư rác được mô hình hóa dưới dạng phân loại nhị phân với hai lớp: thư rác (spam) và thư thông thường (ham).
Các khái niệm chính: Thư rác, thư thông thường, hàm kích hoạt Sigmoid, hàm độ lỗi binary cross-entropy, độ chính xác, độ chuẩn xác, độ sót, điểm F1.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu gồm 4.359 thư điện tử tiếng Việt được thu thập từ thư cá nhân và báo cáo người dùng qua hệ thống thư điện tử. Trong đó, 2.329 thư thông thường và 2.030 thư rác được phân loại và gán nhãn chính xác.
Tiền xử lý dữ liệu: Loại bỏ từ không mang ý nghĩa, số, dấu câu, biểu tượng, đường dẫn liên kết và chữ ký trong thư để giảm nhiễu cho mô hình.
Biểu diễn dữ liệu: Sử dụng Word2Vec huấn luyện trên bộ dữ liệu để tạo vector biểu diễn từ cho mô hình CNN và BiLSTM; sử dụng PhoBERT-base đã được tiền huấn luyện cho tiếng Việt để biểu diễn ngữ cảnh hai chiều.
Phương pháp phân tích: Huấn luyện và đánh giá ba mô hình học sâu CNN, BiLSTM và PhoBERT trên bộ dữ liệu đã xử lý. Đánh giá dựa trên các chỉ số: độ chính xác, độ chuẩn xác, độ sót, điểm F1 và thời gian huấn luyện.
Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng thời gian gần đây; huấn luyện và đánh giá mô hình thực hiện trong năm 2023-2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xây dựng bộ dữ liệu thư rác tiếng Việt: Bộ dữ liệu gồm 4.359 thư, trong đó 2.329 thư thông thường và 2.030 thư rác. Độ dài trung bình của thư rác là 243 từ, lớn hơn so với thư thông thường (224 từ). Thư rác chủ yếu là thư quảng cáo chiếm đa số, tiếp theo là thư lừa đảo, thư nặc danh và thư xin tài trợ.
Hiệu quả mô hình học sâu:
- Mô hình CNN đạt độ chính xác khoảng 88%.
- Mô hình BiLSTM cho kết quả tương đương hoặc cao hơn một chút so với CNN.
- Mô hình PhoBERT-base đạt độ chính xác cao nhất, vượt trội hơn các mô hình còn lại nhờ khả năng biểu diễn ngữ cảnh hai chiều sâu sắc.
So sánh thời gian huấn luyện: Mô hình CNN có thời gian huấn luyện nhanh nhất, tiếp theo là BiLSTM, trong khi PhoBERT mất nhiều thời gian nhất do số lượng tham số lớn (135 triệu tham số).
Đánh giá các chỉ số phân loại: Các mô hình đều đạt điểm F1 trên 85%, trong đó PhoBERT có điểm F1 cao nhất, thể hiện sự cân bằng tốt giữa độ chuẩn xác và độ sót.

Thảo luận kết quả

Kết quả cho thấy các mô hình học sâu đều có khả năng phát hiện thư rác tiếng Việt hiệu quả, trong đó PhoBERT-base thể hiện ưu thế nhờ được tiền huấn luyện trên kho dữ liệu tiếng Việt lớn, giúp mô hình hiểu sâu sắc ngữ cảnh và cấu trúc ngôn ngữ. Độ dài trung bình thư rác lớn hơn thư thông thường phản ánh nội dung thư rác thường có nhiều thông tin quảng cáo hoặc lừa đảo phức tạp hơn.

So với các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh hoặc dịch sang ngôn ngữ khác, việc xây dựng bộ dữ liệu thuần tiếng Việt và áp dụng mô hình học sâu tiên tiến là bước tiến quan trọng, góp phần nâng cao hiệu quả phát hiện thư rác trong môi trường ngôn ngữ đặc thù. Dữ liệu có thể được trình bày qua biểu đồ phân bố độ dài thư, biểu đồ so sánh độ chính xác và thời gian huấn luyện các mô hình để minh họa trực quan.

Tuy nhiên, thách thức vẫn còn khi nội dung thư rác liên tục thay đổi nhằm né tránh hệ thống phát hiện, đòi hỏi cập nhật dữ liệu và mô hình thường xuyên. Ngoài ra, việc mở rộng bộ dữ liệu trên nhiều lĩnh vực và loại thư rác khác nhau sẽ giúp mô hình phát hiện chính xác hơn.

Đề xuất và khuyến nghị

Cập nhật và mở rộng bộ dữ liệu: Thu thập thêm thư rác và thư thông thường từ nhiều lĩnh vực khác nhau để tăng tính đa dạng và đại diện, nâng cao độ chính xác mô hình. Thời gian thực hiện: 6-12 tháng; chủ thể: các tổ chức nghiên cứu và nhà cung cấp dịch vụ email.
Triển khai mô hình PhoBERT trong hệ thống lọc thư: Ứng dụng mô hình PhoBERT-base đã hiệu chỉnh để phát hiện thư rác tiếng Việt trong các hệ thống email doanh nghiệp và cá nhân, nhằm giảm thiểu thiệt hại do thư rác gây ra. Thời gian thực hiện: 3-6 tháng; chủ thể: nhà phát triển phần mềm và nhà cung cấp dịch vụ email.
Đào tạo người dùng nâng cao nhận thức: Tổ chức các chương trình đào tạo, hướng dẫn người dùng cách nhận biết và báo cáo thư rác chính xác, góp phần cải thiện chất lượng dữ liệu huấn luyện mô hình. Thời gian thực hiện: liên tục; chủ thể: các tổ chức giáo dục, doanh nghiệp và nhà cung cấp dịch vụ.
Nghiên cứu và phát triển mô hình cập nhật liên tục: Phát triển các mô hình học sâu có khả năng tự động cập nhật và thích nghi với nội dung thư rác mới, giảm thiểu việc mô hình lỗi thời. Thời gian thực hiện: 12-18 tháng; chủ thể: các nhóm nghiên cứu và công ty công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo về xây dựng bộ dữ liệu và ứng dụng mô hình học sâu trong xử lý ngôn ngữ tự nhiên, đặc biệt là phát hiện thư rác tiếng Việt.
Các công ty phát triển phần mềm và dịch vụ email: Áp dụng mô hình và bộ dữ liệu để nâng cao hiệu quả lọc thư rác, cải thiện trải nghiệm người dùng và bảo vệ an toàn thông tin.
Cơ quan quản lý và tổ chức giáo dục: Sử dụng kết quả nghiên cứu để xây dựng chính sách, chương trình đào tạo nâng cao nhận thức về an toàn thông tin và phòng chống thư rác.
Người dùng cá nhân và doanh nghiệp: Hiểu rõ về tác hại của thư rác và các giải pháp kỹ thuật hiện đại giúp bảo vệ tài khoản email, tránh bị lừa đảo và mất mát thông tin.

Câu hỏi thường gặp

Tại sao cần xây dựng bộ dữ liệu thư rác tiếng Việt riêng biệt?
Bởi vì các mô hình phát hiện thư rác hiện nay chủ yếu được huấn luyện trên dữ liệu tiếng Anh, không thể hiểu đúng ngữ cảnh và đặc trưng ngôn ngữ tiếng Việt, dẫn đến hiệu quả thấp. Bộ dữ liệu thuần tiếng Việt giúp mô hình học sâu phát hiện chính xác hơn.
Mô hình học sâu nào phù hợp nhất để phát hiện thư rác tiếng Việt?
PhoBERT-base cho kết quả tốt nhất nhờ khả năng biểu diễn ngữ cảnh hai chiều sâu sắc, vượt trội hơn CNN và BiLSTM trong các thử nghiệm trên bộ dữ liệu tiếng Việt.
Bộ dữ liệu thư rác tiếng Việt được thu thập như thế nào?
Dữ liệu được thu thập từ thư cá nhân và báo cáo thư rác của người dùng qua hệ thống thư điện tử, sau đó được kiểm tra, phân loại và tiền xử lý kỹ lưỡng để đảm bảo chất lượng.
Các mô hình học sâu có thể áp dụng cho các loại thư rác khác ngoài email không?
Có thể, với điều kiện có bộ dữ liệu phù hợp, các mô hình này có thể được điều chỉnh để phát hiện tin nhắn rác trên mạng xã hội, ứng dụng nhắn tin hoặc các nền tảng khác.
Làm thế nào để duy trì hiệu quả của mô hình phát hiện thư rác theo thời gian?
Cần thường xuyên cập nhật bộ dữ liệu và huấn luyện lại mô hình để thích nghi với nội dung thư rác mới, đồng thời kết hợp đào tạo người dùng báo cáo chính xác để cải thiện dữ liệu huấn luyện.

Kết luận

Đã xây dựng thành công bộ dữ liệu thư rác tiếng Việt gồm 4.359 thư, đáp ứng nhu cầu huấn luyện mô hình phát hiện thư rác tiếng Việt.
Ứng dụng thành công các mô hình học sâu CNN, BiLSTM và PhoBERT trong phát hiện thư rác, trong đó PhoBERT-base đạt độ chính xác và điểm F1 cao nhất.
Kết quả nghiên cứu góp phần nâng cao hiệu quả phát hiện thư rác tiếng Việt, giảm thiểu thiệt hại do thư rác gây ra cho cá nhân và tổ chức.
Đề xuất mở rộng bộ dữ liệu, triển khai mô hình trong thực tế và phát triển mô hình cập nhật liên tục để nâng cao hiệu quả lâu dài.
Khuyến khích các nhà nghiên cứu, doanh nghiệp và người dùng áp dụng kết quả nghiên cứu để bảo vệ an toàn thông tin và nâng cao nhận thức về thư rác.

Triển khai thử nghiệm mô hình PhoBERT trong hệ thống lọc thư thực tế và mở rộng thu thập dữ liệu để hoàn thiện bộ dữ liệu thư rác tiếng Việt. Để biết thêm chi tiết và ứng dụng, liên hệ với nhóm nghiên cứu hoặc truy cập các tài liệu liên quan.

Trích đoạn nội dung tài liệu

MỞ ĐẦU TÓM TÁT - Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp và cải tiễn, thư điện tử ngày nay vẫn là một phương thức trao đồi thông tin chính thức được sử dụng rộng rãi bởi các cá nhân và tô chức trên toàn thế giới. Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ. Những thư này người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM. Đề phân biệt với thư rác, thuật ngữ HAM được sử dụng dé chỉ thư ma người nhận mong muốn nhận hay không phải thư rác.

Thu rác thường gây cảm giác khó chịu khi người sử dụng nhận được chúng hoặc thậm chí gây ra những ton hại nhất định cả về vật chất và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo. Chính vì vậy, nhiều giải pháp đã được phát triển dé phát hiện thư rác hiệu quả hơn. Trong đó, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện thư rác và đạt được độ chính xác cao. Tuy nhiên, các mô hình này phần lớn đều được huấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếng Anh, chưa có bộ dữ liệu thư rác tiếng Việt dé huấn luyện mô hình phát hiện thư rác tiếng Việt.

Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hình phát hiện thư rác tiếng Việt. Kết quả so sánh cho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao. Kết quả huấn luyện cho thấy độ chính xác của các mô hình lần lượt là CNN 88. Tw khóa - Phát hiện thu rac, CNN, BiLSTM, PhoBert.1 Giới thiệu về thư điện tử Thư điện tử thường được gửi từ người gửi đến một hoặc nhiều người nhận thông qua môi trường mạng máy tính.

Mỗi thư điện tử gồm có mục chủ đề và mục nội dung để người gửi có thể soạn thảo nội dung mong muốn trước khi gửi đi. Đây được xem như một phương thức trao đôi thông tin chính thức giữa các cá nhân và tổ chức trên toàn thé giới. Người sử dụng chỉ cần có một máy tính hay thiết bị điện thoại thông minh có kết nỗi mang máy tính là có thé sử dụng tài khoản thư điện tử dé gửi thư một cách nhanh chóng và tiện lợi. Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng như một công cụ để gửi thư cho người dùng phục vụ cho các mục đích thương mại cũng như các mục đích xấu như tấn công lừa đảo.

Đây là những thư mà người dùng không mong muốn nhận nên từ đó đã hình thành khái niệm thư rac hay SPAM. Dé phân biệt với thư rác, thuật ngữ HAM được sử dụng dé chỉ thư mà người nhận mong muôn nhận hay không phải thư rác.2 Khai niệm thư rác Thư rác hay SPAM là những thư được gửi hàng loạt đến một danh sách những người nhận phục vụ cho các mục đích khác nhau. Thư rác có thê được gửi từ các công ty tô chức dé quảng cáo cho các sản phâm dich vụ mới cũng như gửi các thông tin ưu đãi, khuyến mãi. Các loại thư rác khác là các loại thư lừa đảo, nặc danh và thường được gửi số lượng lớn đến người dùng thông qua mạng các máy tính bị nhiễm phần mềm độc hại và đã bị kẻ tấn công chiếm quyền điều khiển.

Các loại thư này người dùng không mong muôn nhận nên được gọi là thư rác.3 Tac hại của thư rác Thư rác đã trở thành một van nạn đối với tất cả cá nhân và tô chức trên toàn thé gidi. Theo số liệu thống kê gần đây được đăng tai bởi DataProt [3], một trang web đánh giá độc lập chuyên cung cấp thông tin chính xác về các sản phẩm an ninh mạng khác nhau thi gần 56,5% tổng số thư điện tử năm 2022 là thư rác mà chủ yếu là thư quảng cáo. Thư quảng cáo thường làm mắt thời gian và công sức của người nhận khi nhận được những thư nảy vì người nhận phải lướt qua thư nhận được trước khi xác định đây là thư rác. Theo số liệu thống kê và phân tích về thư rác có được bởi Kaspersky 7 Security Network [6], một nhân viên có thé mat khoảng hai ngày làm việc mỗi năm để đọc qua các loại thư rác mà họ nhận được.

Điều này gây lãng phí tài nguyên của các tô chức khi phải chi trả chi phí nhân viên mà không phục vụ cho công việc. Thêm vào đó, thư quảng cáo có thê làm người nhận mắt tập trung trong công việc bởi những nội dung trong thư quảng cáo thường hấp dẫn, gây cảm giác ấn tượng dé kích thích người dùng mua các sản phâm, dịch vụ. Bên cạnh thư quảng cáo, các loại thu xin tai trợ, thư nặc danh, thư lừa đảo cũng là các loại thư rác phổ biến mặc dù tần suất gửi có ít hơn so với thư quảng cáo. Thư xin tài trợ thường gây cảm giác phiền toái và làm mất thời gian của người nhận khi nhận được những thư rác này vì không phải cá nhân hay tổ chức nào cũng có đủ năng lực tài chính để tài trợ.

Đối với thư nặc danh, những thư này thường được gửi để xúc phạm nhân phẩm của một người nào đó hoặc gửi thư đòi nợ cho những người liên quan với người vay nợ khi người cho vay không liên hệ được với người vay nợ dé doi nợ. Thư nặc danh thường có nội dung khiếm nhã để xúc phạm người khác hoặc thậm chí dùng lời lẽ de dọa người nhận. Điều này cũng gây sự phiên toái, thậm chí gây cảm giác lo sợ cho những người nhận được thư rác này. Nghiêm trọng nhất là khi người nhận nhận được các loại thư lừa đảo.

Những thư lừa đảo thường dẫn dụ người nhận nhắn vào các đường dẫn liên kết trong thư dé lừa đánh cắp thông tin tài khoản thư điện tử, thông tin tài khoản ngân hàng, cài đặt phần mềm độc hại vào máy tính hoặc điện thoại của người nhận,. nhằm chiếm đoạt thông tin, dữ liệu, tài sản của người nhận. Nếu người nhận chăng may nhấn vào đường dẫn liên kết trong thư thì thông tin, dữ liệu, tài sản của người nhận có thê bị đánh cắp. Điều này gây ra những tốn hại nhất định về vật chất cũng như tinh thần cho người nhận.

Đặc biệt, nó có thể phá hoại uy tín và hình ảnh của một tô chức khi thông tin, dữ liệu của tổ chức đó bị lộ lọt ra ngoài. Từ đó nó có thể ảnh hưởng nghiêm trọng đến hoạt động kinh doanh của t6 chức đó.4 Các giải pháp ngăn chặn thư rác Nhiều giải pháp khác nhau đã được áp dụng để bảo vệ người dùng khỏi thư rác. Các giải pháp ngăn chặn thư rác truyền thống thường được sử dụng là tạo các bộ lọc đánh giá dựa trên điểm dé phân loại thư rác, xác thực người gửi, kiểm tra danh sách thư điện tử đen, danh sách máy chủ gửi thư điện tử đen, nhận đánh giá thư từ người sử dụng, đảo tạo về nhận thức an ninh thông tin trong việc sử dụng thư điện tử cho người dùng,. Bắt đầu từ năm 2024, dé bảo vệ người dùng khỏi thu rác và chống lai các mỗi de doa phức tạp từ thư điện tử, Gmail [4] đã yêu cầu các tổ chức khi gửi thư vào Gmail phải sử dụng các giải pháp xác thực nguồn gốc thư được gửi đi, trong nội dung thư điện tử có tùy chọn cho phép người nhận từ chối nhận thư nếu muốn và đặc biệt phải duy trì tỷ lệ thư rác do người dùng báo cáo ở ngưỡng dưới 0.1% và tránh vượt quá 0.

Những yêu cầu này sẽ ảnh hưởng đến tất cả cá nhân và tô chức gửi thư đến người nhận có tài khoản thư điện tử trên Google trên toàn thế giới. Nếu không đáp ứng các yêu cầu này, thư gửi từ các cá nhân và tô chức sẽ bị Google từ chối nhận hoặc bị đánh dấu là thư rác. Yahoo và AOL cũng có chính sách tương tự như Google nhằm bảo vệ người dùng của họ khỏi thư rác và chống lại các mối de dọa phức tạp từ thư điện tử. Google, Yahoo và AOL là ba nhà cung cấp dịch vụ thư điện tử chiếm phan lớn thị phần thư điện tử của người sử dụng trên toàn thé giới.

Mặc dù nhiều giải pháp kỹ thuật đã được áp dụng đề ngăn chặn thư rác nhưng điều quan trọng nhất đề xác định một thư điện tử là thư rác hay không vẫn nằm ở nội dung của thư gửi đến người dùng. Hiện nay, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi đi nhưng chủ yếu được huấn luyện dựa trên nội dung thư tiếng Anh, thiếu dữ liệu huấn luyện dựa trên thư tiếng Việt. Luận văn này sẽ trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM va PhoBert dé huấn luyện mô hình phát hiện thu rác tiếng Việt. Bộ dữ liệu thư rác tiếng Việt sau khi được thu thập sẽ được tiền xử lý nhằm loại bỏ các từ, số, dấu câu, biểu tượng, đường dẫn liên kết, địa chỉ thư điện tử,.

mà không có nhiều ý nghĩa trong xử lý dé phát hiện thu rác tiếng Việt. Dữ liệu sau đó sẽ được biểu diễn bằng vector số trước khi đưa vào các mô hình học sâu phục vụ cho quá trình huấn luyện. Có nhiều phương pháp đề biéu diễn nội dung văn bản như thư điện tử sang biểu diễn vector số. Mô hình Word2Vec được chọn để biểu diễn vector số cho các mô hình học sâu CNN và BiLSTM để phát hiện thư rác tiếng Việt bởi vì Word2Vec có khả năng biểu diễn được ngữ cảnh của từ.

Bên cạnh đó, PhoBERT [9], một mô hình ngôn ngữ lớn dựa trên BERT đã được tiền huấn luyện cho ngôn ngữ tiếng Việt được sử dụng để so sánh 9 và đánh giá kết quả thử nghiệm với các mô hình CNN và BiLSTM. Kết quả so sánh cho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao trên bộ dữ liệu thư rác tiếng Việt thu thập được.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phát Hiện Thư Rác Tiếng Việt Bằng Mô Hình Học Sâu trình bày một phương pháp hiệu quả để nhận diện thư rác trong ngôn ngữ tiếng Việt thông qua việc áp dụng các mô hình học sâu. Bài viết nhấn mạnh tầm quan trọng của việc phát hiện thư rác trong bối cảnh ngày càng gia tăng các hình thức lừa đảo trực tuyến, đồng thời cung cấp các giải pháp công nghệ tiên tiến giúp cải thiện độ chính xác trong việc phân loại và lọc thư rác.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về cách thức hoạt động của các mô hình học sâu trong việc xử lý ngôn ngữ tự nhiên, cũng như cách áp dụng chúng vào thực tiễn để bảo vệ người dùng khỏi các mối đe dọa trực tuyến.

Nếu bạn muốn mở rộng kiến thức của mình về các ứng dụng của mô hình học sâu trong các lĩnh vực khác, hãy tham khảo tài liệu Phục chế và tăng cường độ phân giải cho ảnh cũ bằng cách kết hợp mô hình học sâu luận văn thạc sĩ công nghệ thông tin, nơi bạn sẽ tìm thấy cách mà học sâu có thể cải thiện chất lượng hình ảnh. Ngoài ra, tài liệu Khóa luận tốt nghiệp khoa học dữ liệu nhận diện bảng led sử dụng mô hình học sâu cho hệ thống giao tiếp phương tiện giao thông sử dụng camera led cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về việc ứng dụng học sâu trong nhận diện hình ảnh trong giao thông. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về tiềm năng của công nghệ học sâu trong nhiều lĩnh vực khác nhau.

#mô hình học sâu CNN

#Phát hiện thư rác tiếng Việt

#Mô hình BiLSTM trong phát hiện thư rác

#Mô hình PhoBERT cho thư rác

#Xây dựng bộ dữ liệu thư rác

#Giải pháp ngăn chặn thư rác

Chủ đề

ứng dụng mô hình học sâu

Nghiên cứu về thư rác tiếng Việt

Giải pháp công nghệ chống thư rác

Phân tích dữ liệu thư điện tử