Tổng quan nghiên cứu

Thư điện tử (email) là phương tiện trao đổi thông tin phổ biến toàn cầu, tuy nhiên, sự gia tăng của thư rác (spam) đã trở thành một vấn nạn nghiêm trọng. Theo thống kê của DataProt năm 2022, khoảng 56,5% tổng số thư điện tử là thư rác, chủ yếu là thư quảng cáo không mong muốn. Thư rác không chỉ gây mất thời gian, làm giảm hiệu suất làm việc mà còn tiềm ẩn nguy cơ lừa đảo, đánh cắp thông tin cá nhân và tài sản. Một nhân viên có thể mất khoảng hai ngày làm việc mỗi năm chỉ để xử lý thư rác, gây lãng phí tài nguyên cho tổ chức.

Trong bối cảnh đó, việc phát hiện thư rác tiếng Việt trở nên cấp thiết, nhất là khi các mô hình phát hiện thư rác hiện nay chủ yếu được huấn luyện trên dữ liệu tiếng Anh, chưa đáp ứng hiệu quả cho ngôn ngữ tiếng Việt. Luận văn này tập trung xây dựng bộ dữ liệu thư rác tiếng Việt gồm 4.359 thư điện tử, trong đó 2.329 thư thông thường và 2.030 thư rác, thu thập từ thư cá nhân và báo cáo người dùng. Mục tiêu nghiên cứu là phát triển và đánh giá các mô hình học sâu gồm CNN, BiLSTM và PhoBERT để phát hiện thư rác tiếng Việt với độ chính xác cao.

Phạm vi nghiên cứu tập trung vào thư điện tử tiếng Việt thu thập trong khoảng thời gian gần đây tại Việt Nam. Kết quả nghiên cứu không chỉ góp phần nâng cao hiệu quả phát hiện thư rác tiếng Việt mà còn hỗ trợ giảm thiểu thiệt hại do thư rác gây ra, đồng thời cung cấp cơ sở dữ liệu và mô hình ứng dụng cho các hệ thống lọc thư điện tử trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Mô hình học sâu (Deep Learning): Bao gồm mạng nơ-ron tích chập (CNN), mạng hồi tiếp dài hạn hai chiều (BiLSTM) và mô hình ngôn ngữ lớn PhoBERT dựa trên kiến trúc BERT. Các mô hình này có khả năng trích xuất đặc trưng ngữ cảnh và xử lý chuỗi dữ liệu văn bản hiệu quả.
  • Biểu diễn từ ngữ (Word Embedding): Sử dụng Word2Vec để biểu diễn từ dưới dạng vector số, giúp mô hình học sâu hiểu được ngữ cảnh và mối quan hệ giữa các từ trong văn bản.
  • Phân loại nhị phân: Bài toán phát hiện thư rác được mô hình hóa dưới dạng phân loại nhị phân với hai lớp: thư rác (spam) và thư thông thường (ham).
  • Các khái niệm chính: Thư rác, thư thông thường, hàm kích hoạt Sigmoid, hàm độ lỗi binary cross-entropy, độ chính xác, độ chuẩn xác, độ sót, điểm F1.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Bộ dữ liệu gồm 4.359 thư điện tử tiếng Việt được thu thập từ thư cá nhân và báo cáo người dùng qua hệ thống thư điện tử. Trong đó, 2.329 thư thông thường và 2.030 thư rác được phân loại và gán nhãn chính xác.
  • Tiền xử lý dữ liệu: Loại bỏ từ không mang ý nghĩa, số, dấu câu, biểu tượng, đường dẫn liên kết và chữ ký trong thư để giảm nhiễu cho mô hình.
  • Biểu diễn dữ liệu: Sử dụng Word2Vec huấn luyện trên bộ dữ liệu để tạo vector biểu diễn từ cho mô hình CNN và BiLSTM; sử dụng PhoBERT-base đã được tiền huấn luyện cho tiếng Việt để biểu diễn ngữ cảnh hai chiều.
  • Phương pháp phân tích: Huấn luyện và đánh giá ba mô hình học sâu CNN, BiLSTM và PhoBERT trên bộ dữ liệu đã xử lý. Đánh giá dựa trên các chỉ số: độ chính xác, độ chuẩn xác, độ sót, điểm F1 và thời gian huấn luyện.
  • Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng thời gian gần đây; huấn luyện và đánh giá mô hình thực hiện trong năm 2023-2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Xây dựng bộ dữ liệu thư rác tiếng Việt: Bộ dữ liệu gồm 4.359 thư, trong đó 2.329 thư thông thường và 2.030 thư rác. Độ dài trung bình của thư rác là 243 từ, lớn hơn so với thư thông thường (224 từ). Thư rác chủ yếu là thư quảng cáo chiếm đa số, tiếp theo là thư lừa đảo, thư nặc danh và thư xin tài trợ.

  2. Hiệu quả mô hình học sâu:

    • Mô hình CNN đạt độ chính xác khoảng 88%.
    • Mô hình BiLSTM cho kết quả tương đương hoặc cao hơn một chút so với CNN.
    • Mô hình PhoBERT-base đạt độ chính xác cao nhất, vượt trội hơn các mô hình còn lại nhờ khả năng biểu diễn ngữ cảnh hai chiều sâu sắc.
  3. So sánh thời gian huấn luyện: Mô hình CNN có thời gian huấn luyện nhanh nhất, tiếp theo là BiLSTM, trong khi PhoBERT mất nhiều thời gian nhất do số lượng tham số lớn (135 triệu tham số).

  4. Đánh giá các chỉ số phân loại: Các mô hình đều đạt điểm F1 trên 85%, trong đó PhoBERT có điểm F1 cao nhất, thể hiện sự cân bằng tốt giữa độ chuẩn xác và độ sót.

Thảo luận kết quả

Kết quả cho thấy các mô hình học sâu đều có khả năng phát hiện thư rác tiếng Việt hiệu quả, trong đó PhoBERT-base thể hiện ưu thế nhờ được tiền huấn luyện trên kho dữ liệu tiếng Việt lớn, giúp mô hình hiểu sâu sắc ngữ cảnh và cấu trúc ngôn ngữ. Độ dài trung bình thư rác lớn hơn thư thông thường phản ánh nội dung thư rác thường có nhiều thông tin quảng cáo hoặc lừa đảo phức tạp hơn.

So với các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh hoặc dịch sang ngôn ngữ khác, việc xây dựng bộ dữ liệu thuần tiếng Việt và áp dụng mô hình học sâu tiên tiến là bước tiến quan trọng, góp phần nâng cao hiệu quả phát hiện thư rác trong môi trường ngôn ngữ đặc thù. Dữ liệu có thể được trình bày qua biểu đồ phân bố độ dài thư, biểu đồ so sánh độ chính xác và thời gian huấn luyện các mô hình để minh họa trực quan.

Tuy nhiên, thách thức vẫn còn khi nội dung thư rác liên tục thay đổi nhằm né tránh hệ thống phát hiện, đòi hỏi cập nhật dữ liệu và mô hình thường xuyên. Ngoài ra, việc mở rộng bộ dữ liệu trên nhiều lĩnh vực và loại thư rác khác nhau sẽ giúp mô hình phát hiện chính xác hơn.

Đề xuất và khuyến nghị

  1. Cập nhật và mở rộng bộ dữ liệu: Thu thập thêm thư rác và thư thông thường từ nhiều lĩnh vực khác nhau để tăng tính đa dạng và đại diện, nâng cao độ chính xác mô hình. Thời gian thực hiện: 6-12 tháng; chủ thể: các tổ chức nghiên cứu và nhà cung cấp dịch vụ email.

  2. Triển khai mô hình PhoBERT trong hệ thống lọc thư: Ứng dụng mô hình PhoBERT-base đã hiệu chỉnh để phát hiện thư rác tiếng Việt trong các hệ thống email doanh nghiệp và cá nhân, nhằm giảm thiểu thiệt hại do thư rác gây ra. Thời gian thực hiện: 3-6 tháng; chủ thể: nhà phát triển phần mềm và nhà cung cấp dịch vụ email.

  3. Đào tạo người dùng nâng cao nhận thức: Tổ chức các chương trình đào tạo, hướng dẫn người dùng cách nhận biết và báo cáo thư rác chính xác, góp phần cải thiện chất lượng dữ liệu huấn luyện mô hình. Thời gian thực hiện: liên tục; chủ thể: các tổ chức giáo dục, doanh nghiệp và nhà cung cấp dịch vụ.

  4. Nghiên cứu và phát triển mô hình cập nhật liên tục: Phát triển các mô hình học sâu có khả năng tự động cập nhật và thích nghi với nội dung thư rác mới, giảm thiểu việc mô hình lỗi thời. Thời gian thực hiện: 12-18 tháng; chủ thể: các nhóm nghiên cứu và công ty công nghệ.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo về xây dựng bộ dữ liệu và ứng dụng mô hình học sâu trong xử lý ngôn ngữ tự nhiên, đặc biệt là phát hiện thư rác tiếng Việt.

  2. Các công ty phát triển phần mềm và dịch vụ email: Áp dụng mô hình và bộ dữ liệu để nâng cao hiệu quả lọc thư rác, cải thiện trải nghiệm người dùng và bảo vệ an toàn thông tin.

  3. Cơ quan quản lý và tổ chức giáo dục: Sử dụng kết quả nghiên cứu để xây dựng chính sách, chương trình đào tạo nâng cao nhận thức về an toàn thông tin và phòng chống thư rác.

  4. Người dùng cá nhân và doanh nghiệp: Hiểu rõ về tác hại của thư rác và các giải pháp kỹ thuật hiện đại giúp bảo vệ tài khoản email, tránh bị lừa đảo và mất mát thông tin.

Câu hỏi thường gặp

  1. Tại sao cần xây dựng bộ dữ liệu thư rác tiếng Việt riêng biệt?
    Bởi vì các mô hình phát hiện thư rác hiện nay chủ yếu được huấn luyện trên dữ liệu tiếng Anh, không thể hiểu đúng ngữ cảnh và đặc trưng ngôn ngữ tiếng Việt, dẫn đến hiệu quả thấp. Bộ dữ liệu thuần tiếng Việt giúp mô hình học sâu phát hiện chính xác hơn.

  2. Mô hình học sâu nào phù hợp nhất để phát hiện thư rác tiếng Việt?
    PhoBERT-base cho kết quả tốt nhất nhờ khả năng biểu diễn ngữ cảnh hai chiều sâu sắc, vượt trội hơn CNN và BiLSTM trong các thử nghiệm trên bộ dữ liệu tiếng Việt.

  3. Bộ dữ liệu thư rác tiếng Việt được thu thập như thế nào?
    Dữ liệu được thu thập từ thư cá nhân và báo cáo thư rác của người dùng qua hệ thống thư điện tử, sau đó được kiểm tra, phân loại và tiền xử lý kỹ lưỡng để đảm bảo chất lượng.

  4. Các mô hình học sâu có thể áp dụng cho các loại thư rác khác ngoài email không?
    Có thể, với điều kiện có bộ dữ liệu phù hợp, các mô hình này có thể được điều chỉnh để phát hiện tin nhắn rác trên mạng xã hội, ứng dụng nhắn tin hoặc các nền tảng khác.

  5. Làm thế nào để duy trì hiệu quả của mô hình phát hiện thư rác theo thời gian?
    Cần thường xuyên cập nhật bộ dữ liệu và huấn luyện lại mô hình để thích nghi với nội dung thư rác mới, đồng thời kết hợp đào tạo người dùng báo cáo chính xác để cải thiện dữ liệu huấn luyện.

Kết luận

  • Đã xây dựng thành công bộ dữ liệu thư rác tiếng Việt gồm 4.359 thư, đáp ứng nhu cầu huấn luyện mô hình phát hiện thư rác tiếng Việt.
  • Ứng dụng thành công các mô hình học sâu CNN, BiLSTM và PhoBERT trong phát hiện thư rác, trong đó PhoBERT-base đạt độ chính xác và điểm F1 cao nhất.
  • Kết quả nghiên cứu góp phần nâng cao hiệu quả phát hiện thư rác tiếng Việt, giảm thiểu thiệt hại do thư rác gây ra cho cá nhân và tổ chức.
  • Đề xuất mở rộng bộ dữ liệu, triển khai mô hình trong thực tế và phát triển mô hình cập nhật liên tục để nâng cao hiệu quả lâu dài.
  • Khuyến khích các nhà nghiên cứu, doanh nghiệp và người dùng áp dụng kết quả nghiên cứu để bảo vệ an toàn thông tin và nâng cao nhận thức về thư rác.

Hành động tiếp theo: Triển khai thử nghiệm mô hình PhoBERT trong hệ thống lọc thư thực tế và mở rộng thu thập dữ liệu để hoàn thiện bộ dữ liệu thư rác tiếng Việt. Để biết thêm chi tiết và ứng dụng, liên hệ với nhóm nghiên cứu hoặc truy cập các tài liệu liên quan.