Nghiên cứu các Phương Pháp Lọc Thư Rác tại Việt Nam và Thế Giới

Luận văn thạc sĩ nghiên cứu các phương pháp lọc thư rác tại Việt Nam và thế giới, đề xuất giải pháp lọc thư rác tiếng Việt hiệu quả.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

DANH MỤC HÌNH VẼ

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Mục tiêu của nghiên cứu

1.2. Phương pháp nghiên cứu

1.3. Cấu trúc luận văn

1.4. Tổng quan về thư rác

1.4.1. Định nghĩa

1.4.2. Thống kê và tác hại của thư rác

1.4.3. Phương pháp phân loại thư rác

1.4.3.1. Phương pháp khảo sát

1.4.3.2. Phương pháp dựa trên báo cáo

1.4.3.3. Phương pháp kỹ thuật

1.4.4. Các loại thư rác

1.4.4.1. Thư rác quảng cáo

1.4.4.2. Thư rác tuyên truyền, vận động

3. CHƯƠNG 3: ĐỀ XUẤT VÀ THỰC NGHIỆM

3.1. Đề xuất giải pháp lọc thư rác

3.2. Mô hình thực nghiệm vật lý

3.3. Lọc thư rác sử dụng SVM và Naïve Bayes

3.4. Xây dựng quy tắc lọc tiếng Việt

3.5. Dữ liệu huấn luyện

3.6. Kiểm thử hệ thống khi chưa cài Naïve Bayes

3.7. Kiểm thử hệ thống chỉ có Naïve Bayes

3.8. Tỉ lệ lọc sau khi tích hợp SVM-NB

3.9. Kiểm tra các quy tắc tự xây dựng

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Nghiên cứu Lọc Thư Rác Tiếng Việt

Nghiên cứu về lọc thư rác tiếng Việt đang trở thành một vấn đề cấp thiết trong bối cảnh số lượng thư điện tử ngày càng gia tăng. Thư rác không chỉ gây khó chịu mà còn ảnh hưởng đến hiệu suất làm việc của người dùng. Việc phát triển các phương pháp lọc thư rác hiệu quả là cần thiết để bảo vệ người dùng khỏi những nội dung không mong muốn. Nghiên cứu này sẽ tập trung vào việc phân tích các phương pháp hiện có và đề xuất giải pháp tối ưu cho việc lọc thư rác tiếng Việt.

1.1. Định nghĩa và Phân loại Thư Rác

Thư rác được định nghĩa là các thư điện tử không mong muốn, thường được gửi hàng loạt mà không có sự đồng ý của người nhận. Các loại thư rác phổ biến bao gồm thư quảng cáo, thư lừa đảo và thư độc hại. Việc phân loại chính xác các loại thư rác giúp xây dựng các hệ thống lọc thư rác hiệu quả hơn.

1.2. Tác động của Thư Rác đến Người Dùng

Thư rác gây ra nhiều tác động tiêu cực đến người dùng, bao gồm quá tải băng thông, tốn thời gian và ảnh hưởng đến năng suất làm việc. Theo thống kê, người dùng có thể mất hàng giờ mỗi tháng chỉ để xóa thư rác, điều này làm giảm hiệu quả công việc.

II. Vấn đề và Thách thức trong Lọc Thư Rác Tiếng Việt

Mặc dù có nhiều phương pháp lọc thư rác hiện có, nhưng việc áp dụng chúng cho thư rác tiếng Việt vẫn gặp nhiều thách thức. Các hệ thống hiện tại chủ yếu được tối ưu hóa cho thư rác tiếng Anh, dẫn đến hiệu suất kém khi xử lý thư rác tiếng Việt. Điều này đòi hỏi cần có những nghiên cứu sâu hơn để phát triển các giải pháp phù hợp.

2.1. Khó khăn trong Phân Tích Thư Rác Tiếng Việt

Ngôn ngữ tiếng Việt có nhiều đặc điểm riêng biệt, như ngữ điệu và cấu trúc câu, điều này làm cho việc phân tích và phân loại thư rác trở nên phức tạp hơn. Các thuật toán hiện tại cần được điều chỉnh để phù hợp với ngữ cảnh tiếng Việt.

2.2. Thiếu Dữ Liệu Huấn Luyện Chất Lượng

Một trong những thách thức lớn nhất là thiếu dữ liệu huấn luyện chất lượng cho các mô hình lọc thư rác tiếng Việt. Việc thu thập và xây dựng bộ dữ liệu phong phú là rất cần thiết để cải thiện độ chính xác của các hệ thống lọc.

III. Phương Pháp Lọc Thư Rác Tiếng Việt Hiệu Quả

Để giải quyết vấn đề thư rác tiếng Việt, nghiên cứu đề xuất một số phương pháp lọc thư rác hiệu quả. Các phương pháp này bao gồm việc sử dụng các thuật toán học máy như SVM và Naïve Bayes, kết hợp với các quy tắc lọc thông minh. Việc áp dụng các phương pháp này sẽ giúp nâng cao khả năng phát hiện và lọc thư rác.

3.1. Sử Dụng Thuật Toán Học Máy

Các thuật toán học máy như SVM và Naïve Bayes đã được chứng minh là hiệu quả trong việc phân loại thư rác. Việc áp dụng chúng cho thư rác tiếng Việt sẽ giúp cải thiện độ chính xác và giảm thiểu tỷ lệ dương tính giả.

3.2. Xây Dựng Quy Tắc Lọc Thông Minh

Xây dựng các quy tắc lọc dựa trên đặc điểm ngôn ngữ và nội dung của thư rác tiếng Việt là rất quan trọng. Các quy tắc này sẽ giúp hệ thống nhận diện và loại bỏ thư rác một cách hiệu quả hơn.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu

Nghiên cứu đã tiến hành thử nghiệm các phương pháp lọc thư rác tiếng Việt trong môi trường thực tế. Kết quả cho thấy tỷ lệ lọc thư rác đã được cải thiện đáng kể so với các hệ thống hiện có. Việc áp dụng các phương pháp này không chỉ giúp giảm thiểu thư rác mà còn nâng cao trải nghiệm người dùng.

4.1. Kết Quả Thực Nghiệm với Dữ Liệu Thực Tế

Các thử nghiệm cho thấy rằng hệ thống lọc mới có thể đạt tỷ lệ chính xác lên đến 95% trong việc phát hiện thư rác tiếng Việt. Điều này cho thấy tiềm năng lớn của các phương pháp đã được đề xuất.

4.2. Ứng Dụng trong Doanh Nghiệp

Hệ thống lọc thư rác tiếng Việt có thể được áp dụng rộng rãi trong các doanh nghiệp, giúp giảm thiểu chi phí và tăng cường hiệu quả làm việc. Việc triển khai hệ thống này sẽ mang lại lợi ích lớn cho các tổ chức.

V. Kết Luận và Tương Lai của Nghiên Cứu Lọc Thư Rác

Nghiên cứu về lọc thư rác tiếng Việt đã chỉ ra rằng việc phát triển các phương pháp phù hợp là rất cần thiết. Tương lai của nghiên cứu này sẽ tập trung vào việc cải thiện các thuật toán và mở rộng bộ dữ liệu huấn luyện. Điều này sẽ giúp nâng cao khả năng lọc thư rác và bảo vệ người dùng khỏi những nội dung không mong muốn.

5.1. Hướng Nghiên Cứu Tương Lai

Các nghiên cứu tiếp theo sẽ tập trung vào việc phát triển các mô hình học sâu để cải thiện độ chính xác trong việc phân loại thư rác. Việc áp dụng công nghệ mới sẽ mở ra nhiều cơ hội cho việc lọc thư rác hiệu quả hơn.

5.2. Tầm Quan Trọng của Dữ Liệu

Việc thu thập và xây dựng bộ dữ liệu phong phú sẽ là yếu tố quyết định cho sự thành công của các hệ thống lọc thư rác trong tương lai. Các nhà nghiên cứu cần hợp tác để tạo ra các nguồn dữ liệu chất lượng cao.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới xây dựng và đề xuất phương án lọc thư rác tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của mạng Internet, thư điện tử đã trở thành phương tiện giao tiếp phổ biến trong công việc và đời sống cá nhân. Tuy nhiên, thư rác (spam) đã trở thành một vấn đề nghiêm trọng, chiếm tỷ lệ lớn trong lưu lượng thư điện tử toàn cầu. Theo thống kê của Statista, tỷ lệ thư rác chiếm khoảng 55% tổng lưu lượng email trong giai đoạn 2012-2018, và vẫn duy trì ở mức trên 50% trong những năm gần đây. Tại Việt Nam, thư rác tiếng Anh chiếm phần lớn trong hộp thư người dùng, thậm chí nhiều hơn thư rác tiếng Việt, gây ảnh hưởng tiêu cực đến hiệu suất làm việc, an toàn thông tin và chi phí vận hành hệ thống.

Luận văn tập trung nghiên cứu các phương pháp lọc thư rác hiện hành trên thế giới và tại Việt Nam, nhằm xây dựng và đề xuất một phương án lọc thư rác tiếng Việt hiệu quả. Mục tiêu cụ thể là phát triển hệ thống lọc thư rác có khả năng xử lý cả thư tiếng Việt và tiếng Anh, nâng cao tỷ lệ nhận diện thư rác, giảm thiểu sai sót trong phân loại, đồng thời tối ưu hóa hiệu suất xử lý trên môi trường thực tế. Nghiên cứu được thực hiện trong phạm vi dữ liệu thu thập từ các hộp thư người dùng tại Việt Nam, với thời gian nghiên cứu từ năm 2018 đến 2020.

Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu lưu lượng thư rác, tiết kiệm băng thông mạng, giảm chi phí lưu trữ và bảo trì hệ thống, đồng thời bảo vệ người dùng khỏi các nguy cơ lừa đảo, phát tán mã độc và các nội dung không mong muốn. Kết quả nghiên cứu góp phần nâng cao chất lượng dịch vụ thư điện tử tại Việt Nam, đồng thời cung cấp cơ sở khoa học cho các nhà cung cấp dịch vụ và tổ chức trong việc triển khai các giải pháp lọc thư rác phù hợp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính trong lĩnh vực xử lý thư rác: lý thuyết học máy (machine learning) và mô hình lọc thư rác dựa trên luật (rule-based filtering).

Lý thuyết học máy: Áp dụng các thuật toán phân loại như Naïve Bayes và Support Vector Machine (SVM) để xây dựng bộ phân loại thư rác. Các thuật toán này dựa trên việc trích xuất đặc trưng từ nội dung thư điện tử, sau đó huấn luyện mô hình trên tập dữ liệu mẫu để phân loại thư mới. Các khái niệm chính bao gồm xác suất Bayes, hàm kernel trong SVM, và kỹ thuật trích xuất đặc trưng như túi từ (bag-of-words), TF-IDF, và n-gram.
Mô hình lọc thư rác dựa trên luật: Sử dụng các quy tắc được xây dựng thủ công hoặc tự động để xác định thư rác dựa trên các đặc điểm như tiêu đề, nội dung, địa chỉ IP, danh sách đen/trắng. Mô hình này thường kết hợp với các bộ lọc học máy để tăng hiệu quả.

Các khái niệm chuyên ngành được sử dụng bao gồm: thư rác (spam), thư hợp lệ (ham), bộ lọc Naïve Bayes, SVM, danh sách đen (blacklist), danh sách trắng (whitelist), xác thực DKIM, SPF, DMARC, trích xuất đặc trưng (feature extraction), và học máy có giám sát (supervised learning).

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp kết hợp giữa tổng hợp lý thuyết và thực nghiệm.

Nguồn dữ liệu: Tập dữ liệu huấn luyện và kiểm thử được thu thập từ hộp thư người dùng tại Việt Nam, bao gồm cả thư tiếng Việt và tiếng Anh. Dữ liệu gồm khoảng vài nghìn email, trong đó tỷ lệ thư rác chiếm khoảng 50-60%.
Phương pháp phân tích: Áp dụng các thuật toán học máy Naïve Bayes và SVM để huấn luyện bộ phân loại. Đồng thời xây dựng bộ luật lọc thư rác tiếng Việt dựa trên phân tích đặc trưng từ dữ liệu huấn luyện. Các bước tiền xử lý bao gồm tách từ, loại bỏ từ dừng, chuẩn hóa văn bản, và trích xuất đặc trưng theo phương pháp túi từ và n-gram.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài từ tháng 1/2019 đến tháng 11/2020, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện và kiểm thử, đánh giá kết quả và đề xuất giải pháp.

Phương pháp thực nghiệm được thiết kế để so sánh hiệu quả của từng thuật toán riêng lẻ và kết hợp, đồng thời đánh giá tác động của bộ luật lọc tiếng Việt đến hiệu suất chung của hệ thống.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả lọc thư rác của Naïve Bayes và SVM: Kết quả thực nghiệm cho thấy Naïve Bayes đạt tỷ lệ phân loại chính xác khoảng 91%, trong khi SVM đạt khoảng 89%. Khi kết hợp hai thuật toán này, tỷ lệ chính xác tăng lên đến 94,4%, giảm tỷ lệ dương tính giả xuống gần 0%. Điều này chứng tỏ sự bổ trợ hiệu quả giữa hai phương pháp.
Tỷ lệ lọc thư rác tiếng Việt và tiếng Anh: Hệ thống lọc kết hợp có khả năng nhận diện thư rác tiếng Việt và tiếng Anh với tỷ lệ chính xác lần lượt là 92% và 95%. Điều này phản ánh tính đa ngôn ngữ của bộ lọc, phù hợp với thực tế hộp thư người dùng Việt Nam.
Ảnh hưởng của bộ luật lọc tiếng Việt: Việc xây dựng và áp dụng bộ luật lọc tiếng Việt dựa trên các cụm từ phổ biến trong thư rác đã giúp tăng tỷ lệ nhận diện thư rác lên khoảng 3-5% so với chỉ sử dụng học máy. Bộ luật này cũng giúp giảm thời gian xử lý và tăng tính ổn định của hệ thống.
Tỷ lệ dương tính giả và âm tính giả: Tỷ lệ dương tính giả (thư hợp lệ bị đánh dấu là spam) được kiểm soát dưới 1%, trong khi tỷ lệ âm tính giả (thư rác không bị phát hiện) khoảng 5%. Đây là mức chấp nhận được trong các hệ thống lọc thư rác hiện nay.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao đến từ việc kết hợp các phương pháp học máy với bộ luật lọc tiếng Việt, tận dụng ưu điểm của từng phương pháp. Naïve Bayes có khả năng xử lý tốt các đặc trưng xác suất từ dữ liệu lớn, trong khi SVM tối ưu ranh giới phân loại, giảm sai số. Bộ luật lọc tiếng Việt giúp xử lý đặc thù ngôn ngữ, từ vựng và cấu trúc câu riêng biệt của tiếng Việt, điều mà các bộ lọc tiếng Anh không thể đáp ứng hiệu quả.

So sánh với các nghiên cứu quốc tế, kết quả này tương đương hoặc vượt trội hơn các hệ thống lọc thư rác đa ngôn ngữ khác, đặc biệt trong việc xử lý thư rác tiếng Việt vốn có nhiều đặc thù về ngôn ngữ. Việc áp dụng các kỹ thuật xác thực như DKIM, SPF và DMARC cũng góp phần giảm thiểu thư rác giả mạo, nâng cao độ tin cậy của hệ thống.

Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ chính xác của từng thuật toán, bảng phân tích tỷ lệ dương tính giả và âm tính giả, cũng như biểu đồ thể hiện sự cải thiện khi áp dụng bộ luật lọc tiếng Việt.

Đề xuất và khuyến nghị

Triển khai hệ thống lọc kết hợp Naïve Bayes và SVM: Khuyến nghị các nhà cung cấp dịch vụ email tại Việt Nam áp dụng mô hình kết hợp này để nâng cao hiệu quả lọc thư rác, đặc biệt là thư tiếng Việt. Thời gian triển khai dự kiến trong vòng 6 tháng, với đội ngũ kỹ thuật chuyên trách.
Phát triển và cập nhật bộ luật lọc tiếng Việt thường xuyên: Đề xuất xây dựng quy trình thu thập dữ liệu thư rác mới và cập nhật bộ luật lọc định kỳ mỗi quý nhằm thích ứng với sự biến đổi nội dung thư rác. Chủ thể thực hiện là nhóm nghiên cứu và bộ phận bảo trì hệ thống.
Tích hợp các kỹ thuật xác thực thư điện tử (DKIM, SPF, DMARC): Khuyến khích các ISP và doanh nghiệp áp dụng các tiêu chuẩn xác thực để giảm thiểu thư rác giả mạo, nâng cao độ tin cậy của hệ thống email. Thời gian thực hiện trong 3-6 tháng.
Đào tạo người dùng và nâng cao nhận thức về thư rác: Tổ chức các chương trình đào tạo, hướng dẫn người dùng cách nhận biết và xử lý thư rác, giảm thiểu rủi ro từ các thư lừa đảo và mã độc. Chủ thể thực hiện là các tổ chức, doanh nghiệp và nhà cung cấp dịch vụ.

Đối tượng nên tham khảo luận văn

Các nhà cung cấp dịch vụ Internet (ISP): Có thể áp dụng kết quả nghiên cứu để nâng cao chất lượng dịch vụ email, giảm thiểu chi phí vận hành và tăng sự hài lòng của khách hàng.
Doanh nghiệp và tổ chức sử dụng email trong quản lý và giao tiếp: Giúp bảo vệ hệ thống thông tin, giảm thiểu rủi ro mất dữ liệu và tăng hiệu quả làm việc.
Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Quản lý hệ thống thông tin: Cung cấp cơ sở lý thuyết và thực nghiệm về các phương pháp lọc thư rác, đặc biệt trong ngữ cảnh tiếng Việt.
Nhà phát triển phần mềm và kỹ sư bảo mật: Tham khảo để phát triển các giải pháp lọc thư rác tích hợp, nâng cao khả năng xử lý đa ngôn ngữ và thích ứng với các biến đổi của thư rác.

Câu hỏi thường gặp

Phương pháp học máy nào hiệu quả nhất để lọc thư rác tiếng Việt?
Naïve Bayes và SVM là hai thuật toán được đánh giá cao, trong đó Naïve Bayes có ưu thế về độ chính xác và khả năng xử lý dữ liệu lớn. Kết hợp cả hai giúp tăng hiệu quả lọc.
Bộ luật lọc tiếng Việt có vai trò gì trong hệ thống?
Bộ luật giúp xử lý đặc thù ngôn ngữ tiếng Việt, tăng tỷ lệ nhận diện thư rác và giảm sai sót, đặc biệt với các từ khóa và cấu trúc câu phổ biến trong thư rác tiếng Việt.
Làm thế nào để cập nhật bộ lọc khi thư rác thay đổi?
Cần thu thập dữ liệu thư rác mới định kỳ, huấn luyện lại mô hình học máy và cập nhật bộ luật lọc để thích ứng với các biến đổi nội dung thư rác.
Các kỹ thuật xác thực thư điện tử có giúp giảm thư rác không?
Có, các tiêu chuẩn như DKIM, SPF và DMARC giúp xác minh danh tính người gửi, ngăn chặn thư giả mạo và giảm thiểu thư rác lừa đảo.
Tỷ lệ dương tính giả và âm tính giả trong hệ thống là bao nhiêu?
Tỷ lệ dương tính giả được kiểm soát dưới 1%, còn tỷ lệ âm tính giả khoảng 5%, là mức chấp nhận được để đảm bảo hiệu quả lọc và tránh bỏ sót thư hợp lệ.

Kết luận

Luận văn đã xây dựng thành công hệ thống lọc thư rác tiếng Việt kết hợp Naïve Bayes và SVM, đạt tỷ lệ phân loại chính xác trên 94%.
Bộ luật lọc tiếng Việt được phát triển giúp tăng hiệu quả nhận diện thư rác và giảm thời gian xử lý.
Hệ thống có khả năng xử lý đa ngôn ngữ, phù hợp với thực tế hộp thư người dùng Việt Nam.
Đề xuất các giải pháp kỹ thuật và chính sách nhằm nâng cao hiệu quả lọc thư rác trong môi trường thực tế.
Các bước tiếp theo bao gồm triển khai thực tế, cập nhật dữ liệu liên tục và đào tạo người dùng để tối ưu hóa hiệu quả hệ thống.

Hành động ngay hôm nay để bảo vệ hộp thư của bạn khỏi thư rác và nâng cao an toàn thông tin!

Trích đoạn nội dung tài liệu

Chương 1). Chương 2 sẽ trình bày các phương pháp trích xuất thông tin thư điện tử, kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận dạng và các kỹ thuật lọc rác cơ bản và thông minh. Tiếp theo, luận văn so sánh, nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đó đưa ra đề xuất phù hợp. Cuối cùng, Chương 3 mô tả thực nghiệm bao gồm đề xuất mô tả kiến trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá kết quả thực nghiệm.

Tổng quan về thư rác 1. Định nghĩa Có rất nhiều định nghĩa khác nhau cho thư rác. Định nghĩa này có tính đến các đặc điểm của thư điện tử hàng loạt [2]. Các định nghĩa về thư rác đều có những đặc điểm chung như sau: • Gửi bằng thư điện tử • Sử dụng các địa chỉ được thu thập mà không có sự đồng ý • Gửi hàng loạt • Không mong muốn nhận • Lặp đi lặp lại • Nhầm mục đích thương mại hoặc tài chính • Không có mục tiêu và bừa bãi • Không thể ngăn cản • Ẩn danh và / hoặc ngụy trang • Nội dung bất hợp pháp hoặc xúc phạm • Nội dung lừa đảo hoặc gian lận 1.

Thống kê và tác hại của thư rác Thư rác chiếm một phần rất lớn của băng thông mạng, theo thống kê của Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luôn nhiều hơn so với số lượng thư hợp lệ (ham). Mặc dù số lượng thư rác có giảm xuống so với những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, có thể thấy thư rác vẫn chiếm một lượng băng thông mạng lớn. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thời gian gần đây 4 nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư rác toàn cầu.

Bất chấp sự phổ biến của nó, tỷ lệ thư rác e-mail toàn cầu thực sự đang giảm: tỷ lệ thư rác hàng năm toàn cầu trong năm 2018 là 55%, giảm so với 69% vào năm 2012 [5]. Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6]. Phần lớn trong số đó là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi ngày. Trong khi nhiều người sử dụng cho rằng nội dung đó nằm trong thư mục thư rác của họ, e-mail tiếp thị nói chung là vô hại, tuy gây khó chịu cho người dùng.

Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6]. Tuy nhiên, mọi thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư rác của các e-mail tiếp thị thương mại đã giảm xuống còn 9%, giảm từ 14% vào năm 2017 [6]. Tuy nhiên, không phải tất cả các thư rác đều là những e- mail quảng cáo lành tính. Một phần đáng kể các thư rác có tính chất độc hại hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6].

Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác, 9,64% khối lượng thư rác toàn cầu bắt nguồn từ các IP có trụ sở tại Hoa Kỳ tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư rác toàn cầu [6]. Thư rác là thư điện tử được gửi không mong muốn, gây ra nhiều ảnh hưởng đến nhiều mặt khác nhau: • Quá tải băng thông: Thư rác chặn các kênh liên lạc và tạo ra lưu lượng băng thông lớn (chi phí băng thông này công ty/doanh nghiệp phải trả tiền). Ngoài ra, có những máy chủ thư phải xử lý thư rác và những máy chủ này phải được bảo trì bởi các chuyên gia được trả lương cao. Do đó, chi phí vận hành cơ sở hạ tầng tăng đáng kể.

• Tốn thời gian. Nếu thư rác đến hộp thư đến của người dùng, người nhận phải xóa nó theo cách thủ công. Một người đọc 10-20 thư điện tử mỗi ngày có thể nhận được khoảng 160-180 tin nhắn rác cùng với thư từ công việc của họ. Điều đó có nghĩa là họ sẽ dành 5-6 giờ mỗi tháng chỉ để xóa thư rác, gây phương hại đến thời gian làm việc hiệu quả của họ.

• Khó chịu và phiền toái. Bằng cách xóa thủ công thư rác, người dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’. Việc buộc phải thực hiện các biện pháp như vậy không thể không gây khó chịu cho người dùng, dẫn đến những cảm xúc tiêu cực không 5 mong muốn. Cũng có thể trong quá trình xóa, người dùng cũng có thể vô tình xóa mất một thư điện tử quan trọng cùng với vô số thư rác.

Tất cả những ai đã đối mặt với tình huống như vậy đều cảm thấy khó chịu và phiền toái. • Ảnh hưởng của thư rác đối với cá nhân: Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nói chung. Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời gian để phân loại thư điện tử và xóa các thư không mong muốn và do đó phải chịu chi phí cơ hội về thời gian. Thư rác cũng gia tăng chi phí của các nhà cung cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thông.

Cuối cùng, thư rác được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các chi phí gián tiếp tiềm ẩn có liên quan đến nó. Theo ước tính [1] rằng các công ty và người tiêu dùng Mỹ phải chịu chi phí gần 20 tỷ đô la mỗi năm do thư rác. Con số của người tiêu dùng phải gánh chịu chi phí gần 20 tỷ đô la hàng năm do thư rác. Ước tính rằng những người gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên toàn thế giới theo đơn đặt hàng là 200 triệu đô la mỗi năm.

Do đó, "tỷ lệ" của chi phí bên ngoài cho lợi ích bên trong cho thư rác là khoảng 100:1 [1]. • Ảnh hưởng của thư rác đối với doanh nghiệp Trong môi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do mất thời gian xóa các thư điện tử không mong muốn (hoặc tìm kiếm những cái đã xóa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] của về chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đô la Mỹ mỗi năm. Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đô la Mỹ mỗi năm.

Ngoài ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác, chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP. Ở cấp độ nhà cung cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật. Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá nhân [6]. Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt với các khoản đầu tư có thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp làm sáng tỏ những chi phí tiềm ẩn này.

Phương pháp phân loại thư rác Các phương pháp khác nhau đang được sử dụng để đo lường và phân tích thư rác. Ba phương pháp tiếp cận chính đang được sử dụng cho việc này: khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương pháp tiếp cận dựa trên công cụ kỹ thuật. Phương pháp khảo sát Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của những người tham gia khảo sát. Trong phương pháp, điều quan trọng là những người được chọn trong khảo sát có thể trở thành đại diện mẫu được không.

So với các công cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và có thể được thiết lập và thực hiện trong thời gian tương đối ngắn. Một ví dụ về nghiên cứu dựa trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp tiếp thị qua thư điện tử. Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2]. Phương pháp dựa trên báo cáo Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những người nhận thư rác, sau đó được phân tích.

Mục đích chính của phương pháp này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư rác, người gửi thư rác và các đặc điểm của việc gửi thư rác. Phương pháp này dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính toán khối lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cận này, dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đó, định nghĩa về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người nhận. Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu thập và phân tích các báo cáo tự nguyện của người dùng [2].

Trên Google thư điện tử hay các phần mềm thư điện tử đều có mục ‘Report spam’ để gửi báo cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác. Điều này sẽ giúp các nhà cung cấp dịch vụ có những mẫu thu thập về thư rác đa dạng và tổng quan hơn. Phương pháp kỹ thuật Phương pháp dựa trên công cụ kỹ thuật không cần sự tham gia tích cực của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn do nó không đòi hỏi chủ quan diễn giải của người dùng so với hai cách tiếp 7 cận còn lại.

Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ không thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư rác, hay xóa bỏ thư rác. Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các thuật toán và kỹ thuật được sử dụng, đòi hỏi cập nhật liên tục để nhận ra các dạng thư rác mới.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu và Đề xuất Phương Pháp Lọc Thư Rác Tiếng Việt" cung cấp cái nhìn sâu sắc về các phương pháp hiệu quả để nhận diện và lọc thư rác trong ngôn ngữ tiếng Việt. Nghiên cứu này không chỉ phân tích các kỹ thuật hiện có mà còn đề xuất những cải tiến nhằm nâng cao độ chính xác và hiệu suất của các hệ thống lọc thư rác. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các phương pháp này, bao gồm việc giảm thiểu lượng thư rác trong hộp thư đến, từ đó nâng cao trải nghiệm người dùng và bảo mật thông tin.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Luận văn thạc sĩ hay nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các thuật toán lọc thư rác và cách chúng được áp dụng trong thực tế, từ đó cung cấp thêm góc nhìn và thông tin bổ ích cho việc nghiên cứu và ứng dụng trong lĩnh vực này.

#công nghệ thông tin

#Hệ thống lọc thư điện tử

#phương pháp lọc thư rác

#thư rác tiếng Việt

#kỹ thuật lọc thư rác

#nghiên cứu thư rác

Chủ đề

Nghiên cứu về thư rác

phương pháp lọc thư rác

tác hại của thư rác

các kỹ thuật lọc thư rác