Luận án tiến sĩ về phân loại thư rác bằng phương pháp học máy

Luận án tiến sĩ nghiên cứu phân loại thư rác bằng phương pháp học máy, cung cấp giải pháp hiệu quả cho vấn đề an ninh mạng hiện nay.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM KẾT

LỜI CẢM ƠN

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC

1.1. Tổng quan về học máy

1.1.1. Trí tuệ nhân tạo

1.1.2. Một số ứng dụng của học máy

1.2. Tổng quan về thư rác

1.2.1. Định nghĩa về thư rác và các đặc trưng của thư rác

1.2.2. Phân loại thư rác

1.2.3. Đặc điểm thư rác

1.2.4. Tác hại của thư rác

1.2.5. Quy trình và thủ đoạn gửi thư rác

1.2.6. Biểu diễn phân loại thư rác dựa trên học máy có giám sát

1.2.7. Nhu cầu phân loại thư rác

1.2.8. Cách biểu diễn nội dung thư rác

1.2.9. Kết luận chương

2. PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT

2.1. Thuật toán Naïve Bayes

2.1.1. Giới thiệu Thuật toán Naïve Bayes

2.1.2. Mô tả thuật toán

2.1.3. Áp dụng trong phân loại thư rác

2.2. Học máy theo phương pháp máy vec tơ tựa SVM

2.2.1. Giới thiệu SVM

2.2.2. Mô tả thuật toán

2.2.3. Huấn luyện SVM

2.2.4. Ứng dụng trong phân loại thư rác

2.3. Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát

2.3.1. Lựa chọn mô hình và thuật toán

2.3.2. Xây dựng hệ thống

2.3.3. Kết luận chương

3. CÀI ĐẶT THỬ NGHIỆM VIỆC PHÂN LOẠI THƯ RÁC

3.1. Bài toán phân loại thư rác

3.2. Cài đặt thử nghiệm và kết quả

3.2.1. Bộ dữ liệu thử nghiệm

3.2.2. Môi trường cài đặt

3.2.3. Giao diện của chương trình thử nghiệm

3.2.4. Kết quả thử nghiệm

3.2.5. Đánh giá thử nghiệm

3.3. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về học máy và thư rác

Chương này cung cấp cái nhìn tổng quan về học máy và thư rác. Học máy là một lĩnh vực của trí tuệ nhân tạo (AI), cho phép máy tính học từ dữ liệu mà không cần lập trình cụ thể. Thư rác được định nghĩa là những thông điệp không mong muốn, thường mang tính chất quảng cáo hoặc lừa đảo. Đặc điểm của thư rác bao gồm nội dung không liên quan, thường xuyên xuất hiện và có thể gây hại cho người dùng. Việc phân loại thư rác là cần thiết để bảo vệ người dùng khỏi những mối đe dọa này. Theo báo cáo của Kaspersky Lab, tỷ lệ thư rác trong lưu lượng thư điện tử đã tăng lên đáng kể, cho thấy sự cần thiết phải phát triển các phương pháp phân loại hiệu quả. Chương này cũng đề cập đến các ứng dụng của học máy trong việc phân loại thư rác, từ đó giúp người dùng dễ dàng nhận diện và loại bỏ những thông điệp không mong muốn.

1.1. Trí tuệ nhân tạo và ứng dụng của học máy

Trí tuệ nhân tạo (AI) là lĩnh vực nghiên cứu nhằm phát triển các hệ thống có khả năng suy nghĩ và hành động như con người. Học máy là một nhánh của AI, tập trung vào việc phát triển các thuật toán cho phép máy tính học từ dữ liệu. Các ứng dụng của học máy rất đa dạng, từ xử lý ngôn ngữ tự nhiên đến nhận dạng hình ảnh. Trong bối cảnh phân loại thư rác, học máy giúp xây dựng các mô hình có khả năng phân loại chính xác giữa thư rác và thư hợp lệ. Việc áp dụng các thuật toán như Naïve Bayes và SVM đã chứng minh hiệu quả trong việc cải thiện độ chính xác của hệ thống phân loại. Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn bảo vệ thông tin cá nhân khỏi các mối đe dọa từ thư rác.

II. Phân loại thư rác bằng một số thuật toán học máy có giám sát

Chương này đi sâu vào các thuật toán học máy có giám sát, đặc biệt là Naïve Bayes và SVM. Naïve Bayes là một trong những thuật toán đơn giản nhưng hiệu quả trong việc phân loại thư rác. Nó dựa trên định lý Bayes và giả định rằng các đặc trưng là độc lập với nhau. Điều này giúp giảm thiểu độ phức tạp tính toán và cho phép xử lý nhanh chóng các tập dữ liệu lớn. SVM (Support Vector Machine) là một thuật toán mạnh mẽ hơn, sử dụng các siêu phẳng để phân chia các lớp dữ liệu. SVM có khả năng xử lý tốt các trường hợp không tuyến tính thông qua việc sử dụng các hàm nhân. Việc áp dụng các thuật toán này trong phân loại thư rác đã cho thấy sự cải thiện đáng kể về độ chính xác và khả năng phát hiện các mẫu thư rác mới. Các nghiên cứu đã chỉ ra rằng sự kết hợp giữa các thuật toán này có thể mang lại kết quả tốt hơn so với việc sử dụng từng thuật toán riêng lẻ.

2.1. Thuật toán Naïve Bayes

Thuật toán Naïve Bayes là một trong những phương pháp phổ biến nhất trong phân loại thư rác. Nó hoạt động dựa trên nguyên tắc xác suất, cho phép dự đoán nhãn của một mẫu dựa trên các đặc trưng của nó. Naïve Bayes giả định rằng các đặc trưng là độc lập, điều này giúp đơn giản hóa quá trình tính toán. Mặc dù giả định này không hoàn toàn chính xác trong thực tế, nhưng thuật toán vẫn cho kết quả tốt trong nhiều trường hợp. Việc áp dụng Naïve Bayes trong phân loại thư rác cho phép xác định khả năng một email là thư rác dựa trên các từ khóa xuất hiện trong nội dung. Nghiên cứu cho thấy rằng Naïve Bayes có thể đạt được độ chính xác cao trong việc phân loại, đặc biệt khi được kết hợp với các kỹ thuật tiền xử lý dữ liệu như loại bỏ từ dừng và stemming.

2.2. Phương pháp SVM

SVM là một trong những thuật toán mạnh mẽ nhất trong học máy và được sử dụng rộng rãi trong phân loại thư rác. SVM tìm kiếm siêu phẳng tối ưu để phân chia các lớp dữ liệu, giúp tối đa hóa khoảng cách giữa các lớp. Điều này làm cho SVM rất hiệu quả trong việc xử lý các bài toán phân loại phức tạp, đặc biệt là khi dữ liệu không tuyến tính. SVM cũng có khả năng xử lý tốt các trường hợp có nhiều chiều, điều này rất quan trọng trong bối cảnh phân loại thư rác khi mà các đặc trưng có thể rất đa dạng. Việc sử dụng SVM trong phân loại thư rác đã cho thấy sự cải thiện đáng kể về độ chính xác so với các phương pháp truyền thống. Nghiên cứu cho thấy rằng SVM có thể phát hiện các mẫu thư rác mới một cách hiệu quả, từ đó bảo vệ người dùng khỏi những mối đe dọa tiềm ẩn.

III. Cài đặt thử nghiệm và đánh giá thuật toán

Chương này trình bày quy trình cài đặt và thử nghiệm các thuật toán học máy trong việc phân loại thư rác. Đầu tiên, việc lựa chọn bộ dữ liệu thử nghiệm là rất quan trọng. Bộ dữ liệu này cần phải đại diện cho các loại thư rác và thư hợp lệ khác nhau. Sau khi thu thập dữ liệu, các bước tiền xử lý như loại bỏ từ dừng, stemming và vector hóa cần được thực hiện để chuẩn bị cho quá trình huấn luyện. Việc cài đặt các thuật toán như Naïve Bayes và SVM được thực hiện trong môi trường lập trình Python, sử dụng các thư viện như Scikit-learn. Kết quả thử nghiệm cho thấy rằng cả hai thuật toán đều đạt được độ chính xác cao trong việc phân loại. Đặc biệt, SVM cho thấy hiệu suất vượt trội trong việc phát hiện các mẫu thư rác mới. Đánh giá kết quả được thực hiện thông qua các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu, từ đó đưa ra những nhận định về hiệu quả của từng thuật toán.

3.1. Bộ dữ liệu thử nghiệm

Bộ dữ liệu thử nghiệm là yếu tố quyết định đến hiệu quả của các thuật toán học máy trong phân loại thư rác. Bộ dữ liệu này cần phải bao gồm các mẫu thư rác và thư hợp lệ với số lượng đủ lớn để đảm bảo tính đại diện. Việc phân chia dữ liệu thành các tập huấn luyện và kiểm tra cũng rất quan trọng. Tập huấn luyện sẽ được sử dụng để huấn luyện mô hình, trong khi tập kiểm tra sẽ được sử dụng để đánh giá hiệu suất của mô hình. Các mẫu trong bộ dữ liệu cần phải được gán nhãn chính xác để đảm bảo rằng quá trình huấn luyện diễn ra hiệu quả. Nghiên cứu cho thấy rằng việc sử dụng các bộ dữ liệu công khai như Enron hay SpamAssassin có thể giúp tăng cường độ chính xác của các mô hình phân loại. Điều này cho phép các nhà nghiên cứu và phát triển có thể so sánh kết quả của mình với các nghiên cứu trước đó.

3.2. Kết quả thử nghiệm và đánh giá

Kết quả thử nghiệm cho thấy rằng cả Naïve Bayes và SVM đều đạt được độ chính xác cao trong việc phân loại thư rác. Cụ thể, Naïve Bayes đạt độ chính xác khoảng 90%, trong khi SVM có thể đạt đến 95%. Điều này cho thấy SVM có khả năng phát hiện các mẫu thư rác mới một cách hiệu quả hơn. Đánh giá kết quả được thực hiện thông qua các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu. Độ nhạy cho thấy khả năng phát hiện thư rác, trong khi độ đặc hiệu cho thấy khả năng nhận diện thư hợp lệ. Kết quả cho thấy rằng việc áp dụng các thuật toán học máy có giám sát trong phân loại thư rác không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý cho người dùng. Điều này có ý nghĩa thực tiễn lớn trong việc bảo vệ người dùng khỏi các mối đe dọa từ thư rác.

25/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ phân loại thư rác bằng phương pháp học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh Internet phát triển mạnh mẽ, dịch vụ thư điện tử (Email) trở thành phương tiện giao tiếp phổ biến và tiện lợi. Tuy nhiên, sự gia tăng nhanh chóng của thư rác (spam) đã trở thành một vấn nạn nghiêm trọng, chiếm tới khoảng 66,9% tổng lưu lượng thư điện tử trong quý 3 năm 2014 theo báo cáo của Kaspersky Lab. Tỷ lệ thư rác tại Việt Nam đứng thứ ba thế giới với 6% nguồn phát tán, chỉ sau Mỹ và Nga. Thư rác không chỉ gây phiền hà cho người dùng mà còn tiềm ẩn nguy cơ mất an toàn thông tin cá nhân, lây lan virus và làm tốn kém tài nguyên mạng.

Trước thực trạng này, việc phát triển các hệ thống phân loại thư rác hiệu quả là rất cần thiết. Mục tiêu nghiên cứu của luận văn là ứng dụng các phương pháp học máy có giám sát, cụ thể là thuật toán Naïve Bayes và Support Vector Machine (SVM), để xây dựng mô hình phân loại thư rác chính xác và hiệu quả. Nghiên cứu tập trung vào việc tiền xử lý dữ liệu, biểu diễn nội dung thư dưới dạng vector, huấn luyện và đánh giá mô hình trên bộ dữ liệu thực tế thu thập trong khoảng thời gian gần đây. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao chất lượng dịch vụ thư điện tử, giảm thiểu tác hại của thư rác đối với người dùng và các nhà cung cấp dịch vụ Internet.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng của trí tuệ nhân tạo (AI) và học máy (Machine Learning), trong đó tập trung vào học máy có giám sát (supervised learning). Hai thuật toán chính được nghiên cứu là:

Naïve Bayes (NB): Dựa trên định lý Bayes với giả định các đặc trưng đầu vào độc lập có điều kiện, NB tính xác suất một thư thuộc lớp spam hoặc không spam dựa trên tần suất xuất hiện của các từ khóa trong thư. Phương pháp này đơn giản, nhanh và cho độ chính xác tương đối cao.
Support Vector Machine (SVM): Thuật toán phân loại nhị phân dựa trên việc tìm siêu phẳng phân chia dữ liệu với lề cực đại trong không gian đặc trưng. SVM có khả năng tổng quát hóa tốt, phù hợp với các bài toán phân loại văn bản phức tạp như lọc thư rác.

Các khái niệm chính bao gồm: học máy có giám sát, mô hình túi từ (bag-of-words) để biểu diễn nội dung thư, xác suất có điều kiện, siêu phẳng phân loại, và hàm nhân kernel trong SVM.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là bộ dữ liệu thư điện tử thực tế, bao gồm cả thư rác và thư bình thường, được thu thập và tiền xử lý kỹ lưỡng. Quá trình nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Loại bỏ thẻ HTML, số, dấu câu, từ dừng (stop words) và sửa lỗi chính tả nhằm chuẩn hóa văn bản.
Biểu diễn dữ liệu: Sử dụng mô hình túi từ để chuyển đổi nội dung thư thành vector đặc trưng, với các phần tử biểu thị tần suất hoặc sự xuất hiện của từ khóa.
Huấn luyện mô hình: Áp dụng thuật toán Naïve Bayes và SVM trên tập huấn luyện với cỡ mẫu khoảng vài nghìn thư, sử dụng phương pháp chọn mẫu ngẫu nhiên có kiểm soát để đảm bảo tính đại diện.
Đánh giá mô hình: Sử dụng tập kiểm tra độc lập để đo lường độ chính xác, độ nhạy, độ đặc hiệu và F1-score của các mô hình. Thời gian nghiên cứu kéo dài trong khoảng 6 tháng, từ thu thập dữ liệu đến hoàn thiện mô hình.

Phương pháp phân tích chủ yếu là phân tích thống kê mô tả và so sánh hiệu năng các thuật toán qua các chỉ số đánh giá tiêu chuẩn trong học máy.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại của Naïve Bayes: Thuật toán NB đạt độ chính xác trung bình khoảng 85% trên bộ dữ liệu thử nghiệm, với độ nhạy 82% và độ đặc hiệu 88%. Mô hình này xử lý nhanh, phù hợp với các hệ thống cần phản hồi tức thì.
Hiệu quả phân loại của SVM: SVM cho kết quả vượt trội hơn với độ chính xác lên tới 92%, độ nhạy 90% và độ đặc hiệu 94%. Tuy nhiên, thời gian huấn luyện và phân loại lâu hơn NB khoảng 30%, do tính toán phức tạp hơn.
Ảnh hưởng của tiền xử lý dữ liệu: Việc loại bỏ từ dừng và chuẩn hóa văn bản giúp tăng độ chính xác phân loại lên khoảng 5-7% so với dữ liệu thô, cho thấy tầm quan trọng của bước tiền xử lý.
Biểu diễn nội dung thư: Mô hình túi từ với biến nhị phân (0 hoặc 1 biểu thị sự xuất hiện của từ) cho kết quả phân loại tương đương hoặc tốt hơn so với mô hình đếm tần suất từ, đồng thời giảm thiểu độ phức tạp tính toán.

Thảo luận kết quả

Kết quả cho thấy SVM là phương pháp ưu việt trong phân loại thư rác nhờ khả năng tìm siêu phẳng phân chia dữ liệu tối ưu, phù hợp với các tập dữ liệu có đặc trưng phức tạp và đa chiều. Tuy nhiên, NB vẫn là lựa chọn hợp lý cho các hệ thống yêu cầu tốc độ xử lý nhanh và tài nguyên hạn chế.

So sánh với các nghiên cứu trong ngành, kết quả này tương đồng với báo cáo của các tổ chức bảo mật lớn, khẳng định tính ứng dụng thực tiễn của hai thuật toán. Biểu đồ so sánh độ chính xác và thời gian xử lý giữa NB và SVM có thể minh họa rõ nét sự khác biệt về hiệu năng và chi phí tính toán.

Ngoài ra, việc áp dụng kỹ thuật tiền xử lý và biểu diễn dữ liệu phù hợp đóng vai trò then chốt trong việc nâng cao hiệu quả phân loại, đồng thời giảm thiểu sai số do ngôn ngữ tự nhiên phức tạp gây ra.

Đề xuất và khuyến nghị

Triển khai hệ thống lọc thư rác dựa trên SVM: Đề xuất các nhà cung cấp dịch vụ email áp dụng mô hình SVM để nâng cao độ chính xác lọc thư rác, giảm thiểu rủi ro mất dữ liệu và lừa đảo. Thời gian triển khai dự kiến 6-9 tháng.
Tối ưu bước tiền xử lý dữ liệu: Khuyến nghị phát triển các công cụ tự động loại bỏ từ dừng, chuẩn hóa ngôn ngữ và sửa lỗi chính tả nhằm cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu quả phân loại.
Kết hợp mô hình đa thuật toán: Đề xuất xây dựng hệ thống kết hợp NB và SVM theo cơ chế đa mô hình (ensemble) để tận dụng ưu điểm của từng thuật toán, tăng tính linh hoạt và độ chính xác tổng thể.
Đào tạo và nâng cao nhận thức người dùng: Khuyến khích tổ chức các chương trình đào tạo, hướng dẫn người dùng nhận biết và xử lý thư rác, giảm thiểu nguy cơ bị lừa đảo và mất an toàn thông tin.
Nghiên cứu mở rộng: Khuyến nghị tiếp tục nghiên cứu các thuật toán học máy mới như mạng nơ-ron sâu (Deep Learning) và học tăng cường để cải thiện khả năng phát hiện thư rác tinh vi trong tương lai.

Đối tượng nên tham khảo luận văn

Các nhà phát triển phần mềm và kỹ sư AI: Có thể ứng dụng các thuật toán và phương pháp tiền xử lý trong phát triển bộ lọc thư rác hoặc các hệ thống phân loại văn bản tương tự.
Các nhà cung cấp dịch vụ Internet (ISP) và Email Service Provider (ESP): Sử dụng kết quả nghiên cứu để nâng cao chất lượng dịch vụ, giảm thiểu thư rác và bảo vệ người dùng.
Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Tham khảo để hiểu sâu về ứng dụng học máy trong xử lý ngôn ngữ tự nhiên và phân loại văn bản.
Cơ quan quản lý và chính sách công: Dựa trên kết quả để xây dựng các chính sách, quy định về chống thư rác và bảo vệ người dùng Internet.

Câu hỏi thường gặp

Phân loại thư rác bằng học máy có ưu điểm gì so với phương pháp truyền thống?
Học máy tự động học từ dữ liệu, thích nghi với các mẫu thư rác mới, giảm thiểu sai sót so với các bộ lọc dựa trên quy tắc cứng nhắc.
Tại sao chọn Naïve Bayes và SVM làm thuật toán chính?
Naïve Bayes đơn giản, nhanh và hiệu quả với dữ liệu lớn; SVM có độ chính xác cao và khả năng tổng quát hóa tốt, phù hợp với bài toán phân loại phức tạp.
Mô hình túi từ có nhược điểm gì?
Bỏ qua thứ tự và ngữ cảnh của từ trong văn bản, có thể làm mất thông tin ngữ nghĩa quan trọng, nhưng vẫn được sử dụng phổ biến do tính đơn giản và hiệu quả.
Làm thế nào để cải thiện độ chính xác của bộ lọc thư rác?
Cải tiến bước tiền xử lý, lựa chọn đặc trưng phù hợp, kết hợp nhiều thuật toán và cập nhật mô hình thường xuyên với dữ liệu mới.
Có thể áp dụng kết quả nghiên cứu cho các loại thư rác khác ngoài email không?
Có, các phương pháp học máy và biểu diễn dữ liệu có thể mở rộng cho SMS, tin nhắn mạng xã hội và các hình thức truyền thông khác.

Kết luận

Luận văn đã xây dựng và đánh giá thành công mô hình phân loại thư rác dựa trên hai thuật toán học máy có giám sát là Naïve Bayes và SVM.
SVM cho độ chính xác phân loại cao hơn (khoảng 92%) so với Naïve Bayes (khoảng 85%), nhưng chi phí tính toán lớn hơn.
Tiền xử lý dữ liệu và biểu diễn nội dung thư dưới dạng túi từ là bước then chốt giúp nâng cao hiệu quả phân loại.
Kết quả nghiên cứu có thể ứng dụng thực tiễn trong các hệ thống lọc thư rác của nhà cung cấp dịch vụ Internet và email.
Đề xuất tiếp tục nghiên cứu mở rộng, áp dụng các thuật toán học máy tiên tiến và phát triển hệ thống đa mô hình để nâng cao khả năng phát hiện thư rác trong tương lai.

Các tổ chức và cá nhân quan tâm nên triển khai thử nghiệm mô hình trên dữ liệu thực tế, đồng thời cập nhật và tối ưu liên tục để thích ứng với sự biến đổi của thư rác.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 1. Tổng quan về ho ̣c máy 1.1 Trí tuê ̣ nhân tạo Trước đây, mỗi khi nói đến Trí tuệ nhân tạo (TTNT) người ta thường quan tâm đến việc tạo lập các máy tính có khả năng “suy nghĩ”, thậm chí trong một số phạm vi hẹp nào đó, có thể cạnh tranh hoặc vượt quá khả năng của bộ não con người. Những hy vọng này trong một thời gian dài đã ảnh hưởng rất nhiều đến các nghiên cứu trong phòng thí nghiệm. Mặc dù những mô hình tương tự các máy tính thông minh đã được đưa ra hàng nhiều năm trước, nhưng chỉ từ khi Alan Turing công bố những kết quả nghiên cứu quan trọng đầu tiên, người ta mới bắt đầu thực sự nghiên cứu đến các vấn đề TTNT một cách nghiêm túc.

Phát hiện của Turing cho rằng chương trình có thể được lưu trữ trong bộ nhớ để sau đó được thực hiện trên cơ sở các phép toán cơ bản thao tác với các bit 0, 1. Điều này đã tạo nên nền tảng của những máy tính hiện đại. Việc lưu trữ chương trình trong máy cho phép thay đổi chức năng của nó một cách nhanh chóng và dễ dàng thông qua việc nạp một chương trình mới vào bộ nhớ. Theo một nghĩa nào đó, khả năng này làm cho máy tính có khả năng học và suy nghĩ.

Đó cũng chính là một trong những biểu hiện quan trọng đầu tiên của những máy tính được trang bị TTNT. Trí tuệ nhân tạo (AI) là lĩnh vực khoa học chuyên nghiên cứu các phương pháp chế tạo trí tuệ máy sao cho giống như trí tuệ con người. [4] Vài định nghĩa của trí tuệ nhân tạo điển hình là:  Hệ thống mà biết suy nghĩ như con người  Hệ thống mà biết hành động như con người Để hệ thống mà biết suy nghĩ và hành động như con người thì hệ thống đó phải được trang bị các công cụ như thính giác, tri thức, lý giải tự động, việc học, thị giác và di chuyển giống như con người. Thông thường, cách giải quyết vấn đề của con người được thể hiện qua bốn thao tác cơ bản đó là: luan an 4 1.

Xác định tập hợp của các đích 2. Thu thập các sự kiện và luật suy diễn 3. Cơ chế tập trung 4. Bộ máy suy diễn Như vậy, trí tuệ máy là các khả năng giải quyết vấn đề của máy, cần thỏa mãn: 1.

Hành động giống như con người. Suy nghĩ giống như con người. Học giống như con người. Xử lý thông tin giống như con người.

Hành động và suy nghĩ trên cơ sở logic và chính xác. Ứng dụng của trí tuệ nhân tạo có trong nhiều ngành kinh tế : 1. Điều khiển học, Robotic, giao diện người máy thông minh 2. Trò chơi máy tính 3.

Thiết bị điện tử thông minh nhờ sử dụng lôgic mờ 4. Hệ chuyên gia trong: giáo dục, y khoa, địa chất, quản lý,. Xử lý ngôn ngữ tự nhiên 6. Nhận dạng hình ảnh, âm thanh 7.

Các hệ thống xử lý tri thức và dữ liệu tích hợp: cho phép xử lý đồng thời tri thức và dữ liệu (cơ sở dữ liệu suy diễn, biểu diễn luật đối tượng, hệ hỗ trợ quyết định) 8. Mô hình hóa các giải pháp bài toán 1. Học máy Con người có nhiề u cách ho ̣c như ho ̣c ký ức, ho ̣c các sự kiê ̣n,. thông qua sự quan sát và thăm dò, ho ̣c cải thiê ̣n kỹ xảo thông qua thực tiễn, ho ̣c qua sự phát triể n của hê ̣ thầ n kinh sinh ho ̣c con người, hoă ̣c ho ̣c qua gen di truyề n từ các thế hê ̣ trước.

luan an 5 Dù với cách ho ̣c nào đi nữa, mu ̣c tiêu của viê ̣c ho ̣c chính là thu thâ ̣p tri thức mới, sau đó xử lý tri thức này sao cho thić h nghi đươ ̣c với các tình huố ng, sự kiê ̣n mới. Giố ng với cách ho ̣c của đó, con người cũng muố n xây dựng các chương trình ho ̣c cho máy tính sao cho máy có khả năng thu thâ ̣p tri thức mới, từ đó xử lý tri thức để thích nghi đươ ̣c với các tiǹ h huố ng cu ̣ thể. Đó là lý do ta ̣i sao kỹ thuâ ̣t ho ̣c máy đang càng ngày càng trở thành mố i quan tâm lớn của ngành khoa ho ̣c máy tính hiện nay. Ho ̣c máy là một lĩnh vực của trí tuệ nhân ta ̣o liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học".

Ho ̣c máy được xem là phương pháp tạo ra các chương trình máy tin ́ h sử dụng kinh nghiê ̣m, quan sát hoă ̣c dữ liê ̣u trong quá khứ để cải thiê ̣n công viê ̣c của mình trong tương lai. Chẳ ng ha ̣n, máy tính có thể học cách dự đoán dựa trên các mẫu, các ví dụ, hay học cách tạo ra các hành vi phù hợp dựa trên quan sát trong quá khứ. Xét một ví dụ là học cách đánh cờ. Chương triǹ h có thể quan sát các ván cờ nhằ m cải thiê ̣n khả năng chơi cờ với mu ̣c đích tăng số ván thắ ng trong tương lai.

Trong trường hợp này, kinh nghiê ̣m được sử du ̣ng để “ho ̣c” cách làm tốt hơn trong công viê ̣c chơi cờ với tiêu chí đánh giá là số ván thắ ng. Các kĩ thuật học máy Việc sử dụng những da ̣ng kinh nghiê ̣m và dạng biể u diễn khác nhau sẽ dẫn tới những kĩ thuật học máy khác nhau. Tuy nhiên chủ yếu, ho ̣c máy đươ ̣c phân thành 3 loa ̣i chính: 1. Học có giám sát Với cách học này, kinh nghiệm đươ ̣c cho một cách tường minh dưới dạng đầu vào và đầu ra của hàm đích, ví du ̣ cho trước tâ ̣p các mẫu cùng nhañ phân loa ̣i tương ứng.

Ho ̣c có giám sát bao gồ m phân loại và hồi quy; trong đó phân loa ̣i là dạng học có giám sát với hàm đích nhâ ̣n giá tri ̣ rời ra ̣c và hồ i quy là ho ̣c có giám sát với hàm đích nhận giá tri ̣ liên tu ̣c. Sơ đồ một hê ̣ thố ng ho ̣c máy điể n hin ̀ h trong trường hơ ̣p ho ̣c có giám sát (phân loa ̣i) được thể hiê ̣n như trên hin ̀ h sau. luan an 6 Thí dụ mới (chưa gán nhãn) Các thí dụ Các thu t Hàm đích Nhãn phân huấn luyện t án học máy l ại (có nhãn) Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trường hợp phân loại 1. Học không có giám sát Ngươ ̣c với ho ̣c có giám sát, ho ̣c không giám sát là cách ho ̣c mà kinh nghiê ̣m chỉ gồ m các mẫu và không có nhañ hoă ̣c giá tri ̣ hàm đích đi kèm.

Ví du ̣ chỉ bằ ng quan sát thông thường về cân nă ̣ng của mo ̣i người, dầ n dầ n ta ho ̣c đươ ̣c khái niê ̣m “người béo”, “người bình thường” và “người gầ y”. Hai dạng học không giám sát phổ biế n nhấ t là phân cu ̣m và ho ̣c luâ ̣t kế t hơ ̣p. Trong trường hơ ̣p phân cụm, các đố i tượng được phân chia thành mô ̣t số nhóm sao cho mỗi nhóm gồ m những đố i tươ ̣ng giố ng nhau và khác đố i tượng ở nhóm khác. Học luật kết hợp là cách phát hiê ̣n những đố i tươ ̣ng hoă ̣c giá tri ̣ thuô ̣c tin ́ h thường xuất hiện cùng nhau, ví du ̣ những mă ̣t hàng thường xuyên đươ ̣c mua cùng nhau (bánh mì và sữa).

Học nửa giám sát Học nửa giám sát là việc học có kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp. Học tăng cường Đối với da ̣ng ho ̣c này, kinh nghiê ̣m không đươ ̣c cho trực tiế p dưới da ̣ng đầ u vào/ đầu ra. Thay vào đó, hê ̣ thống nhâ ̣n đươ ̣c một giá tri ̣tăng cường là kế t quả cho một chuỗi hành động nào đó. Thuâ ̣t toán cầ n ho ̣c cách hành đô ̣ng để cực đa ̣i hóa giá tri ̣ tăng cường.

Ví du ̣ của ho ̣c tăng cường là ho ̣c đánh cờ, trong đó hệ thố ng không được chỉ dẫn nước đi nào là hơ ̣p lý cho từng tình huố ng mà chỉ biết kế t quả toàn ván cờ. Như vâ ̣y, các chỉ dẫn về nước đi đươ ̣c học một cách gián tiế p và có đô ̣ trễ dưới da ̣ng giá tri ̣thưởng. Một số ứng dụng của học máy Học máy có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ. Cụ thể một số ứng dụng thường thấy như: 1.

Xử lý ngôn ngữ tự nhiên: xử lý văn bản, giao tiếp người – máy, … 2. Nhận dạng : nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy () … 3. Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động. Lo ̣c thư rác, phân loa ̣i văn bản: Là dựa trên nô ̣i dung thư điê ̣n tử, chia thư thành loại “thư rác (thư không có giá tri)” ̣ hay “thư bình thường (thư có giá tri)”; ̣ hoă ̣c phân chia tin tức thành các thể loa ̣i khác nhau như “xã hô ̣i”, “kinh tế ”, “thể thao”,… 6.

Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein 7. Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt … 8. Phát hiện gian lận tài chính : gian lận thẻ tỉn dụng 9. Dự đoán chỉ số thị trường: Là căn cứ giá tri ̣ mô ̣t vài tham số hiê ̣n thời hoă ̣c trong quá khứ để đưa ra dự đoán, chẳ ng ha ̣n dự đoán giá chứng khoán, giá vàng,… Ngoài những ứng dụng có da ̣ng phân loại hoă ̣c hồ i quy mô ̣t cách tường minh ở trên, học máy có thể dùng trong rấ t nhiề u ứng du ̣ng đòi hỏi ra quyế t định hoă ̣c hành đô ̣ng một cách thông minh.

Việc học Học có giám sát là một kỹ thuật của ngành học máy để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào (thường dạng vec tơ) và đầu ra thực sự. Đầu ra của một hàm có thể là một giá trị liên tục luan an 8 (gọi là hồi quy), hay có thể là dự đoán một nhãn phân lớp cho một đối tượng đầu vào (gọi là phân lớp).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ của Phạm Thị Kim Dung về phân loại thư rác bằng phương pháp học máy là một nghiên cứu quan trọng trong lĩnh vực khoa học máy tính, đặc biệt là trong việc ứng dụng học máy để nhận diện và phân loại thư rác. Luận án này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật học máy hiện đại mà còn đưa ra các phương pháp cụ thể để cải thiện khả năng phát hiện thư rác, từ đó giúp nâng cao hiệu quả của các hệ thống lọc thư điện tử. Độc giả sẽ tìm thấy nhiều lợi ích từ việc áp dụng các phương pháp này trong thực tiễn, đặc biệt là trong việc bảo vệ người dùng khỏi các mối đe dọa từ thư rác.

Để mở rộng thêm kiến thức về các ứng dụng của học máy trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo thêm các tài liệu liên quan như Nghiên cứu ứng dụng học máy trong sửa lỗi tự động các lỗ hổng bảo mật, nơi mà học máy được áp dụng để cải thiện bảo mật hệ thống. Bên cạnh đó, Cài đặt và thực nghiệm SQLCipher trên hệ điều hành Android cho luận văn thạc sĩ cũng là một tài liệu hữu ích, giúp bạn hiểu rõ hơn về việc bảo mật dữ liệu trong ứng dụng di động. Cuối cùng, Luận Văn Thạc Sĩ Về Ngăn Chặn Lan Truyền Thông Tin Xấu Trên Mạng Xã Hội sẽ cung cấp thêm góc nhìn về việc sử dụng công nghệ để bảo vệ thông tin trên mạng xã hội. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về ứng dụng của học máy trong các lĩnh vực khác nhau.

#Dữ liệu lớn

#xử lý ngôn ngữ tự nhiên

#luận án tiến sĩ

#thuật toán học máy

#phân loại thư rác

Chủ đề

Công nghệ thông tin

Nghiên cứu và phát triển trong lĩnh vực công nghệ

Học máy và trí tuệ nhân tạo

Luận án tiến sĩ về phân loại thư rác bằng phương pháp học máy

LỜI CAM KẾT

LỜI CẢM ƠN

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC

1.1. Tổng quan về học máy

1.1.1. Trí tuệ nhân tạo

1.1.2. Một số ứng dụng của học máy

1.2. Tổng quan về thư rác

1.2.1. Định nghĩa về thư rác và các đặc trưng của thư rác

1.2.2. Phân loại thư rác

1.2.3. Đặc điểm thư rác

1.2.4. Tác hại của thư rác

1.2.5. Quy trình và thủ đoạn gửi thư rác

1.2.6. Biểu diễn phân loại thư rác dựa trên học máy có giám sát

1.2.7. Nhu cầu phân loại thư rác

1.2.8. Cách biểu diễn nội dung thư rác

1.2.9. Kết luận chương

2. PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT

2.1. Thuật toán Naïve Bayes

2.1.1. Giới thiệu Thuật toán Naïve Bayes

2.1.2. Mô tả thuật toán

2.1.3. Áp dụng trong phân loại thư rác

2.2. Học máy theo phương pháp máy vec tơ tựa SVM

2.2.1. Giới thiệu SVM

2.2.2. Mô tả thuật toán

2.2.3. Huấn luyện SVM

2.2.4. Ứng dụng trong phân loại thư rác

2.3. Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát

2.3.1. Lựa chọn mô hình và thuật toán

2.3.2. Xây dựng hệ thống

2.3.3. Kết luận chương

3. CÀI ĐẶT THỬ NGHIỆM VIỆC PHÂN LOẠI THƯ RÁC

3.1. Bài toán phân loại thư rác

3.2. Cài đặt thử nghiệm và kết quả

3.2.1. Bộ dữ liệu thử nghiệm

3.2.2. Môi trường cài đặt

3.2.3. Giao diện của chương trình thử nghiệm

3.2.4. Kết quả thử nghiệm

3.2.5. Đánh giá thử nghiệm

3.3. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

I. Tổng quan về học máy và thư rác

1.1. Trí tuệ nhân tạo và ứng dụng của học máy

II. Phân loại thư rác bằng một số thuật toán học máy có giám sát

2.1. Thuật toán Naïve Bayes

2.2. Phương pháp SVM

III. Cài đặt thử nghiệm và đánh giá thuật toán

3.1. Bộ dữ liệu thử nghiệm

3.2. Kết quả thử nghiệm và đánh giá

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phạm Thị Kim Dung

Người hướng dẫn: PGS. TS Đỗ Trung Tuấn

Trường học: Đại học Thái Nguyên

Chuyên ngành: Khoa học máy tính

Đề tài: Phân loại thư rác bằng học máy

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2015

Địa điểm: Thái Nguyên

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm