Luận văn thạc sĩ về phân loại thư rác bằng phương pháp học máy

Luận văn thạc sĩ phân tích hay phân loại thư rác bằng phương pháp học máy, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM KẾT

LỜI CẢM ƠN

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC

1.1. Tổng quan về học máy

1.2. Trí tuệ nhân tạo

1.3. Một số ứng dụng của học máy

1.4. Tổng quan về thư rác

1.5. Định nghĩa về thư rác và các đặc trưng của thư rác

1.6. Phân loại thư rác

1.7. Đặc điểm thư rác

1.8. Tác hại của thư rác

1.9. Quy trình và thủ đoạn gửi thư rác

1.10. Biểu diễn phân loại thư rác dựa trên học máy có giám sát

1.11. Nhu cầu phân loại thư rác

1.12. Cách biểu diễn nội dung thư rác

1.13. Kết luận chương

2. CHƯƠNG 2: PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC MÁY CÓ GIÁM SÁT

2.1. Thuật toán Naïve Bayes

2.1.1. Giới thiệu Thuật toán Naïve Bayes

2.1.2. Mô tả thuật toán

2.1.3. Áp dụng trong phân loại thư rác

2.2. Học máy theo phương pháp máy vectơ tựa SVM

2.2.1. Giới thiệu SVM

2.2.2. Mô tả thuật toán

2.2.3. Huấn luyện SVM

2.2.4. Ứng dụng trong phân loại thư rác

2.3. Xây dựng mô hình lọc thư rác dựa trên học máy có giám sát

2.3.1. Lựa chọn mô hình và thuật toán

2.3.2. Xây dựng hệ thống

2.4. Kết luận chương

3. CHƯƠNG 3: CÀI ĐẶT, THỬ NGHIỆM VÀ ĐÁNH GIÁ THUẬT TOÁN

3.1. Bài toán phân loại thư rác

3.2. Cài đặt thử nghiệm và kết quả

3.2.1. Bộ dữ liệu thử nghiệm

3.2.2. Môi trường cài đặt

3.2.3. Giao diện của chương trình thử nghiệm

3.2.4. Kết quả thử nghiệm

3.2.5. Đánh giá thử nghiệm

3.3. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phân loại thư rác bằng học máy

Phân loại thư rác bằng học máy là một trong những giải pháp hiệu quả nhất hiện nay để xử lý vấn đề thư rác. Với sự gia tăng nhanh chóng của lượng thư điện tử, việc phân loại chính xác giữa thư rác và thư hợp lệ trở nên cần thiết. Học máy cung cấp các phương pháp tự động hóa quy trình này, giúp tiết kiệm thời gian và nâng cao hiệu quả. Nghiên cứu cho thấy rằng việc áp dụng các thuật toán học máy có thể giảm thiểu đáng kể tỷ lệ thư rác trong hộp thư đến.

1.1. Định nghĩa và đặc trưng của thư rác

Thư rác, hay còn gọi là spam, là những thông điệp không mong muốn được gửi đến người dùng qua email. Đặc trưng của thư rác bao gồm nội dung quảng cáo, lừa đảo hoặc thông tin không liên quan. Việc nhận diện thư rác dựa trên các yếu tố như từ khóa, địa chỉ gửi và cấu trúc nội dung.

1.2. Tác hại của thư rác đối với người dùng

Thư rác không chỉ làm mất thời gian của người dùng mà còn có thể gây ra các vấn đề nghiêm trọng như lừa đảo thông tin cá nhân. Theo báo cáo của Kaspersky Lab, tỷ lệ thư rác trong lưu lượng email đã tăng lên 66,9%, cho thấy mức độ nghiêm trọng của vấn đề này.

II. Thách thức trong việc phân loại thư rác

Mặc dù có nhiều phương pháp phân loại thư rác, nhưng vẫn tồn tại nhiều thách thức trong việc phát hiện và ngăn chặn thư rác. Các thuật toán học máy cần phải được tối ưu hóa để có thể nhận diện các mẫu thư rác mới và tinh vi. Hơn nữa, những kẻ gửi thư rác thường xuyên thay đổi chiến thuật, khiến cho việc phát hiện trở nên khó khăn hơn.

2.1. Sự thay đổi liên tục của các phương pháp gửi thư rác

Các phương pháp gửi thư rác ngày càng trở nên tinh vi hơn, từ việc sử dụng các kỹ thuật lừa đảo đến việc giả mạo địa chỉ gửi. Điều này đòi hỏi các hệ thống phân loại phải liên tục cập nhật và cải tiến.

2.2. Khó khăn trong việc thu thập dữ liệu huấn luyện

Việc thu thập dữ liệu huấn luyện chất lượng cao cho các mô hình học máy là một thách thức lớn. Dữ liệu không đầy đủ hoặc không chính xác có thể dẫn đến việc phân loại sai, làm giảm hiệu quả của hệ thống.

III. Phương pháp học máy trong phân loại thư rác

Có nhiều phương pháp học máy được áp dụng trong việc phân loại thư rác, trong đó nổi bật nhất là thuật toán Naïve Bayes và Support Vector Machine (SVM). Những phương pháp này đã chứng minh được hiệu quả trong việc phân loại chính xác thư rác và thư hợp lệ.

3.1. Thuật toán Naïve Bayes trong phân loại thư rác

Naïve Bayes là một trong những thuật toán phổ biến nhất trong phân loại thư rác. Nó dựa trên định lý Bayes và giả định rằng các đặc trưng là độc lập với nhau. Nghiên cứu cho thấy rằng Naïve Bayes có thể đạt được độ chính xác cao trong việc phân loại thư rác.

3.2. Sử dụng SVM để phân loại thư rác

Support Vector Machine (SVM) là một thuật toán mạnh mẽ trong học máy, được sử dụng để phân loại thư rác. SVM tìm kiếm siêu phẳng tối ưu để phân chia các lớp dữ liệu, giúp cải thiện độ chính xác trong việc phát hiện thư rác.

IV. Ứng dụng thực tiễn của phân loại thư rác

Phân loại thư rác bằng học máy không chỉ giúp bảo vệ người dùng khỏi các thư không mong muốn mà còn có ứng dụng rộng rãi trong các lĩnh vực khác nhau. Các hệ thống phân loại thư rác đã được triển khai thành công trong nhiều dịch vụ email lớn, giúp cải thiện trải nghiệm người dùng.

4.1. Hệ thống lọc thư rác trong dịch vụ email

Nhiều dịch vụ email hiện nay đã tích hợp các hệ thống lọc thư rác dựa trên học máy. Những hệ thống này giúp tự động phân loại và chuyển thư rác vào thư mục riêng, giảm thiểu sự phiền toái cho người dùng.

4.2. Nghiên cứu và phát triển các mô hình mới

Nghiên cứu về phân loại thư rác vẫn đang tiếp tục phát triển. Các nhà khoa học đang tìm kiếm các mô hình học máy mới và cải tiến để nâng cao hiệu quả phân loại, đồng thời giảm thiểu tỷ lệ sai sót.

V. Kết luận và tương lai của phân loại thư rác

Phân loại thư rác bằng học máy đã chứng minh được hiệu quả trong việc bảo vệ người dùng khỏi các thư không mong muốn. Tuy nhiên, với sự phát triển không ngừng của công nghệ, cần tiếp tục nghiên cứu và cải tiến các phương pháp phân loại để đối phó với các hình thức thư rác mới. Tương lai của phân loại thư rác sẽ phụ thuộc vào khả năng thích ứng của các thuật toán học máy với các thay đổi trong hành vi gửi thư rác.

5.1. Xu hướng phát triển trong công nghệ học máy

Công nghệ học máy đang phát triển nhanh chóng, với nhiều thuật toán mới được giới thiệu. Những xu hướng này có thể giúp cải thiện khả năng phân loại thư rác trong tương lai.

5.2. Tầm quan trọng của việc nâng cao nhận thức người dùng

Ngoài việc phát triển công nghệ, việc nâng cao nhận thức của người dùng về thư rác cũng rất quan trọng. Người dùng cần được trang bị kiến thức để nhận diện và xử lý thư rác một cách hiệu quả.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay phân loại thư rác bằng phương pháp học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh Internet phát triển mạnh mẽ, dịch vụ thư điện tử (Email) trở thành phương tiện giao tiếp phổ biến và hiệu quả. Tuy nhiên, sự gia tăng nhanh chóng của thư rác (spam) đã trở thành một vấn nạn nghiêm trọng, chiếm tới trung bình 66,9% lưu lượng thư trong quý 3 năm 2014 theo báo cáo của Kaspersky Lab. Thư rác không chỉ gây phiền hà cho người dùng mà còn tiềm ẩn nguy cơ mất an toàn thông tin cá nhân và thiệt hại kinh tế đáng kể. Việt Nam đứng thứ ba trong danh sách các quốc gia phát tán thư rác với tỷ lệ 6%, chỉ sau Mỹ và Nga. Trước thực trạng này, việc phát triển các hệ thống phân loại thư rác hiệu quả là cấp thiết nhằm bảo vệ người dùng và nâng cao chất lượng dịch vụ thư điện tử.

Mục tiêu nghiên cứu của luận văn là ứng dụng các phương pháp học máy có giám sát để phân loại thư rác, từ đó xây dựng mô hình lọc thư rác chính xác và hiệu quả. Nghiên cứu tập trung vào hai thuật toán tiêu biểu là Naïve Bayes và Support Vector Machine (SVM), đánh giá hiệu năng và khả năng ứng dụng trong thực tế. Phạm vi nghiên cứu bao gồm dữ liệu thư điện tử thu thập từ các nguồn thực tế, với các thử nghiệm được tiến hành trong môi trường phần mềm chuyên biệt tại Đại học Thái Nguyên. Kết quả nghiên cứu góp phần nâng cao hiệu quả lọc thư rác, giảm thiểu tác hại của spam, đồng thời cung cấp cơ sở khoa học cho các nhà phát triển hệ thống email và các nhà cung cấp dịch vụ Internet.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng của trí tuệ nhân tạo (AI) và học máy (Machine Learning), trong đó học máy được định nghĩa là lĩnh vực nghiên cứu các kỹ thuật cho phép máy tính học hỏi từ dữ liệu để cải thiện hiệu suất trong các nhiệm vụ cụ thể. Học máy được phân thành ba loại chính: học có giám sát, học không giám sát và học tăng cường. Nghiên cứu này tập trung vào học có giám sát, trong đó dữ liệu huấn luyện bao gồm các cặp mẫu đầu vào và nhãn phân loại.

Hai thuật toán học máy có giám sát được áp dụng là:

Naïve Bayes (NB): Dựa trên định lý Bayes với giả định các đặc trưng đầu vào độc lập có điều kiện, NB tính xác suất một thư thuộc lớp spam hoặc non-spam dựa trên tần suất xuất hiện của các từ khóa trong thư. Thuật toán này đơn giản, nhanh và cho độ chính xác tương đối cao trong phân loại văn bản.
Support Vector Machine (SVM): Thuật toán phân loại nhị phân dựa trên việc tìm siêu phẳng phân chia dữ liệu với lề cực đại trong không gian đặc trưng. SVM có khả năng tổng quát hóa tốt và thường cho kết quả phân loại chính xác hơn NB, đặc biệt với dữ liệu có kích thước lớn và phức tạp.

Các khái niệm chính bao gồm: tập huấn luyện, nhãn phân loại, đặc trưng (feature), mô hình phân loại, hàm mục tiêu, và thuật toán tối ưu.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là bộ dữ liệu thư điện tử thực tế, bao gồm cả thư rác và thư bình thường, được thu thập và xử lý tại Đại học Thái Nguyên. Cỡ mẫu khoảng vài nghìn thư, đảm bảo tính đại diện và đa dạng về nội dung. Phương pháp chọn mẫu là ngẫu nhiên có kiểm soát nhằm đảm bảo cân bằng giữa các lớp spam và non-spam.

Quy trình nghiên cứu gồm ba bước chính:

Tiền xử lý dữ liệu: Loại bỏ nhiễu như thẻ HTML, số, dấu câu, từ dừng (stop words) và chuẩn hóa văn bản. Biểu diễn nội dung thư dưới dạng vector đặc trưng theo mô hình "túi từ" (bag-of-words) với trọng số nhị phân hoặc tần suất xuất hiện từ.
Huấn luyện mô hình: Áp dụng thuật toán Naïve Bayes và SVM trên tập huấn luyện để xây dựng bộ phân loại. Tham số của mô hình được điều chỉnh qua kiểm chứng chéo (cross-validation) nhằm tối ưu hiệu suất.
Đánh giá mô hình: Thử nghiệm trên tập dữ liệu kiểm tra độc lập, đo lường các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu và F1-score. So sánh hiệu quả giữa hai thuật toán và phân tích kết quả.

Thời gian nghiên cứu kéo dài trong khoảng một năm, từ thu thập dữ liệu, xây dựng mô hình đến thử nghiệm và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại của Naïve Bayes: Thuật toán NB đạt độ chính xác trung bình khoảng 85% trên tập kiểm tra, với độ nhạy 82% và độ đặc hiệu 88%. Kết quả này cho thấy NB là phương pháp đơn giản nhưng hiệu quả trong việc nhận diện thư rác dựa trên đặc trưng từ khóa.
Hiệu quả phân loại của SVM: Thuật toán SVM cho độ chính xác cao hơn, đạt khoảng 92%, với độ nhạy 90% và độ đặc hiệu 94%. SVM thể hiện khả năng phân biệt tốt hơn giữa thư rác và thư thường, đặc biệt khi dữ liệu có nhiều đặc trưng phức tạp.
So sánh hai thuật toán: SVM vượt trội hơn NB về độ chính xác và khả năng tổng quát hóa, tuy nhiên chi phí tính toán và thời gian huấn luyện cao hơn đáng kể. NB phù hợp với các hệ thống yêu cầu xử lý nhanh và tài nguyên hạn chế.
Ảnh hưởng của tiền xử lý: Việc loại bỏ từ dừng và chuẩn hóa văn bản giúp cải thiện độ chính xác phân loại lên khoảng 5-7% so với dữ liệu thô, khẳng định tầm quan trọng của bước tiền xử lý trong hệ thống lọc thư rác.

Thảo luận kết quả

Nguyên nhân chính khiến SVM có hiệu quả cao hơn là do khả năng tìm siêu phẳng phân chia tối ưu trong không gian đặc trưng, tận dụng được mối quan hệ phức tạp giữa các đặc trưng từ nội dung thư. Trong khi đó, NB bị giới hạn bởi giả định độc lập điều kiện giữa các từ, dẫn đến mất thông tin ngữ cảnh quan trọng.

Kết quả này phù hợp với các nghiên cứu trong ngành học máy và xử lý ngôn ngữ tự nhiên, nơi SVM thường được đánh giá cao trong các bài toán phân loại văn bản. Tuy nhiên, NB vẫn được ưa chuộng nhờ tính đơn giản và tốc độ xử lý nhanh, đặc biệt trong các ứng dụng thời gian thực.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác, độ nhạy và độ đặc hiệu của hai thuật toán, cũng như bảng tổng hợp các chỉ số đánh giá chi tiết. Điều này giúp minh họa rõ ràng ưu nhược điểm của từng phương pháp.

Đề xuất và khuyến nghị

Triển khai hệ thống lọc thư rác dựa trên SVM: Khuyến nghị các nhà cung cấp dịch vụ email áp dụng mô hình SVM để nâng cao hiệu quả lọc spam, đặc biệt trong các môi trường có tài nguyên tính toán đủ mạnh. Thời gian triển khai dự kiến 6-12 tháng.
Sử dụng Naïve Bayes cho hệ thống nhẹ: Đối với các ứng dụng yêu cầu xử lý nhanh, tài nguyên hạn chế như thiết bị di động hoặc hệ thống nhỏ, NB là lựa chọn phù hợp để đảm bảo tốc độ và độ chính xác chấp nhận được.
Tăng cường bước tiền xử lý dữ liệu: Đầu tư phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên nâng cao như chuẩn hóa chính tả, loại bỏ từ dừng, và biểu diễn đặc trưng nâng cao để cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu quả phân loại.
Cập nhật và huấn luyện mô hình định kỳ: Do thư rác liên tục biến đổi về nội dung và thủ đoạn, cần xây dựng quy trình thu thập dữ liệu mới và huấn luyện lại mô hình định kỳ (6 tháng/lần) để duy trì hiệu quả lọc.
Phối hợp với các biện pháp bảo mật khác: Kết hợp hệ thống lọc thư rác với các giải pháp bảo mật mạng, phát hiện phishing và mã độc để tăng cường bảo vệ người dùng toàn diện.

Đối tượng nên tham khảo luận văn

Các nhà phát triển phần mềm email và hệ thống lọc spam: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về hai thuật toán học máy phổ biến, giúp họ lựa chọn và triển khai giải pháp phù hợp.
Các nhà cung cấp dịch vụ Internet (ISP) và Email Service Provider (ESP): Thông tin về đặc điểm thư rác và phương pháp phân loại giúp họ nâng cao chất lượng dịch vụ, giảm thiểu tác hại của spam đối với khách hàng.
Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo: Luận văn là tài liệu tham khảo quý giá về ứng dụng học máy trong xử lý ngôn ngữ tự nhiên và phân loại văn bản.
Các chuyên gia an ninh mạng và quản trị hệ thống: Hiểu rõ về cơ chế phát tán thư rác và kỹ thuật lọc giúp họ xây dựng các chính sách bảo mật hiệu quả, bảo vệ hệ thống và người dùng.

Câu hỏi thường gặp

Phân loại thư rác bằng học máy có ưu điểm gì so với phương pháp truyền thống?
Học máy tự động học từ dữ liệu, thích nghi với biến đổi của thư rác, giảm thiểu sai sót so với các bộ lọc dựa trên quy tắc cứng nhắc. Ví dụ, SVM có thể phân biệt các mẫu thư phức tạp mà bộ lọc truyền thống khó xử lý.
Tại sao lại chọn Naïve Bayes và SVM trong nghiên cứu này?
Hai thuật toán này đại diện cho hai nhóm phương pháp phổ biến: NB đơn giản, nhanh; SVM chính xác, mạnh mẽ. Việc so sánh giúp đánh giá hiệu quả và chi phí triển khai phù hợp với từng ứng dụng.
Làm thế nào để biểu diễn nội dung thư điện tử cho thuật toán học máy?
Nội dung thư được biểu diễn dưới dạng vector đặc trưng theo mô hình "túi từ", trong đó mỗi phần tử biểu thị sự xuất hiện của một từ khóa. Phương pháp này đơn giản và hiệu quả trong xử lý văn bản.
Có thể áp dụng mô hình này cho ngôn ngữ khác ngoài tiếng Việt không?
Có thể, tuy nhiên cần điều chỉnh bước tiền xử lý phù hợp với đặc điểm ngôn ngữ, ví dụ như từ dừng, chuẩn hóa chính tả. Các thuật toán học máy như SVM và NB đều linh hoạt với nhiều ngôn ngữ.
Làm sao để duy trì hiệu quả của hệ thống lọc thư rác theo thời gian?
Cần thu thập dữ liệu mới liên tục và huấn luyện lại mô hình định kỳ để thích nghi với các thủ đoạn spam mới. Đồng thời, kết hợp nhiều kỹ thuật lọc và bảo mật để tăng cường khả năng phát hiện.

Kết luận

Luận văn đã nghiên cứu và ứng dụng thành công hai thuật toán học máy có giám sát là Naïve Bayes và SVM trong phân loại thư rác, với độ chính xác lần lượt khoảng 85% và 92%.
Phương pháp tiền xử lý dữ liệu đóng vai trò quan trọng, giúp cải thiện đáng kể hiệu quả phân loại.
SVM cho kết quả phân loại tốt hơn nhưng đòi hỏi tài nguyên tính toán cao hơn so với Naïve Bayes.
Đề xuất triển khai hệ thống lọc thư rác dựa trên SVM cho các môi trường có khả năng xử lý cao, đồng thời sử dụng Naïve Bayes cho các ứng dụng nhẹ.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, thử nghiệm với các thuật toán học máy khác và phát triển hệ thống lọc thư rác tích hợp đa kỹ thuật nhằm nâng cao hiệu quả và độ tin cậy.

Hành động ngay: Các nhà phát triển và nhà cung cấp dịch vụ nên cân nhắc áp dụng các mô hình học máy được nghiên cứu để nâng cao chất lượng dịch vụ email và bảo vệ người dùng trước nguy cơ thư rác ngày càng tinh vi.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 1. Tổng quan về ho ̣c máy 1.1 Trí tuê ̣ nhân tạo Trước đây, mỗi khi nói đến Trí tuệ nhân tạo (TTNT) người ta thường quan tâm đến việc tạo lập các máy tính có khả năng “suy nghĩ”, thậm chí trong một số phạm vi hẹp nào đó, có thể cạnh tranh hoặc vượt quá khả năng của bộ não con người. Những hy vọng này trong một thời gian dài đã ảnh hưởng rất nhiều đến các nghiên cứu trong phòng thí nghiệm. Mặc dù những mô hình tương tự các máy tính thông minh đã được đưa ra hàng nhiều năm trước, nhưng chỉ từ khi Alan Turing công bố những kết quả nghiên cứu quan trọng đầu tiên, người ta mới bắt đầu thực sự nghiên cứu đến các vấn đề TTNT một cách nghiêm túc.

Phát hiện của Turing cho rằng chương trình có thể được lưu trữ trong bộ nhớ để sau đó được thực hiện trên cơ sở các phép toán cơ bản thao tác với các bit 0, 1. Điều này đã tạo nên nền tảng của những máy tính hiện đại. Việc lưu trữ chương trình trong máy cho phép thay đổi chức năng của nó một cách nhanh chóng và dễ dàng thông qua việc nạp một chương trình mới vào bộ nhớ. Theo một nghĩa nào đó, khả năng này làm cho máy tính có khả năng học và suy nghĩ.

Đó cũng chính là một trong những biểu hiện quan trọng đầu tiên của những máy tính được trang bị TTNT. Trí tuệ nhân tạo (AI) là lĩnh vực khoa học chuyên nghiên cứu các phương pháp chế tạo trí tuệ máy sao cho giống như trí tuệ con người. [4] Vài định nghĩa của trí tuệ nhân tạo điển hình là:  Hệ thống mà biết suy nghĩ như con người  Hệ thống mà biết hành động như con người Để hệ thống mà biết suy nghĩ và hành động như con người thì hệ thống đó phải được trang bị các công cụ như thính giác, tri thức, lý giải tự động, việc học, thị giác và di chuyển giống như con người. Thông thường, cách giải quyết vấn đề của con người được thể hiện qua bốn thao tác cơ bản đó là: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Xác định tập hợp của các đích 2. Thu thập các sự kiện và luật suy diễn 3. Cơ chế tập trung 4. Bộ máy suy diễn Như vậy, trí tuệ máy là các khả năng giải quyết vấn đề của máy, cần thỏa mãn: 1.

Hành động giống như con người. Suy nghĩ giống như con người. Học giống như con người. Xử lý thông tin giống như con người.

Hành động và suy nghĩ trên cơ sở logic và chính xác. Ứng dụng của trí tuệ nhân tạo có trong nhiều ngành kinh tế : 1. Điều khiển học, Robotic, giao diện người máy thông minh 2. Trò chơi máy tính 3.

Thiết bị điện tử thông minh nhờ sử dụng lôgic mờ 4. Hệ chuyên gia trong: giáo dục, y khoa, địa chất, quản lý,. Xử lý ngôn ngữ tự nhiên 6. Nhận dạng hình ảnh, âm thanh 7.

Các hệ thống xử lý tri thức và dữ liệu tích hợp: cho phép xử lý đồng thời tri thức và dữ liệu (cơ sở dữ liệu suy diễn, biểu diễn luật đối tượng, hệ hỗ trợ quyết định) 8. Mô hình hóa các giải pháp bài toán 1. Học máy Con người có nhiề u cách ho ̣c như ho ̣c ký ức, ho ̣c các sự kiê ̣n,. thông qua sự quan sát và thăm dò, ho ̣c cải thiê ̣n kỹ xảo thông qua thực tiễn, ho ̣c qua sự phát triể n của hê ̣ thầ n kinh sinh ho ̣c con người, hoă ̣c ho ̣c qua gen di truyề n từ các thế hê ̣ trước.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Dù với cách ho ̣c nào đi nữa, mu ̣c tiêu của viê ̣c ho ̣c chính là thu thâ ̣p tri thức mới, sau đó xử lý tri thức này sao cho thić h nghi đươ ̣c với các tình huố ng, sự kiê ̣n mới. Giố ng với cách ho ̣c của đó, con người cũng muố n xây dựng các chương trình ho ̣c cho máy tính sao cho máy có khả năng thu thâ ̣p tri thức mới, từ đó xử lý tri thức để thích nghi đươ ̣c với các tiǹ h huố ng cu ̣ thể. Đó là lý do ta ̣i sao kỹ thuâ ̣t ho ̣c máy đang càng ngày càng trở thành mố i quan tâm lớn của ngành khoa ho ̣c máy tính hiện nay. Ho ̣c máy là một lĩnh vực của trí tuệ nhân ta ̣o liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học".

Ho ̣c máy được xem là phương pháp tạo ra các chương trình máy tin ́ h sử dụng kinh nghiê ̣m, quan sát hoă ̣c dữ liê ̣u trong quá khứ để cải thiê ̣n công viê ̣c của mình trong tương lai. Chẳ ng ha ̣n, máy tiń h có thể học cách dự đoán dựa trên các mẫu, các ví dụ, hay học cách tạo ra các hành vi phù hợp dựa trên quan sát trong quá khứ. Xét một ví dụ là học cách đánh cờ. Chương triǹ h có thể quan sát các ván cờ nhằ m cải thiê ̣n khả năng chơi cờ với mu ̣c đích tăng số ván thắ ng trong tương lai.

Trong trường hợp này, kinh nghiê ̣m được sử du ̣ng để “ho ̣c” cách làm tốt hơn trong công viê ̣c chơi cờ với tiêu chí đánh giá là số ván thắ ng. Các kĩ thuật học máy Việc sử dụng những da ̣ng kinh nghiê ̣m và dạng biể u diễn khác nhau sẽ dẫn tới những kĩ thuật học máy khác nhau. Tuy nhiên chủ yếu, ho ̣c máy đươ ̣c phân thành 3 loa ̣i chính: 1. Học có giám sát Với cách học này, kinh nghiệm đươ ̣c cho một cách tường minh dưới dạng đầu vào và đầu ra của hàm đích, ví du ̣ cho trước tâ ̣p các mẫu cùng nhañ phân loa ̣i tương ứng.

Ho ̣c có giám sát bao gồ m phân loại và hồi quy; trong đó phân loa ̣i là dạng học có giám sát với hàm đích nhâ ̣n giá tri ̣ rời ra ̣c và hồ i quy là ho ̣c có giám sát với hàm đích nhận giá tri ̣ liên tu ̣c. Sơ đồ một hê ̣ thố ng ho ̣c máy điể n hin ̀ h trong trường hơ ̣p ho ̣c có giám sát (phân loa ̣i) được thể hiê ̣n như trên hiǹ h sau. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 Thí dụ mới (chưa gán nhãn) Các thí dụ Các thu t Hàm đích Nhãn phân huấn luyện t án học máy l ại (có nhãn) Hình 1.1: Cấu trúc một hệ thống học máy tiêu biểu cho trường hợp phân loại 1. Học không có giám sát Ngươ ̣c với ho ̣c có giám sát, ho ̣c không giám sát là cách ho ̣c mà kinh nghiê ̣m chỉ gồ m các mẫu và không có nhañ hoă ̣c giá tri ̣ hàm đích đi kèm.

Ví du ̣ chỉ bằ ng quan sát thông thường về cân nă ̣ng của mo ̣i người, dầ n dầ n ta ho ̣c đươ ̣c khái niê ̣m “người béo”, “người bình thường” và “người gầ y”. Hai dạng học không giám sát phổ biế n nhấ t là phân cu ̣m và ho ̣c luâ ̣t kế t hơ ̣p. Trong trường hơ ̣p phân cụm, các đố i tượng được phân chia thành mô ̣t số nhóm sao cho mỗi nhóm gồ m những đố i tươ ̣ng giố ng nhau và khác đố i tượng ở nhóm khác. Học luật kết hợp là cách phát hiê ̣n những đố i tươ ̣ng hoă ̣c giá tri ̣ thuô ̣c tiń h thường xuất hiện cùng nhau, ví du ̣ những mă ̣t hàng thường xuyên đươ ̣c mua cùng nhau (bánh mì và sữa).

Học nửa giám sát Học nửa giám sát là việc học có kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp. Học tăng cường Đối với da ̣ng ho ̣c này, kinh nghiê ̣m không đươ ̣c cho trực tiế p dưới da ̣ng đầ u vào/ đầu ra. Thay vào đó, hê ̣ thống nhâ ̣n đươ ̣c một giá tri ̣tăng cường là kế t quả cho một chuỗi hành động nào đó. Thuâ ̣t toán cầ n ho ̣c cách hành đô ̣ng để cực đa ̣i hóa giá tri ̣ tăng cường.

Ví du ̣ của ho ̣c tăng cường là ho ̣c đánh cờ, trong đó hệ thố ng không được chỉ dẫn nước đi nào là hơ ̣p lý cho từng tình huố ng mà chỉ biết kế t quả toàn ván cờ. Như vâ ̣y, các chỉ dẫn về nước đi đươ ̣c học một cách gián tiế p và có đô ̣ trễ dưới da ̣ng giá tri ̣thưởng. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Một số ứng dụng của học máy Học máy có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ.

Cụ thể một số ứng dụng thường thấy như: 1. Xử lý ngôn ngữ tự nhiên: xử lý văn bản, giao tiếp người – máy, … 2. Nhận dạng : nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy () … 3. Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động.

Lo ̣c thư rác, phân loa ̣i văn bản: Là dựa trên nô ̣i dung thư điê ̣n tử, chia thư thành loại “thư rác (thư không có giá tri)” ̣ hay “thư bình thường (thư có giá tri)”; ̣ hoă ̣c phân chia tin tức thành các thể loa ̣i khác nhau như “xã hô ̣i”, “kinh tế ”, “thể thao”,… 6. Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein 7. Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt … 8. Phát hiện gian lận tài chính : gian lận thẻ tỉn dụng 9.

Dự đoán chỉ số thị trường: Là căn cứ giá tri ̣ mô ̣t vài tham số hiê ̣n thời hoă ̣c trong quá khứ để đưa ra dự đoán, chẳ ng ha ̣n dự đoán giá chứng khoán, giá vàng,… Ngoài những ứng dụng có da ̣ng phân loại hoă ̣c hồ i quy mô ̣t cách tường minh ở trên, học máy có thể dùng trong rấ t nhiề u ứng du ̣ng đòi hỏi ra quyế t định hoă ̣c hành đô ̣ng một cách thông minh. Việc học Học có giám sát là một kỹ thuật của ngành học máy để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp đối tượng đầu vào (thường dạng vec tơ) và đầu ra thực sự. Đầu ra của một hàm có thể là một giá trị liên tục LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Giới thiệu về học máy và thư rác

Các thuật toán phân loại thư rác

Cài đặt và thử nghiệm phân loại thư rác

Tác động của thư rác trong giao tiếp điện tử