CHƯƠNG 1: CỞ SỞ LÝ THUYẾT KỸ THUẬT HỌC KẾT HỢP MÔ HÌNH HỌC SÂU 1. Khái quát về Học máy 1. Khái niệm học máy • Theo định nghĩa tổng quát: Machine learning là lĩnh vực nghiên cứu nhầm giúp máy tính có khả năng học mà không cần lập trình một cách tường minh. Arthur Samuel, 1959 • Theo định nghĩa mang tính kỹ thuật: Machine learning là một chương trình máy tính được cho là học từ kinh nghiệm E và tác vụ T và cho phép đo chất lượng P, sẽ được cải thiện dựa theo kinh nghiệm E.
Tom Mitchell, 1997 • Tổng quát hơn có được khái niệm sau: Học máy (tiếng anh: Machine Learning) là một lĩnh vực của trí tuệ nhân tạo (AI) và khoa học máy tính, ghiên cứu cách giúp máy tính tự động học hỏi từ dữ liệu và từ kinh nghiệm để cải thiện hiệu suất của chúng trong việc giải quyết các tác vụ cụ thể. Máy học sử dụng các thuật toán và kỹ thuật từ nhiều lĩnh vực khác nhau, bao gồm toán học, thống kê, khoa học dữ liệu và trí tuệ nhân tạo. Trong máy học, bài nghiên cứu thường đưa cho máy tính một tập dữ liệu, sau đó sử dụng các thuật toán máy học để phân tích và học hỏi từ tập dữ liệu đó. Kết quả của quá trình học này là một mô hình máy học, có thể được sử dụng để dự đoán hoặc phân loại các điểm dữ liệu mới mà chưa được biết trước đó.
5 Trong học máy, các phương pháp phổ biến được chia thành ba loại chính bao gồm học có giám sát, học không giám sát và học bán giám sát tùy vào đặc thù mà sẽ được ứng dụng rộng rãi trong nhiều lĩnh vực như thương mại điện tử, y tế, tài chính, marketing, giao thông vận tải, robot học, xử lý ngôn ngữ tự nhiên và nhiều lĩnh vực khác. Các phương pháp trong học máy a. Học có giám sát Học có giám sát (tiếng anh: Supervised Learning) là một phương pháp học máy, trong đó mô hình được đào tạo trên một tập dữ liệu đã được gán nhãn trước. Mục tiêu là tìm ra một hàm số ánh xạ từ các đặc trưng đầu vào sang các nhãn đầu ra tương ứng.
Trong học có giám sát, bài nghiên cứu có một tập dữ liệu đào tạo, trong đó mỗi mẫu dữ liệu bao gồm các đặc trưng đầu vào và một nhãn đầu ra tương ứng. Mô hình học có giám sát sẽ học từ dữ liệu đào tạo để dự đoán các nhãn cho các mẫu dữ liệu mới mà nó chưa từng thấy trước đó. Học có giám sát được sử dụng rộng rãi trong nhiều lĩnh vực như nhận diện ảnh, phân loại văn bản, dự báo thời tiết, dự đoán giá cổ phiếu và nhiều ứng dụng khác. Các thuật toán học có giám sát phổ biến bao gồm: 1.
Hồi quy tuyến tính (Linear Regression): Là một thuật toán để dự đoán giá trị đầu ra liên tục dựa trên các đặc trưng đầu vào. Cây quyết định (Decision Trees): Là một thuật toán để phân loại các đối tượng dựa trên các đặc trưng đầu vào. Rừng ngẫu nhiên (Random Forest): Là một phương pháp kết hợp nhiều cây quyết định để tạo ra một mô hình phân loại tốt hơn. Naive Bayes: Là một thuật toán phân loại dựa trên nguyên tắc Bayes, giả định rằng các đặc trưng đầu vào độc lập với nhau.
Support Vector Machines (SVM): Là một phương pháp phân loại dựa trên việc tìm ra siêu phẳng tốt nhất để phân tách các lớp. Học không giám sát Học không có giám sát (tiếng anh: Unsupervised Learning) là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát. Trong học không có giám sát, bài nghiên cứu có một tập dữ liệu đào tạo mà không có thông tin nhãn đầu ra. Mô hình học không có giám sát sẽ tìm cách nhóm các điểm dữ liệu lại với nhau dựa trên đặc trưng của chúng.
Nó cố gắng tìm ra các cấu trúc, mô hình, hoặc nhóm dữ liệu không được định trước. Học không có giám sát được sử dụng rộng rãi trong các lĩnh vực như xử lý ngôn ngữ tự nhiên, phân tích cảm xúc, khám phá dữ liệu và nhiều ứng dụng khác. Các phương pháp không có giám sát phổ biến bao gồm: 1. Phân cụm (Clustering): Là một phương pháp để phân nhóm các điểm dữ liệu dựa trên đặc trưng của chúng.
Giảm chiều dữ liệu (Dimensionality Reduction): Là một phương pháp để giảm số chiều của dữ liệu mà không mất đi quan trọng của dữ liệu. Khai thác luật kết hợp (Association Rule Mining): Là một phương pháp để tìm ra các quy tắc và mối liên hệ giữa các phần tử trong tập dữ liệu. Bán giám sát Bán giám sát (tiếng anh: Semi-Supervised Learning) là một phương pháp học máy nằm giữa học có giám sát và học không có giám sát. Trong bán giám sát, tập dữ liệu đào tạo chứa cả dữ liệu có nhãn và dữ liệu không có nhãn.
Mục tiêu là sử dụng thông tin từ cả dữ liệu có nhãn và không có nhãn để xây dựng một mô hình phân loại hoặc hồi quy tốt hơn. 7 Bán giám sát được sử dụng trong các tình huống khi ta có ít dữ liệu có nhãn nhưng lại có nhiều dữ liệu không có nhãn. Nó cũng được sử dụng khi việc gán nhãn cho dữ liệu tốn nhiều thời gian và chi phí. Ví dụ về ứng dụng của bán giám sát là phát hiện thư rác trong email, phân tích tình cảm trong mạng xã hội, hay phân loại ảnh chưa được gán nhãn Các bài toán học bán giám sát phổ biến bao gồm: 1.
Mô hình gom nhóm/học không giám sát đầu tiên, sau đó sử dụng kết quả của nó để đánh giá các điểm dữ liệu không có nhãn. Sử dụng mô hình phân loại có giám sát và các mô hình học không có giám sát để tạo ra các dự đoán cho các điểm dữ liệu không có nhãn. Sử dụng mô hình phân loại có giám sát để đào tạo trên một phần dữ liệu có nhãn và sau đó sử dụng phần còn lại của dữ liệu không có nhãn để tinh chỉnh mô hình. Các mô hình phân loại trong Học máy 1.
K láng giềng gần nhất Thuật toán K láng giềng gần nhất (tiếng anh: K-nearest neighbors, viết tắt KNN) thuộc nhóm thuật toán Supervised learning (học có giám sát) là phương pháp thống kê phi tham số (nonparametric statistics) được đề xuất bởi Thomas M. Coverd để sử dụng cho phân loại bằng thống kê và phân tích hồi quy [1]. Thuật toán này đi tìm đầu ra của một điểm dữ liệu mới chỉ dự trên thông tin của K điểm dữ liệu gần nhất trong tập huấn luyện, mà gần như không học được một điều gì từ tập dữ liệu. Với KNN mọi điểm trong tập huấn luyện đều được mô hình mô tả một cách chính xác điều này khiến mô hình dễ bị overfitting [2].
Ví dụ Thuật toán K láng giềng gần nhất Nguồn: [2.1] Để phân loại một quan sát 𝑥0 , KNN sử dụng một số nguyên dương cho K để đánh giá K điểm dữ liệu gần nhất với quan sát 𝑥0. Diện tích xung quanh 𝑥0 được biểu thị bằng 𝑁0. Để đánh giá quan sát nào gần nhất với 𝑥0 , KNN sẽ sử dụng độ đo Euclide để đo khoảng cách đường thằng giữa quan sát không nhìn thấy và quan sát xung quanh. Với Euclide được địng nghĩa như sau: 𝑘 2 𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑥𝑖 , 𝑥𝑘 ) = √∑ (𝑥𝑖𝑗 − 𝑥𝑘𝑗 ) 𝑖=1 • Trong đó, 𝑥𝑖𝑗 là giá trị của biến j đối với đối tượng i (quan sát xung quanh) và 𝑥𝑘𝑗 là giá trị của biến j đối với đối tượng k (quan sát không nhìn thấy).
Sau đó, phương pháp K-NN tiếp tục sử dụng quy tắc Bayes để phân loại quan sát bằng cách ước tính xác suất có điều kiện của lớp i dưới dạng phần nhỏ của các 9 điểm trong 𝑁0 nơi giá trị phản hồi bằng nhau. Cuối cùng, nó phân loại quan sát không nhìn thấy vào lớp có xác suất lớn nhất bằng cách sử dụng giá trị cắt 0,5. Điều này được đại diện là: 1 𝑃(𝑌 = 𝑗| 𝑋 = 𝑥0 ) = ∑ 𝐼( 𝑦𝑖 = 𝑗) 𝑘 𝑖 ∈ 𝑁0 1. Máy học hỗ trợ vector (SVM) Thuật toán SVM được Vapnik đưa ra vào đầu những năm 1990.
SVM thuộc nhóm thuật toán supervised learning, là thuật toán phân loại phổ biến và hiệu quả, có khả năng thực hiện phân loại tuyến tính, phi tuyến, hồi quy, hay thậm chí là phát hiện ngoại lai. Thuật toán SVM đặc biệt phù hợp để phân loại với các tập dữ liệu phức tạp có kích thước vừa và nhỏ. Trong phân loại nhị phân, đặt ((𝑥1 , 𝑦1 ).( 𝑥𝑛 , 𝑦𝑛 )) là tập dữ liệu huấn luyện trong đó 𝑥𝑖 là vector đặc trưng đại diện cho các quan sát, 𝑦𝑖 ∈ {-1, +1} là nhãn của các điểm dữ liệu. Lúc này SVM mục đích tìm ra một siêu phẳng tách giữa nhãn (-1) và nhãn (+1) với lề lớn nhất.
Lề mặt phẳng được định nghĩa là khoảng cách ngắn nhất nằm giữa hai nhãn (-1, +1) với siêu phẳng. Việc tìm kiếm siêu phằng có biên độ lớn nhất sẽ có khả năng chống nhiễu tốt hơn siêu phẳng có biên độ nhỏ hơn. +1, 𝑤 ∗ 𝑥𝑖 + 𝑏 ≥ +1 𝑓(𝑥) = { −1, 𝑤 ∗ 𝑥𝑖 + 𝑏 ≤ − 1 • Với w là pháp tuyến của siêu phẳng, |b|/||w|| là khoảng cách vuông góc từ siêu phẳng đến điểm gốc và ||w|| là khoảng cách Euclide của w. Trong trường hợp phân loại phi tuyến tính, ánh xạ phi tuyến ϕ chiếu vào mẫu có chiều thấp vào một không gian đặc trưng có chiều cao hơn và sử dụng hàm Kernel 𝐾(𝑥𝑖 , 𝑥𝑗 )để chuyển phân loại phi tuyến thành phân loại tuyến tính trong không gian này, khi đó, hàm phân loại tối ưu là [3]: 10 Bảng 1.
Hàm Kernel trong SVM Hàm Công thức Đa thức (Polynomial Kernels) 𝐾 (𝑥, 𝑦) = (𝑥 𝑇 𝑦 + 𝑐 )𝑑 , 𝑐 > 0, ∀𝑥, 𝑦 ∈ ℝ𝒏 Gaoxo (Gaussian Kernels) || 𝑥 − 𝑦 ||2 𝐾 (𝑥, 𝑦) = 𝑒𝑥𝑝 (− ) , ∀𝑥, 𝑦 ∈ ℝ𝒏 2𝜎 2 Sigmoid (Sigmoid Kernels) 𝑲(𝒙, 𝒚) = 𝒕𝒂𝒏𝒉(𝒂𝒙𝑻 𝒚 + 𝒃), 𝒂, 𝒃 ≥ 𝟎, ∀𝒙, 𝒚 ∈ ℝ𝒏 Nguồn: Khóa Luận Hình 1. Ví dụ hàm RBF trong SVM Nguồn: [2. Hồi quy Logistic Mô hình hồi quy Logistic (hay còn được gọi là hồi quy logit - logit regression) được sử dụng phổ biến trong nghiên cứu các mối quan hệ phi tuyến tính cũng như được sử dụng trong các bài toán phân loại. Uớc lượng xác suất phân loại nhị phân với một điểm dữ liệu có thể nhận hai giá trị 1 hoặc 0.