MỞ ĐẦU hồi, hệ thống sẽ sử dụng một trong ba mô hình để tối ưu hóa kết quả cuối cùng. Sau đó, cung cấp một số gợi ý chỉnh sửa nhằm đáp ứng các tiêu chuẩn của cộng đồng đối với Chatbot, hoặc ẩn văn bản tiêu cực trên trang web đối với Tiện ích Chrome.4 PHÂN TÍCH NHỮNG CÔNG TRÌNH CÓ LIÊN QUAN Với tập dữ liệu gốc là văn bản Tiếng Anh, cách tiếp cận phổ biến trong bài toán này là sử dụng các mô hình học sâu chuyên biệt cho dữ liệu chuỗi và xử lý ngôn ngữ tự nhiên. Như trong [2], các tác giả sử dụng các phương pháp phân tách từ (tokenization) kết hợp với mô hình học sâu LSTM. Cách tiếp cận này tạo ra một mô hình có kết quả khá cao, với độ chính xác (precision) đạt 94,49%, độ nhạy (recall) đạt 92,79% và độ chính xác (accuracy) đạt 94,94%.
Một nghiên cứu khác sử dụng phiên bản tiên tiến hơn của Long Short-Term Memory (LSTM), là Bidirectional LSTM (BiLSTM), để cải thiện thêm độ chính xác của dự đoán [3]. Ngoài việc chỉ sử dụng RNN, bài báo [4] còn sử dụng mạng nơ-ron tích chập (CNN) song song với mô hình LSTM. Mặc dù kết quả đánh giá cho thấy CNN cũng đạt được kết quả khá tốt, LSTM vẫn vượt trội hơn cả về độ chính xác lẫn hiệu suất thời gian khi sử dụng cùng số epoch. Nghiên cứu [5] cho thấy rằng không chỉ việc áp dụng các mô hình phức tạp mà cả việc sử dụng các phương pháp tiền xử lý cơ bản và nhúng từ (word embedding) cũng có thể ảnh hưởng đến hiệu suất phân loại.
Để chứng minh điều này, các tác giả đã tiến hành đánh giá thực nghiệm về kiến trúc kết hợp BiLSTM + CNN, mô hình ngôn ngữ BERT (Bidirectional Encoder Representation from Transformer) với các phương pháp tiền xử lý và nhúng từ khác nhau.5 DỰ KIẾN KẾT QUẢ ĐẠT ĐƯỢC Về lý thuyết: Nhóm mong muốn sau khi thực hiện nghiên cứu có thể học hỏi và hiểu sâu về nội dung lý thuyết của bài toán đã nêu. Đồng thời có cơ hội thực hành mô hình học sâu trong quá trình huấn luyện dữ liệu cho bài toán. Về mặt sản phẩm: Nhóm mong muốn xây dựng được một mô hình có thể phát hiện các ngôn ngữ độc hại với một mức chính xác khả quan và có thể ứng dụng thực tế. Từ đó, áp dụng vào thực tiễn dưới dạng chatbot hoặc tiện ích trong trình duyệt để hỗ trợ người dùng trong việc phát hiện và ngăn chặn ngôn ngữ độc hại 3 CHƯƠNG 2.
NỘI DUNG CHƯƠNG 2: NỘI DUNG 2.1 TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU 2.1 Khái quát về học máy 2.1 Giới thiệu Học máy (Machine Learning) là một nhánh của trí tuệ nhân tạo (AI) tập trung vào việc tạo ra các thuật toán cho phép máy học từ dữ liệu và các thông tin có trước và tự cải thiện theo thời gian. Machine Learning cho phép máy có thể tự động học từ dữ liệu, cải thiện hiệu suất từ dữ liệu đã học được và tạo ra các dự đoán. Các thuật toán Machine Learning tạo ra các mô hình toán học hỗ trợ việc tạo ra các dự đoán hay quyết định với sự hỗ trợ từ các mẫu dữ liệu có trước hay là dữ liệu học (training data).2 Các loại học máy Để có thể hiểu được cách thức mà học máy hoạt động, trước hết chúng ta cần biết về các phương pháp học máy và thuật toán, dưới đây là một số phương pháp thường dùng[6]: • Học có giám sát (Supervised Learning). • Học không giám sát (Unsupervised Learning).
• Học tăng cường (Reinforcement Learning).3 Học có giám sát Các thuật toán và mô hình học có giám sát tạo ra các dự đoán dựa trên các dữ liệu đã được đánh nhãn. Mỗi mẫu dữ liệu huấn luyện đều bao gồm dữ liệu đầu vào (input) và dữ liệu đầu ra (output) tương ứng. Thuật toán học có giám sát phân tích dữ liệu huấn luyện và tạo ra các suy luận - hoặc có thể gọi là các suy đoán có cơ sở khi dự đoán cho các dữ liệu chưa biết trước.[6] Đây là hướng tiếp cận phổ biến nhất khi nói về học máy, mô hình được “giám sát” bởi chúng cần được học và cung cấp các dữ liệu đã được đánh nhãn từ trước. Dữ liệu được đánh nhãn sẽ cung cấp thông tin về các khuôn mẫu (có thể là hình ảnh, phân loại, etc) để mô hình có thể nhận diện được từ dữ liệu.
NỘI DUNG Hình 2.1: Học có giám sát1 Và với phương pháp học có giám sát, chúng ta có hai phương pháp: phân loại (clas- sification) và hồi quy (regression).2: Phân loại và hồi quy2 1. Phương pháp hồi quy: Hồi quy tìm sự tương quan giữa biến phụ thuộc và các biến độc lập, từ đó thuật toán hồi quy có thể dự đoán các biến liên tục (continous variable) chẳng hạn như chiều cao, cân nặng, v. [7] Một số thuật toán hồi quy: • Linear Regression 1 https://dev.to/dulyaaa/lets-peek-into-machine-learning-in0 2 https://www.com/blog/supervised-machine-learning 5 CHƯƠNG 2. NỘI DUNG • Decision Tree Regression • Random Forest Regression • Support Vector Regression 2.
Phương pháp phân loại: Phân loại là thuật toán tìm ra các hàm số có thể chia dữ liệu thành nhiều nhóm dựa trên nhiều thông số khác nhau. Khi sử dụng thuật toán phân loại, máy sẽ học trên tập dữ liệu và phân loại dữ liệu vào nhiều nhóm dựa trên những gì đã học. Thuật toán phân loại chuyển các dữ liệu đầu vào thành dữ liệu đầu ra rời rạc (các giá trị nhị phân như 0 và 1, true và f alse, v. Thuật toán phân loại dự đoán khả năng xảy ra của một sự kiện bằng cách đưa dữ liệu vào hàm logit.[7] • Logistic Regression • K-Nearest Neighbors(KNN) • Naïve Bayes • Decision Tree Classification • Random Forest Classification 2.4 Học không giám sát Hình 2.3: Học không giám sát3 Các thuật toán học không giám sát khám phá các mối quan hệ trong dữ liệu không được đánh nhãn.
Trong trường hợp này, mô hình được cung cấp dữ liệu nhưng không biết được dữ liệu đầu ra mong muốn, mô hình phải dự đoán dựa trên các bằng chứng gián 3 https://dev.to/dulyaaa/lets-peek-into-machine-learning-in0 6 CHƯƠNG 2. NỘI DUNG tiếp mà không có chỉ dẫn nào. Mô hình không được huấn luyện với các “giá trị đúng” và phải tự tìm ra các khuôn mẫu.[6] Một trong những loại học không giám sát phổ biến nhất chính là gom cụm (cluster- ing), thực hiện gom nhóm các dữ liệu giống nhau. Phương pháp này thường được dùng trong phân tích khám phá và có thể tìm ra các khuôn mẫu hay xu hướng bị ẩn giấu.
Một số thuật toán học không giám sát: • K-Means • K-Medoids • Fuzzy C-Means • Gaussian Mixture 2.5 Học bán giám sát Trong học bán giám sát, dữ liệu huấn luyện sẽ được chia thành 2 phần: một tập dữ liệu nhỏ sẽ chứa các dữ liệu được đánh nhãn và tập dữ liệu lớn hơn chứa các dữ liệu không đánh nhãn.4: Học bán giám sát4 Trong trường hợp này, mô hình sẽ dùng dữ liệu có đánh nhãn để tạo ra các suy luận về dữ liệu chưa được đánh nhãn, cung cấp các kết quả chính xác hơn các mô hình học có giám sát thông thường. Hướng tiếp cận này đang dần trở nên phổ biến, nhất là với những công việc sử dụng các tập dữ liệu lớn. Học bán giám sát không yêu cầu nhiều dữ liệu được đánh nhãn, dễ 4 https://www.com/blog/supervised-machine-learning 7 CHƯƠNG 2. NỘI DUNG dàng cài đặt, và hoạt động với chi phí hiệu quả hơn các phương pháp học có giám sát, rất lí tưởng cho những công việc phải xử lý lượng lớn dữ liệu.6 Học tăng cường Học tăng cường liên quan tới việc chương trình nên hoạt động như thế nào để có được kết quả tốt nhất.
Nói ngắn gọn, các mô hình học tăng cường sẽ tìm cách tốt nhất có thể để tối ưu kết quả trong một số tình huống nhất định. Quá trình này là một quá trình thử đi thử lại liên tục. Và do không có dữ liệu huấn luyện, máy phải học từ chính những lỗi sai của chúng và đưa ra lựa chọn khác để dẫn tới kết quả tối ưu.5: Học tăng cường5 Phương pháp này thường được dùng trong các ngành robot và trò chơi điện tử. Các trò chơi điện tử thể hiện rõ ràng mối quan hệ giữa hành động và kết quả, và có thể đánh giá thành công thông qua điểm.
Vì vậy, chúng là một cách thức thích hợp để cải thiện thuật toán học tăng cường.7 Cách thức hoạt động Hệ thống học máy xây dựng mô hình dự đoán bằng cách học các dữ liệu có sẵn từ trước và dự đoán đầu ra cho dữ liệu mới mỗi khi nhận được. Quá trình học máy sẽ gồm 3 giai đoạn[8]: 1. Giai đoạn 1: • Trước khi có thể huấn luyện một mô hình học máy, chúng ta cần phải có dữ liệu. Ơ giai đoạn này, chúng ta trước hết phải thu thập dữ liệu và thực hiện tiền xử lý, nhằm đảm bảo dữ liệu không có sai sót khi đưa vào huấn luyện.com/tutorials/reinforcement-learning/ 8 CHƯƠNG 2.
NỘI DUNG • Khi đã có dữ liệu, chúng ta sẽ chia dữ liệu thành nhiều phần, có thể là 3 phần (training, valid, test) hoặc 2 phần (training, test) để có thể sử dụng với mục đích tương ứng. Giai đoạn 2: • Sau khi đã có dữ liệu, việc tiếp theo cần làm đó chính là lựa chọn thuật toán và mô hình phù hợp. Việc lựa chọn mô hình có thể ảnh hưởng rất lơn đến kết quả cuối cùng. • Sau khi đã có mô hình, chúng ta truyền dữ liệu đã chuẩn bị để mô hình có thể học và tự đánh giá.
Giai đoạn 3: • Sau khi mô hình hoàn thiện, chúng ta tiến hành kiểm tra độ chính xác của mô hình sử dụng tập dữ liệu test đã chuẩn bị từ trước. • Từ kết quả trên có thể đánh giá lại độ hiệu quả của mô hình và sử dụng mô hình khác nếu cần thiết.6: Cách hoạt động của mô hình học máy6 2.2 Khái quát về học sâu 2.1 Giới thiệu Học sâu (deep learning) có thể được xem là một nhánh của học máy. Nếu như ở học máy, các hệ thống máy sẽ học dựa trên tập dữ liệu và cải thiện nó dựa trên các thuật toán thì ở học sâu, quá trình học sẽ dựa trên các hệ thống mạng thần kinh (neural network) - dựa trên bộ não người - để có thể bắt chước khả năng tư duy của bộ não con người.2 Cơ sở hình thành Bộ não con người và máy tính ngay từ bản chất đã rất khác nhau, máy tính có thể dễ dàng tính toán những con số mà con người khó tính được, còn con người có thể xử lí 6 https://www.au/real-time-automated-shark-detection-system/ 9 CHƯƠNG 2. NỘI DUNG những công việc mang tính tư duy mà máy tính không thể thực hiện.