Đồ án tốt nghiệp: Nhận diện văn bản tiêu cực sử dụng học máy

Tổng hợp kiến thức Nhận diện văn bản tiêu cực bằng học máy trong đồ án tốt ..., tiếp cận khoa học, hỗ trợ học tập và nghiên cứu hiệu quả trong chuyên

Chuyên ngành

Kỹ thuật dữ liệu

Người đăng

Ẩn danh

Thể loại

Đồ án tốt nghiệp

2024

121
2
0

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI

1.2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU

1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU

1.4. PHÂN TÍCH NHỮNG CÔNG TRÌNH CÓ LIÊN QUAN

1.5. DỰ KIẾN KẾT QUẢ ĐẠT ĐƯỢC

2. CHƯƠNG 2: NỘI DUNG

2.1. TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU

2.1.1. Khái quát về học máy

2.1.2. Giới thiệu

2.1.3. Các loại học máy

2.1.4. Học có giám sát

2.2. MẠNG NEURON NHÂN TẠO

2.2.1. Mạng neuron nhân tạo

2.2.2. Mạng thần kinh nhân tạo một lớp - (Single-layer Neural Network - Perceptron)

2.2.3. Hàm kích hoạt - (Activation Function)

2.2.4. Hàm kích hoạt Softmax - (Softmax Activation Function)

2.2.5. Mạng thần kinh nhân tạo nhiều lớp - (Multi-Layer Neural Networks)

2.2.6. Thuật toán lan truyền ngược - (Backpropagation Algorithm)

2.2.7. Các vấn đề gặp phải khi huấn luyện mạng thần kinh

2.3. MẠNG THẦN KINH TÍCH CHẬP - CNN (CONVOLUTIONAL NEURAL NETWORK)

2.3.1. Kiến trúc cơ bản

2.3.2. Cách xắp xếp các lớp trong mạng thần kinh tích chập

2.3.3. Lan truyền ngược trong mạng thần kinh tích chập

2.4. MẠNG THẦN KINH HỒI QUY - RNN (RECURRENT NEURAL NETWORK)

2.4.1. Lan truyền ngược theo thời gian - BPTT (Backpropagation Through Time)

2.4.2. Mạng thần kinh hồi quy hai chiều (Bidirectional Recurrent Neural Network)

2.4.3. Mạng thần kinh hồi quy nhiều lớp (Multilayer Recurrent Network)

2.5. BỘ NHỚ DÀI-NGẮN HẠN - LSTM (LONG SHORT-TERM MEMORY)

2.6. BỘ NHỚ TÁI PHÁT - GRU (GATED RECURRENT UNIT)

2.7. XỬ LÝ NGÔN NGỮ TỰ NHIÊN

2.7.1. Xử lý ngôn ngữ tự nhiên

2.7.2. Các bước xử lý trong xử lý ngôn ngữ tự nhiên

2.7.3. Một vài ứng dụng của xử lý ngôn ngữ tự nhiên

2.8. KỸ THUẬT NHÚNG TỪ (WORD EMBEDDING)

2.8.1. Vấn đề đặt ra

2.8.2. Một số phương pháp

2.8.3. Mô hình Word2vec

2.8.4. Mô hình GloVe

2.8.5. Mô hình Fasttext

2.9. NGỮ CẢNH (CONTEXTUAL) VÀ VAI TRÒ TRONG NLP

2.10. MÔ HÌNH TRANSFORMER

2.10.1. Kiến trúc Transformer

2.11. TIẾP CẬN NÔNG VÀ HỌC SÂU TRONG ỨNG DỤNG PRE-TRAINING NLP

2.11.1. Tiếp cận nông (Shallow approach)

2.12. MÔ HÌNH BERT (BIDIRECTIONAL ENCODER REPRESENTATIONS FROM TRANSFORMERS)

2.12.1. Giới thiệu BERT

2.12.2. Pre-training BERT

2.12.3. Tinh chỉnh (fine-tuning) BERT

2.12.4. Những kiến trúc của BERT

2.13. XÂY DỰNG MÔ HÌNH PHÁT HIỆN TỪ NGỮ ĐỘC HẠI

2.13.1. Môi trường cài đặt và các thư viện sử dụng

2.13.1.1. Môi trường cài đặt

2.13.2. Mô tả tập dữ liệu

2.13.2.1. Phân tích khám phá dữ liệu - EDA (Exploratory Data Analysis)
2.13.2.2. Tiền xử lý dữ liệu tiếng Anh
2.13.2.3. Dịch dữ liệu tiếng Anh sang tiếng Việt
2.13.2.4. Ghép từ tiếng Việt
2.13.2.5. Tiền xử lý dữ liệu tiếng Việt

2.13.3. Thiết lập mô hình

2.13.3.1. Phương pháp đánh giá

2.13.4. Huấn luyện mô hình và đánh giá kết quả

2.13.4.1. Mô hình LSTM
2.13.4.2. Mô hình GRU
2.13.4.3. Tinh chỉnh mô hình PhoBERT
2.13.4.4. Đánh giá giữa các mô hình

2.14. ỨNG DỤNG MÔ HÌNH TRONG THỰC TIỄN

2.14.1. Giới thiệu

2.14.2. Mục đích

2.14.3. Quá trình phát triển

2.14.4. Cách hoạt động

3. KẾT LUẬN

TÀI LIỆU THAM KHẢO

PHỤ LỤC

A. Phân tích khám phá dữ liệu

B. Dữ liệu huấn luyện

C. Dữ liệu bên lề

Tóm tắt

I. Tổng quan về học máy và học sâu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, học máy (Machine Learning) đã trở thành một lĩnh vực quan trọng trong việc xử lý và phân tích dữ liệu. Đặc biệt, việc áp dụng học sâu (Deep Learning) trong nhận diện văn bản tiêu cực đã mở ra nhiều cơ hội mới. Học máy cho phép máy tính tự động học từ dữ liệu mà không cần lập trình cụ thể. Các thuật toán học máy như mạng neuron (Neural Networks) đã được sử dụng rộng rãi để phát hiện và phân loại văn bản độc hại. Việc hiểu rõ về các kiến trúc mạng neuron như LSTM (Long Short-Term Memory) và GRU (Gated Recurrent Unit) là rất cần thiết để xây dựng mô hình hiệu quả cho bài toán này.

1.1 Khái quát về học máy

Học máy là một nhánh của trí tuệ nhân tạo, tập trung vào việc phát triển các thuật toán cho phép máy tính học từ dữ liệu. Các phương pháp học máy có thể chia thành ba loại chính: học có giám sát, học không giám sát, và học tăng cường. Trong đó, học có giám sát là phương pháp phổ biến nhất, nơi mà dữ liệu được gán nhãn rõ ràng. Điều này giúp cho mô hình có thể học và đưa ra dự đoán chính xác hơn. Học không giám sát, ngược lại, không yêu cầu nhãn cho dữ liệu, cho phép máy tìm ra các mẫu và cấu trúc trong dữ liệu một cách tự động.

1.2 Khái quát về học sâu

Học sâu là một phần mở rộng của học máy, sử dụng các mạng neuron nhiều lớp để xử lý dữ liệu phức tạp. Các mô hình học sâu như CNN (Convolutional Neural Network) và RNN (Recurrent Neural Network) đã chứng minh được hiệu quả trong việc phân tích ngữ nghĩa và ngữ cảnh của văn bản. Việc áp dụng các mô hình này trong nhận diện văn bản tiêu cực giúp cải thiện độ chính xác và khả năng phát hiện ngôn ngữ độc hại. Học sâu không chỉ giúp tăng cường khả năng phân loại mà còn hỗ trợ trong việc hiểu rõ hơn về ngữ nghĩa của từ ngữ trong văn bản.

II. Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọng trong học máy, cho phép máy tính hiểu và tương tác với ngôn ngữ con người. Trong bối cảnh nhận diện văn bản tiêu cực, NLP đóng vai trò then chốt trong việc phân tích và xử lý dữ liệu văn bản. Các kỹ thuật như phân tách từ (tokenization) và nhúng từ (word embedding) giúp chuyển đổi văn bản thành định dạng mà máy tính có thể hiểu được. Việc áp dụng các mô hình như BERT (Bidirectional Encoder Representations from Transformers) đã mang lại những bước tiến vượt bậc trong khả năng hiểu ngữ nghĩa của văn bản.

2.1 Kỹ thuật nhúng từ

Kỹ thuật nhúng từ là một phương pháp quan trọng trong NLP, cho phép chuyển đổi từ ngữ thành các vector số. Các mô hình như Word2Vec, GloVe, và FastText đã được phát triển để cải thiện khả năng hiểu ngữ nghĩa của từ trong ngữ cảnh. Việc sử dụng nhúng từ giúp mô hình có thể nhận diện được các từ có nghĩa tương tự và cải thiện độ chính xác trong việc phân loại văn bản. Đặc biệt, trong bài toán nhận diện văn bản tiêu cực, việc sử dụng nhúng từ giúp phát hiện các từ ngữ độc hại một cách hiệu quả hơn.

2.2 Mô hình Transformer

Mô hình Transformer đã cách mạng hóa lĩnh vực NLP với khả năng xử lý dữ liệu theo cách song song, giúp tăng tốc độ huấn luyện và cải thiện độ chính xác. Mô hình này sử dụng cơ chế Attention để xác định tầm quan trọng của từng từ trong ngữ cảnh. Việc áp dụng Transformer trong nhận diện văn bản tiêu cực cho phép mô hình hiểu rõ hơn về mối quan hệ giữa các từ, từ đó đưa ra dự đoán chính xác hơn về tính chất độc hại của văn bản.

III. Xây dựng mô hình phát hiện từ ngữ độc hại

Xây dựng mô hình phát hiện từ ngữ độc hại là một bước quan trọng trong nghiên cứu này. Mô hình được thiết kế để nhận diện và phân loại các văn bản có chứa ngôn ngữ độc hại. Việc sử dụng các kiến trúc mạng neuron như LSTMGRU cho phép mô hình học từ dữ liệu một cách hiệu quả. Quá trình huấn luyện mô hình bao gồm việc tiền xử lý dữ liệu, thiết lập mô hình, và đánh giá kết quả. Mô hình sẽ được áp dụng vào các ứng dụng thực tiễn như chatbot và tiện ích trong trình duyệt để hỗ trợ người dùng trong việc phát hiện và ngăn chặn ngôn ngữ độc hại.

3.1 Môi trường cài đặt và các thư viện sử dụng

Môi trường cài đặt cho mô hình phát hiện từ ngữ độc hại bao gồm các thư viện hỗ trợ học máy như TensorFlowScikit-learn. Việc sử dụng các thư viện này giúp đơn giản hóa quá trình phát triển và huấn luyện mô hình. Các công cụ này cung cấp các hàm và lớp cần thiết để xây dựng mô hình học sâu, từ đó giúp tối ưu hóa hiệu suất của mô hình trong việc nhận diện văn bản tiêu cực.

3.2 Huấn luyện mô hình và đánh giá kết quả

Quá trình huấn luyện mô hình bao gồm việc sử dụng tập dữ liệu đã được tiền xử lý để đào tạo mô hình. Các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu sẽ được sử dụng để đánh giá hiệu quả của mô hình. Việc so sánh giữa các mô hình khác nhau như LSTM, GRU, và PhoBERT sẽ giúp xác định mô hình nào hoạt động tốt nhất trong việc phát hiện ngôn ngữ độc hại. Kết quả đánh giá sẽ cung cấp thông tin quan trọng để cải thiện mô hình trong tương lai.

IV. Ứng dụng mô hình vào thực tiễn

Mô hình phát hiện từ ngữ độc hại không chỉ dừng lại ở lý thuyết mà còn có thể được áp dụng vào thực tiễn. Việc tích hợp mô hình vào các ứng dụng như chatbot và tiện ích trong trình duyệt giúp người dùng dễ dàng phát hiện và ngăn chặn ngôn ngữ độc hại. Các ứng dụng này không chỉ hỗ trợ người dùng trong việc bảo vệ bản thân khỏi các nội dung tiêu cực mà còn góp phần tạo ra một môi trường mạng an toàn hơn. Việc phát triển các ứng dụng này cần được thực hiện một cách cẩn thận để đảm bảo tính hiệu quả và độ chính xác của mô hình.

4.1 Giới thiệu ứng dụng

Ứng dụng của mô hình phát hiện từ ngữ độc hại có thể được triển khai dưới dạng tiện ích mở rộng cho trình duyệt hoặc chatbot. Tiện ích mở rộng sẽ tự động quét nội dung trên trang web và cảnh báo người dùng khi phát hiện ngôn ngữ độc hại. Chatbot có thể sử dụng mô hình để phân tích các cuộc trò chuyện và đưa ra cảnh báo cho người dùng khi có nội dung không phù hợp. Việc phát triển các ứng dụng này không chỉ giúp nâng cao nhận thức về ngôn ngữ độc hại mà còn tạo ra một không gian giao tiếp an toàn hơn.

4.2 Quá trình phát triển và cách hoạt động

Quá trình phát triển ứng dụng bao gồm việc tích hợp mô hình vào giao diện người dùng và đảm bảo rằng mô hình hoạt động hiệu quả trong thời gian thực. Các ứng dụng sẽ sử dụng API để gửi và nhận dữ liệu từ mô hình, từ đó cung cấp phản hồi nhanh chóng cho người dùng. Việc tối ưu hóa hiệu suất của mô hình trong các ứng dụng thực tiễn là rất quan trọng để đảm bảo rằng người dùng có trải nghiệm tốt nhất khi sử dụng.

10/02/2025

Trích đoạn nội dung tài liệu

MỞ ĐẦU hồi, hệ thống sẽ sử dụng một trong ba mô hình để tối ưu hóa kết quả cuối cùng. Sau đó, cung cấp một số gợi ý chỉnh sửa nhằm đáp ứng các tiêu chuẩn của cộng đồng đối với Chatbot, hoặc ẩn văn bản tiêu cực trên trang web đối với Tiện ích Chrome.4 PHÂN TÍCH NHỮNG CÔNG TRÌNH CÓ LIÊN QUAN Với tập dữ liệu gốc là văn bản Tiếng Anh, cách tiếp cận phổ biến trong bài toán này là sử dụng các mô hình học sâu chuyên biệt cho dữ liệu chuỗi và xử lý ngôn ngữ tự nhiên. Như trong [2], các tác giả sử dụng các phương pháp phân tách từ (tokenization) kết hợp với mô hình học sâu LSTM. Cách tiếp cận này tạo ra một mô hình có kết quả khá cao, với độ chính xác (precision) đạt 94,49%, độ nhạy (recall) đạt 92,79% và độ chính xác (accuracy) đạt 94,94%.

Một nghiên cứu khác sử dụng phiên bản tiên tiến hơn của Long Short-Term Memory (LSTM), là Bidirectional LSTM (BiLSTM), để cải thiện thêm độ chính xác của dự đoán [3]. Ngoài việc chỉ sử dụng RNN, bài báo [4] còn sử dụng mạng nơ-ron tích chập (CNN) song song với mô hình LSTM. Mặc dù kết quả đánh giá cho thấy CNN cũng đạt được kết quả khá tốt, LSTM vẫn vượt trội hơn cả về độ chính xác lẫn hiệu suất thời gian khi sử dụng cùng số epoch. Nghiên cứu [5] cho thấy rằng không chỉ việc áp dụng các mô hình phức tạp mà cả việc sử dụng các phương pháp tiền xử lý cơ bản và nhúng từ (word embedding) cũng có thể ảnh hưởng đến hiệu suất phân loại.

Để chứng minh điều này, các tác giả đã tiến hành đánh giá thực nghiệm về kiến trúc kết hợp BiLSTM + CNN, mô hình ngôn ngữ BERT (Bidirectional Encoder Representation from Transformer) với các phương pháp tiền xử lý và nhúng từ khác nhau.5 DỰ KIẾN KẾT QUẢ ĐẠT ĐƯỢC Về lý thuyết: Nhóm mong muốn sau khi thực hiện nghiên cứu có thể học hỏi và hiểu sâu về nội dung lý thuyết của bài toán đã nêu. Đồng thời có cơ hội thực hành mô hình học sâu trong quá trình huấn luyện dữ liệu cho bài toán. Về mặt sản phẩm: Nhóm mong muốn xây dựng được một mô hình có thể phát hiện các ngôn ngữ độc hại với một mức chính xác khả quan và có thể ứng dụng thực tế. Từ đó, áp dụng vào thực tiễn dưới dạng chatbot hoặc tiện ích trong trình duyệt để hỗ trợ người dùng trong việc phát hiện và ngăn chặn ngôn ngữ độc hại 3 CHƯƠNG 2.

NỘI DUNG CHƯƠNG 2: NỘI DUNG 2.1 TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU 2.1 Khái quát về học máy 2.1 Giới thiệu Học máy (Machine Learning) là một nhánh của trí tuệ nhân tạo (AI) tập trung vào việc tạo ra các thuật toán cho phép máy học từ dữ liệu và các thông tin có trước và tự cải thiện theo thời gian. Machine Learning cho phép máy có thể tự động học từ dữ liệu, cải thiện hiệu suất từ dữ liệu đã học được và tạo ra các dự đoán. Các thuật toán Machine Learning tạo ra các mô hình toán học hỗ trợ việc tạo ra các dự đoán hay quyết định với sự hỗ trợ từ các mẫu dữ liệu có trước hay là dữ liệu học (training data).2 Các loại học máy Để có thể hiểu được cách thức mà học máy hoạt động, trước hết chúng ta cần biết về các phương pháp học máy và thuật toán, dưới đây là một số phương pháp thường dùng[6]: • Học có giám sát (Supervised Learning). • Học không giám sát (Unsupervised Learning).

• Học tăng cường (Reinforcement Learning).3 Học có giám sát Các thuật toán và mô hình học có giám sát tạo ra các dự đoán dựa trên các dữ liệu đã được đánh nhãn. Mỗi mẫu dữ liệu huấn luyện đều bao gồm dữ liệu đầu vào (input) và dữ liệu đầu ra (output) tương ứng. Thuật toán học có giám sát phân tích dữ liệu huấn luyện và tạo ra các suy luận - hoặc có thể gọi là các suy đoán có cơ sở khi dự đoán cho các dữ liệu chưa biết trước.[6] Đây là hướng tiếp cận phổ biến nhất khi nói về học máy, mô hình được “giám sát” bởi chúng cần được học và cung cấp các dữ liệu đã được đánh nhãn từ trước. Dữ liệu được đánh nhãn sẽ cung cấp thông tin về các khuôn mẫu (có thể là hình ảnh, phân loại, etc) để mô hình có thể nhận diện được từ dữ liệu.

NỘI DUNG Hình 2.1: Học có giám sát1 Và với phương pháp học có giám sát, chúng ta có hai phương pháp: phân loại (clas- sification) và hồi quy (regression).2: Phân loại và hồi quy2 1. Phương pháp hồi quy: Hồi quy tìm sự tương quan giữa biến phụ thuộc và các biến độc lập, từ đó thuật toán hồi quy có thể dự đoán các biến liên tục (continous variable) chẳng hạn như chiều cao, cân nặng, v. [7] Một số thuật toán hồi quy: • Linear Regression 1 https://dev.to/dulyaaa/lets-peek-into-machine-learning-in0 2 https://www.com/blog/supervised-machine-learning 5 CHƯƠNG 2. NỘI DUNG • Decision Tree Regression • Random Forest Regression • Support Vector Regression 2.

Phương pháp phân loại: Phân loại là thuật toán tìm ra các hàm số có thể chia dữ liệu thành nhiều nhóm dựa trên nhiều thông số khác nhau. Khi sử dụng thuật toán phân loại, máy sẽ học trên tập dữ liệu và phân loại dữ liệu vào nhiều nhóm dựa trên những gì đã học. Thuật toán phân loại chuyển các dữ liệu đầu vào thành dữ liệu đầu ra rời rạc (các giá trị nhị phân như 0 và 1, true và f alse, v. Thuật toán phân loại dự đoán khả năng xảy ra của một sự kiện bằng cách đưa dữ liệu vào hàm logit.[7] • Logistic Regression • K-Nearest Neighbors(KNN) • Naïve Bayes • Decision Tree Classification • Random Forest Classification 2.4 Học không giám sát Hình 2.3: Học không giám sát3 Các thuật toán học không giám sát khám phá các mối quan hệ trong dữ liệu không được đánh nhãn.

Trong trường hợp này, mô hình được cung cấp dữ liệu nhưng không biết được dữ liệu đầu ra mong muốn, mô hình phải dự đoán dựa trên các bằng chứng gián 3 https://dev.to/dulyaaa/lets-peek-into-machine-learning-in0 6 CHƯƠNG 2. NỘI DUNG tiếp mà không có chỉ dẫn nào. Mô hình không được huấn luyện với các “giá trị đúng” và phải tự tìm ra các khuôn mẫu.[6] Một trong những loại học không giám sát phổ biến nhất chính là gom cụm (cluster- ing), thực hiện gom nhóm các dữ liệu giống nhau. Phương pháp này thường được dùng trong phân tích khám phá và có thể tìm ra các khuôn mẫu hay xu hướng bị ẩn giấu.

Một số thuật toán học không giám sát: • K-Means • K-Medoids • Fuzzy C-Means • Gaussian Mixture 2.5 Học bán giám sát Trong học bán giám sát, dữ liệu huấn luyện sẽ được chia thành 2 phần: một tập dữ liệu nhỏ sẽ chứa các dữ liệu được đánh nhãn và tập dữ liệu lớn hơn chứa các dữ liệu không đánh nhãn.4: Học bán giám sát4 Trong trường hợp này, mô hình sẽ dùng dữ liệu có đánh nhãn để tạo ra các suy luận về dữ liệu chưa được đánh nhãn, cung cấp các kết quả chính xác hơn các mô hình học có giám sát thông thường. Hướng tiếp cận này đang dần trở nên phổ biến, nhất là với những công việc sử dụng các tập dữ liệu lớn. Học bán giám sát không yêu cầu nhiều dữ liệu được đánh nhãn, dễ 4 https://www.com/blog/supervised-machine-learning 7 CHƯƠNG 2. NỘI DUNG dàng cài đặt, và hoạt động với chi phí hiệu quả hơn các phương pháp học có giám sát, rất lí tưởng cho những công việc phải xử lý lượng lớn dữ liệu.6 Học tăng cường Học tăng cường liên quan tới việc chương trình nên hoạt động như thế nào để có được kết quả tốt nhất.

Nói ngắn gọn, các mô hình học tăng cường sẽ tìm cách tốt nhất có thể để tối ưu kết quả trong một số tình huống nhất định. Quá trình này là một quá trình thử đi thử lại liên tục. Và do không có dữ liệu huấn luyện, máy phải học từ chính những lỗi sai của chúng và đưa ra lựa chọn khác để dẫn tới kết quả tối ưu.5: Học tăng cường5 Phương pháp này thường được dùng trong các ngành robot và trò chơi điện tử. Các trò chơi điện tử thể hiện rõ ràng mối quan hệ giữa hành động và kết quả, và có thể đánh giá thành công thông qua điểm.

Vì vậy, chúng là một cách thức thích hợp để cải thiện thuật toán học tăng cường.7 Cách thức hoạt động Hệ thống học máy xây dựng mô hình dự đoán bằng cách học các dữ liệu có sẵn từ trước và dự đoán đầu ra cho dữ liệu mới mỗi khi nhận được. Quá trình học máy sẽ gồm 3 giai đoạn[8]: 1. Giai đoạn 1: • Trước khi có thể huấn luyện một mô hình học máy, chúng ta cần phải có dữ liệu. Ơ giai đoạn này, chúng ta trước hết phải thu thập dữ liệu và thực hiện tiền xử lý, nhằm đảm bảo dữ liệu không có sai sót khi đưa vào huấn luyện.com/tutorials/reinforcement-learning/ 8 CHƯƠNG 2.

NỘI DUNG • Khi đã có dữ liệu, chúng ta sẽ chia dữ liệu thành nhiều phần, có thể là 3 phần (training, valid, test) hoặc 2 phần (training, test) để có thể sử dụng với mục đích tương ứng. Giai đoạn 2: • Sau khi đã có dữ liệu, việc tiếp theo cần làm đó chính là lựa chọn thuật toán và mô hình phù hợp. Việc lựa chọn mô hình có thể ảnh hưởng rất lơn đến kết quả cuối cùng. • Sau khi đã có mô hình, chúng ta truyền dữ liệu đã chuẩn bị để mô hình có thể học và tự đánh giá.

Giai đoạn 3: • Sau khi mô hình hoàn thiện, chúng ta tiến hành kiểm tra độ chính xác của mô hình sử dụng tập dữ liệu test đã chuẩn bị từ trước. • Từ kết quả trên có thể đánh giá lại độ hiệu quả của mô hình và sử dụng mô hình khác nếu cần thiết.6: Cách hoạt động của mô hình học máy6 2.2 Khái quát về học sâu 2.1 Giới thiệu Học sâu (deep learning) có thể được xem là một nhánh của học máy. Nếu như ở học máy, các hệ thống máy sẽ học dựa trên tập dữ liệu và cải thiện nó dựa trên các thuật toán thì ở học sâu, quá trình học sẽ dựa trên các hệ thống mạng thần kinh (neural network) - dựa trên bộ não người - để có thể bắt chước khả năng tư duy của bộ não con người.2 Cơ sở hình thành Bộ não con người và máy tính ngay từ bản chất đã rất khác nhau, máy tính có thể dễ dàng tính toán những con số mà con người khó tính được, còn con người có thể xử lí 6 https://www.au/real-time-automated-shark-detection-system/ 9 CHƯƠNG 2. NỘI DUNG những công việc mang tính tư duy mà máy tính không thể thực hiện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu này không có tiêu đề cụ thể, nhưng có thể cung cấp những thông tin hữu ích cho độc giả về các chiến lược dịch thuật và thực tiễn trong lĩnh vực dịch thuật. Độc giả sẽ tìm thấy những phân tích sâu sắc về cách thức dịch thuật được áp dụng trong các bài viết của The Guardian, từ đó hiểu rõ hơn về các phương pháp và kỹ thuật dịch thuật hiệu quả.

Để mở rộng kiến thức của mình, bạn có thể tham khảo thêm tài liệu Phân tích về các chiến lược dịch thuật của các bài viết được chọn trên The Guardian, nơi cung cấp cái nhìn chi tiết về các phương pháp dịch thuật. Ngoài ra, nếu bạn quan tâm đến các lĩnh vực khác như quản lý kinh tế hay giáo dục, tài liệu Luận văn thạc sĩ quản lý kinh tế giải pháp giảm nghèo cho đồng bào dân tộc thiểu số ở huyện Ea Hleo tỉnh Đắk Lắk cũng sẽ mang lại những thông tin bổ ích. Cuối cùng, bạn có thể tìm hiểu thêm về Luận văn thạc sĩ giáo dục học phát triển năng lực giải quyết vấn đề của học sinh trong dạy học lịch sử Việt Nam từ 1954 đến 1975 để có cái nhìn sâu sắc hơn về giáo dục và phương pháp giảng dạy. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết trong các lĩnh vực liên quan.