Đồ án tốt nghiệp: Nghiên cứu và tối ưu mô hình học sâu trong phân loại bình luận tiêu cực trên mạng xã hội

2024

126
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Nghiên cứu này tập trung vào việc tối ưu hóa mô hình học sâu để phân loại bình luận tiêu cực trên mạng xã hội. Với sự phát triển của AI trong mạng xã hội, việc nhận diện và xử lý các bình luận độc hại trở nên cấp thiết. Nghiên cứu sử dụng các mô hình học máy như CNN, BERT, và PhoBERT để cải thiện hiệu suất phân loại. Đồng thời, các phương pháp tăng cường dữ liệuxử lý ngôn ngữ tự nhiên được áp dụng để tối ưu hóa mô hình.

1.1. Mô hình học sâu

Các mô hình học sâu như CNNTransformer đã chứng minh hiệu quả trong việc phân loại văn bản. Đặc biệt, PhoBERT, một biến thể của BERT được huấn luyện trên dữ liệu tiếng Việt, cho thấy khả năng vượt trội trong việc hiểu và biểu diễn ngôn ngữ tự nhiên. Nghiên cứu này sử dụng PhoBERT để tối ưu hóa hiệu suất phân loại bình luận tiêu cực.

1.2. Phân loại bình luận tiêu cực

Phân loại bình luận tiêu cực là một bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Các bình luận tiêu cực không chỉ ảnh hưởng đến tâm lý người dùng mà còn tạo ra môi trường độc hại trên mạng xã hội. Nghiên cứu này tập trung vào việc nhận diện và phân loại các bình luận này bằng các mô hình học sâu để giảm thiểu tác động tiêu cực.

II. Nghiên cứu tổng quan

Nghiên cứu tổng quan so sánh các mô hình xử lý ngôn ngữ tự nhiên hiện nay, từ các mô hình truyền thống như SVMNaïve Bayes đến các mô hình học sâu hiện đại. Các mô hình học sâu như CNNTransformer đã chứng minh hiệu quả vượt trội trong việc xử lý dữ liệu phi cấu trúc và tự động hóa quy trình huấn luyện.

2.1. Mô hình học sâu Deep Learning

Các mô hình học sâu như CNNTransformer đã tạo ra bước đột phá trong xử lý ngôn ngữ tự nhiên. CNN đặc biệt hiệu quả trong việc xử lý các văn bản ngắn, phù hợp với các bình luận trên mạng xã hội. Transformer, với cơ chế Attention, cho phép mô hình hiểu sâu hơn về ngữ cảnh và mối quan hệ giữa các từ.

2.2. Xử lý dữ liệu

Xử lý dữ liệu là bước quan trọng trong việc chuẩn bị dữ liệu đầu vào cho các mô hình học sâu. Nghiên cứu này sử dụng các kỹ thuật tiền xử lý dữ liệu như chuẩn hóa văn bản, loại bỏ từ dừng, và thay thế các từ viết tắt để cải thiện hiệu suất của mô hình. Đồng thời, các phương pháp tăng cường dữ liệu như EDAPhoBERT được áp dụng để mở rộng tập dữ liệu huấn luyện.

III. Phương pháp thực hiện

Nghiên cứu này sử dụng các mô hình học sâu như CNN, BERT, và PhoBERT để phân loại bình luận tiêu cực. Các phương pháp tăng cường dữ liệutiền xử lý dữ liệu được áp dụng để tối ưu hóa hiệu suất của mô hình. Đồng thời, các siêu tham số được tối ưu hóa để đảm bảo mô hình đạt hiệu suất cao nhất.

3.1. Tiền xử lý dữ liệu

Tiền xử lý dữ liệu bao gồm các bước chuẩn hóa văn bản, loại bỏ từ dừng, và thay thế các từ viết tắt. Các kỹ thuật này giúp cải thiện chất lượng dữ liệu đầu vào, từ đó nâng cao hiệu suất của mô hình học sâu. Nghiên cứu này cũng sử dụng các bộ từ điển để thay thế các từ viết tắt và teencode bằng các từ chuẩn tương ứng.

3.2. Tăng cường dữ liệu

Tăng cường dữ liệu là phương pháp quan trọng để mở rộng tập dữ liệu huấn luyện. Nghiên cứu này sử dụng các phương pháp như EDAPhoBERT để tạo ra các mẫu dữ liệu mới. EDA là phương pháp đơn giản và hiệu quả, trong khi PhoBERT sử dụng kiến thức ngôn ngữ của mô hình để tạo ra các dữ liệu mới chất lượng cao hơn.

IV. Kết quả và thảo luận

Kết quả nghiên cứu cho thấy các mô hình học sâu như PhoBERTPhoBERT-CNN đạt hiệu suất cao nhất trong việc phân loại bình luận tiêu cực. Các phương pháp tăng cường dữ liệu như EDAPhoBERT cũng giúp cải thiện đáng kể hiệu suất của mô hình. Nghiên cứu cũng phân tích các dự đoán sai của mô hình để tìm ra hướng phát triển mới.

4.1. So sánh các phương pháp tăng cường dữ liệu

Nghiên cứu so sánh hiệu quả của các phương pháp tăng cường dữ liệu như EDAPhoBERT. Kết quả cho thấy PhoBERT vượt trội hơn EDA trong việc cải thiện hiệu suất của mô hình. Điều này cho thấy việc sử dụng kiến thức ngôn ngữ của mô hình để tạo ra dữ liệu mới là phương pháp hiệu quả hơn.

4.2. Phân tích các dự đoán sai

Nghiên cứu phân tích các dự đoán sai của mô hình để tìm ra nguyên nhân và đề xuất các hướng cải thiện. Các dự đoán sai thường xảy ra do sự phức tạp của ngôn ngữ và sự thiếu hụt dữ liệu huấn luyện. Việc tăng cường dữ liệu và tối ưu hóa mô hình sẽ giúp giảm thiểu các lỗi này trong tương lai.

V. Kết luận và hướng phát triển

Nghiên cứu này đã thành công trong việc tối ưu hóa mô hình học sâu để phân loại bình luận tiêu cực trên mạng xã hội. Các mô hình học sâu như PhoBERTPhoBERT-CNN đã chứng minh hiệu quả vượt trội. Các phương pháp tăng cường dữ liệutiền xử lý dữ liệu cũng giúp cải thiện đáng kể hiệu suất của mô hình. Hướng phát triển trong tương lai bao gồm việc mở rộng tập dữ liệu và triển khai mô hình trong môi trường thực tế.

5.1. Hướng phát triển

Hướng phát triển trong tương lai bao gồm việc mở rộng tập dữ liệu huấn luyện và triển khai mô hình trong môi trường thực tế. Nghiên cứu cũng đề xuất việc sử dụng các mô hình học sâu lớn hơn như BERT-Large để cải thiện hiệu suất. Đồng thời, việc tích hợp các công nghệ AI tiên tiến như phân tích cảm xúc sẽ giúp nâng cao khả năng nhận diện và xử lý các bình luận tiêu cực.

21/02/2025

TÀI LIỆU LIÊN QUAN

Đồ án tốt nghiệp công nghệ kỹ thuật máy tính nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội
Bạn đang xem trước tài liệu : Đồ án tốt nghiệp công nghệ kỹ thuật máy tính nghiên cứu và tối ưu mô hình học sâu trong bài toán phân loại bình luận tiêu cực trên mạng xã hội

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Nghiên cứu và tối ưu mô hình học sâu phân loại bình luận tiêu cực trên mạng xã hội" tập trung vào việc phát triển và cải tiến các mô hình học sâu để nhận diện và phân loại bình luận tiêu cực trên các nền tảng mạng xã hội. Nghiên cứu này không chỉ giúp nâng cao hiệu quả của các hệ thống kiểm duyệt tự động mà còn góp phần cải thiện trải nghiệm người dùng bằng cách giảm thiểu sự lan truyền của nội dung độc hại. Đây là một bước tiến quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học máy, đặc biệt trong bối cảnh mạng xã hội ngày càng phổ biến.

Để mở rộng kiến thức về ứng dụng học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực, nghiên cứu này cung cấp góc nhìn sâu hơn về phân loại cảm xúc trong văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer sẽ giúp bạn hiểu rõ hơn về cách transformer được áp dụng trong phân loại văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin là một tài liệu hữu ích để khám phá thêm về các mô hình học sâu trong việc trích xuất thông tin.

Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của học sâu trong lĩnh vực xử lý ngôn ngữ tự nhiên và các vấn đề liên quan.

Tải xuống (126 Trang - 4.62 MB)