Ứng dụng mô hình đa ngôn ngữ và mạng nơron tích chập trong phân tích bình luận xã hội tiếng Việt

Khóa luận tốt nghiệp: Phân tích bình luận xã hội tiếng Việt bằng mô hình đa ngôn ngữ và mạng nơron tích chập

I. Tóm tắt khóa luận

Khóa luận này tập trung vào việc phát triển một phương pháp mới để phân loại bình luận xã hội trực tuyến bằng tiếng Việt, sử dụng mô hình đa ngôn ngữ và mạng nơron tích chập. Nghiên cứu chỉ ra rằng với sự gia tăng nhanh chóng của các nền tảng truyền thông xã hội, việc giám sát và phân tích nội dung trở nên cần thiết. Các phương pháp hiện tại chưa đáp ứng được yêu cầu do thiếu hụt dữ liệu và sự phức tạp trong ngữ pháp tiếng Việt. Đề tài này đã phát triển bộ dữ liệu ViCM, chứa 5,415 bình luận pha trộn ngôn ngữ, nhằm cải thiện độ chính xác trong việc phân loại cảm xúc và phát hiện bình luận rác.

1.1. Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là phát triển một hệ thống phân loại bình luận trực tuyến hiệu quả, có khả năng nhận diện cảm xúc, phân tích tình cảm và phát hiện spam. Hệ thống này sẽ sử dụng mô hình XLM-RoBERTa kết hợp với 1D-CNN để tối ưu hóa độ chính xác. Nghiên cứu cũng nhằm tạo ra một bộ dữ liệu chất lượng cao, phục vụ cho việc phân tích và đánh giá các bình luận trên mạng xã hội Việt Nam.

II. Phân tích dữ liệu

Phân tích dữ liệu là một phần quan trọng trong nghiên cứu này. Các bộ dữ liệu được sử dụng bao gồm UIT-VSMEC, UIT-VSFC và ViSpam. Mỗi bộ dữ liệu đều có những đặc điểm riêng, từ đó giúp đánh giá hiệu suất của mô hình. Việc thu thập và xử lý dữ liệu được thực hiện cẩn thận để đảm bảo tính chính xác và độ tin cậy. Các phương pháp phân tích như phân tích sentiment và nhận diện cảm xúc được áp dụng để hiểu rõ hơn về nội dung bình luận. Kết quả cho thấy mô hình đề xuất có khả năng phân loại chính xác cao hơn so với các phương pháp hiện tại.

2.1. Đặc điểm bộ dữ liệu

Bộ dữ liệu ViCM được xây dựng với sự chú ý đến tính đa dạng và phong phú của các bình luận. Các bình luận trong bộ dữ liệu này không chỉ bao gồm những ý kiến trung lập mà còn có những bình luận mang tính chất tiêu cực hoặc thù địch. Việc phân tích các đặc điểm này giúp mô hình học hỏi và cải thiện khả năng phân loại. Kết quả cho thấy rằng việc sử dụng mô hình đa ngôn ngữ giúp cải thiện đáng kể độ chính xác trong việc phân loại các bình luận pha trộn ngôn ngữ.

III. Kết quả và đánh giá

Kết quả nghiên cứu cho thấy mô hình đề xuất đạt được độ chính xác cao trên các bộ dữ liệu thử nghiệm. Cụ thể, mô hình đạt độ chính xác 68.25% trên UIT-VSMEC, 94.18% trên UIT-VSFC và 91.29% trên ViSpam. Những con số này chứng tỏ rằng phương pháp kết hợp giữa mô hình XLM-RoBERTa và 1D-CNN có thể mang lại hiệu quả cao trong việc phân loại bình luận. Đặc biệt, việc phát hiện bình luận rác và ngôn từ thù địch cũng được cải thiện rõ rệt.

3.1. Đánh giá hiệu suất mô hình

Đánh giá hiệu suất của mô hình được thực hiện thông qua các chỉ số như độ chính xác và điểm f1-score. Kết quả cho thấy mô hình không chỉ cải thiện về độ chính xác mà còn về khả năng nhận diện cảm xúc và phát hiện spam. Việc sử dụng hàm mất mát tùy chỉnh cũng góp phần nâng cao hiệu suất của mô hình. Những kết quả này cho thấy rằng nghiên cứu đã đạt được mục tiêu đề ra và có thể ứng dụng trong thực tiễn.

Khóa luận tốt nghiệp: Phân tích bình luận xã hội tiếng Việt bằng mô hình đa ngôn ngữ và mạng nơron tích chập

I. Tóm tắt khóa luận

1.1. Mục tiêu nghiên cứu

II. Phân tích dữ liệu

2.1. Đặc điểm bộ dữ liệu

III. Kết quả và đánh giá

3.1. Đánh giá hiệu suất mô hình

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Minh Tiến

Người hướng dẫn: ThS. Nguyễn Văn Kiệt

Trường học: Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành: Khoa học dữ liệu

Đề tài: Tận dụng mô hình đa ngôn ngữ và mạng nơ-ron tích chập cho bình luận xã hội trực tuyến tiếng Việt

Loại tài liệu: khóa luận tốt nghiệp

Năm xuất bản: 2024

Địa điểm: TP. Hồ Chí Minh