Khóa luận tốt nghiệp: Phân tích bình luận xã hội tiếng Việt bằng mô hình đa ngôn ngữ và mạng nơron tích chập

2024

100
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tóm tắt khóa luận

Khóa luận này tập trung vào việc phát triển một phương pháp mới để phân loại bình luận xã hội trực tuyến bằng tiếng Việt, sử dụng mô hình đa ngôn ngữmạng nơron tích chập. Nghiên cứu chỉ ra rằng với sự gia tăng nhanh chóng của các nền tảng truyền thông xã hội, việc giám sát và phân tích nội dung trở nên cần thiết. Các phương pháp hiện tại chưa đáp ứng được yêu cầu do thiếu hụt dữ liệu và sự phức tạp trong ngữ pháp tiếng Việt. Đề tài này đã phát triển bộ dữ liệu ViCM, chứa 5,415 bình luận pha trộn ngôn ngữ, nhằm cải thiện độ chính xác trong việc phân loại cảm xúc và phát hiện bình luận rác.

1.1. Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là phát triển một hệ thống phân loại bình luận trực tuyến hiệu quả, có khả năng nhận diện cảm xúc, phân tích tình cảm và phát hiện spam. Hệ thống này sẽ sử dụng mô hình XLM-RoBERTa kết hợp với 1D-CNN để tối ưu hóa độ chính xác. Nghiên cứu cũng nhằm tạo ra một bộ dữ liệu chất lượng cao, phục vụ cho việc phân tích và đánh giá các bình luận trên mạng xã hội Việt Nam.

II. Phân tích dữ liệu

Phân tích dữ liệu là một phần quan trọng trong nghiên cứu này. Các bộ dữ liệu được sử dụng bao gồm UIT-VSMEC, UIT-VSFC và ViSpam. Mỗi bộ dữ liệu đều có những đặc điểm riêng, từ đó giúp đánh giá hiệu suất của mô hình. Việc thu thập và xử lý dữ liệu được thực hiện cẩn thận để đảm bảo tính chính xác và độ tin cậy. Các phương pháp phân tích như phân tích sentimentnhận diện cảm xúc được áp dụng để hiểu rõ hơn về nội dung bình luận. Kết quả cho thấy mô hình đề xuất có khả năng phân loại chính xác cao hơn so với các phương pháp hiện tại.

2.1. Đặc điểm bộ dữ liệu

Bộ dữ liệu ViCM được xây dựng với sự chú ý đến tính đa dạng và phong phú của các bình luận. Các bình luận trong bộ dữ liệu này không chỉ bao gồm những ý kiến trung lập mà còn có những bình luận mang tính chất tiêu cực hoặc thù địch. Việc phân tích các đặc điểm này giúp mô hình học hỏi và cải thiện khả năng phân loại. Kết quả cho thấy rằng việc sử dụng mô hình đa ngôn ngữ giúp cải thiện đáng kể độ chính xác trong việc phân loại các bình luận pha trộn ngôn ngữ.

III. Kết quả và đánh giá

Kết quả nghiên cứu cho thấy mô hình đề xuất đạt được độ chính xác cao trên các bộ dữ liệu thử nghiệm. Cụ thể, mô hình đạt độ chính xác 68.25% trên UIT-VSMEC, 94.18% trên UIT-VSFC và 91.29% trên ViSpam. Những con số này chứng tỏ rằng phương pháp kết hợp giữa mô hình XLM-RoBERTa1D-CNN có thể mang lại hiệu quả cao trong việc phân loại bình luận. Đặc biệt, việc phát hiện bình luận rác và ngôn từ thù địch cũng được cải thiện rõ rệt.

3.1. Đánh giá hiệu suất mô hình

Đánh giá hiệu suất của mô hình được thực hiện thông qua các chỉ số như độ chính xác và điểm f1-score. Kết quả cho thấy mô hình không chỉ cải thiện về độ chính xác mà còn về khả năng nhận diện cảm xúc và phát hiện spam. Việc sử dụng hàm mất mát tùy chỉnh cũng góp phần nâng cao hiệu suất của mô hình. Những kết quả này cho thấy rằng nghiên cứu đã đạt được mục tiêu đề ra và có thể ứng dụng trong thực tiễn.

10/02/2025
Khóa luận tốt nghiệp khoa học dữ liệu tận dụng mô hình đa ngôn ngữ và mạng nơron tích chập cho bình luận xã hội trực tuyến tiếng việt
Bạn đang xem trước tài liệu : Khóa luận tốt nghiệp khoa học dữ liệu tận dụng mô hình đa ngôn ngữ và mạng nơron tích chập cho bình luận xã hội trực tuyến tiếng việt

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu '{"title":null}' là một nguồn thông tin hữu ích, mặc dù tiêu đề chưa được xác định, nhưng nội dung của nó có thể mang lại những hiểu biết sâu sắc về các chủ đề liên quan. Để khám phá thêm các góc nhìn đa chiều và mở rộng kiến thức, bạn có thể tham khảo các tài liệu chuyên sâu khác. Ví dụ, Luận văn hoàn thiện công tác kế toán lập và phân tích báo cáo kết quả kinh doanh tại công ty cổ phần vận tải và dịch vụ môi trường công lý cung cấp cái nhìn chi tiết về quản lý tài chính. Nếu bạn quan tâm đến lĩnh vực kinh doanh, Luận văn thạc sĩ quản trị kinh doanh quản trị lực lượng bán hàng tại công ty cổ phần ô tô trung hàn trên thị trường miền trung và tây nguyên sẽ là tài liệu phù hợp. Đối với những ai đam mê công nghệ, Đồ án tốt nghiệp ngành điện tự động công nghiệp tìm hiểu động cơ từ kháng và từ kháng có cấu trúc mới sử dụng cho ô tô điện sẽ mở ra những kiến thức mới mẻ. Hãy khám phá để nâng cao hiểu biết của bạn!

Tải xuống (100 Trang - 32.26 MB)