Khóa luận tốt nghiệp khoa học dữ liệu tận dụng mô hình đa ngôn ngữ và mạng nơron tích chập cho bình luận xã hội trực tuyến tiếng việt

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp khoa học dữ liệu tận dụng mô hình đa ngôn ngữ và mạng nơron tích chập cho bình luận xã, vận dụng lý thuyết vào thực tế, đề xuất giải

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2024

100
2
0

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. TÓM TẮT KHÓA LUẬN

2. TỔNG QUAN VỀ ĐỀ TÀI

2.1. Bài toán phân loại bình luận

2.2. Nhận diện cảm xúc (Emotion Recognition)

2.3. Phân tích tình cảm (Sentiment Analysis)

2.4. Phát hiện spam (Spam Detection)

2.5. Phát hiện ngôn từ thù địch (Hate-Speech Detection)

2.6. Tính ứng dụng của đề tài

3. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

3.1. Các bộ dữ liệu liên quan

3.2. Công trình trên thế giới

3.3. Công trình trong Việt Nam

3.4. Phát triển và phân tích bộ dữ liệu

3.4.1. Định nghĩa bộ dữ liệu

3.4.2. Các bước xây dựng bộ dữ liệu

3.4.3. Chuẩn hóa các từ code-mixed và sửa lỗi chính tả

3.4.4. Điểm vượt trội của bộ dữ liệu

3.4.5. Phân tích đặc điểm bộ dữ liệu

3.4.6. Thống kê phân tích bộ dữ liệu

4. PHƯƠNG PHÁP THỰC HIỆN

4.1. Giới thiệu sơ lược phương pháp được áp dụng

4.2. Một số nghiên cứu đưa ra các giải pháp phân loại văn bản gần đây

4.3. Tổng quan kiến trúc mô hình đề xuất

4.4. Mô hình XLM-RoBERTa

4.4.1. Lớp chuyên vi (Transposed Hidden States)

4.5. 1D Convolutional Neural Network (1D-CNN)

4.5.1. Phát triển mô hình phân loại đa lớp

4.5.2. Công thức tính cho hàm mất mát

4.5.3. Hàm phân loại tùy chỉnh đề xuất

4.5.4. Hàm mất mát tùy chỉnh đề xuất

5. CÀI ĐẶT, ĐÁNH GIÁ VÀ KẾT QUẢ

5.1. Cài đặt thử nghiệm

5.2. Cách tiếp cận bằng phương pháp học máy

5.3. Cách tiếp cận bằng phương pháp học sâu

5.4. Cách tiếp cận bằng phương pháp học chuyên giao

5.5. Cách tiếp cận bằng phương pháp đề xuất của chúng tôi

5.6. Phương pháp đánh giá

5.7. Kết quả thực nghiệm

5.7.1. Phân tích tình cảm

5.7.2. Nhận diện cảm xúc

5.7.3. Nhận diện bình luận spam

5.7.4. Phát hiện ngôn từ thù hận qua các bình luận pha trộn ngôn ngữ

5.8. Phân tích kết quả

5.8.1. Phân tích so sánh giữa XLM-RoBERTa-large và các mô hình transformer khác với phương pháp đề xuất của chúng tôi

5.8.2. So sánh với các nghiên cứu trước đây

5.8.3. Nghiên cứu theo phương pháp ablation study

5.8.4. Phân tích lỗi

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tóm tắt khóa luận

Khóa luận này tập trung vào việc phát triển một phương pháp mới để phân loại bình luận xã hội trực tuyến bằng tiếng Việt, sử dụng mô hình đa ngôn ngữmạng nơron tích chập. Nghiên cứu chỉ ra rằng với sự gia tăng nhanh chóng của các nền tảng truyền thông xã hội, việc giám sát và phân tích nội dung trở nên cần thiết. Các phương pháp hiện tại chưa đáp ứng được yêu cầu do thiếu hụt dữ liệu và sự phức tạp trong ngữ pháp tiếng Việt. Đề tài này đã phát triển bộ dữ liệu ViCM, chứa 5,415 bình luận pha trộn ngôn ngữ, nhằm cải thiện độ chính xác trong việc phân loại cảm xúc và phát hiện bình luận rác.

1.1. Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là phát triển một hệ thống phân loại bình luận trực tuyến hiệu quả, có khả năng nhận diện cảm xúc, phân tích tình cảm và phát hiện spam. Hệ thống này sẽ sử dụng mô hình XLM-RoBERTa kết hợp với 1D-CNN để tối ưu hóa độ chính xác. Nghiên cứu cũng nhằm tạo ra một bộ dữ liệu chất lượng cao, phục vụ cho việc phân tích và đánh giá các bình luận trên mạng xã hội Việt Nam.

II. Phân tích dữ liệu

Phân tích dữ liệu là một phần quan trọng trong nghiên cứu này. Các bộ dữ liệu được sử dụng bao gồm UIT-VSMEC, UIT-VSFC và ViSpam. Mỗi bộ dữ liệu đều có những đặc điểm riêng, từ đó giúp đánh giá hiệu suất của mô hình. Việc thu thập và xử lý dữ liệu được thực hiện cẩn thận để đảm bảo tính chính xác và độ tin cậy. Các phương pháp phân tích như phân tích sentimentnhận diện cảm xúc được áp dụng để hiểu rõ hơn về nội dung bình luận. Kết quả cho thấy mô hình đề xuất có khả năng phân loại chính xác cao hơn so với các phương pháp hiện tại.

2.1. Đặc điểm bộ dữ liệu

Bộ dữ liệu ViCM được xây dựng với sự chú ý đến tính đa dạng và phong phú của các bình luận. Các bình luận trong bộ dữ liệu này không chỉ bao gồm những ý kiến trung lập mà còn có những bình luận mang tính chất tiêu cực hoặc thù địch. Việc phân tích các đặc điểm này giúp mô hình học hỏi và cải thiện khả năng phân loại. Kết quả cho thấy rằng việc sử dụng mô hình đa ngôn ngữ giúp cải thiện đáng kể độ chính xác trong việc phân loại các bình luận pha trộn ngôn ngữ.

III. Kết quả và đánh giá

Kết quả nghiên cứu cho thấy mô hình đề xuất đạt được độ chính xác cao trên các bộ dữ liệu thử nghiệm. Cụ thể, mô hình đạt độ chính xác 68.25% trên UIT-VSMEC, 94.18% trên UIT-VSFC và 91.29% trên ViSpam. Những con số này chứng tỏ rằng phương pháp kết hợp giữa mô hình XLM-RoBERTa1D-CNN có thể mang lại hiệu quả cao trong việc phân loại bình luận. Đặc biệt, việc phát hiện bình luận rác và ngôn từ thù địch cũng được cải thiện rõ rệt.

3.1. Đánh giá hiệu suất mô hình

Đánh giá hiệu suất của mô hình được thực hiện thông qua các chỉ số như độ chính xác và điểm f1-score. Kết quả cho thấy mô hình không chỉ cải thiện về độ chính xác mà còn về khả năng nhận diện cảm xúc và phát hiện spam. Việc sử dụng hàm mất mát tùy chỉnh cũng góp phần nâng cao hiệu suất của mô hình. Những kết quả này cho thấy rằng nghiên cứu đã đạt được mục tiêu đề ra và có thể ứng dụng trong thực tiễn.

10/02/2025

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về đề tài Chúng tôi sẽ xem xét các vấn đề về phân loại bình luận pha trộn ngôn ngữ (code-mixed) trong phần này. Chúng tôi cũng sẽ nói về những khó khăn mà chúng tôi đang gặp phải, sự quan trọng và khả năng đóng góp của chủ đề. > Chương 2: Các công trình nghiên cứu liên quan Chúng tôi đã thu thập và tìm hiểu nhiều nghiên cứu có liên quan đến đề tài này, bao gồm các nghiên cứu trong nước và quốc tế. > Chương 3: Phát triển và phan tích bộ dit liệu Chương 3 mô tả toàn bộ quá trình tạo ra bộ dữ liệu, từ việc thu thập dữ liệu, tiến hành việc xử lý và đồng thời nâng cao chất lượng của tập dit liệu.

Tiếp đến, chúng tôi đã sử dụng các phương pháp thống kê dé phân tích chỉ tiết các đặc điểm của bộ dữ liệu mà chúng tôi thu thập được. > __ Chương 4: Phương pháp thực hiện Trong chương 4, chúng tôi sẽ trình bày về những phương pháp được đề xuất dé giải quyết vấn đề phân loại các bình luận code-mixed trên các trực tuyến. Chúng tôi thực hiện việc kết hợp giữa mô hình đa ngôn ngữ XLM-RoBERTa và lớp tích chập ID-CNN, đồng thời đề xuất một hàm phân loại và hàm mat mát tùy chỉnh dé dat được hiệu suất tối ưu trên các bộ dit liệu UIT-VSMEC [3], UIT-VSFC [5] và ViSpam [14]. Chương 5: Cài đặt, đánh giá và kết qua 21 Trong chương 5, chúng tôi sẽ đề cập đến cách thiết lập các thông số cho các mô hình, phân tích kết quả thu được từ các mô hình, thực hiện thử nghiệm trên một loạt các tập dữ liệu đa dạng băng nhiều mô hình khác nhau và đưa ra đánh giá khách quan về hiệu suất của chúng.

> __ Chương 6: Đánh giá kết qua Trong chương 6, chúng tôi sẽ đưa ra những so sánh với những nghiên cứu trước đó, giới thiệu kết quả từ các mô hình, đánh giá và phân tích các kết quả thu được, tiến hành ablation study và cuối cùng là phân tích lỗi. > Chvwong 7: Kết luận và hướng phát triển Trong chương cuối, chúng tôi sẽ trình bày chỉ tiết các kết quả mà chúng tôi đã đạt được và thu được trong nghiên cứu này. Những hạn chế cũng như những cơ hội phát triển và mở rộng đề tài trong tương lai sẽ được đề cập. TONG QUAN VE DE TÀI 1.

Bai toán phan loại bình luận Trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), phân loại các bình luận trên mang xã hội tại Việt Nam (Hình 1.2) đóng một vai trò quan trong [1]. bao gồm các nhiệm vụ như nhận diện cảm xúc (emotion recognition) [2], phân tích tình cảm (sentiment analysis), phát hiện tin rác (spam detection) [14] va phát hiện ngôn từ thù địch (hate-speech detection). Những nhiệm vụ này không chỉ quan trọng trong việc cải thiện trải nghiệm người dùng mà còn đóng vai trò quan trọng trong việc duy trì một môi trường trực tuyến lành mạnh và an toàn. Nhận diện cảm xúc (Emotion Recognition) Nhận diện cảm xúc là quy trình nhận biết và phân loại các tình trạng cảm xúc qua bình luận.

Cảm xúc gồm nhiều loại như hạnh phúc, buồn bã, tức giận, lo sợ, kinh ngạc và nhiều tình trạng khác nữa. Nghiên cứu này của chúng tôi có thể giúp hiểu sâu hơn về phản ứng cảm xúc của con người trên mạng xã hội cũng như sẽ được ứng dụng rộng rãi trong đa số lĩnh vực khác nữa. Phân tích tình cảm (Sentiment Analysis) Phân tích tình cảm là quá trình đánh giá, phân tích về quan điểm và thái độ hoặc cảm xúc cho một chủ đề cụ thể. Phân tích tình cảm cho phép hệ thống phân loại ý kiến thành 3 nhãn là tích cực, trung lập và tiêu cực.

Đề dự đoán xu hướng thị trường và theo đõi tâm trạng của người dùng trên các mạng xã hội, phương pháp này rất hữu ích dé đánh giá phản hồi từ khách hàng. Phát hiện spam (Spam Detection) Phát hiện bình luận rác (spam) là quá trình rà soát và loại bỏ các thông tin bình luận không mong muốn hoặc có hại, thường được đăng tải với sỐ lượng lớn nhằm mục đích là quảng cáo hoặc cho thấy những gian lận hoặc gây phiền toái cho người dùng. Phương pháp này giúp cho cộng đồng mạng văn minh hơn bằng cách giảm thiểu sự lan truyền của thông tin rác và giúp người dùng tránh bị lừa đảo trực tuyến. Phát hiện ngôn từ thù địch (Hate-Speech Detection) Phát hiện ngôn từ thù địch là nhiệm vụ xác định và phân loại các bình luận hoặc phát ngôn có tính chất kích động, công kích về chủng tộc và giới tính hoặc kích động bạo lực.

Phương pháp này giúp duy trì không gian trực tuyến an toàn và lịch sự, ngăn chặn sự lan truyền của từ ngữ gây căm hận và bảo vệ cộng đồng khỏi những ảnh hưởng tiêu cực. Trong bài khóa luận này, chúng tôi đặt ra mục tiêu là xây dựng một hệ thống phân loại bình luận tiếng Việt, bao gồm các bình luận kết hợp ngôn ngữ (code- mixed) trên các nền tảng mạng xã hội. Chúng tôi đã đề xuất được một phương pháp tối ưu, hứa hẹn cho việc phân loại và xử lý các bình luận một cách hiệu quả. Thông qua Hình 1.1, nhóm đã tiến hành khảo sát và thấy được các bình luận code- mixed đang xuất hiện ngày càng nhiều trên các nền tảng mạng xã hội phổ biến tại Việt Nam, từ đó hiểu được tầm quan trọng của dé tài này.

Phân Bố 1000 Bình Luận Theo Loại Trên Các Mạng Xã Hội Facebook. TikTok Emoji, Nhãn va GIF Code-mixed Emoji, Nhan va GIF Code-mixed Tiếng Việt Tiếng Việt Instagram Reddit Emoji, Nhãn và GIF Emoji, Nhãn va GIF Code-mixed Tiếng Việt Code-mixed Tiếng Việt Hình 1.1 : Khảo sát 1000 bình luận bất kì trên nền tảng mạng xã hội Việt Nam. 24 Những ưu diém và nhu cầu cần được đáp ứng của hệ thống phân loại bình luận trên các mạng xã hội: Tăng cường trải nghiệm người dùng: Công cụ phân loại văn bản có khả năng loại bỏ những bình luận, phản hồi rác và có lời lẽ kỳ thị. Đảm bảo bảo vệ người dùng khỏi các những thành phan lừa đảo và giảm bớt ảnh hưởng của thông tin độc hại.

Hỗ trợ doanh nghiệp ở việc quản lý sản phẩm và dịch vụ: Các tổ chức thương mại sẽ áp dụng hệ thống phân loại dé theo dõi và phân tích phản hồi và bình luận, không những cải thiện về dich vụ mà còn giúp họ hiệu được xu hướng của người dùng đôi với sản phâm của họ. Hỗ trợ nghiên cứu và phân tích: Mô hình phân loại văn bản cung cấp thông tin quý giá cho các nhà nghiên cứu và nhà phân tích, giúp họ 25 khám phá sâu hơn về tâm lý của người dùng, xu hướng xã hội và những thứ hữu ích khác. Với những tiện ích và nhu cầu cần được đáp ứng như vậy, việc tạo ra một phương pháp phân loại văn bản tiếng Việt hiệu quả đóng vai trò vô cùng quan trọng. với robot rồi, tàu đéo copy đc mấy dòng code nên mấy công nghệ này toàn di sau Mỹ.

Nhãn: OFFENSIVE Hình 1.2: Ví du về hệ thống Phân loại bình luận. Vấn đề thách thức Xây dựng bộ dữ liệu là việc vô cùng quan trọng và tốn kém nhiều thời gian và chi phi nhat trong một dự án thực nghiệm, cu thé là khi chúng tôi tiến hành đặt mục tiêu là thu thập và tìm kiếm những bình luận pha trộn ngôn ngữ. Tìm kiếm và thu thập bình luận code-mixed là một van đề lớn đối với nghiên cứu của chúng tôi, đặc biệt là khi phải xây dung một kho dữ liệu đủ lớn va chất lượng. Trong quá trình phát triển mô hình, chúng tôi còn gặp phải nhiều trở ngại do sự phức tạp và đa dạng của ngôn ngữ VIỆt.

Tiếng Việt, với cấu trúc ngữ pháp phức tạp, từ ghép và từ đa nghĩa, đem lại nhiều thách thức mới và khó khăn hơn. Đặc biệt, sự thiếu hụt đữ liệu được gán nhãn làm gia tang tính khó khăn của thách thức này.3 thé hiện về một vài bình luận code-mixed trên mang xã hội Facebook! gần đây.com T1:11 all > Cơm Tấm Xin lỗi mà mét thằng Grab xử lý ông shipper đăng clip xin lỗi con c 13giờ Thich Phan hồi 13giờồ Thích Phản hồi Chê. 1 cái banner vậy là xong? 21gi6 Thích Phản hồi Theo dõi Mn đừng phân biệt với may a shipper, tội may ảnh lắm 23giờ Thích Phản hồi 6s ĐO tui ăn PLT nhiều rồi, lần nào cũng có trải nghiệm oke, ko chê cái gì cả. Nhưng về phần bạn nhân viên, PLT cũng đã có hướng giải quyết với bạn đó theo quy định (maybe là bị đuồi).

Về khâu xử lý quy trình của shipper và khách thì nên dàn xếp lại khâu này, vì shipper cũng như khách, ai cũng công bằng như nhau. PLT au về khâu training nhân viên cách giao tiếp với KH, vì nhân viên là bộ mặt của công ty. 18giờ Thích Phản hồi 1Ð đã trả lời - 1 Phản hồi Nam mô a di đà phật. Kiếp nạn thọ tới Viết bình luận.3: Một số phan hồi code-mixed.

Một thách thức đáng kể khác là hiện tượng trộn lẫn ngôn ngữ (code-mixed) trong các bình luận trực tuyến. Việc trộn lẫn các ngôn ngữ này làm tăng độ phức 27 tạp cho việc phân loại, yêu cầu hệ thống phân loại phải đủ tốt và hiểu ngữ nghĩa trong tất cả ngôn ngữ xuất hiện trong bình luận. Cuối cùng, một trở ngại đáng ké khác là phát hiện và loại bỏ nội dung không mong muốn. Các kỹ thuật đăng tải các bình luận rác đang trở nên khó phát hiện hơn, đòi hỏi mô hình phải luôn được cập nhật dé có thé xử lý và phân loại bình luận rác.

Bên cạnh đó, các phản hồi nhạy cảm và độc hại phải được xử lý một cách thận trọng hơn. Tinh ứng dụng của đề tài Xây dựng một hệ thống phân loại cho việc phân tích bình luận trên mạng xã hội đang trở nên rất phố biến và hữu dụng. Hệ thống này có nhiều ứng dụng, bao gồm cải thiện trải nghiệm người dùng và hỗ trợ quản lý mạng xã hội và doanh nghiệp. e au tiên, việc tạo ra và mở rộng một kho dữ liệu mới VICM liên quan đên các bình luận code-mixed, góp phan quan trong cho việc làm giau nguôn đữ liệu có liên quan đên tiêng Việt hơn.

Hiện nay, sô lượng vê dữ liệu tiêng Việt chât lượng cao vân còn thiêu. e Thứ hai, các tô chức có thê tích hợp công nghệ này vào hệ thống chăm sóc khách hàng của mình dé tự động phân loại và xử lý các nhận xét, ý kiến của bên khách hàng. e Hon nữa, công cụ này có thể được sử dụng dé quản lý bình luận.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Ứng dụng mô hình đa ngôn ngữ và mạng nơron tích chập trong phân tích bình luận xã hội tiếng Việt" tập trung vào việc sử dụng các mô hình đa ngôn ngữ và mạng nơron tích chập (CNN) để phân tích và hiểu bình luận trên mạng xã hội bằng tiếng Việt. Nghiên cứu này mang lại lợi ích lớn cho các nhà phát triển, nhà nghiên cứu và doanh nghiệp trong việc nắm bắt xu hướng, cảm xúc và ý kiến của người dùng, từ đó cải thiện chiến lược tiếp thị và quản lý thương hiệu. Đặc biệt, việc áp dụng CNN giúp tăng độ chính xác trong phân tích ngôn ngữ tự nhiên, một thách thức lớn với tiếng Việt do tính phức tạp về ngữ pháp và ngữ nghĩa.

Để mở rộng kiến thức về phân tích ngôn ngữ và ứng dụng công nghệ trong lĩnh vực này, bạn có thể tham khảo thêm Khóa luận tốt nghiệp tìm hiểu ngôn ngữ chát của giới trẻ hiện nay qua khảo sát một số mạng xã hội, nghiên cứu này cung cấp cái nhìn sâu sắc về cách ngôn ngữ trực tuyến đang thay đổi. Ngoài ra, Analysis on translation strategies of selected articles on theguardian an assignment on translation practice 3 sẽ giúp bạn hiểu rõ hơn về chiến lược dịch thuật, một yếu tố quan trọng trong xử lý ngôn ngữ. Cuối cùng, Đồ án tốt nghiệp công nghệ thông tin xây dựng website bán giày dép là một tài liệu hữu ích để khám phá cách công nghệ thông tin được ứng dụng trong thực tế, bổ sung kiến thức về phát triển hệ thống dựa trên dữ liệu.