Nhận Diện Tính Xây Dựng và Tính Độc Hại của Bình Luận Tiếng Việt

Khóa luận phân tích tính xây dựng và tính độc hại của bình luận tiếng Việt trong lĩnh vực công nghệ thông tin, cung cấp cái nhìn sâu sắc và hữu ích.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Khóa luận tốt nghiệp

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHƯƠNG 1: Mô tả bài toán

1.1. Thách thức của đề tài. Tính ứng dụng của đề tài

2. CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Các công trình trên thế giới

2.2. Các công trình trong nước

3. CHƯƠNG 3: XÂY DỰNG BỘ DỮ LIỆU VÀ TIẾN HÀNH ĐÁNH GIÁ CÁC PHƯƠNG PHÁP THỬ NGHIỆM

3.1. Định nghĩa các nhãn

3.2. Thu thập dữ liệu

3.3. Xây dựng hướng dẫn gán nhãn. Gán nhãn dữ liệu

3.4. Sự phân bố của các nhãn

3.5. Mối quan hệ giữa tính xây dựng và tính độc hại

3.6. Các phương pháp thử nghiệm

3.6.1. Các phương pháp máy học truyền thống

3.6.2. Các phương pháp học sâu

3.6.3. Phương pháp học chuyển tiếp

3.7. Nghiên cứu thử nghiệm

3.7.1. Tiền xử lý dữ liệu

3.7.2. Các bộ biểu diễn từ

3.7.3. Thông số cài đặt các mô hình

3.7.4. Phương pháp đánh giá

3.7.5. Kết quả thử nghiệm

3.7.6. Phân tích kết quả

3.8. So sánh độ hiệu quả các phương pháp học chuyển tiếp

3.8.1. Các phương pháp học chuyển tiếp cho tiếng Việt

3.8.2. Mô hình đa ngôn ngữ

4. CHƯƠNG 4: MÔ HÌNH ĐƠN NGÔN NGỮ

4.1. Nghiên cứu thử nghiệm

4.1.1. Tiền xử lý dữ liệu

4.1.2. Các thông số mô hình

4.2. Kết quả thử nghiệm

4.3. Phân tích kết quả

4.4. Nghiên cứu thử nghiệm trên các bộ dữ liệu khác

4.4.1. Các bộ dữ liệu cho bài toán phân loại văn bản tiếng Việt liên quan

4.4.2. Tiền xử lý dữ liệu

4.4.3. Các tham số mô hình

4.4.4. Kết quả thử nghiệm

4.4.5. Phân tích kết quả

4.5. Đánh giá hiệu suất phân loại giữa mô hình đa ngôn ngữ và mô hình đơn ngôn ngữ

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

LỜI CẢM ƠN

DANH MỤC CÔNG TRÌNH TÁC GIẢ

TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng quan về Nhận Diện Tính Xây Dựng và Tính Độc Hại của Bình Luận Tiếng Việt

Trong bối cảnh mạng xã hội phát triển mạnh mẽ, việc nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt trở thành một nhiệm vụ quan trọng. Các bình luận trên mạng không chỉ phản ánh ý kiến cá nhân mà còn ảnh hưởng đến tâm lý và hành vi của người dùng. Việc phân tích và phân loại các bình luận này giúp nâng cao chất lượng thảo luận trực tuyến, đồng thời giảm thiểu tác động tiêu cực từ những bình luận độc hại.

1.1. Định nghĩa và Ý nghĩa của Tính Xây Dựng và Tính Độc Hại

Tính xây dựng của bình luận được hiểu là những ý kiến mang tính tích cực, góp phần làm phong phú thêm cuộc thảo luận. Ngược lại, tính độc hại thể hiện qua những bình luận có nội dung xúc phạm, thô tục, gây tổn thương đến người khác. Việc nhận diện chính xác hai loại bình luận này là cần thiết để tạo ra một môi trường thảo luận lành mạnh.

1.2. Tình hình Bình Luận Tiếng Việt trên Mạng Xã Hội

Sự gia tăng của các nền tảng mạng xã hội đã dẫn đến một lượng lớn bình luận tiếng Việt. Tuy nhiên, không phải tất cả bình luận đều có giá trị. Nhiều bình luận mang tính chất tiêu cực, gây ảnh hưởng xấu đến cộng đồng. Việc phân tích và nhận diện các bình luận này là một thách thức lớn cho các nhà nghiên cứu và phát triển công nghệ.

II. Vấn Đề và Thách Thức trong Nhận Diện Bình Luận Tiếng Việt

Nhận diện bình luận độc hại và bình luận xây dựng gặp nhiều thách thức do sự đa dạng về ngôn ngữ và cách diễn đạt của người dùng. Các yếu tố như ngữ cảnh, văn hóa và cách sử dụng từ ngữ có thể làm cho việc phân loại trở nên phức tạp. Hơn nữa, việc thiếu hụt dữ liệu chất lượng cũng là một rào cản lớn trong nghiên cứu này.

2.1. Đặc Điểm Ngôn Ngữ Tiếng Việt và Ảnh Hưởng đến Nhận Diện

Tiếng Việt có nhiều đặc điểm ngữ pháp và từ vựng phong phú, điều này tạo ra sự đa dạng trong cách diễn đạt. Những đặc điểm này có thể gây khó khăn cho các mô hình máy học trong việc nhận diện chính xác các bình luận. Việc hiểu rõ ngữ cảnh và sắc thái của ngôn ngữ là rất quan trọng.

2.2. Thiếu Hụt Dữ Liệu Chất Lượng cho Nghiên Cứu

Mặc dù có nhiều bình luận trên mạng xã hội, nhưng việc thu thập và gán nhãn dữ liệu chất lượng vẫn là một thách thức. Thiếu hụt bộ dữ liệu có cấu trúc rõ ràng và được gán nhãn chính xác sẽ ảnh hưởng đến hiệu suất của các mô hình nhận diện bình luận.

III. Phương Pháp Nhận Diện Tính Xây Dựng và Tính Độc Hại

Để nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt, nhiều phương pháp đã được áp dụng. Các phương pháp này bao gồm từ các kỹ thuật máy học truyền thống đến các mô hình học sâu hiện đại. Việc lựa chọn phương pháp phù hợp sẽ quyết định đến hiệu suất của hệ thống nhận diện.

3.1. Các Kỹ Thuật Máy Học Truyền Thống

Các kỹ thuật như Logistic Regression, Support Vector Machine và Random Forest đã được sử dụng để phân loại bình luận. Những phương pháp này có ưu điểm là dễ triển khai và nhanh chóng, nhưng thường gặp khó khăn trong việc xử lý ngữ nghĩa phức tạp.

3.2. Mô Hình Học Sâu Hiện Đại

Mô hình học sâu như LSTM và Bi-LSTM-GRU-CNN cho thấy hiệu suất vượt trội trong việc nhận diện bình luận. Những mô hình này có khả năng học hỏi từ dữ liệu lớn và hiểu được ngữ cảnh, từ đó cải thiện độ chính xác trong việc phân loại.

IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu

Kết quả từ nghiên cứu về nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt đã cho thấy những ứng dụng thực tiễn quan trọng. Việc phát triển bộ dữ liệu UIT-ViCTSD với 10,000 bình luận đã giúp cải thiện đáng kể khả năng nhận diện của các mô hình. Những ứng dụng này không chỉ giúp nâng cao chất lượng thảo luận mà còn bảo vệ người dùng khỏi những bình luận độc hại.

4.1. Bộ Dữ Liệu UIT ViCTSD và Tác Động của Nó

Bộ dữ liệu UIT-ViCTSD được xây dựng với quy trình gán nhãn nghiêm ngặt, giúp cung cấp một nguồn tài nguyên quý giá cho nghiên cứu. Bộ dữ liệu này không chỉ hỗ trợ cho việc nhận diện bình luận mà còn mở ra cơ hội cho các nghiên cứu tiếp theo trong lĩnh vực xử lý ngôn ngữ tự nhiên.

4.2. Kết Quả Thử Nghiệm và Đánh Giá Hiệu Suất

Các mô hình thử nghiệm trên bộ dữ liệu UIT-ViCTSD đã đạt được kết quả cao, với độ đo F1-score macro lên đến 78,59% cho nhiệm vụ nhận diện tính xây dựng. Những kết quả này cho thấy tiềm năng lớn của các mô hình học sâu trong việc xử lý bình luận tiếng Việt.

V. Kết Luận và Hướng Phát Triển Tương Lai

Nghiên cứu về nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt đã mở ra nhiều cơ hội mới cho việc cải thiện chất lượng thảo luận trên mạng xã hội. Hướng phát triển trong tương lai sẽ tập trung vào việc mở rộng bộ dữ liệu và cải thiện hiệu suất của các mô hình nhận diện.

5.1. Hướng Phát Triển Bộ Dữ Liệu Mới

Việc mở rộng bộ dữ liệu với nhiều bình luận hơn và đa dạng hơn sẽ giúp cải thiện khả năng nhận diện. Các nghiên cứu tiếp theo có thể tập trung vào việc thu thập dữ liệu từ nhiều nguồn khác nhau để tăng tính đại diện.

5.2. Cải Thiện Hiệu Suất Mô Hình Nhận Diện

Nghiên cứu và phát triển các mô hình học sâu mới, cũng như tối ưu hóa các mô hình hiện tại sẽ là một trong những mục tiêu chính. Việc áp dụng các kỹ thuật mới trong học máy sẽ giúp nâng cao độ chính xác và hiệu suất của hệ thống nhận diện bình luận.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin nhận diện tính xây dựng và tính độc hại của bình luận tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Trong bối cảnh nội dung số phát triển như hiện nay, một trong những nhiệm vụ chính đó là việc nâng cao chất lượng của các cuộc hội thoại, thảo luận trực tuyến. Người dùng ngày càng dễ dàng hơn trong việc bày tỏ cảm xúc, suy nghĩ cũng như là ý kiến của mình đối với các nội dung, chủ đề mà họ quan tâm. Nhưng cũng chính vì lẽ đó, một số lượng lớn những bình luận xuất hiện hiện nay tràn lan và không được kiểm soát. Những bình luận chứa nội dung không liên quan, không hữu ích cho người đọc xuất hiện ở khắp mọi nơi trên các diễn đàn, hội nhóm.

Đặc biệt hơn, đôi lúc những bình luận này còn mang tính chất độc hai, thù han làm ảnh hưởng rat lớn đến tâm lý của người đọc cũng như những cá nhân hay tập thể mà nó hướng đến. Chính vì thế, việc chú trọng vào những bình luận của người dùng và tiến hành xử lý những bình luận có tính độc hại song song với việc quan tâm và thúc đây các bình luận có tính xây dựng trong các chủ đề sẽ góp phần nâng cao chất lượng các cuộc thảo luận trên không gian mạng, đem lại nhiều kiến thức và kinh nghiệm cho độc giả. Bài toán phân loại văn bản (text classification) là bài toán phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên. Đây là một bài toán thuộc nhóm học có giám sắt trong học máy.

Đầu vảo của bài toán yêu cầu dữ liệu là dữ liệu có nhãn, từ đó mô hình sẽ tiến hành quá trình học từ các dữ liệu có nhãn đó. Mô hình sau khi được huấn luyện sẽ được dùng dé dự đoán các nhãn cho các dữ liệu mới mà mô hình chưa được học qua. Có nhiều dạng bài toán trong phân loại văn bản, chang hạn như bai toán phân loại cảm xúc, bài toán phân loại tích cực tiêu cực, bai toán phân loại thư điện tử,. Một trong những tính chất của bình luận đó tính là tính xây dựng hiện tại vẫn chưa có một bộ dữ liệu nào sẵn có cho tiếng Việt.

Chính vì thế chúng tôi quyết định thực hiện đề tài này để có những nghiên cứu sâu hơn về tính chất này, song song với đó cũng nghiên cứu về tính độc hại của bình luận. Bài toán nhận diện nhận diện tính xây dựng và tính độc hại của bình luận tổng quát như sau: e Đầu vào: Một văn ban được trích xuất từ bình luận của người dùng trên website VnExpress. e Đầu ra: Nhãn dự đoán bởi mô hình, tương ứng với hai nhiệm vụ là Có tính xây dựng - Không có tính xây dựng; Độc hại - Không độc hại. Bên dưới đây là các mẫu dữ liệu được trích từ bộ dit liệu mà chúng tôi xây dựng: *Một số trường hợp về các mẫu đữ liệu trong bộ dữ liệu được xây dựng Có tính xây dựng - Độc hại Tôi thấy có nhiều cha mẹ coi con như cục vàng nuông chiều quá nên dẫn tới sẵn sàng ăn hiếp bạn khác.

Nhưng Bình luận: khi động đến con họ thì họ sẽ làm 4m ï lên. Loại người như vậy sau này cũng chả làm được gì cho xã hội, có khi lớn lên lại thành dòng dõi đầu đường xó chợ. Tính xây dựng: | Có Tính độc hại: Có Có tính xây dựng - Không Độc hại Ca voi xanh (còn gọi là cá ông) được mệnh danh là những ca sĩ lang du khắp các đại dương. Vì cá voi xanh có thé phát ra âm thanh siêu trầm ở tần số 14 Hz.

Và đó cũng là Bình luận: thứ âm thanh lớn nhất trên thế giới, lớn hơn cả tiếng rít của máy bay phản lực, với cường độ 200 decibel. Nếu so sánh với tiếng hét của loài người ở 70 decibel, âm thanh cao hơn 120 decibel gây nguy hiểm cho tai người. Tính xây dụng: | Có Tính độc hại: Không Không có tính xây dựng - Độc hại Không biết làm sao như thế nào mà hệ thống thoát nước Bình luận: của bệnh viện lại tệ hại như thế này? Chắc là lại có thằng ngu nao vứt rác xuống chứ gì. Tính xây dựng: | Không Tính độc hại: Có Không có tính xây dựng - Không độc hại Bình luận: Cảm ơn các anh đã vì cuộc sống bình yên của nhân dân.

Tính xây dựng: | Không Tính độc hại: Không Mục tiêu khóa luận tốt nghiệp Mục tiêu của khóa luận tốt nghiệp là nghiên cứu về bài toán phân loại văn bản với các tính chất như là tính xây dựng và tính độc hại của bình luận người dùng. Tổng quan gôm bôn mục tiêu chính: e Dau tiên, chúng tôi xây dựng một bộ dữ liệu chat lượng, đủ lớn và bao quát trên nhiêu miên dữ liệu đê phục vụ cho các nghiên cứu về bai toán nhận diện tính xây dựng và tính độc hại của bình luận của người dùng trên các phương tiện truyền thông xã hội tiếng Việt. e Thứ hai, chúng tôi tiến hành các thử nghiệm ban đầu trên bộ dit liệu với các phương pháp trải dài từ truyền thống như máy học với Logistic Regression [2], SVM [3], Random Forest [4] cho đến các phương pháp hiện đại như học sâu bao gồm LSTM [5], Bi-GRU-LSTM-CNN [6] và học chuyển tiếp như PhoBERT [7] trên bộ đữ liệu được xây dựng. e Thứ ba, chúng tôi nghiên cứu thử nghiệm mo rộng với hàng loạt phương pháp học chuyền tiếp với các mô hình đơn ngôn ngữ và đa ngôn ngữ hỗ trợ tiếng Việt trên nhiệm vụ nhận diện tính xây dựng của bộ dữ liệu để đánh giá độ hiệu quả của các phương pháp này.

Ngoài ra, chúng tôi lựa chọn thêm những bộ dữ liệu khác có liên quan như UTT-VSMEC [13], UIT- ViHSD [14] và UIT-ViOCD [15] để thử nghiệm và đánh giá cùng các phương pháp này để xem các phương pháp này có thực sự hiệu quả trên những nhiệm vụ phân loại văn bản tiếng Việt nói chung hay không. e Cuối cùng, chúng tôi công bố dit liệu cho cộng đồng nghiên cứu trên nền tảng HuggingFace - nền tảng cộng đồng cung cấp dit liệu cũng như là các mô hình tiên tiến phổ biến của xử lý ngôn ngữ tự nhiên trên thế giới và GitHub’. Bên cạnh đó, chúng tôi có xây dựng một demo cho khóa luận tốt nghiệp này. Đối tượng và phạm vi nghiên cứu > Đối tượng: Bài toán nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt của người dùng trên các phương tiện truyền thông xã hội.

> Pham vi: Pham vi nghiên cứu của dé tài tap trung chủ yếu vào các bình luận của người dùng trên các phương tiện truyền thông xã hội và trải dài trên 10 miền dữ liệu khác nhau như là giải trí, giáo dục, khoa học, kinh doanh, ô tô - xe máy, pháp luật, sức khỏe, thế giới, thể thao và thời sự. Dé tai của chúng tôi chủ yêu tập trung vào các vân dé sau: > https://huggingface.co/datasets/tarudesu/UIT-ViCTSD * https://github.com/tarudesu/vietnamese-constructive-toxic-speech-detection-dataset/ - Xây dựng bộ dữ liệu đủ lớn và chất lượng phục vụ cho bài toán nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt. - Đánh giá hiệu suất của các phương pháp trải dài từ truyền thống cho đến hiện đại trên bộ đữ liệu được xây dựng. - Nghiên cứu thử nghiệm mở rộng với các phương pháp học chuyền tiếp bao gồm các mô hình đa và đơn ngôn ngữ trên nhiệm vụ nhận diện tính xây dựng dé đánh giá độ hiệu quả của các mô hình này.

Bên cạnh đó, chúng tôi đồng thời thử nghiệm các phương pháp này trên những bộ dữ liệu tiếng Việt khác có liên quan dé trả lời cho câu hỏi "Liệu rằng các phương pháp học chuyền tiếp có thực sự hiệu quả trên những bài toán phân loại văn bản tiếng Việt hay không?". Kết quả nghiên cứu Sau khi hoàn thành, nghiên cứu của chúng tôi đạt được những kết quả như sau: e Chúng tôi đóng góp một bộ dữ liệu chất lượng UIT-ViCTSD [1] cho công động với 10,000 bình luận trên 10 miền dit liệu. Bộ dit liệu được xây dựng với quy trình nghiêm ngặt và được gán nhãn thủ công băng đội ngũ những người gan nhãn được huấn luyện kỹ càng. Với bộ đữ liệu này, chúng tôi hy vọng sẽ phục vụ cho bài toán nhận diện tính xây dựng và tính độc hại của bình luận người dùng trên các phương tiện truyền thông xã hội tiếng Việt.

e Chúng tôi tiến hành những nghiên cứu thử nghiệm ban dau và đạt được kết quả cao nhất trên mô hình PhoBERT [7] với 78,59% và 59,40% lần lượt cho nhiệm vụ nhận diện tính xây dựng và tính độc hại của bình luận. Ngoài ra, chúng tôi cũng thử nghiệm với những phương pháp máy học như Logistic Regression [2], SVM [3], Random Forest [4] hay học sâu như LSTM [5], Bi- GRU-LSTM-CNN [6] dé có một cái nhìn khách quan về hiệu suất của các mô hình phân loại trên bộ đữ liệu được xây dựng. Những kết quả này cũng chính là tiền đề dé các nghiên cứu trong tương lai sử dụng dé so sánh hiệu suất của các mô hình trên các nhiệm vụ mà bộ dữ liệu hướng đên. e Chúng tôi thử nghiệm mở rộng trên nhiệm vụ nhận diện tính xây dựng bằng các phương pháp học chuyền giao hiện đại và đạt được các kết quả tương đối khả quan và cao nhất là mô hình viBERT4news [12] với 84,15% trên độ do F1.

Ngoài ra, chúng tôi đồng thời tiến hành các thử nghiệm với cùng các phương pháp này trên các bộ dữ liệu có liên quan và đạt kết quả lần lượt trên độ đo F1 với 65,44% cho nhiệm vu phân loại cảm xúc của bộ dữ liệu VSMEC [13] với mô hình PhoBERT [7]; 95,26% đối với nhiệm vụ phân loại bình luận phan nàn của ViOCD [15] bang sử dụng mô hình VELECTRA [11]; 66,43% cho tác vu phát hiện lời nói xúc phạm của bộ dữ liệu VIHSD [14] với mô hình viBERT4news [12]. e Xây dựng demo cho khóa luận tốt nghiệp này bang cách sử dụng các mô hình đạt hiệu suất tốt nhất trên từng nhiệm vụ của bộ dữ liệu để hỗ trợ cho việc trực quan hóa bài toán chúng tôi thực hiện. Demo được trình bay tại phần Phụ lục của báo cáo nảy. e Viết và gửi 02 bài báo khoa học đến các hội nghị uy tín trên thé giới.

Trong đó, một bài báo đã được chấp nhận và đăng tải tại proceedings [1] của hội nghị IEA/AIE 2021 (Rank B). Một bài báo còn lại đã được gửi đến hội nghị ICONIP 2021 (Rank B) va đang trong quá trình xét duyệt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Nhận Diện Tính Xây Dựng và Tính Độc Hại của Bình Luận Tiếng Việt trên Mạng Xã Hội cung cấp cái nhìn sâu sắc về cách thức nhận diện và phân tích các bình luận trên mạng xã hội, đặc biệt là trong ngữ cảnh tiếng Việt. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các yếu tố xây dựng và độc hại trong bình luận, mà còn chỉ ra những tác động của chúng đến cộng đồng mạng. Những thông tin này rất hữu ích cho các nhà nghiên cứu, nhà quản lý mạng xã hội và những ai quan tâm đến an toàn thông tin trên nền tảng trực tuyến.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học máy tính image captioning trong bộ dữ liệu tiếng việt, nơi cung cấp cái nhìn về việc xử lý và phân tích dữ liệu tiếng Việt trong các ứng dụng công nghệ. Những tài liệu này sẽ giúp bạn có thêm nhiều góc nhìn và hiểu biết sâu sắc hơn về các vấn đề liên quan đến ngôn ngữ và công nghệ trong bối cảnh hiện đại.

#xử lý ngôn ngữ tự nhiên

#phương pháp học máy

#mô hình học sâu

#đánh giá hiệu suất mô hình

#Nhận diện bình luận tiếng Việt

#Tính xây dựng và độc hại

Chủ đề

Ứng dụng học máy trong xử lý ngôn ngữ

Phân tích bình luận trên mạng xã hội

Xây dựng bộ dữ liệu tiếng Việt

Nâng cao chất lượng thảo luận trực tuyến