I. Tổng quan Luận văn Phát hiện Bình luận Xúc phạm
Thống kê cho thấy mạng xã hội như Facebook, YouTube được sử dụng rộng rãi tại Việt Nam. Bên cạnh những lợi ích, mạng xã hội cũng tiềm ẩn nhiều rủi ro, đặc biệt là vấn đề bình luận xúc phạm. Các bình luận này thường mang tính công kích, gây rối, sử dụng ngôn ngữ khiếm nhã, nhắm vào cá nhân, tổ chức, hoặc cộng đồng. Hậu quả của sự xúc phạm này có thể gây tổn thương tâm lý, hạ nhục uy tín, hoặc thậm chí kích động thù ghét. Việc kiểm duyệt thủ công là khó khăn do số lượng bình luận lớn. Vì vậy, cần có công cụ phát hiện tự động giúp nhà quản trị loại bỏ các bình luận độc hại, giữ cho không gian mạng trong sạch. Các nghiên cứu tập trung vào bộ dữ liệu và phương pháp máy học. Thách thức bao gồm: độ đồng thuận khi gán nhãn, sự phụ thuộc vào văn hóa, sự đa dạng ngôn ngữ và nhận diện ngôn ngữ xúc phạm ẩn.
1.1. Nghiên cứu Bộ dữ liệu Bình luận Xúc phạm tiếng Việt
Các nghiên cứu về bộ dữ liệu tập trung vào thu thập, xây dựng và phân tích các đặc điểm ngôn ngữ của bình luận xúc phạm. Bộ dữ liệu có thể là đơn ngữ (Tiếng Việt, Tiếng Anh) hoặc đa ngữ. Bộ dữ liệu (dataset) bình luận tiếng Việt chất lượng là nền tảng quan trọng để huấn luyện mô hình. Cần quy trình gán nhãn cẩn thận để đảm bảo độ chính xác.
1.2. Phương pháp Học máy Phát hiện Ngôn ngữ Thù hận
Các phương pháp tiếp cận cho bài toán phát hiện bình luận xúc phạm bao gồm: dựa trên luật, máy học, và học sâu. Các thách thức chính bao gồm: độ đồng thuận thấp khi gán nhãn, sự phụ thuộc vào văn hóa, sự đa dạng về mặt ngôn ngữ khi sử dụng trên mạng xã hội, và cuối cùng là nhận diện ngôn ngữ xúc phạm được ẩn trong văn bản. Việc sử dụng xử lý ngôn ngữ tự nhiên (NLP) tiếng Việt là cần thiết.
II. Mục tiêu Luận văn Nhận diện Bình luận Tiêu cực
Luận văn đặt mục tiêu xây dựng một bộ dữ liệu các bình luận xúc phạm và thử nghiệm nó trên các phương pháp máy học để phân lớp văn bản. Cụ thể, luận văn tập trung xây dựng quy trình gán nhãn và phương pháp đánh giá chất lượng bộ dữ liệu. Nghiên cứu, thử nghiệm và đánh giá các mô hình máy học và học sâu để áp dụng cho bài toán phát hiện tự động các bình luận tiêu cực trên mạng xã hội. Phạm vi nghiên cứu giới hạn trên Facebook và Youtube. Về bộ dữ liệu, luận văn tập trung thu thập các bình luận tiếng Việt, xây dựng hướng dẫn và quy trình gán nhãn.
2.1. Áp dụng Học sâu Phát hiện Xúc phạm trên Mạng xã hội
Trên lĩnh vực nhận diện các bình luận xúc phạm, các mô hình học sâu như CNN và LSTM cho kết quả vượt trội so với các mô hình truyền thống như SVM hay Logistic Regression. Mặt khác, sự xuất hiện của các mô hình học chuyển tiếp cũng đem lại kết quả rất khả quan cho bài toán nhận diện bình luận xúc phạm trên mạng xã hội. Do đó, luận văn chọn phương pháp tiếp cận học sâu và phương pháp học chuyển tiếp để áp dụng cho bài toán.
2.2. Xây dựng Quy trình Gán Nhãn Đánh giá Chất lượng
Luận văn xây dựng quy trình gán nhãn và phương pháp đánh giá chất lượng bộ dữ liệu. Đồng thời, luận văn phân tích sự ảnh hưởng của ngữ cảnh đối sự đồng thuận của các người gán nhãn trong quá trình gan nhãn, từ đó dé xuất hướng cải tiền độ đồng thuận. Việc kiểm duyệt nội dung cần sự chính xác cao.
2.3. Đánh giá Hiệu năng Mô hình Tăng cường Dữ liệu
Luận văn đánh giá hiệu năng của các mô hình máy học bao gồm TextCNN, GRU, các mô hình học chuyển tiếp đa ngôn ngữ gồm BERT, XLM-R, DistilBERT, và các mô hình học chuyển tiếp đơn ngôn ngữ cho tiếng Việt gồm PhoBERT và BERT4news. Đánh giá sự ảnh hưởng của các phương pháp tăng cường dữ liệu đối với các mô hình học máy trên bộ dữ liệu.
III. Phương pháp Xây dựng Bộ dữ liệu Bình luận Tiếng Việt
Chương này trình bày định nghĩa về bình luận xúc phạm trên mạng xã hội cùng các yếu tố và đặc điểm của nó. Để giải quyết cho bài toán này, bộ dữ liệu (dataset) bình luận tiếng Việt đóng vai trò then chốt. Luận văn trình bày quy trình MATTER cải tiến để xây dựng bộ dữ liệu. Bên cạnh đó, các kỹ thuật trích xuất đặc trưng bằng vector nhúng từ để mã hóa và trích xuất các đặc trưng từ văn bản thô. Cuối cùng là các độ đo đánh giá tính hiệu quả của các mô hình phân loại bình luận xúc phạm.
3.1. Đặc điểm và Yếu tố Cấu thành Bình luận Xúc phạm
Theo Fortuna và Nunes, bình luận xúc phạm (hate speech) là bình luận có yếu tố công kích, hạ nhục, cổ xúy cho bạo lực và thù ghét. Đối tượng có thể là cá nhân, nhóm người, hoặc cộng đồng. Các yếu tố xúc phạm bao gồm ngoại hình, đức tin, tôn giáo, xuất thân, dân tộc, giới tính, xu hướng tình dục. Yếu tố khôi hài quá mức cũng có thể xem là xúc phạm. Để nhận dạng được câu bình luận này, các hệ thống cần hiểu và trích xuất các đặc trưng.
3.2. Vai trò của Phân tích Cảm xúc trong Nhận diện Xúc phạm
Fortuna và Nunes cho rằng, cách tiếp cận bài toán này kế thừa các phương pháp từ bài toán khai phá văn bản. Phân tích cảm xúc (sentiment analysis) được áp dụng để rút trích và hiểu được cảm xúc của con người từ văn bản. Tuy nhiên, Schmidt và Wiegand chỉ ra, điểm khác biệt lớn nhất giữa phân tích cảm xúc và nhận diện bình luận xúc phạm là bài toán nhận diện bình luận xúc phạm sẽ nghiêng về dự đoán cảm xúc tiêu cực nhiều hơn. Bài toán cũng có thể tiếp cận đơn tác vụ hoặc đa tác vụ.
3.3. Quy trình Xây dựng Bộ dữ liệu Chất lượng cao cho NLP
Đối với bài toán nhận diện bình luận xúc phạm, các bộ dữ liệu là một trong các yếu tố rất quan trọng để có thể phân tích đặc điểm và xây dựng các mô hình dự đoán các bình luận mang tính xúc phạm một cách tự động. Quy trình xây dựng bộ dữ liệu và hướng dẫn gán nhãn đóng vai trò quyết định đến chất lượng. Do đó, việc xây dựng bộ dữ liệu đóng vai trò quyết định đối với bài toán nhận diện và phân loại các bình luận xúc phạm trên mạng xã hội.
IV. So sánh các Mô hình Học sâu Phân loại Văn bản
Luận văn so sánh các mô hình học sâu cho phân loại văn bản. Bộ dữ liệu được chia làm hai loại: nhãn phẳng và nhãn phân cấp. Với nhãn phẳng, mỗi câu bình luận thuộc một nhãn nhất định và các nhãn này phân biệt với nhau. Với nhãn phân cấp, mỗi nhãn ban đầu có các nhãn con để định nghĩa hoặc chỉ định một tính chất liên quan. Các bộ dữ liệu với các ngôn ngữ và số lượng nhãn khác nhau được liệt kê.
4.1. Các mô hình Học sâu phổ biến cho phân loại Bình luận
Luận văn nghiên cứu và so sánh hiệu quả của các mô hình học sâu như TextCNN và GRU trong bài toán phân loại bình luận xúc phạm. Các mô hình này đã chứng minh được khả năng vượt trội so với các mô hình truyền thống, đặc biệt trong việc nắm bắt các đặc trưng ngữ nghĩa phức tạp của ngôn ngữ tự nhiên.
4.2. Ứng dụng Học chuyển tiếp Transfer Learning trong NLP
Luận văn cũng tập trung vào việc ứng dụng các mô hình học chuyển tiếp như BERT và XLM-R để cải thiện hiệu suất phát hiện bình luận xúc phạm. Các mô hình này được huấn luyện trước trên một lượng lớn dữ liệu và có khả năng chuyển giao kiến thức sang các tác vụ khác, giúp giảm thiểu nhu cầu về dữ liệu huấn luyện và tăng cường khả năng khái quát hóa.
4.3. Phương pháp Xử lý Mất cân bằng Dữ liệu trong Huấn luyện
Luận văn đề xuất và thử nghiệm các phương pháp xử lý tình trạng mất cân bằng dữ liệu để cải thiện độ chính xác của các mô hình, đặc biệt đối với các nhãn ít được biểu diễn trong bộ dữ liệu. Các phương pháp này bao gồm tăng cường dữ liệu và học kết hợp.
V. Kết quả Thực nghiệm Đánh giá So sánh Mô hình
Luận văn trình bày kết quả thực nghiệm chi tiết về hiệu năng của các mô hình khác nhau trên bộ dữ liệu bình luận xúc phạm đã xây dựng. Các kết quả này được đánh giá dựa trên các độ đo phổ biến như độ chính xác, độ recall và độ F1. So sánh hiệu năng giữa các mô hình và phân tích điểm mạnh, điểm yếu của từng mô hình.
5.1. Ảnh hưởng của Tiền xử lý Dữ liệu tới Độ chính xác Mô hình
Luận văn đánh giá ảnh hưởng của các thao tác tiền xử lý dữ liệu như tách từ, loại bỏ stop words, loại bỏ emoji và các ký tự đặc biệt đối với hiệu năng của các mô hình phân loại bình luận xúc phạm. Kết quả cho thấy các thao tác tiền xử lý có thể cải thiện hoặc làm giảm hiệu năng của mô hình tùy thuộc vào đặc điểm của dữ liệu và mô hình.
5.2. Phân tích Lỗi và Đề xuất Cải tiến Mô hình trong tương lai
Luận văn phân tích các trường hợp dự đoán sai của mô hình và đưa ra các đề xuất cải tiến để tăng độ chính xác và khả năng khái quát hóa của mô hình trong tương lai. Phân tích này tập trung vào việc xác định các yếu tố ngôn ngữ phức tạp và các trường hợp khó phân loại.
VI. Kết luận Hướng Phát triển Kiểm duyệt Tự động
Luận văn đã đóng góp vào việc xây dựng bộ dữ liệu và đánh giá các phương pháp máy học cho bài toán phát hiện bình luận xúc phạm tiếng Việt. Kết quả nghiên cứu có thể ứng dụng vào hệ thống kiểm duyệt nội dung tự động trên mạng xã hội, góp phần tạo ra một không gian mạng an toàn và văn minh.
6.1. Tóm tắt Đóng góp Ý nghĩa của Luận văn trong NLP
Luận văn đã thành công trong việc xây dựng quy trình gán nhãn, đánh giá chất lượng bộ dữ liệu, phân tích ảnh hưởng của ngữ cảnh, đánh giá hiệu năng của các mô hình máy học và đề xuất mô hình kết hợp để nâng cao hiệu quả phân loại.
6.2. Hướng Nghiên cứu Phát triển Hệ thống Kiểm duyệt Tương lai
Luận văn đề xuất các hướng nghiên cứu và phát triển trong tương lai, bao gồm việc mở rộng bộ dữ liệu, nghiên cứu các phương pháp học máy tiên tiến hơn và xây dựng hệ thống kiểm duyệt nội dung tự động trên mạng xã hội với khả năng xử lý ngôn ngữ địa phương và ngữ cảnh phức tạp.