Khóa luận tốt nghiệp: Phát hiện bình luận xúc phạm ngôn ngữ tiếng Việt trên mạng xã hội

Khóa luận tốt nghiệp khoa học dữ liệu tập trung phát hiện bình luận xúc phạm tiếng Việt trên mạng xã hội, ứng dụng xử lý dữ liệu trực tuyến hiệu quả.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Lý do chọn đề tài

1.2. Phương pháp

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: KIẾN THỨC TỔNG QUÁT

2.1. Bài toán phát hiện bình luận xúc phạm

2.2. Mô hình phân loại văn bản

2.2.1. Mô hình transfer learning

2.2.2. Mô hình học máy truyền thống

2.2.2.1. Trích xuất đặc trưng TF-IDF

2.2.2.2. Máy véc-tơ hỗ trợ (Support Vector Machine)

2.2.2.3. Hồi quy logistic (Logistic Regression)

2.2.2.4. Phân loại Ridge (Classifier Ridge)

2.2.3. Mô hình học sâu

2.2.3.1. Nhúng từ (Word embedding)

3. CHƯƠNG 3: PHÁT TRIỂN MÔ HÌNH HSD

3.1. Môi trường triển khai

3.2. Bộ dữ liệu

3.3. Đặc trưng của dữ liệu văn bản trên mạng xã hội

3.4. Kết quả thực nghiệm

3.5. Phân tích lỗi

4. CHƯƠNG 4: PHÂN TÍCH ẢNH HƯỞNG CỦA TIỀN XỬ LÝ TRONG HSD

4.1. Xác định yếu tố chính

4.2. Xây dựng kịch bản thí nghiệm

4.3. Thực nghiệm trên các bộ dữ liệu

4.4. Thu thập kết quả

4.5. Phân tích kết quả

5. CHƯƠNG 5: XÂY DỰNG MÔ HÌNH REAL-TIME HSD

5.1. Tổng quan mô hình

5.2. Thu thập, tiền xử lý và phát hiện bình luận xúc phạm

5.3. Stream processing kết hợp phân tích dữ liệu

5.4. Vai trò của Apache Kafka

5.5. Kết quả thực nghiệm mô hình

5.6. Môi trường triển khai

6. CHƯƠNG 6: TỔNG KẾT

6.1. Kết quả

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

TÓM TẮT KHÓA LUẬN

Tóm tắt

I. Bình luận xúc phạm trên mạng xã hội

Bình luận xúc phạm là một vấn đề nghiêm trọng trên các nền tảng mạng xã hội, đặc biệt là trong bối cảnh ngôn ngữ tiếng Việt. Những bình luận này không chỉ ảnh hưởng đến tâm lý người dùng mà còn gây ra những hệ lụy tiêu cực trong đời sống thực. Xúc phạm tiếng Việt trên mạng xã hội thường xuất hiện dưới nhiều hình thức, từ ngôn từ thô tục đến những lời lẽ mang tính công kích cá nhân. Việc phát hiện bình luận xúc phạm kịp thời là cần thiết để bảo vệ người dùng và duy trì môi trường mạng lành mạnh.

1.1. Đặc điểm của bình luận xúc phạm

Bình luận trên mạng xã hội thường mang tính tự phát và đa dạng về ngôn ngữ. Nội dung xúc phạm có thể được biểu đạt qua từ ngữ, biểu tượng, hoặc ngữ cảnh. Đặc biệt, ngôn ngữ trên mạng tiếng Việt thường sử dụng teencode, từ viết tắt, và tiếng lóng, làm tăng độ phức tạp trong việc nhận diện. Quản lý bình luận hiệu quả đòi hỏi sự kết hợp giữa công nghệ và chính sách pháp luật.

1.2. Tác động của bình luận xúc phạm

Bảo vệ người dùng là mục tiêu hàng đầu trong việc kiểm soát nội dung xúc phạm. Những bình luận tiêu cực có thể dẫn đến xung đột, ảnh hưởng đến danh tiếng cá nhân và doanh nghiệp. Pháp luật về bình luận cần được áp dụng nghiêm ngặt để răn đe và xử lý các hành vi vi phạm.

II. Phát hiện bình luận xúc phạm

Phát hiện bình luận xúc phạm là một bài toán phức tạp trong lĩnh vực xử lý ngôn ngữ tự nhiên. Đặc biệt, xúc phạm tiếng Việt đòi hỏi các mô hình học máy và học sâu được huấn luyện trên bộ dữ liệu đặc thù. Kiểm soát nội dung tự động giúp giảm thiểu sự can thiệp thủ công và tăng hiệu quả quản lý.

2.1. Mô hình học máy truyền thống

Các mô hình như Support Vector Machine (SVM) và Logistic Regression (LR) được sử dụng để phân loại bình luận. Trích xuất đặc trưng bằng TF-IDF giúp xác định từ khóa quan trọng trong văn bản. Tuy nhiên, các mô hình này thường gặp hạn chế khi xử lý ngôn ngữ phức tạp như tiếng Việt.

2.2. Mô hình học sâu

Các mô hình học sâu như Long Short Term Memory (LSTM) và Convolutional Neural Networks (CNN) được áp dụng để cải thiện độ chính xác. Word embedding giúp biểu diễn từ ngữ trong không gian đa chiều, phản ánh ngữ nghĩa và ngữ cảnh. PhoBERT, một mô hình tiền huấn luyện cho tiếng Việt, cho kết quả vượt trội trong việc phát hiện bình luận xúc phạm.

III. Quản lý và kiểm soát nội dung

Quản lý bình luận trên mạng xã hội đòi hỏi sự kết hợp giữa công nghệ và chính sách. Kiểm soát nội dung tự động giúp lọc và xử lý bình luận xúc phạm kịp thời. Bảo vệ người dùng là mục tiêu chính, đảm bảo môi trường mạng an toàn và lành mạnh.

3.1. Công nghệ xử lý thời gian thực

Các nền tảng như Apache Kafka và Apache Spark được sử dụng để xử lý dữ liệu streaming. Phát hiện bình luận theo thời gian thực giúp ngăn chặn các cuộc tranh cãi và xung đột ngay từ đầu.

3.2. Chính sách và pháp luật

Pháp luật về bình luận cần được cập nhật và áp dụng nghiêm ngặt. Các quy định rõ ràng giúp răn đe hành vi xúc phạm và bảo vệ quyền lợi người dùng. Nội dung xúc phạm cần được xử lý kịp thời để tránh lan rộng.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu phát hiện bình luận xúc phạm ngôn ngữ tiếng việt trên mạng xã hội trong dữ liệu trực tuyến

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 — Tổng quan dé tài: Giới thiệu tổng quan về dé tài nghiên cứu, mục đích nghiên cứu, phạm vi nghiên cứu và phương pháp nghiên cứu. Chương 2 - Tổng quan lý thuyết: Giới thiệu tổng quan về các kiến thức nền tảng sử dụng trong đê tài và các nghiên cứu liên quan. Chương3 - Phát triển mô hình HSD: Trình bày các mô hình cho HSD và các kết quả thực nghiệm. Chương 4 - Phân tích ảnh hưởng của tiền xử lý trong HSD: Trình bày các bộ phận tiền xử lý sử dụng trong HSD và kết quả thực nghiệm.

Chương 5 - Xây dựng mô hình real-time HSD: Trinh bay mô hình đã tiến hành và các kết quả thực nghiệm. Chương6 - Tổng kết: Kết luận và hướng phát triển. KIÊN THỨC TONG QUÁT 2. Bài toán phát hiện bình luận xúc phạm Bài toán phát hiện bình luận xúc phạm được mô tả như sau: Đầu vào: Bình luận tiếng Việt trên mạng xã hội.

Đầu ra: Một trong ba nhãn CLEAN, OFFENSIVE, HATE được dự đoán bởi mô hình đã được huấn luyện.1: Bài toán phát hiện bình luận xúc phạm Bình luận sau khi được đưa vào sẽ được xử lý bằng các bộ phận tiền xử lý, sau đó bình luận sẽ được đưa vào mô hình dé dự đoán và thu được kết qua là nhãn của bình luận. Mô hình phân loại văn bản 2. Mô hình transfer learning PhoBERT là mô hình được tiền huấn luyện với quy mô lớn dành cho tiếng Việt. Nó được xuất bản bởi Nguyen và các cộng sự vào năm 2020 [5].

Phuong pháp tiếp cận huấn luyện trước của mô hình PhoBERT dựa trên RoBERTa, mô hình được tối ưu hóa từ huấn luyện trước của mô hình BERT để có hiệu suất tốt hơn, được Facebook giới thiệu năm 2019. Do đó, PhoBERT chỉ sử dụng Masked Language Model dé huấn luyện, không sử dung Next Sentence Prediction. PhoBERT có hai phiên ban đó là PhoBERT_base với 12 khối transformer blocks và PhoBERT_large với 24 khối transformer blocks. PhoBERT được huấn luyện trên bộ dữ liệu kích cỡ khoảng 20GB bao gồm khoảng 1GB Vietnamese Wikipedia corpus và 19GB còn lại tự Vietnamese news corpus.

Nó sử dụng RDRSegmenter của VNCoreNLP để tách từ cho đữ liệu huấn luyện trước khi đưa vào BPE encoder. Mô hình học máy truyền thống Các mô hình học máy truyền thông thường được sử dụng trong các tác vụ phân loại văn bản cũng được quan tâm. Trước khi huấn luyện, TF-IDF được áp dụng để trích xuất các đặc trưng. Trích xuất đặc trưng TF-IDF (Term Frequency - Inverse Document Frequency) là một thống kế số nhằm phản ánh tam quan trọng của một từ đối với một tai liệu trong một kho ngữ liệu.

Nó thường được dùng như một yếu tố trọng số trong truy xuất thông tin, khai phá văn bản. Giá trị tf-idf tăng ty lệ thuận với số lần một từ xuất hiện trong văn bản và được bù đắp băng số lượng tài liệu xuất hiện trong kho ngữ liệu mà chứa từ đó, điều này giúp đánh giá sự thật rằng một vài từ xuất hiện thường xuyên hơn. Tần suất xuất hiện của từ (Term frequency) là số lần từ xuất hiện trong văn bản. Tần suất văn bản nghịch đảo (Inverse Document Frequency) giúp đánh giá tam quan trọng của một từ trong văn bản.

Có những từ có số lần xuất hiện nhiều trong văn bản như "là", "đó", "này" nhưng độ quan trọng lại không cao. Những từ mà có giá trị Tf-IDF cao là những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có gia tri cao. Máy véc-tơ hỗ tro (Support Vector Machine) Support Vector Machine (SVM) là một tap các phương pháp hoc có giám sat được sử dụng cho phat hiện các đường outlier, phan loại va hdi quy.

SVM xây dựng một siêu phăng trong không gian đa chiều dé tách các lớp khác nhau. Nó tạo ra siêu phẳng theo một cách lặp đi lặp lại, để có thé tối thiểu lỗi. Ý tưởng chính của SVM là tìm một siêu phăng biên tối đa mà chia đữ liệu thành các lớp một cách tốt nhất. ® @ e ® © om Decision surface mee Uae° an oo "Son ® kernel ° e@ e LH.

kề ——: © ©Om18mm" Po “Gà lệ e @ e° © e 2 ° ._— fee ” eo © Hình 2.2: Kernel trick làm tăng số chiều dữ liệu, biến bài toán thành có thé tách được. Một nhân biến đổi một không gian dữ liệu đầu vào thành dạng được yêu cầu. SVM sử dụng một kỹ thuật được gọi là kernal trick. Nhân nhận một không gian đầu vào và chuyên nó thành một không gian có số chiều lớn hơn.

Nói cách khác, nó chuyên bài toán không thể tách được thành bài toán tách được bằng cách cộng thêm số chiều cho nó. Mánh khóe nhân giúp xây dựng một classifier chính xác hơn. Có 3 nhân chính được dùng: Nhân tuyến tính (linear kernel) được dùng như một tích vô hướng thông thường cho hai quan sát cho trước bất kỳ. Tích giữa hai vector là tổng của tích các cặp giá trị đầu vào.

Nhân đa thức (Polynomial kernel) Một nhân đa thức là một dạng tổng quát hơn của nhân tuyến tính. Nhân đa thức có thể phân biệt không gian đầu vào cong hoặc phi tuyến. Nhân hàm cơ sở xuyên tâm (Radial Basis Function kernel) là một ham số phố biến được sử dụng trong phân lớp SVM. RBF có thé ánh xạ không gian đầu vào thành một không gian vô hạn chiều.

Thư viện Scikit-learn cung cấp sự thực thi SVM với cả ba nhân trên cho ngôn ngữ Python và được sử dụng trong khóa luận. Hồi quy logistic (Logistic Regression) Logistic Regression (LR) là một mô hình thống kê sử dung hàm logistic dé mô hình một biến phụ thuộc nhị phân, nó có thể mở rộng ra thành nhiều biến thé khác. Hồi quy logistic được sử dụng cho các bài toán phân loại. Trong logistic regression, các xác suất mô tả các đầu ra khả thi của một phép thử đơn lẻ được mô hình sử dụng ham logistic: Trong đó, Xo là giá tri x của điểm giữa cua ham sigmoid, L là giá trị lớn nhất của đường đồ thị, k là độ đốc của đường đồ thị.

Hồi quy logistic được xem như một bài toán tối ưu. Với bài toán phân loại nhiều lớp, nó sẽ tối thiêu hàm chi phí của mình. Logistic regression có thê được phân thành: - Binomial: biến phụ thuộc chỉ có 2 loại khả năng - Multinomial: Biến phụ thuộc có 3 hoặc nhiều hơn các loại khả năng nhưng không có thứ tự. - Ordinal: Biến phụ thuộc có 3 hoặc nhiều hơn các loại khả năng nhưng có thứ tự Trong khóa luận này, mô hình Logistic regression Multinomial được sử dụng cho bài toán HSD với ba loại nhãn.

Phân loại Ridge (Classifier Ridge) Ridge regression giải quyết bài toán Binh phương tối thiểu thường (Ordinary Least Squares) bằng cách áp đặt một hình phạt với kích thước của các hệ số. Hệ số ridge tối thiểu một tổng các bình phương bị phạt: min„||Xø — y|l§ + al|ellÊ Trong đó, tham số œ >= 0 kiểm soát sự co rút của đồ thị: giá trị cảng lớn, lượng co rút càng lớn. Classifier Ridge (RC) trước tiên chuyên đổi các giá trị mục tiêu thành {-1, 1} và sau đó xử lý van đề như một nhiệm vụ hôi quy (hồi quy nhiều đầu ra trong trường hợp đa phân loại), tối ưu hóa mục tiêu tương tự như Ridge Regression. Với phân lớp nhiều lớp, bài toán được xem như một hồi quy nhiều đầu ra, lớp dự đoán tương ứng với đầu ra với giá trị cao nhât.

Mô hình học sâu Trước khi được huấn luyện bởi các mô hình học sâu, đữ liệu đi qua lớp Word embedding nhăm biéu diễn các từ một cách ý nghĩa về mặt ngữ nghĩa, ngữ cảnh 2. Nhung từ (Word embedding) Word embedding là một cách biéu diễn cho văn bản trong đó các từ có cùng nghĩa được biểu diễn tương tự nhau. Mỗi từ sẽ được biéu diễn bằng một vector giá trị thực có số chiều (độ dài) là tham số được chỉ rõ. Các vector này mã hóa ý nghĩa của từ sao cho các từ gần nhau hơn trong không gian vector được dự kiến có ý nghĩa tương tự nhau.

Cách tiếp cận này dé biéu diễn các từ và tài liệu có thể được coi là một trong những bước đột phá quan trọng của học sâu đối với các vấn đề xử ly ngôn ngữ tự nhiên đầy thách thức. Những ưu điểm vượt trội của Word embedding so với các cách biểu diễn từ khác như one-hot encoding hay biểu diễn mỗi từ bang một số riêng như khả năng tính toán, lưu trữ, ý nghĩa ngữ nghĩa, độ khái quát. FastText và PhoW2V là hai bộ nhúng từ được lựa chọn để sử dụng cho bước nhúng từ. FasText là một phương pháp word embedding, là một 10 mở rộng của mô hình word2vec, được phát triển bởi Grave và các cộng sự [1].

Thay vì học các véc-tơ cho các từ trực tiếp, fastText biéu diễn mỗi từ như một n-gram các thuộc tính. Ví dụ, từ apple với n=3, fastText biểu diễn từ này là <ap, app, ppl, ple, le>, trong đó dau đóng mở ngoặc được xem như ký tự bắt đầu và kết thúc của từ. Cách biểu diễn này lấy được ý nghĩa của các từ ngắn hơn và cho phép embedding hiểu các tiền t6 và hậu tố. Một khi từ được biểu diễn sử dung n-gram, một mô hình skip-gram được huấn luyện để học các embedding.

FastText hoạt động hiệu quả với các từ hiếm gặp, nên nếu một từ không được thấy trong lúc huấn luyện, nó có thê chia từ thành n-gram và có embedding. PhoW2V cung cấp bộ các embedding Word2Vec cấp độ từ và vần đã được huấn luyện sẵn cho tiếng Việt, được phát triển bởi Nguyen và các cộng sự [4]. Nó được huấn luyện trên một bộ dữ liệu văn bản tiếng Việt kích thước 20GB. Word2vec là một mô hình đơn giản giúp tạo ra các biểu diễn Embedding của từ trong một không gian có số chiều thấp hơn nhiều lần so với số từ trong từ điển.

Theo Word2vec, hai từ xuất hiện trong những văn cảnh giống nhau thì có ý nghĩa gần với nhau. Ngoài ra, có thé đoán được một từ nếu biết các từ xung quanh nó trong câu. Ví dụ, với câu "Hà Nội là. của Việt Nam" thì từ trong dấu ba chấm được mô hình word2vec xây dựng sao cho xác suất dé từ trong dau ba cham là cao nhất, từ đó là "thủ đô".

Embedding được huấn luyện sẵn PhoW2V cấp độ từ có kích thước 300 được sử dụng cho bước word embedding của bài toán phát hiện bình luận xúc phạm này. Công tai Unit (Gated Recurrent Units) Gated Recurrent Units (GRU) có mục dich giải quyết van dé gradient biến mat xuất hiện trong mang thần kinh hồi quy (Recurent Neural Networks).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phát hiện bình luận xúc phạm tiếng Việt trên mạng xã hội" tập trung vào việc ứng dụng các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên (NLP) để nhận diện và phân loại các bình luận mang tính xúc phạm trên các nền tảng mạng xã hội. Đây là một vấn đề cấp thiết trong bối cảnh gia tăng các hành vi tiêu cực trực tuyến, giúp các nền tảng quản lý nội dung hiệu quả hơn. Tài liệu cung cấp cái nhìn sâu sắc về cách xây dựng mô hình học máy để tự động hóa quá trình này, đồng thời đề xuất các phương pháp cải thiện độ chính xác và hiệu suất.

Để mở rộng kiến thức về các ứng dụng học sâu trong xử lý ngôn ngữ tiếng Việt, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực, nghiên cứu về phân loại cảm xúc trong văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer cung cấp thêm góc nhìn về việc sử dụng transformer trong phân loại văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin sẽ giúp bạn hiểu rõ hơn về cách học sâu được áp dụng trong các bài toán liên quan đến xử lý ngôn ngữ.

#xử lý ngôn ngữ tự nhiên

#khóa luận tốt nghiệp

#mạng xã hội Việt Nam

#ngôn ngữ tiếng Việt

#bình luận xúc phạm

#tiếng Việt trên mạng

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Ngôn ngữ học ứng dụng

an toàn mạng xã hội

bảo vệ người dùng mạng