Nhận Diện Chuỗi Xúc Phạm Trong Bình Luận Tiếng Việt

Luận văn tốt nghiệp nghiên cứu tốt nghiệp khoa học dữ liệu nhận diện chuỗi xúc phạm cho tiếng việt, điều tra thực trạng, phân tích số liệu, đề xuất biện pháp cải tiến thực tế.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

1. CHƯƠNG 1: GIỚI THIỆU KHÓA LUẬN

1.1. Tính ứng dụng của khoá luận

1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

1.2.1. Công trình nghiên cứu về dữ liệu

1.2.2. Công trình nghiên cứu về mô hình nhận diện

1.3. XÂY DỰNG BỘ DỮ LIỆU

1.3.1. Tổng quan về bộ dữ liệu

1.3.2. Quy trình xây dựng bộ dữ liệu

1.3.2.1. Nguồn gốc của dữ liệu

1.3.2.2. Bộ hướng dẫn gán nhãn

1.3.2.3. Quá trình xây dựng bộ dữ liệu

1.3.2.4. Thống kê bộ dữ liệu

4. CHƯƠNG 4: THÍ NGHIỆM VÀ ĐÁNH GIÁ

4.1. Quy trình thí nghiệm

4.2. Mã hoá bình luận

4.3. Thí nghiệm mô hình trên miền dữ liệu xúc phạm, phản cảm và trên toàn bộ dữ liệu

4.4. Các mô hình cơ sở

4.5. Thí nghiệm và kết quả

4.5.1. Cài đặt thí nghiệm

4.5.2. Kết quả thí nghiệm

4.5.3. Phân tích kết quả

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG

5.1. Môi trường thực hiện

5.2. Xây dựng ứng dụng tương tác với mô hình

5.2.1. Tổng quan về ứng dụng

5.2.2. Xây dựng ứng dụng xử lý dữ liệu lớn bình luận theo thời gian thực

5.3. Kết quả xây dựng ứng dụng tương tác với mô hình

6. CHƯƠNG 6: TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH

DANH MỤC BẢNG

Tóm tắt

I. Tổng Quan Về Nhận Diện Chuỗi Xúc Phạm Trong Bình Luận Tiếng Việt

Nhận diện chuỗi xúc phạm trong bình luận tiếng Việt là một nhiệm vụ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Với sự phát triển của mạng xã hội, số lượng bình luận ngày càng tăng, kéo theo đó là sự gia tăng của các bình luận mang tính chất xúc phạm. Việc phát hiện và phân loại các chuỗi xúc phạm không chỉ giúp bảo vệ người dùng mà còn cải thiện môi trường giao tiếp trực tuyến.

1.1. Định Nghĩa Chuỗi Xúc Phạm Trong Bình Luận

Chuỗi xúc phạm được định nghĩa là những bình luận chứa đựng ngôn từ bạo lực, phân biệt, hoặc mang tính chất xúc phạm đến cá nhân hoặc nhóm người. Việc nhận diện chính xác các chuỗi này là cần thiết để bảo vệ người dùng trên các nền tảng mạng xã hội.

1.2. Tầm Quan Trọng Của Việc Nhận Diện Chuỗi Xúc Phạm

Việc nhận diện chuỗi xúc phạm giúp giảm thiểu tác động tiêu cực của ngôn từ độc hại, bảo vệ người dùng khỏi những tổn thương tâm lý. Đồng thời, nó cũng hỗ trợ các nhà quản lý trong việc duy trì một môi trường giao tiếp lành mạnh trên mạng.

II. Vấn Đề Và Thách Thức Trong Nhận Diện Chuỗi Xúc Phạm

Mặc dù có nhiều tiến bộ trong công nghệ nhận diện ngôn ngữ, nhưng việc phát hiện chuỗi xúc phạm vẫn gặp nhiều thách thức. Các bình luận thường thiếu ngữ cảnh, có thể viết tắt hoặc không có dấu, gây khó khăn cho việc phân loại chính xác.

2.1. Thiếu Ngữ Cảnh Trong Bình Luận

Nhiều bình luận không có ngữ cảnh rõ ràng, dẫn đến việc khó xác định ý nghĩa thực sự của chúng. Điều này làm tăng khả năng nhầm lẫn trong việc nhận diện chuỗi xúc phạm.

2.2. Sự Đa Dạng Của Ngôn Ngữ Mạng Xã Hội

Ngôn ngữ trên mạng xã hội thường có nhiều biến thể, từ viết tắt đến cách diễn đạt sáng tạo. Điều này tạo ra thách thức lớn cho các mô hình nhận diện chuỗi xúc phạm, yêu cầu phải có sự linh hoạt và khả năng thích ứng cao.

III. Phương Pháp Nhận Diện Chuỗi Xúc Phạm Hiệu Quả

Để nhận diện chuỗi xúc phạm một cách hiệu quả, nhiều phương pháp đã được áp dụng, bao gồm các mô hình học sâu và học chuyển tiếp. Những phương pháp này giúp cải thiện độ chính xác trong việc phát hiện các bình luận độc hại.

3.1. Mô Hình BiLSTM CRF

Mô hình BiLSTM - CRF đã chứng minh được hiệu suất cao trong việc nhận diện chuỗi xúc phạm. Mô hình này sử dụng các lớp nhúng từ để vector hóa bình luận và lớp CRF để tính xác suất nhãn đầu ra.

3.2. Mô Hình XLM R và PhoBERT

XLM-R và PhoBERT là những mô hình học chuyển tiếp mạnh mẽ, được huấn luyện trên tập dữ liệu lớn. Chúng cho thấy khả năng vượt trội trong việc nhận diện chuỗi xúc phạm, đặc biệt là trong ngữ cảnh tiếng Việt.

IV. Ứng Dụng Thực Tiễn Của Nhận Diện Chuỗi Xúc Phạm

Nghiên cứu về nhận diện chuỗi xúc phạm không chỉ dừng lại ở lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các mô hình được phát triển có thể được tích hợp vào các nền tảng mạng xã hội để tự động phát hiện và xử lý các bình luận độc hại.

4.1. Ứng Dụng Trong Quản Lý Nội Dung

Các mô hình nhận diện chuỗi xúc phạm có thể giúp các nhà quản lý nội dung trên mạng xã hội tự động phát hiện và loại bỏ các bình luận không phù hợp, từ đó tạo ra một môi trường giao tiếp an toàn hơn.

4.2. Tăng Cường Trải Nghiệm Người Dùng

Việc phát hiện và xử lý các chuỗi xúc phạm kịp thời không chỉ bảo vệ người dùng mà còn nâng cao trải nghiệm của họ khi tham gia vào các nền tảng mạng xã hội.

V. Kết Luận Và Hướng Phát Triển Tương Lai

Nghiên cứu về nhận diện chuỗi xúc phạm trong bình luận tiếng Việt đã mở ra nhiều cơ hội mới cho việc cải thiện môi trường mạng xã hội. Các mô hình hiện tại có thể được phát triển thêm để nâng cao độ chính xác và khả năng xử lý ngữ cảnh.

5.1. Định Hướng Nghiên Cứu Tương Lai

Cần tiếp tục nghiên cứu và phát triển các mô hình mới, cải thiện khả năng nhận diện chuỗi xúc phạm trong các ngữ cảnh phức tạp hơn. Điều này sẽ giúp nâng cao hiệu quả của các giải pháp hiện tại.

5.2. Tích Hợp Công Nghệ Mới

Việc tích hợp các công nghệ mới như học máy và trí tuệ nhân tạo vào quy trình nhận diện chuỗi xúc phạm sẽ giúp cải thiện đáng kể hiệu suất và độ chính xác của các mô hình.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu nhận diện chuỗi xúc phạm cho tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Ngày nay, dưới sự ảnh hưởng mạnh mẽ của cuộc cách mạng công nghiệp lần thứ tư, các nhu cầu của con người ngày càng được đáp ứng trên nhiều lĩnh vực như an sinh xã hội, kinh tế, phương tiện di duyên và sự kết nối vạn vật. Điều này đã và dang anh hưởng trực tiếp tới đời sống của con người mọi nhiều mặt, đặc biệt là kết nói giữa người dùng với người dùng thông qua các nền tảng mạng xã hội, các trang thông tin điện tử. Van dé tan công mạng, lừa đảo, xúc phạm trên các mang xã hội ngày càng trở nên mat dần kiểm soát, qua đó trực tiếp biến thế giới thứ hai của con người trở thành một môi trường nguy hiểm và ảnh hưởng tiêu cực đến chính người dùng. Thực trạng trên đã chỉ ra rằng việc phát hiện, kiểm soát và xử lý các bình luận trên các nên tảng này là cực kỳ cấp thiết và quan trọng.

Bởi lẽ đặc trưng của môi trường trực tuyến này là tính lan truyền nhanh chóng, tính công cộng và không giới hạn nội dụng chia sẻ. Cụ thể, các bình luận có thể được chia sẻ thông qua nhiều phương thức khác nhau như truyền miệng, chia sẻ trực tiếp hoặc in ấn văn bản.từ đó làm cho tốc độ lan truyền thông trở nên cực kỳ nhanh chóng. Ngoài ra, việc các cá nhân đều có khả năng truy cập và tiếp cận các thông tin xúc phạm, phan cảm hay công kích một cách dé dàng khiến tác động tiêu cực tới cá nhân, tổ chức có nguy cơ rất lớn. Ngoài ra, theo khảo sát của Microsoft [1], Việt Nam hiện là nước có chỉ số văn minh năm trong nhóm thấp nhất trong tổng số 25 quốc gia được khảo sát.

Đây là một tín hiệu báo động về mặt tối của tác động mạng xã hội tới người dùng. Số lượng bình luận xúc phạm ngày càng tăng cao, trong khi các công cụ xử lý vấn đề xúc phạm này còn rất hạn chế. Qua đó, ta có thể hiểu rằng không chỉ ở Việt Nam, mạng xã hội vẫn đang từng ngày đem theo những bình luận không đúng chuẩn mực của các cá nhân thiếu sự tôn trọng, chuẩn mực đến với người khác. Trong đó đặc biệt là trẻ em hay nhóm người nhạy cảm về tâm lý khi tiếp xúc với những nội dung này là những đối tượng chịu ảnh hưởng đặc biệt và sâu sắc nhất tới tư tưởng và hành vi của họ.

Tuy nhiên, việc xử lý trích xuất các văn bản độc hại có trong một khối lượng khổng lồ các bình luận trên nền tảng mạng xã hội đang thực sự gặp nhiều vấn đề và thách thức. Cụ thể, trên thế giới hiện nay có rất ít các công trình nghiên cứu liên quan tới lĩnh vực trích xuất chuỗi xúc phạm, phản cảm trong bình luận mạng xã hội. Bên cạnh đó, các công trình nghiên cứu này cũng chưa chứng minh được tính ứng dụng vao thực tế bởi các ly do sau: (1) các nghiên cứu chưa áp dụng phân tích chuyên sâu về đặc trưng ngôn ngữ vùng miền, qua đó dẫn đến hiệu suất mô hình gặp khó khăn khi trích xuất chuỗi xúc phạm, phan cảm có trong các bình luận ấn ý, nói bóng gió hoặc sử dụng phương ngữ; (2) các công trình chỉ dừng lại ở mức nghiên cứu, thiếu sự phát triển hướng triển khai thành ứng dụng hỗ trợ cho việc xử lý khối lượng lớn bình luận trên các nền tảng nhiều người dung. Chính vì vậy, môi trường không gian mạng đang rất cần những ứng dụng dé có thé xử lý những bình luận độc hại đang tăng lên theo từng ngày, cụ thê là trích xuất những thông tin, chuỗi xúc phạm, phản cảm có trong các bình luận, từ đó góp phần giảm thiểu các bình luận độc hại và nâng cao an toàn không gian mạng.

Sau khi khảo sát các công trình nghiên cứu về lĩnh vực xử lý dữ liệu bình luận độc hại cho tiếng Việt, chúng tôi nhận thấy rằng chỉ có số ít công nghiên cứu về lĩnh vực này. Những công trình này tập trung chủ yếu phân loại nhãn xúc phạm, phản cảm từ bình luận bằng phương pháp tiền xử dữ liệu đầu vào [2] và huấn luyện các mô hình máy học, học sâu và học chuyển tiếp cho các bộ dữ liệu, qua đó nâng cao hiệu suất phân loại bình luận của mô hình [3] [4]. Ngoài ra, khảo sát của chúng tôi chỉ ra rằng bài toán nhận diện chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội vẫn đang là một bài toán chưa có lời giải vì hiện tại chưa có công trình nào nghiên cứu về lĩnh vực này. Ngoài ra, đặc trưng của văn bản tiếng Việt vốn dĩ phức tạp, có sự khác nhau giữa nhiều vùng miền và đa ý nghĩa trong từng bình luận.

Chính vì vậy việc phân tích, bóc tách khái niệm và gán nhãn xúc phạm, phản cảm trong từng loại bình luận tiếng Việt là cực kỳ quan trọng. Điều này góp phần chỉ ra những đặc trưng riêng mà chỉ tiếng Việt mới có, từ đó giúp nhận biệt ưu và nhược điểm của các mô hình khi trích xuất chuỗi xúc phạm, phản cảm trong trường hợp các bình luận khó. Tuy nhiên, hiện nay chưa có bộ dữ liệu được xây dựng giúp nhận diện chuỗi xúc phạm, phản cảm cho tiếng Việt và cũng chưa có công trình nghiên cứu liên quan đến định nghĩa, phân tích các đặc điểm hay đặc trưng riêng về chuỗi xúc phạm, phản cảm của bình luận mạng xã hội Việt Nam. Nhận thấy được sự tồn tại các vấn đề trên, khoá luận này đề xuất một giải pháp hoàn chỉnh nhằm xây dựng dữ liệu chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội và các phân tích sâu sắc.

Mục tiêu khoá luận Trong khoá luận này, chúng tôi tập trung nghiên cứu các phương pháp dé xây dựng một hệ thống hoàn chỉnh giúp phân loại bình luận và đặc biệt là trích xuất chuỗi xúc phạm, phản cảm có trong mỗi bình luận mạng xã hội được thu thập theo thời gian thực. Cu thé, chúng tôi dat ra từng mục tiêu như sau: e Xây dựng bộ dữ liệu Vietnamese Hate and Offensive Spans (VIHOS), bộ dữ liệu dành cho tiếng Việt đầu tiên bao gồm các bình luận đã được gán nhãn các chuỗi xúc phạm, phản cảm bên trong. Bộ dit liệu được kỳ vọng giúp các mô hình huấn luyện mang lại hiệu suất cao nhờ các phân tích, bóc tách đặc trưng và định nghĩa khái niệm chuỗi xúc phạm, phản cảm của bình luận mạng xã hội tiếng Việt. e Thí nghiệm đa dạng các mô hình huấn luyện đã được chứng minh tinh hiệu quả cho bài toán Sequence Labeling trên các mô hình học sâu, học chuyền tiếp đa ngôn ngữ và đơn ngôn tiếng Việt.

Chúng tôi mở rộng các thí nghiệm dựa trên đặc trưng về số lượng của các chuỗi xúc phạm, phản cảm có trong mỗi bình luận, qua đó so sánh phân tích và đưa ra kết luận về tính hiệu quả của từng mô hình trên từng thí nghiệm với mục tiêu tìm ra mô hình cho hiệu suât cao nhât. e Để chứng minh tính hữu ích của dit liệu, chúng tôi xây dựng ứng dụng liên tục truyền dir liệu từ nguồn đữ liệu không 16 ở trang mạng xã hội và tiến hành nhận diện chuỗi xúc phạm, phan cảm có trong bình luận theo thời gian thực. Ngoài ra, chúng tôi còn áp dụng các kỹ thuật phân loại các bình luận nhận được thành một trong ba nhãn CLEAN, HATE hoặc OFFENSIVE [2] để tăng tính ứng dụng của hệ thống, từ đó xây dựng thành công mô hình và sẵn sàng áp dụng vào thực tế. Đối tượng và phạm vi nghiên cứu > Đối tượng: Sự phát triển mạnh mẽ của Internet kéo theo sự phát triển của các nền tảng mạng mã hội, các bình luận trên mạng xã hội ngày càng trở nên mat kiểm soát dần bởi số lượng và bộc lộ nhiều khía cạnh tiêu cực.

Trong đó số lượng chuỗi độc hại, xúc phạm, phản cảm có trong mỗi bình luận trở nên nhiều và tinh vi hơn bao giờ hết, qua đó gây quan ngại về sự ảnh hưởng tiêu cực của chúng tới người dùng. Điều này đã tạo động lực cho chúng tôi tìm tòi nghiên cứu và đưa ra giải pháp giải quyết vấn đề bóc tách chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội Việt Nam. Góp phần xây dựng không gian mạng trở nên an toàn và lành mạnh đối với tất cả người dùng. > Phạm vi: Tuy đề tài hiện đang ở mức sơ khởi nhưng phạm vi áp dụng là vô cùng lớn.

Cụ thể, hệ thống của chúng tôi không chỉ đáp ứng tốt ở các trang mạng xã hội trực tuyến có quy mô nhỏ như các trang thông tin điện tử có lượng người dùng thấp nhưng rất cần sự kiểm duyệt cao mà còn đáp ứng tối đối với các trang mạng xã hội phổ biến hiện nay như Facebook, Youtube. Từ đó, góp phần ngăn chặn những thông tin độc hại phát tán, giảm thiểu đáng ké bình luận xúc phạm, phản cảm đối với các đối tượng nhạy cảm như người già, trẻ em. Góp phần thiết lập trật tự an ninh mạng, giúp các cơ quan nhà nước theo dõi các đôi tượng nhăm mục đích giáo dục, nghiên cứu, và quản lý một cách hiệu quả. Kết quả nghiên cứu Khoá luận của chúng tôi đi tiên phong trong lĩnh vực trích xuất, nhận diện chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội tiếng Việt.

Không chỉ xây dựng thành công bộ dir liệu ViHOS băng cách bóc tách, phân tích các đặc trưng đặc biệt về bình luận xúc phạm dành riêng cho tiếng Việt, mà chúng tôi còn thí nghiệm phân tích các mô hình huấn luyện dựa trên đặc điểm về số lượng của chuỗi xúc phạm, phản cảm, qua đó rút ra kết luận về chất lượng bộ dit liệu và hiệu suất của mô hình. Cuối cùng, chúng tôi triển khai ứng dụng phân loại bình luận và nhận diện chuỗi xúc phạm, phản cảm có trong bình luận mạng xã hội theo thời gian thực, đưa hệ thống của chúng tôi tiễn gần hơn với con người và sẵn sàng ứng dụng vào thực tế. Những kết quả này cũng là một đóng góp về mặt tư liệu cho các công trình nghiên cứu về sau kế thừa và phát triển, tận dụng những điểm mạnh của khoá luận và khắc phục những vấn đề còn tồn đọng mà chúng tôi đang gap phải. Cấu trúc khoá luận Khoá luận của chúng tôi gồm 6 chương với các nội dung chính như sau: > Chương 1: Tong quan Giới thiệu bài toán nhận diện chuỗi xúc phạm, phan cảm có trong bình luận mạng xã hội tiếng Việt.

Tầm quan trọng và tính ứng dụng của khoá luận vào thực tế đời sống trong bối cảnh phát triển mạnh mẽ của nền tảng trực tuyến hiện tại.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nhận Diện Chuỗi Xúc Phạm Trong Bình Luận Tiếng Việt" cung cấp cái nhìn sâu sắc về việc phát hiện và phân loại các chuỗi xúc phạm trong bình luận tiếng Việt. Bài viết nêu rõ các phương pháp và kỹ thuật hiện đại trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), giúp người đọc hiểu rõ hơn về cách thức mà các mô hình học máy có thể được áp dụng để nhận diện nội dung không phù hợp trên các nền tảng trực tuyến.

Một trong những lợi ích lớn nhất của tài liệu này là nó không chỉ giúp nâng cao nhận thức về vấn đề xúc phạm trong bình luận mà còn cung cấp các giải pháp khả thi để cải thiện môi trường giao tiếp trực tuyến. Độc giả có thể tìm hiểu thêm về các ứng dụng của NLP trong việc phân loại văn bản tiếng Việt qua tài liệu Nghiên cứu một số kỹ thuật nlp và ứng dụng phân loại văn bản tiếng việt.

Ngoài ra, để mở rộng kiến thức về việc phát hiện nội dung xúc phạm, độc giả có thể tham khảo tài liệu Khóa luận tốt nghiệp khoa học dữ liệu nhận diện nội dung xúc phạm trên dữ liệu mạng xã hội việt nam sử dụng mô hình phobert cnn. Tài liệu này sẽ giúp bạn hiểu rõ hơn về các mô hình học sâu trong việc xử lý dữ liệu mạng xã hội.

Cuối cùng, nếu bạn quan tâm đến việc xây dựng các ứng dụng thực tiễn từ những nghiên cứu này, hãy xem qua tài liệu Tìm hiểu phương pháp phân loại naïve bayes và nghiên cứu xây dựng ứng dụng tóm tắt văn bản tiếng việt để khám phá thêm về các phương pháp phân loại văn bản. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên.

#xử lý ngôn ngữ tự nhiên

#mô hình học sâu

#bình luận tiếng Việt

#phân loại bình luận

#dữ liệu mạng xã hội

#hệ thống tự động phát hiện

Chủ đề

Phát triển mô hình học máy

Xử lý ngôn ngữ tự nhiên tiếng Việt

Ứng dụng trong mạng xã hội

Nghiên cứu về chuỗi xúc phạm