## Tổng quan nghiên cứu
Trong bối cảnh xã hội hiện đại, bạo hành không chỉ là vấn đề nhức nhối mà còn là thách thức lớn đối với sức khỏe tâm thần và an toàn xã hội. Theo thống kê từ bộ dữ liệu nghiên cứu, chỉ có khoảng 19.02% trong tổng số 1,041 văn bản tự sự tiếng Việt thu thập từ chuyên mục Tâm Sự của báo điện tử VnExpress chứa các hành vi bạo hành. Nghiên cứu tập trung vào việc phát hiện và phân loại sáu loại bạo hành chính: vật lý, tình dục, lời nói/cảm xúc, tinh thần/tâm lý, tài chính/kinh tế và văn hóa/bản sắc. Mục tiêu chính của luận văn là xây dựng bộ dữ liệu tiếng Việt chuyên biệt, phát triển guidelines gán nhãn dữ liệu và thử nghiệm các mô hình xử lý ngôn ngữ tự nhiên (NLP) để nhận diện tự động các hành vi bạo hành trong văn bản tự sự. Phạm vi nghiên cứu tập trung vào văn bản tự sự tiếng Việt thu thập trong khoảng thời gian gần đây tại Việt Nam, với ý nghĩa thực tiễn cao trong việc hỗ trợ tư vấn tâm lý và nâng cao nhận thức xã hội về bạo hành. Các chỉ số đánh giá như F-score trong phương pháp đánh giá nghiêm ngặt và linh hoạt được sử dụng để đo lường hiệu quả mô hình, mở ra hướng phát triển ứng dụng công nghệ AI trong lĩnh vực sức khỏe tâm thần.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Khái niệm bạo hành:** Được định nghĩa là hành vi nhằm giành lấy hoặc duy trì quyền lực, kiểm soát người khác, không chỉ giới hạn ở bạo hành vật lý mà còn bao gồm lời nói, tâm lý, tài chính và văn hóa.
- **Phân loại bạo hành:** Nghiên cứu dựa trên sáu loại bạo hành chính gồm: vật lý, tình dục, lời nói/cảm xúc, tinh thần/tâm lý, tài chính/kinh tế và văn hóa/bản sắc.
- **Mô hình xử lý ngôn ngữ tự nhiên:** Áp dụng các mô hình pre-trained như PhoBERT, XLM-RoBERTa kết hợp với mạng BiLSTM và lớp giải mã Softmax hoặc CRF để nhận diện và phân loại các đoạn văn bản chứa bạo hành.
- **Phương pháp gán nhãn dữ liệu:** Sử dụng phương pháp gán nhãn theo chuỗi (sequence labeling) với công cụ hỗ trợ Doccano, dựa trên bộ guidelines được xây dựng và hiệu chỉnh qua quá trình huấn luyện annotators.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Hơn 4,800 câu chuyện tự sự thu thập từ chuyên mục Tâm Sự trên báo điện tử VnExpress, trong đó 1,041 văn bản được chọn ngẫu nhiên để gán nhãn và thử nghiệm.
- **Cỡ mẫu:** 1,041 văn bản tự sự, chia thành 700 văn bản cho tập huấn luyện, 100 văn bản cho tập phát triển và 241 văn bản cho tập kiểm tra.
- **Phương pháp phân tích:** Tiền xử lý dữ liệu bao gồm tạo mask label, phân đoạn câu, tokenization bằng tokenizer của PhoBERT. Các mô hình được huấn luyện qua 100 epochs với batch size 32, learning rate 1e-3 giảm dần theo lịch trình tuyến tính.
- **Timeline nghiên cứu:** Quá trình xây dựng bộ dữ liệu, huấn luyện annotators, gán nhãn, thử nghiệm mô hình và đánh giá kết quả được thực hiện trong năm 2023-2024.
- **Phương pháp đánh giá:** Sử dụng hai phương pháp đánh giá nghiêm ngặt (strict evaluation) và linh hoạt (relax evaluation) để đo lường độ chính xác của mô hình trong việc nhận diện và phân loại bạo hành.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Tỷ lệ văn bản chứa bạo hành:** Chiếm 19.02% trong tổng số dữ liệu, cho thấy bạo hành xuất hiện không phổ biến trong văn bản tự sự nhưng vẫn là vấn đề đáng chú ý.
- **Phân bố các loại bạo hành:** Bạo hành lời nói/cảm xúc và tinh thần/tâm lý chiếm hơn 60% tổng số đoạn bạo hành, trong khi bạo hành tình dục và văn hóa/định danh chỉ chiếm lần lượt 2.1% và 3.1%.
- **Độ dài trung bình đoạn bạo hành:** Đoạn bạo hành tài chính/kinh tế có độ dài trung bình lớn nhất với 30.44 từ, trong khi độ dài trung bình chung của các đoạn bạo hành là khoảng 26.59 từ.
- **Hiệu quả mô hình:** Mô hình PhoBERT large kết hợp BiLSTM-CRF đạt F-score cao nhất 86.10% theo phương pháp đánh giá linh hoạt, trong khi F-score theo đánh giá nghiêm ngặt thấp hơn nhiều (khoảng 18.75%), phản ánh thách thức trong việc xác định chính xác điểm bắt đầu và kết thúc đoạn bạo hành.
### Thảo luận kết quả
Kết quả cho thấy sự mất cân bằng dữ liệu giữa các loại bạo hành ảnh hưởng lớn đến hiệu quả dự đoán, đặc biệt là các loại bạo hành tình dục và văn hóa/định danh có tỷ lệ rất thấp dẫn đến mô hình khó nhận diện chính xác. Việc sử dụng CRF làm lớp giải mã cuối cùng giúp cải thiện đáng kể độ chính xác so với Softmax, nhờ khả năng mô hình hóa mối quan hệ phụ thuộc giữa các nhãn trong chuỗi. So sánh với các nghiên cứu trước đây trong lĩnh vực phát hiện ngôn từ xúc phạm và bạo hành trên mạng xã hội, nghiên cứu này mở rộng sang lĩnh vực văn bản tự sự tiếng Việt, góp phần làm phong phú thêm tài nguyên và phương pháp cho xử lý ngôn ngữ tự nhiên tiếng Việt. Biểu đồ phân bố các loại bạo hành và bảng kết quả thí nghiệm minh họa rõ sự chênh lệch hiệu quả giữa các loại bạo hành, đồng thời chỉ ra hướng phát triển cần tập trung vào cân bằng dữ liệu và cải tiến mô hình.
## Đề xuất và khuyến nghị
- **Mở rộng bộ dữ liệu:** Thu thập thêm dữ liệu cho các loại bạo hành tình dục và văn hóa/định danh nhằm cân bằng phân bố và nâng cao hiệu quả dự đoán.
- **Phát triển mô hình đa nhãn:** Nghiên cứu và áp dụng các phương pháp nhận diện đa nhãn cho phép một đoạn văn bản có thể chứa nhiều loại bạo hành đồng thời, phản ánh thực tế phức tạp hơn.
- **Cải tiến kỹ thuật gán nhãn:** Tăng cường huấn luyện annotators và hoàn thiện guidelines để nâng cao độ đồng thuận và chất lượng dữ liệu gán nhãn.
- **Nghiên cứu nhận diện đoạn bạo hành lồng nhau:** Mở rộng phạm vi nghiên cứu để xử lý các trường hợp đoạn bạo hành chồng chéo hoặc lồng nhau, tăng tính chính xác và thực tiễn của mô hình.
- **Ứng dụng trong tư vấn tâm lý:** Phát triển các hệ thống chatbot và trợ lý ảo dựa trên mô hình nhận diện bạo hành để hỗ trợ tư vấn tâm lý và cảnh báo sớm các vấn đề bạo lực trong xã hội.
## Đối tượng nên tham khảo luận văn
- **Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý Ngôn ngữ Tự nhiên:** Tài liệu cung cấp bộ dữ liệu và phương pháp thử nghiệm chi tiết, hỗ trợ phát triển các nghiên cứu tiếp theo về nhận diện hành vi trong văn bản tiếng Việt.
- **Chuyên gia tâm lý và xã hội học:** Hiểu rõ hơn về các biểu hiện bạo hành trong ngôn ngữ tự sự, từ đó áp dụng vào công tác tư vấn và can thiệp tâm lý.
- **Các tổ chức xã hội và cơ quan pháp luật:** Sử dụng kết quả nghiên cứu để xây dựng các công cụ hỗ trợ phát hiện và xử lý các hành vi bạo hành trong cộng đồng.
- **Nhà phát triển công nghệ AI và ứng dụng:** Áp dụng mô hình và bộ dữ liệu để phát triển các sản phẩm công nghệ như chatbot tư vấn tâm lý, hệ thống giám sát nội dung trên mạng xã hội.
## Câu hỏi thường gặp
1. **Bạo hành trong văn bản tự sự được định nghĩa như thế nào?**
Bạo hành là hành vi nhằm giành quyền lực và kiểm soát người khác, bao gồm nhiều hình thức như vật lý, tình dục, lời nói, tâm lý, tài chính và văn hóa.
2. **Bộ dữ liệu nghiên cứu được thu thập từ đâu?**
Dữ liệu được thu thập từ hơn 4,800 câu chuyện tự sự trên chuyên mục Tâm Sự của báo điện tử VnExpress, trong đó 1,041 văn bản được chọn để gán nhãn và thử nghiệm.
3. **Mô hình nào được sử dụng để nhận diện bạo hành?**
Các mô hình pre-trained như PhoBERT và XLM-RoBERTa kết hợp với mạng BiLSTM và lớp giải mã CRF hoặc Softmax được sử dụng để nhận diện và phân loại bạo hành.
4. **Tại sao kết quả đánh giá nghiêm ngặt thấp hơn đánh giá linh hoạt?**
Đánh giá nghiêm ngặt yêu cầu dự đoán chính xác điểm bắt đầu và kết thúc đoạn bạo hành, trong khi đánh giá linh hoạt cho phép sai số nhỏ, do đó kết quả nghiêm ngặt thường thấp hơn.
5. **Những thách thức chính trong nghiên cứu này là gì?**
Bao gồm sự mất cân bằng dữ liệu giữa các loại bạo hành, độ dài và phức tạp của đoạn bạo hành, cũng như việc nhận diện đa nhãn và đoạn bạo hành lồng nhau chưa được giải quyết.
## Kết luận
- Xây dựng thành công bộ dữ liệu tiếng Việt chuyên biệt với 1,041 văn bản tự sự, trong đó 519 đoạn chứa bạo hành được phân loại thành sáu loại chính.
- Áp dụng hiệu quả các mô hình PhoBERT và XLM-RoBERTa kết hợp BiLSTM-CRF, đạt F-score lên đến 86.10% theo đánh giá linh hoạt.
- Phát hiện sự mất cân bằng dữ liệu ảnh hưởng đến hiệu quả nhận diện, đặc biệt với bạo hành tình dục và văn hóa/định danh.
- Đề xuất các hướng phát triển như mở rộng dữ liệu, mô hình đa nhãn, và nhận diện đoạn bạo hành lồng nhau để nâng cao chất lượng nghiên cứu.
- Kêu gọi các nhà nghiên cứu và tổ chức xã hội tiếp tục phát triển ứng dụng công nghệ NLP trong nhận diện và phòng chống bạo hành, góp phần bảo vệ sức khỏe tâm thần cộng đồng.