Khung Giám Sát Yếu Gắn Nhãn Dữ Liệu Cho Bài Toán Chuẩn Hóa Từ Vựng Mạng Xã Hội Tiếng Việt

2024

89
1
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Định nghĩa, gán nhãn dữ liệu, chuẩn hóa từ vựng, mục tiêu khóa luận, đối tượng và phạm vi nghiên cứu

1.2. Các nội dung chính

1.3. Các hướng nghiên cứu liên quan: Chuẩn hóa từ vựng, gán nhãn tự động, vấn đề cần giải quyết

1.4. Bộ dữ liệu: Giới thiệu về các bộ dữ liệu

1.5. Quy trình xử lý dữ liệu: Tiền xử lý dữ liệu

2. CHƯƠNG 2: FRAMEWORK GÁN NHÃN GIÁM SÁT YẾU

2.1. Các mô hình ngôn ngữ pre-trained: Mô hình VISOBERTT, PhoBERT

2.2. Mô hình BARTpho

2.3. Tinh chỉnh mô hình pre-trained cho bài toán chuẩn hóa từ vựng: Tách từ vựng căn chỉnh song song, điều chỉnh kiến trúc mô hình pre-trained, mô hình Teacher

2.4. Các luật yếu áp dụng (Weak rules), biểu thức chính quy (Regular Expression), Rule Attention Network

2.5. Quy trình huấn luyện Framework: Bước 1 đến bước 5

3. CHƯƠNG 3: CÀI ĐẶT, KẾT QUẢ VÀ ĐÁNH GIÁ

3.1. Thực nghiệm 1: Đánh giá khả năng gán nhãn của Framework đề xuất

3.2. Thực nghiệm 2: Tỷ lệ bỏ dấu trong dữ liệu huấn luyện và ảnh hưởng đến chuẩn hóa câu thiếu dấu

3.3. Thực nghiệm 3: Quan sát kết quả dự đoán trên tập dữ liệu

3.4. Phương pháp đánh giá

3.5. Đo đạc đánh giá độ chính xác chuẩn hóa từ vựng

3.6. Thực nghiệm chi tiết và so sánh thời gian huấn luyện mô hình

3.7. Thực nghiệm Framework trong các tác vụ downstream: Hate Speech Detection, Emotion Recognition, Hate Speech Span Detection, Spam Review Detection, Aspect-Based Sentiment Analysis

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Kết quả đạt được

4.2. Hướng phát triển

DANH MỤC HÌNH

DANH MỤC BẢNG

DANH MỤC TỪ VIẾT TẮT

TÓM TẮT KHÓA LUẬN

Khóa luận tốt nghiệp khoa học dữ liệu framework giám sát yếu gán nhãn dữ liệu cho bài toán chuẩn hóa từ vựng mạng xã hội tiếng việt

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học dữ liệu framework giám sát yếu gán nhãn dữ liệu cho bài toán chuẩn hóa từ vựng mạng xã hội tiếng việt

Tài liệu có tiêu đề Khung Giám Sát Yếu Gắn Nhãn Dữ Liệu Cho Chuẩn Hóa Từ Vựng Mạng Xã Hội Tiếng Việt cung cấp một cái nhìn sâu sắc về việc xây dựng khung giám sát nhằm gắn nhãn dữ liệu cho việc chuẩn hóa từ vựng trong môi trường mạng xã hội tiếng Việt. Tài liệu này không chỉ nêu rõ các phương pháp và kỹ thuật cần thiết để thực hiện việc gắn nhãn dữ liệu một cách hiệu quả, mà còn nhấn mạnh tầm quan trọng của việc chuẩn hóa từ vựng trong việc cải thiện khả năng hiểu biết và tương tác của người dùng trên các nền tảng mạng xã hội.

Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc nắm bắt các xu hướng mới trong ngôn ngữ mạng xã hội, cũng như cách thức áp dụng các công nghệ hiện đại để tối ưu hóa quy trình gắn nhãn dữ liệu. Để mở rộng thêm kiến thức về các chủ đề liên quan, bạn có thể tham khảo tài liệu Khóa luận tốt nghiệp công nghệ thông tin nhận dạng thực thể có tên dựa trên mô hình ngôn ngữ lớn, nơi bạn sẽ tìm hiểu về việc nhận dạng thực thể trong ngữ cảnh ngôn ngữ lớn. Ngoài ra, tài liệu Phân loại văn bản dùng mô hình bert sẽ giúp bạn hiểu rõ hơn về cách phân loại văn bản sử dụng các mô hình học sâu tiên tiến. Cuối cùng, tài liệu Khóa luận tốt nghiệp khoa học máy tính nghiên cứu về đọc hiểu tự động cho thành ngữ tiếng việt sẽ mang đến cái nhìn sâu sắc về việc đọc hiểu tự động trong ngữ cảnh tiếng Việt, mở rộng thêm kiến thức của bạn về ngôn ngữ và công nghệ.