Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Để Phân Loại Văn Bản Tiếng Việt

Trường đại học

Đại Học Đà Nẵng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2017

142
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Tổng quan tình hình nghiên cứu

1.2.1. Tình hình nghiên cứu trên thế giới

1.2.2. Tình hình nghiên cứu trong nước

1.3. Mục tiêu nghiên cứu

1.4. Đối tượng và phạm vi nghiên cứu

1.5. Nội dung nghiên cứu

1.6. Phương pháp nghiên cứu

1.7. Đóng góp chính của luận án

2. NGHIÊN CỨU TỔNG QUAN

2.1. Ứng dụng của học máy

2.2. Các dạng dữ liệu trong học máy

2.3. Các phương pháp học máy

2.3.1. Học không giám sát

2.3.2. Học tăng cường

2.3.3. Tổng quan về học bán giám sát

2.3.4. Một số phương pháp học bán giám sát

2.3.5. Thuật toán học có giám sát SVM và bán giám sát SVM

2.3.5.1. Huấn luyện SVM
2.3.5.2. SVM trong phân lớp văn bản
2.3.5.3. Bán giám sát SVM và phân lớp trang Web

2.3.6. Thuật toán phân lớp văn bản điển hình

2.3.7. Phân loại văn bản

2.3.7.1. Biểu diễn văn bản bằng véc tơ
2.3.7.2. Phân loại văn bản

2.3.8. Đề xuất nghiên cứu

2.3.9. Tiểu kết chương

3. XÂY DỰNG KHO DỮ LIỆU

3.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt

3.2. Tổng quan về kho dữ liệu

3.3. Khái niệm kho dữ liệu. Đặc điểm của kho dữ liệu

3.4. Mục đích của kho dữ liệu. Kiến trúc kho dữ liệu

3.5. Phân tích yêu cầu

3.6. Xây dựng kho

3.7. Khai thác kho

3.8. Cập nhật kho

3.9. Phân tích và đặc tả dữ liệu

3.10. Giải pháp xây dựng kho

3.11. Đề xuất mô hình tổng quát

3.12. Quá trình xây dựng kho dữ liệu

3.13. Quy trình của chương trình phân loại văn bản

3.14. Sử dụng thuật toán Naïve Bayes để phân loại văn bản

3.15. Định dạng đầu ra của dữ liệu trong kho

3.16. Kết quả kho dữ liệu thử nghiệm và đánh giá

3.16.1. Kết quả kho dữ liệu thử nghiệm

3.16.2. Đánh giá kho dữ liệu

3.17. Tiểu kết chương

4. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY TRẮC ĐỊA

4.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ

4.2. Mô hình cự ly trắc địa

4.3. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa

4.4. Phương pháp tính toán cự ly trắc địa

4.5. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa

4.6. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa

4.7. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa

4.8. Phát triển chương trình ứng dụng

4.8.1. Chuẩn bị dữ liệu

4.8.2. Triển khai chương trình

4.8.3. Kết quả thực nghiệm

4.9. Tiểu kết chương

5. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM

5.1. Định nghĩa đồ thị Dendrogram

5.2. Giải pháp đề xuất

5.3. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia

5.4. Thuật toán xử lý Wikipedia

5.5. Thuật toán xử lý từ điển

5.6. Thuật toán tính toán ma trận P tần số xuất hiện chung

5.7. Thuật toán xây dựng đồ thị Dendrogram

5.8. Triển khai phân cụm

5.9. Áp dụng véc tơ rút gọn vào phân loại văn bản

5.9.1. Dữ liệu đầu vào

5.9.2. Kết quả thực nghiệm

5.10. Tiểu kết chương

CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Ứng Dụng Kỹ Thuật Học Bán Giám Sát Trong Phân Loại Văn Bản Tiếng Việt là một tài liệu chuyên sâu tập trung vào việc áp dụng phương pháp học bán giám sát để cải thiện hiệu quả phân loại văn bản tiếng Việt. Tài liệu này không chỉ giới thiệu các kỹ thuật tiên tiến mà còn cung cấp những lợi ích thiết thực như giảm thiểu nhu cầu dữ liệu gán nhãn, tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên và nâng cao độ chính xác trong phân loại văn bản. Đây là nguồn tài nguyên quý giá cho các nhà nghiên cứu và chuyên gia trong lĩnh vực xử lý ngôn ngữ tiếng Việt.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer, tài liệu này đi sâu vào việc sử dụng mô hình transformer để phân loại văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin cung cấp cái nhìn chi tiết về việc áp dụng học sâu trong các bài toán xử lý ngôn ngữ. Cuối cùng, Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực là một tài liệu thú vị khác giúp bạn hiểu rõ hơn về phân loại cảm xúc trong văn bản.

Hãy khám phá các tài liệu này để có cái nhìn toàn diện hơn về các phương pháp hiện đại trong xử lý ngôn ngữ tiếng Việt!