Nghiên Cứu Ứng Dụng Kỹ Thuật Học Bán Giám Sát Để Phân Loại Văn Bản Tiếng Việt

Trường đại học

Đại Học Đà Nẵng

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2017

142
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU

1.1. Lý do chọn đề tài

1.2. Tổng quan tình hình nghiên cứu

1.2.1. Tình hình nghiên cứu trên thế giới

1.2.2. Tình hình nghiên cứu trong nước

1.3. Mục tiêu nghiên cứu

1.4. Đối tượng và phạm vi nghiên cứu

1.5. Nội dung nghiên cứu

1.6. Phương pháp nghiên cứu

1.7. Đóng góp chính của luận án

2. NGHIÊN CỨU TỔNG QUAN

2.1. Ứng dụng của học máy

2.2. Các dạng dữ liệu trong học máy

2.3. Các phương pháp học máy

2.3.1. Học không giám sát

2.3.2. Học tăng cường

2.3.3. Tổng quan về học bán giám sát

2.3.4. Một số phương pháp học bán giám sát

2.3.5. Thuật toán học có giám sát SVM và bán giám sát SVM

2.3.5.1. Huấn luyện SVM
2.3.5.2. SVM trong phân lớp văn bản
2.3.5.3. Bán giám sát SVM và phân lớp trang Web

2.3.6. Thuật toán phân lớp văn bản điển hình

2.3.7. Phân loại văn bản

2.3.7.1. Biểu diễn văn bản bằng véc tơ
2.3.7.2. Phân loại văn bản

2.3.8. Đề xuất nghiên cứu

2.3.9. Tiểu kết chương

3. XÂY DỰNG KHO DỮ LIỆU

3.1. Giới thiệu kho dữ liệu phân loại văn bản tiếng Việt

3.2. Tổng quan về kho dữ liệu

3.3. Khái niệm kho dữ liệu. Đặc điểm của kho dữ liệu

3.4. Mục đích của kho dữ liệu. Kiến trúc kho dữ liệu

3.5. Phân tích yêu cầu

3.6. Xây dựng kho

3.7. Khai thác kho

3.8. Cập nhật kho

3.9. Phân tích và đặc tả dữ liệu

3.10. Giải pháp xây dựng kho

3.11. Đề xuất mô hình tổng quát

3.12. Quá trình xây dựng kho dữ liệu

3.13. Quy trình của chương trình phân loại văn bản

3.14. Sử dụng thuật toán Naïve Bayes để phân loại văn bản

3.15. Định dạng đầu ra của dữ liệu trong kho

3.16. Kết quả kho dữ liệu thử nghiệm và đánh giá

3.16.1. Kết quả kho dữ liệu thử nghiệm

3.16.2. Đánh giá kho dữ liệu

3.17. Tiểu kết chương

4. PHÂN LOẠI VĂN BẢN DỰA TRÊN MÔ HÌNH CỰ LY TRẮC ĐỊA

4.1. Mô hình cự ly trắc địa trên máy véc tơ hỗ trợ

4.2. Mô hình cự ly trắc địa

4.3. Kỹ thuật phân cụm đa dạng sử dụng cự ly trắc địa

4.4. Phương pháp tính toán cự ly trắc địa

4.5. Hàm nhân trong máy véc tơ hỗ trợ sử dụng cự ly trắc địa

4.6. Phương pháp phân loại văn bản dựa trên mô hình cự ly trắc địa

4.7. Thực nghiệm phân loại văn bản dựa trên mô hình cự ly trắc địa

4.8. Phát triển chương trình ứng dụng

4.8.1. Chuẩn bị dữ liệu

4.8.2. Triển khai chương trình

4.8.3. Kết quả thực nghiệm

4.9. Tiểu kết chương

5. RÚT GỌN SỐ CHIỀU VÉC TƠ DỰA TRÊN ĐỒ THỊ DENDROGRAM

5.1. Định nghĩa đồ thị Dendrogram

5.2. Giải pháp đề xuất

5.3. Xây dựng đồ thị Dendrogram từ dữ liệu Wikipedia

5.4. Thuật toán xử lý Wikipedia

5.5. Thuật toán xử lý từ điển

5.6. Thuật toán tính toán ma trận P tần số xuất hiện chung

5.7. Thuật toán xây dựng đồ thị Dendrogram

5.8. Triển khai phân cụm

5.9. Áp dụng véc tơ rút gọn vào phân loại văn bản

5.9.1. Dữ liệu đầu vào

5.9.2. Kết quả thực nghiệm

5.10. Tiểu kết chương

CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Kỹ thuật học bán giám sát

Kỹ thuật học bán giám sát là một phương pháp kết hợp giữa dữ liệu có nhãn và không có nhãn để cải thiện hiệu suất của mô hình học máy. Phương pháp này đặc biệt hữu ích khi dữ liệu có nhãn khan hiếm và tốn kém để thu thập. Trong nghiên cứu này, kỹ thuật học bán giám sát được áp dụng để phân loại văn bản tiếng Việt, một ngôn ngữ có đặc thù phức tạp về ngữ nghĩa và cấu trúc. Các thuật toán như SVM bán giám sátphân cụm đa dạng được sử dụng để tối ưu hóa quá trình phân loại. Nghiên cứu chỉ ra rằng việc kết hợp dữ liệu không có nhãn giúp cải thiện độ chính xác của mô hình, đặc biệt trong các tình huống dữ liệu có nhãn hạn chế.

1.1. Ứng dụng trong phân loại văn bản

Phân loại văn bản là quá trình gán nhãn cho các văn bản dựa trên nội dung của chúng. Kỹ thuật học bán giám sát được áp dụng để giải quyết bài toán này bằng cách sử dụng cả dữ liệu có nhãn và không có nhãn. Các phương pháp như Self-trainingCo-training được đề xuất để tận dụng tối đa thông tin từ dữ liệu không có nhãn. Nghiên cứu cũng chỉ ra rằng việc sử dụng SVM bán giám sát giúp cải thiện độ chính xác trong phân loại văn bản tiếng Việt, đặc biệt khi dữ liệu có nhãn hạn chế.

1.2. Thách thức trong phân loại văn bản tiếng Việt

Văn bản tiếng Việt có nhiều đặc điểm phức tạp như từ đồng âm khác nghĩa và cấu trúc ngữ pháp đa dạng. Điều này gây khó khăn cho việc phân loại tự động. Kỹ thuật học bán giám sát được đề xuất để giải quyết các thách thức này bằng cách tận dụng dữ liệu không có nhãn để cải thiện mô hình. Nghiên cứu cũng chỉ ra rằng việc sử dụng phân tích ngữ nghĩatừ khóa LSI giúp nâng cao hiệu quả phân loại.

II. Phân loại văn bản tiếng Việt

Phân loại văn bản tiếng Việt là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nghiên cứu này tập trung vào việc áp dụng các phương pháp học máyhọc bán giám sát để cải thiện hiệu suất phân loại. Các mô hình như SVMNaïve Bayes được sử dụng để phân loại văn bản dựa trên các đặc trưng ngữ nghĩa và cú pháp. Nghiên cứu cũng đề xuất việc sử dụng mô hình cự ly trắc địa để đo lường khoảng cách giữa các văn bản, giúp cải thiện độ chính xác của quá trình phân loại.

2.1. Mô hình cự ly trắc địa

Mô hình cự ly trắc địa được đề xuất để đo lường khoảng cách giữa các văn bản trong không gian đa chiều. Khác với khoảng cách Euclid, cự ly trắc địa tính toán khoảng cách dựa trên đường cong phân bố dữ liệu, giúp phản ánh chính xác hơn mối quan hệ giữa các văn bản. Nghiên cứu chỉ ra rằng việc áp dụng mô hình cự ly trắc địa trong phân loại văn bản giúp cải thiện độ chính xác và tốc độ xử lý.

2.2. Rút gọn số chiều véc tơ

Để giảm độ phức tạp của mô hình, nghiên cứu đề xuất việc rút gọn số chiều véc tơ biểu diễn văn bản. Phương pháp này sử dụng đồ thị Dendrogram để phân cụm các từ dựa trên tần suất xuất hiện đồng thời. Kết quả cho thấy việc rút gọn số chiều giúp giảm thời gian phân loại mà vẫn duy trì độ chính xác cao. Phương pháp này cũng có thể áp dụng cho các bài toán khác trong xử lý ngôn ngữ tự nhiên.

III. Ứng dụng AI trong phân loại văn bản

Ứng dụng AI trong phân loại văn bản đang trở thành xu hướng quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nghiên cứu này tập trung vào việc áp dụng các kỹ thuật học máyhọc bán giám sát để tự động hóa quá trình phân loại văn bản tiếng Việt. Các mô hình như SVMNaïve Bayes được sử dụng để phân loại văn bản dựa trên các đặc trưng ngữ nghĩa và cú pháp. Nghiên cứu cũng đề xuất việc sử dụng mô hình cự ly trắc địa để đo lường khoảng cách giữa các văn bản, giúp cải thiện độ chính xác của quá trình phân loại.

3.1. Tự động hóa phân loại văn bản

Tự động hóa phân loại văn bản là quá trình sử dụng các thuật toán học máy để gán nhãn cho văn bản một cách tự động. Nghiên cứu này đề xuất việc sử dụng kỹ thuật học bán giám sát để tối ưu hóa quá trình này, đặc biệt khi dữ liệu có nhãn hạn chế. Các phương pháp như Self-trainingCo-training được áp dụng để tận dụng tối đa thông tin từ dữ liệu không có nhãn.

3.2. Tối ưu hóa nội dung

Tối ưu hóa nội dung là quá trình cải thiện chất lượng và độ chính xác của các văn bản được phân loại. Nghiên cứu này đề xuất việc sử dụng phân tích ngữ nghĩatừ khóa LSI để nâng cao hiệu quả phân loại. Các kỹ thuật như SEOphân tích dữ liệu văn bản cũng được áp dụng để tối ưu hóa quá trình phân loại.

01/03/2025

Ứng Dụng Kỹ Thuật Học Bán Giám Sát Trong Phân Loại Văn Bản Tiếng Việt là một tài liệu chuyên sâu tập trung vào việc áp dụng phương pháp học bán giám sát để cải thiện hiệu quả phân loại văn bản tiếng Việt. Tài liệu này không chỉ giới thiệu các kỹ thuật tiên tiến mà còn cung cấp những lợi ích thiết thực như giảm thiểu nhu cầu dữ liệu gán nhãn, tối ưu hóa quy trình xử lý ngôn ngữ tự nhiên và nâng cao độ chính xác trong phân loại văn bản. Đây là nguồn tài nguyên quý giá cho các nhà nghiên cứu và chuyên gia trong lĩnh vực xử lý ngôn ngữ tiếng Việt.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer, tài liệu này đi sâu vào việc sử dụng mô hình transformer để phân loại văn bản. Ngoài ra, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin cung cấp cái nhìn chi tiết về việc áp dụng học sâu trong các bài toán xử lý ngôn ngữ. Cuối cùng, Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực là một tài liệu thú vị khác giúp bạn hiểu rõ hơn về phân loại cảm xúc trong văn bản.

Hãy khám phá các tài liệu này để có cái nhìn toàn diện hơn về các phương pháp hiện đại trong xử lý ngôn ngữ tiếng Việt!