Mô Hình Tách Từ và Gán Nhãn Từ Loại Tích Hợp Cho Tiếng Việt

Trường đại học

luận văn chat luong

Chuyên ngành

master thesis

Người đăng

Ẩn danh

Thể loại

thesis

2008

56
0
0

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

1.1. Khái quát về tách từ tiếng Việt

1.2. Khái quát về gán nhãn từ loại - POS tagging

1.2.1. Giới thiệu về bài toán gán nhãn từ loại

1.2.2. Các hướng tiếp cận bài toán POS tagging

1.2.3. Các nghiên cứu gán nhãn từ loại cho tiếng Việt

1.2.4. Vấn đề tích hợp tách từ và gán nhãn từ loại

2. CHƯƠNG 2: MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT

2.1. Các mô hình liên quan

2.1.1. Mô hình dựa vào từ điển

2.1.2. Mô hình nhận dạng tên thực thể - Named Entity Recognition

2.1.3. Mô hình N-gram

2.2. Phân tích các mô hình

2.3. Thiết kế tập đặc trưng

2.3.1. FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển

2.3.2. FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể

2.3.3. FS3: Đặc trưng dựa vào mô hình N-gram

2.4. Kết quả thực nghiệm

2.4.1. Đánh giá các đặc trưng FS1 và FS2 so với các mô hình trước đó

2.4.2. Đánh giá tầm quan trọng của từng tập thuộc tính

2.5. Đánh giá kết quả tách từ

3. CHƯƠNG 3: MỘT MÔ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

3.1. Xây dựng corpus gán nhãn từ loại cho tiếng Việt

3.1.1. Thiết kế tập thẻ VnPOSTag

3.1.2. Mô tả bộ dữ liệu làm vnPOS corpus

3.1.3. Xây dựng vnPOS corpus

3.2. Gán nhãn từ loại bằng phương pháp Maximum Entropy Model

3.2.1. Mô hình xác suất

3.2.2. Các đặc trưng của gán nhãn từ loại

3.2.3. Đề xuất mô hình gán nhãn từ loại cho tiếng Việt

3.2.3.1. Gán nhãn từ loại dựa vào thông tin từ
3.2.3.2. Gán nhãn từ loại dựa vào hình vị

3.2.4. Đánh giá kết quả gán nhãn từ loại

4. CHƯƠNG 4: MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT

4.1. Các mô hình tích hợp cho tiếng Trung

4.2. Lựa chọn mô hình tích hợp cho tiếng Việt

4.3. Xây dựng mô hình và tiến hành thực nghiệm

Phụ lục A: Chú giải tập từ loại vnPOS

Danh sách hình vẽ

Danh sách bảng