Luận văn thạc sĩ: Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp ...

2007

92
1
0

Phí lưu trữ

35 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lược sử về trích chọn thông tin

1.2. IE với ngôn ngữ tự nhiên

1.3. Một số hệ IE trong thời kỳ đầu

1.4. Xây dựng các hệ trích chọn thông tin

1.4.1. Phương pháp xây dựng hệ trích chọn thông tin

2. CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ

2.1. Mô hình Markov ẩn (HMMs)

2.1.1. Tổng quan về HMMs

2.1.2. Thuật toán gán nhãn triagram HMMs

2.1.3. Một số hạn chế của HMMs

2.2. Conditional Random Field trong bài toán trích chọn thông tin

2.2.1. Từ HMMs đến CRFs

2.2.2. Định nghĩa CRF

2.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi

2.3. Thuật toán GIS

2.4. Thuật toán IIS

2.5. Các phương pháp tối ưu số

2.5.1. Kĩ thuật tối ưu số bậc một

2.5.2. Kĩ thuật tối ưu số bậc hai

2.6. CRF có thể giải quyết được các vấn đề label bias

2.7. Perceptron trong bài toán trích chọn thông tin

2.7.1. Thuật toán perceptron

2.7.2. Vectơ đặc trưng cục bộ và toàn cục

2.7.3. Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi

2.7.4. Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi

2.7.5. Chứng minh tính hội tụ của thuật toán perceptron

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT

3.1. Môi trường thực nghiệm

3.2. Dữ liệu thực nghiệm

3.3. Hệ thống trích chọn tên riêng cho tiếng Việt

3.4. Các tham số huấn luyện và đánh giá thực nghiệm

3.5. Lựa chọn các thuộc tính

3.5.1. File huấn luyện

3.6. Kết quả thực nghiệm

3.6.1. Kết quả của 10 lần thử nghiệm

3.6.2. Lần thực nghiệm cho kết quả tốt nhất

3.6.3. Trung bình 10 lần thực nghiệm

Tài liệu tham khảo

Luận văn thạc sĩ vnu uet xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10