Luận án tiến sĩ nghiên cứu xây dựng và khai thác kho ngữ liệu chuẩn hóa từ internet cho xử lý tiếng Việt

2014

151
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ KHO NGỮ LIỆU

1.1. Kho ngữ liệu văn bản

1.2. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu

1.2.1. Thu thập kho ngữ liệu văn bản

1.2.2. Chú giải ngôn ngữ và vấn đề chuẩn hóa

1.2.3. Khai thác kho ngữ liệu

1.3. Kho ngữ liệu tiếng Việt

1.4. Các vấn đề được nghiên cứu trong luận án

1.5. Kết chương

2. CHƯƠNG 2: XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET

2.1. Xây dựng kho ngữ liệu thô tiếng Việt

2.1.1. Lựa chọn danh sách từ hạt giống

2.1.2. Thu thập địa chỉ URL

2.1.3. Lọc nội dung chính của các trang web (URLs)

2.1.4. Phát hiện sự trùng lặp gần nhau

2.1.5. Xây dựng công cụ và kết quả thu thập kho ngữ liệu

2.2. Kết chương

3. CHƯƠNG 3: CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT

3.1. Mô hình MAF của ISO/TC 37/SC 4

3.2. Mô hình SynAF của ISO/TC 37/SC 4

3.3. Chuẩn hóa theo mô hình MAF cho tiếng Việt

3.3.1. Xác định đơn vị cơ sở (segment)

3.3.2. Hình thái từ (Wordform)

3.3.3. Nội dung hình thái cú pháp

3.4. Chuẩn hóa theo mô hình SynAF cho tiếng Việt

3.5. Kết chương

4. CHƯƠNG 4: KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT

4.1. Nghiên cứu từ vựng

4.2. Xây dựng ngữ liệu tiếng Việt cho Sketch Engine

4.2.1. Tách từ và gán nhãn từ loại

4.2.2. Xây dựng bộ quan hệ ngữ pháp tiếng Việt

4.2.3. Triển khai hệ thống Sketch Engine cho tiếng Việt

4.2.4. Đánh giá bộ quan hệ ngữ pháp tiếng Việt

4.3. Kết chương

5. CHƯƠNG 5: KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

5.1. Văn phạm hình thức

5.1.1. Khái niệm chung về văn phạm

5.1.2. Văn phạm phi ngữ cảnh (Context Free Grammar - CFG)

5.1.3. Văn phạm kết nối cây (Tree Adjoining Grammar – TAG)

5.2. Trích rút tự động văn phạm CFG cho tiếng Việt

5.2.1. Thuật toán trích rút từ VietTreebank

5.2.2. Phân tích cú pháp tiếng Việt với văn phạm PCFG

5.2.3. Thử nghiệm và đánh giá

5.2.4. Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp

5.3. Trích rút tự động văn phạm LTAG cho tiếng Việt

5.3.1. Thuật toán trích rút từ VietTreebank

5.3.2. Xây dựng thuật toán trích rút từ từ điển tiếng Việt

5.3.3. So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển

5.4. Kết chương

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Luận án tiến sĩ nghiên cứu việc xây dựng chuẩn hóa và khai thác kho ngữ liệu từ nguồn internet cho xử lý tiếng việt

Luận án tiến sĩ "Xây dựng và khai thác kho ngữ liệu chuẩn hóa từ internet cho xử lý tiếng Việt" tập trung vào việc phát triển một kho ngữ liệu có cấu trúc và chuẩn hóa, nhằm cải thiện khả năng xử lý ngôn ngữ tự nhiên cho tiếng Việt. Tài liệu này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp thu thập và xử lý dữ liệu ngôn ngữ mà còn nhấn mạnh tầm quan trọng của việc chuẩn hóa dữ liệu trong việc nâng cao độ chính xác của các ứng dụng xử lý ngôn ngữ. Độc giả sẽ nhận được những lợi ích từ việc hiểu rõ hơn về cách thức xây dựng và khai thác kho ngữ liệu, từ đó có thể áp dụng vào các nghiên cứu và phát triển ứng dụng liên quan đến ngôn ngữ Việt.

Nếu bạn muốn mở rộng kiến thức về các ứng dụng công nghệ trong lĩnh vực ngôn ngữ và xử lý dữ liệu, hãy tham khảo thêm tài liệu Kỹ thuật tìm kiếm dựa trên giai điệu, nơi bạn có thể tìm hiểu về các phương pháp tìm kiếm thông tin trong ngữ liệu. Bên cạnh đó, tài liệu Phân loại chủ đề bản tin online sử dụng máy học sẽ giúp bạn nắm bắt cách áp dụng máy học trong việc phân loại và xử lý thông tin. Cuối cùng, tài liệu Nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng sẽ mở ra những góc nhìn mới về việc trích xuất thông tin từ các nguồn dữ liệu hình ảnh, một lĩnh vực có liên quan mật thiết đến xử lý ngôn ngữ tự nhiên.