Luận văn thạc sĩ: Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường

Trường đại học

Đại học quốc gia hà nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn

2012

80
0
0

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT

1.1. Khai phá dữ liệu văn bản

1.2. Khái niệm cơ bản trong khai phá văn bản

1.3. Một số khái niệm sử dụng trong luận văn

1.4. Các phương pháp đánh trọng số cho từ khóa

1.5. Một số phương pháp biểu diễn văn bản

1.6. Phương pháp lựa chọn từ trong biểu diễn văn bản

1.7. Độ liên quan giữa các văn bản

1.8. Phân lớp văn bản

1.9. Thuật toán K láng giềng gần nhất (KNN)

1.10. Kết chương

2. CHƯƠNG 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

2.1. Một số đặc điểm tiếng Việt

2.2. Các đặc điểm chính tả văn bản tiếng Việt

2.3. Phương pháp tách từ tiếng Việt

2.4. Phương pháp So khớp tối đa

2.5. Phương pháp Giải thuật học cải biến

2.6. Phương pháp đối sánh thuật ngữ dài nhất

2.7. Một số thông tin chuyên ngành Tài nguyên và môi trường

2.8. Tài nguyên đất

2.9. Tài nguyên nước

2.10. Tài nguyên khoáng sản

2.11. Tài nguyên biển

2.12. Khí tượng thủy văn

2.13. Môi trường

2.14. Đo đạc và bản đồ

2.15. Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về tài nguyên và môi trường

2.16. Mô hình tiếp cận bài toán

2.17. Tiền xử lý văn bản

2.18. Lựa chọn đặc trưng theo chủ đề văn bản

2.19. Xử lý tập mẫu

2.20. Biểu diễn văn bản trong mô hình vector

2.21. Phép tính độ liên quan giữa hai vector

2.22. Phân lớp văn bản tiếng Việt về tài nguyên và môi trường

2.23. Kết chương

3. CHƯƠNG 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN

3.1. Thiết kế tổng thể

3.2. Thiết kế chi tiết

3.3. Sơ đồ khung cảnh mức 0 của hệ thống

3.4. Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý

3.5. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu

3.6. Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp

3.7. Chức năng quản lý từ điển, từ dừng

3.8. Chức năng quản lý chủ đề

3.9. Thiết kế cơ sở dữ liệu

3.10. Kết chương

4. CHƯƠNG 4: CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ

4.1. Cài đặt chương trình

4.2. Lựa chọn công nghệ và môi trường cài đặt

4.3. Giao diện chương trình phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường

4.4. Cơ sở dữ liệu

4.5. Kết quả tách từ

4.6. Kết quả phân lớp văn bản

4.7. Kết chương

KẾT LUẬN VÀ ĐỊNH HƢỚNG PHÁT TRIỂN

DANH MỤC TÀI LIỆU THAM KHẢO

PHỤ LỤC