Luận Văn Thạc Sĩ: Phương Pháp Thu Thập, Đánh Giá và Phân Cụm Thông Tin Tiếng Việt Trên Internet

2007

91
0
0

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

DANH MỤC CHỮ VIẾT TẮT

DANH MỤC HÌNH VẼ, BẢNG BIỂU

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN CỤM TÀI LIỆU WEB

1.1. Khai phá dữ liệu

1.1.1. Khai phá dữ liệu là gì?

1.1.2. Các hướng tiếp cận và các kỹ thuật trong khai phá dữ liệu

1.1.3. Ứng dụng của khai phá dữ liệu

1.2. Dữ liệu Fulltext và Hypertext

1.3. Khai phá dữ liệu Web

1.3.1. Nhu cầu

1.4. Bài toán phân cụm tài liệu Web

1.4.1. Giới thiệu bài toán

1.4.2. Tại sao đặt ra bài toán phân cụm tài liệu Web

1.4.3. Đặc điểm của bài toán phân cụm tài liệu Web

1.4.4. Các yêu cầu đối với bài toán phân cụm tài liệu Web

1.4.5. Một số đại lượng đo độ chính xác cho bài toán

1.5. Những khó khăn trong Phân cụm tiếng Việt

1.5.1. Vấn đề tách từ tiếng Việt

1.5.2. Vấn đề bảng mã tiếng Việt

1.5.3. Các khó khăn khác

1.6. Kết luận chương 1

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU

2.1. Mô hình không gian vector

2.1.1. Một số khái niệm

2.1.2. Cắt bỏ từ (word stemming)

2.2. Mô hình tần số

2.3. Mô hình Boolean

2.4. Tính chất của vector

2.5. Tách từ trong tiếng Việt

2.5.1. Một số đặc điểm chính về từ tiếng Việt

2.5.2. Tách từ tự động tiếng Việt

2.5.3. Các phương pháp tách từ tiếng Việt

2.5.4. Kết hợp giữa fnTBL và Longest matching

2.6. Độ tương tự

2.6.1. Độ tương tự trùng lặp

2.6.2. Độ tương tự Cosine

2.7. Tổng kết chương 2

3. CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM TÀI LIỆU

3.1. Phân hoạch Top-down

3.1.1. Thuật toán K-means với gán “cứng”

3.1.2. Thuật toán K-means với gán “mềm”

3.1.3. Độ phức tạp tính toán

3.2. Phân cụm dựa trên tính mới của tài liệu

3.2.1. Thuật toán phân cụm dựa trên thuật toán K-Means mở rộng

3.2.1.1. Chỉ mục phân cụm
3.2.1.2. Giải thuật phân cụm K-Means mở rộng

3.3. Phân hoạch Bottom-up

3.3.1. Thuật toán phân cụm tích tụ (AHC)

3.3.2. Độ phức tạp tính toán

3.4. Kết hợp giữa bottom-up và top-down

3.4.1. Thuật toán buckshot

3.5. Tổng kết chương 3

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VỚI PHÂN CỤM TIẾNG VIỆT

4.1. Môi trường thực nghiệm

4.2. Kết quả thực nghiệm

4.2.1. So sánh các thuật toán phân cụm

4.2.2. Phân cụm sử dụng tách từ tiếng Việt

4.3. Kết luận chương 4

5. CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN

5.1. Hướng phát triển

TÀI LIỆU THAM KHẢO