Tìm Hiểu Web Crawler và Xây Dựng Ứng Dụng Minh Họa

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

2011

108
2
0

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN WEB CRAWLER

1.1. Khái niệm và giới thiệu sơ lược về Web Crawler

1.2. Ưu điểm của Web Crawler

1.3. Khuyết điểm của Web Crawler

1.4. Những ứng dụng của Web Crawler

1.5. Các bước để thực hiện Web Crawler

1.5.1. Các bước tách lọc

1.5.2. Khó khăn của tách lọc

1.5.3. Cách khắc phục

1.6. Loại bỏ Stopword và lấp đầy (Stemming)

1.6.1. Loại bỏ Stopword (Stopword Removal)

1.7. Trích lọc đường dẫn và hợp với quy tắc tiêu chuẩn

1.7.1. Trích lọc đường dẫn

1.7.2. Hợp với quy tắc tiêu chuẩn

1.8. Một số ví dụ URL

1.9. Bất lợi của Spider traps đối với trình thu thập

2. CHƯƠNG 2: NỘI DUNG CHÍNH CỦA WEB CRAWLER

2.1. Các giải thuật thu thập cơ bản của Web Crawler

2.1.1. Thuật toán thu thập theo chiều rộng

2.1.1.1. Yêu cầu cần có
2.1.1.2. Ta thực hiện các bước sau

2.1.2. Thuật toán thu thập ưu tiên

2.1.2.1. Yêu cầu cần có
2.1.2.2. Ta thực hiện các bước sau

2.2. Các thuật toán tính hạng trang

2.2.1. Thuật toán PageRank

2.2.1.1. Mô hình PageRank
2.2.1.2. Công thức tính PageRank
2.2.1.3. Ví dụ Ứng dụng PageRank

2.2.2. Thuật toán PageRank cải tiến (Modify Adaptive PageRank)

2.2.2.1. Phương pháp Adaptive PageRank
2.2.2.2. Những cải tiến của phương pháp này
2.2.2.3. Filter-Based Adaptive PageRank
2.2.2.4. Modified Adaptive PageRank

2.2.3. Giải thuật tính hạng trang theo chủ đề (Topic-sensitive PageRank)

2.3. Các trình tự thu thập của Web Crawler

2.3.1. So sánh với thu thập theo chiều sâu

2.3.1.1. Hai chiến lược khám phá
2.3.1.1.1. Topical Locality and Cues
2.3.1.1.2. Best-first Variations

2.4. Những vấn đề cần lưu ý với Web Crawler

3. CHƯƠNG 3: WEB CRAWLER VÀ VẤN ĐỀ XỬ LÝ SONG SONG

3.1. Máy tính song song

3.1.1. Phân loại máy tính song song

3.1.1.1. Phân loại dựa trên cơ chế điều khiển chung
3.1.1.2. Cách phân loại dựa trên sự tương tác giữa các Bộ Xử Lý

3.2. Mô hình lập trình song song

3.2.1. Mô hình nhiệm vụ - kênh liên lạc

3.2.1.1. Đặc điểm mô hình nhiệm vụ - kênh liên lạc
3.2.1.2. Đặc điểm của mô hình nhiệm vụ - kênh liên lạc

3.2.2. Mô hình chia sẻ bộ nhớ chung

3.3. Hiệu năng của xử lý song song

3.3.1. Khả năng tăng tốc độ tính toán

3.3.2. Cân bằng tải

3.3.2.1. Các thuật toán cân bằng tải tập trung
3.3.2.2. Các thuật toán cân bằng tải phân tán hoàn toàn
3.3.2.3. Các thuật toán cân bằng tải phân tán một nửa

3.3.3. Sự bế tắc

3.4. Đề xuất giải pháp song song hóa

3.4.1. Giải pháp song song hóa

3.4.2. Cơ chế phân công công việc giữa các bộ xử lý

3.4.3. Tổng hợp kết quả sau quá trình song song

3.4.4. Vấn đề tương tranh giữa các bộ xử lý

3.4.5. Đánh giá giải pháp song song hóa

3.5. Nhược điểm

4. PHẦN 2: XÂY DỰNG ỨNG DỤNG MINH HỌA WEB CRAWLER

4.1. Cấu trúc dữ liệu

4.1.1. Cấu trúc Frontier

4.1.2. Cấu trúc Considered

4.2. Cơ chế hoạt động của Web Crawler có kết hợp xử lí song song

4.2.1. Mô hình quá trình thu thập của Crawler

4.2.2. Mô tả chi tiết quá trình thu thập của Crawler

4.2.2.1. Giao diện khởi chạy Crawler
4.2.2.2. Giao diện Crawler đang thực thi

4.3. Giải quyết các vấn đề của Web Crawler

4.3.1. Tránh sự lặp lại

4.3.2. Tránh làm quá tải server

4.3.3. Tốc độ thu thập

4.3.4. Tránh các lỗ đen (black holes)

4.3.5. Thuật toán lấy liên kết

4.4. Giải Thuật PageRank

5. PHẦN 3: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

PHẦN 4: TÀI LIỆU THAM KHẢO