Nghiên cứu thuật toán phân lớp dữ liệu trên cây quyết định tại Đại học Quốc gia Hà Nội

Trường đại học

Đại học Công Nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận

2005

67
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU DỰA TRÊN CÂY QUYẾT ĐỊNH

1.1. Tổng quan về phân lớp dữ liệu trong data mining

1.2. Các vấn đề liên quan đến phân lớp dữ liệu

1.3. Các phương pháp đánh giá độ chính xác của mô hình phân lớp

1.4. Cây quyết định ứng dụng trong phân lớp dữ liệu

1.5. Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định

1.6. Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu

1.7. Xây dựng cây quyết định

1.8. Thuật toán xây dựng cây quyết định

1.9. Tình hình nghiên cứu các thuật toán hiện nay

1.10. Song song hóa thuật toán phân lớp dựa trên cây quyết định tuần tự

2. CHƯƠNG 2: PHÂN TÍCH HAI THUẬT TOÁN TIÊU BIỂU

2.1. Giới thiệu chung

2.2. Thuật toán C4.5

2.2.1. Cơ chế lựa chọn thuộc tính

2.2.2. Xử lý giá trị thiếu

2.2.3. Tránh quá vừa dữ liệu

2.2.4. Chuyển đổi cây quyết định sang luật

2.2.5. Hiệu quả của thuật toán C4.5 với tập dữ liệu vừa và nhỏ

2.3. Thuật toán SPRINT

2.3.1. Cấu trúc dữ liệu trong SPRINT

2.3.2. Sử dụng Gini-index làm độ đo tìm điểm phân chia tập dữ liệu tốt nhất

2.3.3. Thực thi sự phân chia

2.3.4. Hiệu quả của thuật toán SPRINT với tập dữ liệu cực lớn

3. CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM

3.1. Môi trường thực nghiệm

3.2. Cấu trúc mô hình phân lớp C4.5

3.2.1. Mô hình phân lớp C4.5 có 4 chương trình chính

3.2.2. Cấu trúc dữ liệu sử dụng trong C4.5

3.3. Kết quả thực nghiệm

3.4. Một số đề xuất cải tiến mô hình phân lớp C4.5

TÀI LIỆU THAM KHẢO