Luận Văn Thạc Sĩ: Phương Pháp Xây Dựng Cây Quyết Định Trong Khai Phá Dữ Liệu

Luận văn thạc sĩ VNU UET trình bày các phương pháp xây dựng cây quyết định trong khai phá dữ liệu, phục vụ nghiên cứu công nghệ thông tin.

Người đăng

Ẩn danh

Thể loại

luận văn
72
5
0

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC

1.1. Dữ liệu và tri thức

1.2. Khai phá tri thức

1.3. Các quá trình khai phá tri thức

1.4. KHAI PHÁ DỮ LIỆU

1.4.1. Khái niệm khai phá dữ liệu

1.4.2. Mục tiêu của khai phá dữ liệu

1.4.3. Chức năng của khai phá dữ liệu

TÀI LIỆU THAM KHẢO

Trích đoạn nội dung tài liệu

MỤC LỤC MỞ ĐẦU. SƠ LƢỢC VỀ KHAI PHÁ TRI THỨC. Dữ liệu và tri thức . Khai phá tri thức . Các quá trình khai phá tri thức . KHAI PHÁ DỮ LIỆU . Khái niệm khai phá dữ liệu . Mục tiêu của khai phá dữ liệu . Chức năng của khai phá dữ liệu . Phương pháp khai phá dữ liệu. Các kỹ thuật khai phá dữ liệu . Các thách thức khi khai phá dữ liệu . Các yêu cầu khi khai phá dữ liệu . Đánh giá, kết luận . CÁC KHÁI NIỆM CƠ BẢN . CÂY QUYẾT ĐỊNH . Khái niệm chung . Xây dựng cây quyết định . Cắt tỉa cây quyết định . Đánh giá cây quyết định . CƠ SỞ DỮ LIỆU QUAN HỆ . Cơ sở dữ liệu quan hệ. Đại số quan hệ . Phụ thuộc hàm . Phụ thuộc hàm xấp xỉ . MỘT SỐ PHƢƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH . THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH . Thuật toán CLS . Thuật toán ID3 (Interative Dichotomizer) .50 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Thuật toán xây dựng cây quyết định dựa trên phụ thuộc hàm . CẮT TỈA CÂY QUYẾT ĐỊNH . ĐÁNH GIÁ CÁC THUẬT TOÁN VÀ KẾT LUẬN . ỨNG DỤNG THỬ NGHIỆM . BÀI TOÁN THỬ NGHIỆM . Mô tả bài toán. Mục đích thực hiện bài toán . KẾT QUẢ ĐẠT ĐƢỢC. MỘT SỐ HÌNH ẢNH CỦA CHƢƠNG TRÌNH . Giao diện hệ thống . Giao diện xây dựng cây quyết định . Cây quyết định dựa theo thuật toán CLS . Cây quyết định theo thuật toán ID3 . Cây quyết định theo thuật toán C4. Xây dựng cây quyết định theo phụ thuộc hàm xấp xỉ . 68 TÀI LIỆU THAM KHẢO . 70 2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ VIẾT TẮT CSDL Cơ sở dữ liệu CNTT Công nghệ thông tin Phụ thuộc hàm FDs Functional Dependencies Phụ thuộc hàm xấp xỉ AFDs Aproximate Functional Dependencies CLS Concept Learning System ID3 Interative Dichotomizer GA Thuật toán di truyền Genetic Algorithm 3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Công nghệ thông tin đã và đang trở thành lĩnh vực nghiên cứu, ứng dụng và triển khai có hiệu quả trong đời sống kinh tế, xã hội. Việc ứng dụng công nghệ thông tin trong các ngành khoa học, kinh tế, xã hội đã mang lại những hiệu quả to lớn không thể phủ nhận. Với các ngành khoa học, kinh tế - xã hội nơi có những kho dữ liệu khổng lồ thì việc tìm kiếm, truy xuất và đưa ra những thông tin cần thiết phù hợp với thời gian và yêu cầu là không dễ dàng và chính vì thế một thế hệ mới các phương pháp tiếp cận, phương pháp nghiên cứu, và các kỹ thuật, công cụ cho phép phân tích, tổng hợp, khai phá tri thức từ dữ liệu một cách thông minh và hiệu quả đã được các nhà khoa học quan tâm và nghiên cứu. Một trong những lĩnh vực nghiên cứu các phương pháp ứng dụng khai phá dữ liệu, tìm kiếm tri thức, kết xuất tri thức … từ dữ liệu là cây quyết định (decision tree) cũng được nghiên cứu từ nhiều năm trước đây và đã có những kết quả khả quan và mang lại hướng ứng dụng có hiệu quả cao. Ngày nay, kỹ thuật khai phá dữ liệu dựa trên cây quyết định đã được áp dụng và mạng lại hiệu quả cho nhiều ngành, nhiều lĩnh vực như: kinh tế, tài chính, khoa học - kỹ thuật, ngân hàng, thương mại, giáo dục, y tế,… Các kỹ thuật khai phá dữ liệu bằng cây quyết định rất đa dạng và phong phú như các kỹ thuật dựa trên các thuật toán Hunt, ID3, C4.5, … và kỹ thuật xây dựng cây quyết đinh dựa trên các phụ thuộc hàm trong cơ sở dữ liệu quan hệ. Với mong muốn làm rõ hơn các kỹ thuật khai phá tri thức từ dữ liệu sử dụng cây quyết định nhằm phục vụ công tác nghiên cứu chuyên môn cũng như mong muốn đưa các kỹ thuật khai phá dữ liệu sử dụng cây quyết định vào thực tế nên tôi lựa chọn thực hiện luận văn tốt nghiệp sau đại học là “Một số phƣơng pháp xây dựng cây quyết định trong khai phá dữ liệu”. Mục đích khi thực hiện luận văn này là tổng hợp các kiến thức về kỹ thuật khai phá dữ liệu bằng các kỹ thuật xây dựng cây quyết định dựa trên các thuật toán và phương pháp xây dựng cây quyết định dựa trên phụ thuộc hàm của cơ sở dữ liệu quan hệ. Nội dung chính của luận văn bao gồm 5 chương, trong đó: 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 1. Tổng quan, chương này trình bày khái quát về các vấn đề về khai phá dữ liệu, các thách thức gặp phải khi sử dụng các kỹ thuật khai phá dữ liệu và các ứng dụng của khai phá dữ liệu và tình hình nghiên cứu về khai phá dữ liệu nói chung và kỹ thuật khai phá dữ liệu sử dụng cây quyết định nói riêng ở thế giới và nước ta. Các khái niệm cơ bản, bao gồm các khái niệm cơ bản về khai phá dữ liệu, cây quyết định, các khái niệm trong cơ sở dữ liệu quan hệ. Một số phƣơng pháp xây dựng cây quyết định, chương này là trọng tâm của luận văn đề cập đến phương pháp xây dựng cây quyết định dựa trên các thuật toán khai phá dữ liệu bằng cây quyết định bao gồm các thuật toán CLS, ID3, C4.5 và phương pháp xây dựng cây quyết định dựa trên phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu quan hệ. Ứng dụng thử nghiệm, chương này so sánh các kỹ thuật xây dựng cây quyết định và đưa ra bài toán ứng dụng thử nghiệm để từ đó áp dụng một phương pháp khai phá dữ liệu cho bài toán đã nêu ra, từ đó thiết kế các modul cho triển khai bài toán. Đánh giá, kết luận, chương này đưa ra các đánh giá, kết luận và các phân tích sau khi thực hiện luận văn. Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông [ ]. 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 1. SƠ LƢỢC VỀ KHAI PHÁ TRI THỨC 1. Dữ liệu và tri thức Trong những năm gần đây, dưới sự tác động mạnh mẽ của khoa học và công nghệ đặc biệt là công nghệ thông tin và truyền thông thì các dữ liệu cần được lưu trữ ngày càng lớn do đặc trưng của dữ liệu là thông tin, có thông tin là có dữ liệu. Chúng ta có thể có nhiều dạng dữ liệu khác nhau cho nhiều lĩnh vực khác nhau nhưng cũng có thể các dữ liệu lại có một sự quan hệ tương đối mật thiết và chặt chẽ với nhau và không phải dữ liệu nào thu được cũng hoàn toàn chính xác hoặc phù hợp với yêu cầu của con người. Từ dữ liệu, con người phải tiến một bước dài trước khi xác định được tri thức trong khi con người luôn luôn mong muốn có được một tri thức đúng về một vấn đề cụ thể nào đó. Tri thức chính là động lực quan trọng trong quá trình phát triển và tiến bộ của con người nói riêng và văn minh nhân loại nói chung dù rằng những khái niệm chính xác về tri thức, bản chất của tri thức, quá trình hình thành của tri thức, mối quan hệ của các đối tượng trong thế giới với tri thức,… vẫn đang được tranh luận và chưa có câu trả lời thỏa đáng nhưng trong mọi lĩnh vực từ khoa học, công nghệ, kỹ thuật,… đến kinh tế, văn hóa, xã hội tri thức luôn luôn được tìm kiếm, phát hiện và tác động ngày càng lớn đến sự phát triển của loài người. Sự phong phú về thông tin, dữ liệu cùng với khả năng kịp thời khai thác chúng đã mang lại những năng suất và chất lượng cao trong công tác quản lý, hoạt động kinh tế, phát triển sản xuất và dịch vụ,… tuy nhiên, các yêu cầu về thông tin, tri thức trong các dữ liệu đó đặc biệt là công tác quyết định ngày càng đòi hỏi chất lượng cao hơn, kịp thời hơn và nhều tri thức hơn nhằm hỗ trợ việc ra quyết định của mình. Không phải ngẫu nhiên mà John Naisbett đã cảnh báo “Chúng ta đang ngập chìm trong dữ liệu mà vẫn đói tri thức” [1], điều đó cũng báo trước việc ứng dụng công nghệ thông tin đang chuyển sang một thời kỳ mới mà mục đích chủ yếu của công nghệ thông tin là giúp con người nhiều hơn trong 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com quá trình tìm kiếm, khai phá tri thức từ dữ liệu, biến đổi từ sự giàu có về thông tin thành sự giàu có về tri thức. Các khái niệm thông tin, dữ liệu và tri thức luôn có quan hệ chặt chẽ, mật thiết với nhau và khó phân biệt được bằng các định nghĩa rõ ràng. Ta có thể hiểu thông tin như là khái niệm chung nhất bao gồm mọi sự hiểu biết về các sự vật, hiện tượng, quan hệ,… mà con người thu nhận được qua các giác quan, giao tiếp, khảo sát, thực nghiệm, nghiên cứu, lý giải,… Dữ liệu có thể được mô tả bởi các giá trị cho các sự kiện, hiện tượng cụ thể còn tri thức có thể được xem như là những hiểu biết có mức độ khái quát, về các mối quan hệ có quy luật giữa các thuộc tính của đối tượng, các sự vật, hiện tượng mà con người thu được sau khi “chân lý hóa” bằng kinh nghiệm, phân tích dữ liệu hay qua nghiên cứu, lý giải, suy luận. Hoạt động nhận thức của con người bao gồm việc tìm kiếm tri thức để tăng cường sự hiểu biết về xã hội và cuộc sống, từ đó có thể tạo nên các kỹ thuật, công nghệ và giải pháp nhằm cải thiện đời sống của mình. Dưới sự trợ giúp của công nghệ thông tin, các phương pháp khai phá tri thức từ dữ liệu đã được từng bước nghiên cứu và các công cụ, giải pháp nhằm tổ chức các kho thông tin và dữ liệu có khả năng linh hoạt hơn trong việc trợ giúp quyết định trên nền kiến trúc khách hàng, phục vụ thích hợp, với việc sử dụng các phương pháp khai phá dữ liệu và phát hiện tri thức hiện đang được nghiên cứu rộng rãi trên thế giới cũng như ở Việt Nam. Từ nhiều thế kỷ qua, nếu như khoa học luôn hướng đến việc phát hiện các tri thức có giá trị phổ biến dưới dạng các nguyên lý, quy luật, định lý,… thì ngày nay chúng ta càng thấy rõ rằng ngay trong cuộc sống hàng ngày, trong việc quản lý, kinh doanh,… cũng cần những tri thức có thể có ý nghĩa hẹp hơn, ít phổ biến hơn, có độ chính xác thấp hơn, có đời sống ngắn hơn,… nhưng lại đáp ứng và phù hợp với nhu cầu trực tiếp của con người.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ