Giáo trình Introduction to Data Mining ấn bản 2 - Pang-Ning Tan, Vipin Kumar

Chuyên ngành

Khai thác dữ liệu

Người đăng

Ẩn danh

Thể loại

Giáo trình

2019

866
0
0

Phí lưu trữ

135 Point

Tóm tắt

I. Tổng quan về giáo trình Introduction to Data Mining 2nd Edition

Giáo trình Introduction to Data Mining phiên bản thứ hai do Pang-Ning Tan, Michael Steinbach, Anuj Karpatne và Vipin Kumar biên soạn là tài liệu học thuật hàng đầu trong lĩnh vực khai phá dữ liệu. Xuất bản bởi Pearson Education năm 2019, cuốn sách cung cấp nền tảng lý thuyết vững chắc kết hợp với ứng dụng thực tiễn. Các tác giả đến từ Michigan State University và University of Minnesota, đều là chuyên gia hàng đầu trong lĩnh vực khoa học máy tính và học máy. Phiên bản thứ hai mở rộng đáng kể so với lần xuất bản đầu tiên. Nội dung được cập nhật để phản ánh sự phát triển của dữ liệu lớn và các kỹ thuật hiện đại. Cuốn sách phù hợp cho sinh viên đại học, sau đại học và các nhà nghiên cứu muốn nắm vững nền tảng khai phá dữ liệu. Tài liệu này là sự hợp lưu của thống kê, trí tuệ nhân tạo, học máy và công nghệ cơ sở dữ liệu. Đây là lý do cuốn sách trở thành giáo trình chuẩn tại nhiều trường đại học trên thế giới.

1.1. Thông tin tác giả và nhà xuất bản

Pang-Ning Tan là giáo sư tại Michigan State University, chuyên gia về khai phá dữ liệu và học máy. Michael Steinbach, Anuj Karpatne và Vipin Kumar đến từ University of Minnesota, có nhiều công trình nghiên cứu được trích dẫn rộng rãi. Pearson Education là nhà xuất bản học thuật uy tín toàn cầu. Phiên bản Global Edition được phân phối rộng rãi tại các thị trường ngoài Bắc Mỹ. ISBN của phiên bản Mỹ là 978-0-13-312890-1. Đây là tiêu chuẩn tham chiếu chính thống khi trích dẫn học thuật.

1.2. Cấu trúc và phạm vi nội dung giáo trình

Giáo trình bao gồm các chủ đề cốt lõi từ tiền xử lý dữ liệu, phân loại, phân cụm đến khai phá luật kết hợp và phát hiện bất thường. Mỗi chương xây dựng nền tảng lý thuyết rõ ràng trước khi trình bày thuật toán cụ thể. Các ví dụ thực tế được tích hợp xuyên suốt giúp người học liên kết lý thuyết với thực tiễn. Phần bài tập cuối chương phong phú phục vụ tốt cho việc tự kiểm tra và ôn luyện kiến thức một cách có hệ thống.

II. Phân tích nền tảng lý thuyết và các khái niệm cốt lõi

Khai phá dữ liệu là quá trình tự động phát hiện tri thức hữu ích từ các tập dữ liệu lớn. Lĩnh vực này phát triển từ sự hội tụ của nhiều ngành khoa học. Thống kê đóng góp phương pháp lấy mẫu, ước lượng và kiểm định giả thuyết. Trí tuệ nhân tạo và học máy cung cấp thuật toán tìm kiếm và mô hình học. Giáo trình của Tan và cộng sự định nghĩa rõ các loại thuộc tính dữ liệu theo bốn mức đo lường: danh nghĩa, thứ tự, khoảng cách và tỷ lệ. Mỗi loại cho phép các phép toán thống kê khác nhau. Hiểu đúng loại thuộc tính giúp tránh các sai lầm phân tích nghiêm trọng như tính trung bình của mã nhân viên. Khái niệm về tập dữ liệu được trình bày từ góc độ ma trận dữ liệu, trong đó mỗi hàng là một đối tượng và mỗi cột là một thuộc tính. Cách tiếp cận có hệ thống này tạo nền tảng vững chắc cho toàn bộ các kỹ thuật khai phá được trình bày trong các chương tiếp theo.

2.1. Phân loại thuộc tính và kiểu dữ liệu

Thuộc tính danh nghĩa chỉ cho phép so sánh bằng hoặc khác nhau, ví dụ màu sắc hay mã zip. Thuộc tính thứ tự cho phép xếp hạng nhưng không tính hiệu số có nghĩa. Thuộc tính khoảng cách cho phép tính hiệu số nhưng không có điểm gốc tuyệt đối, ví dụ nhiệt độ Celsius. Thuộc tính tỷ lệ có điểm gốc tuyệt đối, cho phép tính tỷ lệ, ví dụ chiều dài hay khối lượng. Hiểu phân loại này là bước đầu tiên không thể bỏ qua khi tiến hành phân tích dữ liệu.

2.2. Nguồn gốc học thuật và sự hội tụ liên ngành

Khai phá dữ liệu không xuất phát từ một nguồn đơn lẻ mà là điểm giao thoa của nhiều lĩnh vực. Các hội nghị KDD đầu tiên những năm 1990 đã thu hút nhà nghiên cứu từ học thuật lẫn công nghiệp. Sự thành công của các hội nghị này thúc đẩy tăng trưởng mạnh mẽ của ngành. Ngoài thống kê và học máy, khai phá dữ liệu còn tích hợp tối ưu hóa, xử lý tín hiệu, trực quan hóa và truy xuất thông tin. Công nghệ cơ sở dữ liệu hỗ trợ lưu trữ và truy vấn hiệu quả, là hạ tầng thiết yếu cho toàn bộ quy trình.

III. Phương pháp học tập và khai thác giáo trình hiệu quả

Giáo trình Introduction to Data Mining 2nd Edition được thiết kế theo cấu trúc phân tầng. Các chương đầu xây dựng nền tảng về dữ liệu và tiền xử lý. Các chương giữa trình bày các nhiệm vụ khai phá chính: phân loại, hồi quy, phân cụm và khai phá luật kết hợp. Các chương cuối mở rộng sang các chủ đề nâng cao. Người học nên đọc tuần tự để đảm bảo tính liên kết khái niệm. Mỗi chương bắt đầu bằng tổng quan và kết thúc bằng tóm tắt cùng bài tập. Việc giải quyết bài tập là cách hiệu quả nhất để củng cố kiến thức. Sinh viên nên kết hợp đọc sách với triển khai thuật toán bằng Python hoặc R. Giáo trình không yêu cầu kiến thức chuyên sâu về toán nhưng nền tảng đại số tuyến tính và xác suất thống kê cơ bản sẽ giúp tiếp thu nhanh hơn. Các bảng và hình minh họa trong sách rất hữu ích để ghi nhớ so sánh giữa các phương pháp.

3.1. Lộ trình học tập cho sinh viên đại học và sau đại học

Sinh viên đại học nên tập trung vào Chương 1-5 bao gồm tổng quan, tiền xử lý, phân loại và phân cụm cơ bản. Đây là nền tảng đủ để hiểu ứng dụng khai phá dữ liệu trong thực tế. Sinh viên sau đại học và nghiên cứu sinh nên đọc toàn bộ, đặc biệt các phần về phân tích dữ liệu đồ thị, phát hiện bất thường và các kỹ thuật nâng cao. Việc đọc các bài báo gốc được trích dẫn trong sách giúp nắm sâu hơn lịch sử phát triển của từng phương pháp.

3.2. Tài nguyên bổ trợ và thực hành với bộ dữ liệu

Các bộ dữ liệu chuẩn như UCI Machine Learning Repository phù hợp để thực hành các thuật toán trong giáo trình. Thư viện scikit-learn trong Python cài đặt sẵn hầu hết các thuật toán được trình bày. Weka là công cụ đồ họa phù hợp cho người mới bắt đầu chưa quen lập trình. Kết hợp đọc giáo trình với các khóa học trực tuyến về machine learning giúp củng cố hiểu biết từ nhiều góc độ khác nhau và tăng tốc độ tiếp thu kiến thức thực tế.

IV. Ứng dụng thực tiễn và tầm quan trọng của giáo trình trong đào tạo

Introduction to Data Mining 2nd Edition đã trở thành giáo trình chuẩn tại hàng trăm trường đại học trên toàn thế giới. Nội dung của sách phản ánh trực tiếp nhu cầu tuyển dụng của doanh nghiệp và ngành công nghiệp công nghệ. Các kỹ thuật khai phá dữ liệu trong sách được ứng dụng rộng rãi trong tài chính, y tế, thương mại điện tử, khoa học và quản trị. Phân loại dữ liệu giúp hệ thống tín dụng đánh giá rủi ro khách hàng. Phân cụm hỗ trợ phân khúc thị trường và cá nhân hóa trải nghiệm. Phát hiện bất thường là cốt lõi của hệ thống phát hiện gian lận và bảo mật mạng. Khai phá luật kết hợp cung cấp cơ sở cho hệ thống gợi ý sản phẩm. Giáo trình không chỉ dạy thuật toán mà còn rèn luyện tư duy phân tích có hệ thống. Đây là lý do các nhà tuyển dụng đánh giá cao ứng viên được đào tạo theo giáo trình này.

4.1. Ứng dụng trong doanh nghiệp và nghiên cứu khoa học

Trong lĩnh vực y tế, khai phá dữ liệu giúp phát hiện sớm bệnh từ hồ sơ bệnh nhân và dữ liệu gen. Trong tài chính, mô hình phân loại đánh giá khả năng vỡ nợ với độ chính xác cao hơn phương pháp truyền thống. Trong bán lẻ, phân tích giỏ hàng dựa trên khai phá luật kết hợp giúp tối ưu hóa vị trí sản phẩm. Giáo trình cung cấp nền tảng lý thuyết để hiểu và điều chỉnh các mô hình cho từng bài toán cụ thể trong môi trường thực tiễn đa dạng.

4.2. Vị trí của giáo trình trong chương trình đào tạo khoa học dữ liệu

Hầu hết các chương trình đại học về khoa học máy tính và khoa học dữ liệu đều đưa Introduction to Data Mining vào danh sách tài liệu bắt buộc hoặc khuyến nghị. Giáo trình này thường được giảng dạy song song với các môn học máy và thống kê ứng dụng. Kiến thức từ cuốn sách là nền tảng để tiếp cận các tài liệu nâng cao hơn về học sâu và dữ liệu lớn. Chứng chỉ và bằng cấp liên quan đến khoa học dữ liệu thường dựa trên nội dung tương tự giáo trình này.

21/04/2026

Trích đoạn nội dung tài liệu

INTRODUCTION TO DATA MINING INTRODUCTION TO DATA MINING SECOND EDITION GLOBAL EDITION PANG-NING TAN Michigan State University MICHAEL STEINBACH University of Minnesota ANUJ KARPATNE University of Minnesota VIPIN KUMAR University of Minnesota 330 Hudson Street, NY NY 10013 Director, Portfolio Management: Engineering, Manager, Media Production, Global Edition: Computer Science & Global Editions: Vikram Kumar Julian Partridge Rights and Permissions Manager: Ben Ferrini Specialist, Higher Ed Portfolio Manufacturing Buyer, Higher Ed, Lake Management: Matt Goldstein Side Communications Inc (LSC): Maura Portfolio Management Assistant: Zaldivar-Garcia Meghan Jacoby Senior Manufacturing Controller, Global Acquisitions Editor, Global Edition: Edition: Caterina Pellegrino Sourabh Maheshwari Inventory Manager: Ann Lam Managing Content Producer: Scott Product Marketing Manager: Yvonne Vannatta Disanno Field Marketing Manager: Demetrius Hall Content Producer: Carole Snyder Marketing Assistant: Jon Bryant Senior Project Editor, Global Edition: Cover Designer: Lumina Datamatics K. Neelakantan Full-Service Project Management: Ramya Web Developer: Steve Wright Radhakrishnan, Integra Software Services Pearson Education Limited KAO Two KAO Park Harlow CM17 9NA United Kingdom and Associated Companies throughout the world Visit us on the World Wide Web at: www.com  c Pearson Education Limited, 2019 The rights of Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar to be identified as the authors of this work have been asserted by them in accordance with the Copyright, Designs and Patents Act 1988. Authorized adaptation from the United States edition, entitled Introduction to Data Mining, 2nd Edition, ISBN 978-0-13-312890-1 by Pang-Ning Tan, Michael Steinbach, Anuj Karpatne, and Vipin Kumar, published by Pearson Education c 2019. All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted in any form or by any means, electronic, mechanical, photocopying, recording or otherwise, without either the prior written permission of the publisher or a license permitting restricted copying in the United Kingdom issued by the Copyright Licensing Agency Ltd, Saffron House, 6–10 Kirby Street, London EC1N 8TS. All trademarks used herein are the property of their respective owners. The use of any trademark in this text does not vest in the author or publisher any trademark ownership rights in such trademarks, nor does the use of such trademarks imply any affiliation with or endorsement of this book by such owners. For information regarding permissions, request forms, and the appropriate contacts within the Pearson Education Global Rights and Permissions department, please visit www. This eBook is a standalone product and may or may not include all assets that were part of the print version. It also does not provide access to other Pearson digital products like MyLab and Mastering. The publisher reserves the right to remove any material in this eBook at any time. British Library Cataloguing-in-Publication Data A catalogue record for this book is available from the British Library ISBN 10: 0-273-76922-7 ISBN 13: 978-0-273-76922-4 eBook ISBN 13: 978-0-273-77532-4 eBook formatted by Integra Software Services. To our families . Preface to the Second Edition Since the first edition, roughly 12 years ago, much has changed in the field of data analysis. The volume and variety of data being collected continues to increase, as has the rate (velocity) at which it is being collected and used to make decisions. Indeed, the term Big Data has been used to refer to the massive and diverse data sets now available. In addition, the term data science has been coined to describe an emerging area that applies tools and techniques from various fields, such as data mining, machine learning, statistics, and many others, to extract actionable insights from data, often big data. The growth in data has created numerous opportunities for all areas of data analysis. The most dramatic developments have been in the area of predictive modeling, across a wide range of application domains. For instance, recent advances in neural networks, known as deep learning, have shown impressive results in a number of challenging areas, such as image classification, speech recognition, as well as text categorization and understanding. While not as dramatic, other areas, e., clustering, association analysis, and anomaly de- tection have also continued to advance. This new edition is in response to those advances. Overview As with the first edition, the second edition of the book provides a comprehensive introduction to data mining and is designed to be accessi- ble and useful to students, instructors, researchers, and professionals. Areas covered include data preprocessing, predictive modeling, association analysis, cluster analysis, anomaly detection, and avoiding false discoveries. The goal is to present fundamental concepts and algorithms for each topic, thus providing the reader with the necessary background for the application of data mining to real problems. As before, classification, association analysis and cluster analysis, are each covered in a pair of chapters. The introductory chapter covers basic concepts, representative algorithms, and evaluation techniques, while the more following chapter discusses advanced concepts and algorithms. As before, our objective is to provide the reader with a sound understanding of the foundations of data mining, while still covering many important advanced 6 Preface to the Second Edition topics. Because of this approach, the book is useful both as a learning tool and as a reference. To help readers better understand the concepts that have been presented, we provide an extensive set of examples, figures, and exercises. The solutions to the original exercises, which are already circulating on the web, will be made public. The exercises are mostly unchanged from the last edition, with the exception of new exercises in the chapter on avoiding false discoveries. New exercises for the other chapters and their solutions will be available to instruc- tors via the web. Bibliographic notes are included at the end of each chapter for readers who are interested in more advanced topics, historically important papers, and recent trends. These have also been significantly updated. The book also contains a comprehensive subject and author index. What is New in the Second Edition? Some of the most significant im- provements in the text have been in the two chapters on classification. The in- troductory chapter uses the decision tree classifier for illustration, but the dis- cussion on many topics—those that apply across all classification approaches— has been greatly expanded and clarified, including topics such as overfitting, underfitting, the impact of training size, model complexity, model selection, and common pitfalls in model evaluation. Almost every section of the advanced classification chapter has been significantly updated. The material on Bayesian networks, support vector machines, and artificial neural networks has been significantly expanded. We have added a separate section on deep networks to address the current developments in this area. The discussion of evaluation, which occurs in the section on imbalanced classes, has also been updated and improved. The changes in association analysis are more localized. We have completely reworked the section on the evaluation of association patterns (introductory chapter), as well as the sections on sequence and graph mining (advanced chap- ter). Changes to cluster analysis are also localized. The introductory chapter added the K-means initialization technique and an updated the discussion of cluster evaluation. The advanced clustering chapter adds a new section on spectral graph clustering. Anomaly detection has been greatly revised and ex- panded. Existing approaches—statistical, nearest neighbor/density-based, and clustering based—have been retained and updated, while new approaches have been added: reconstruction-based, one-class classification, and information- theoretic. The reconstruction-based approach is illustrated using autoencoder networks that are part of the deep learning paradigm. The data chapter has Preface to the Second Edition 7 been updated to include discussions of mutual information and kernel-based techniques. The last chapter, which discusses how to avoid false discoveries and pro- duce valid results, is completely new, and is novel among other contemporary textbooks on data mining. It supplements the discussions in the other chapters with a discussion of the statistical concepts (statistical significance, p-values, false discovery rate, permutation testing, etc.) relevant to avoiding spurious results, and then illustrates these concepts in the context of data mining techniques. This chapter addresses the increasing concern over the validity and reproducibility of results obtained from data analysis. The addition of this last chapter is a recognition of the importance of this topic and an acknowledgment that a deeper understanding of this area is needed for those analyzing data. The data exploration chapter has been deleted, as have the appendices, from the print edition of the book, but will remain available on the web. A new appendix provides a brief discussion of scalability in the context of big data. To the Instructor As a textbook, this book is suitable for a wide range of students at the advanced undergraduate or graduate level. Since students come to this subject with diverse backgrounds that may not include extensive knowledge of statistics or databases, our book requires minimal prerequisites. No database knowledge is needed, and we assume only a modest background in statistics or mathematics, although such a background will make for easier going in some sections. As before, the book, and more specifically, the chapters covering major data mining topics, are designed to be as self-contained as possible. Thus, the order in which topics can be covered is quite flexible. The core material is covered in chapters 2 (data), 3 (classification), 4 (association analysis), 5 (clustering), and 9 (anomaly detection). We recommend at least a cursory coverage of Chapter 10 (Avoiding False Discoveries) to instill in students some caution when interpreting the results of their data analysis. Although the introductory data chapter (2) should be covered first, the basic classification (3), association analysis (4), and clustering chapters (5), can be covered in any order. Because of the relationship of anomaly detection (9) to classification (3) and clustering (5), these chapters should precede Chapter 9. Various topics can be selected from the advanced classification, association analysis, and clustering chapters (6, 7, and 8, respectively) to fit the schedule and interests of the instructor and students. We also advise that the lectures be augmented by projects or practical exercises in data mining. Although they 8 Preface to the Second Edition are time consuming, such hands-on assignments greatly enhance the value of the course. Support Materials Support materials available to all readers of this book are available on the book’s website. • PowerPoint lecture slides • Suggestions for student projects • Data mining resources, such as algorithms and data sets • Online tutorials that give step-by-step examples for selected data mining techniques described in the book using actual data sets and data analysis software Additional support materials, including solutions to exercises, are available only to instructors adopting this textbook for classroom use. Acknowledgments Many people contributed to the first and second edi- tions of the book. We begin by acknowledging our families to whom this book is dedicated. Without their patience and support, this project would have been impossible. We would like to thank the current and former students of our data mining groups at the University of Minnesota and Michigan State for their contributions. Eui-Hong (Sam) Han and Mahesh Joshi helped with the initial data mining classes. Some of the exercises and presentation slides that they created can be found in the book and its accompanying slides. Students in our data mining groups who provided comments on drafts of the book or who contributed in other ways include Shyam Boriah, Haibin Cheng, Varun Chandola, Eric Eilertson, Levent Ertöz, Jing Gao, Rohit Gupta, Sridhar Iyer, Jung-Eun Lee, Benjamin Mayer, Aysel Ozgur, Uygar Oztekin, Gaurav Pandey, Kashif Riaz, Jerry Scripps, Gyorgy Simon, Hui Xiong, Jieping Ye, and Pusheng Zhang. We would also like to thank the students of our data mining classes at the University of Minnesota and Michigan State University who worked with early drafts of the book and provided invaluable feedback. We specifically note the helpful suggestions of Bernardo Craemer, Arifin Ruslim, Jamshid Vayghan, and Yu Wei. Joydeep Ghosh (University of Texas) and Sanjay Ranka (University of Florida) class tested early versions of the book.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ