Luận Văn Thạc Sĩ Về Khai Phá Dữ Liệu Với Cây Quyết Định

Luận văn thạc sĩ VNU UET về khai phá dữ liệu với cây quyết định, nghiên cứu ứng dụng trong công nghệ thông tin, mang lại nhiều giá trị thực tiễn.

Trường đại học

Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2007

129

Phí lưu trữ

35 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu

1.2. Khai phá dữ liệu

1.3. Định nghĩa và các yêu cầu trong khai phá dữ liệu

1.4. Phân loại các hệ thống khai phá dữ liệu

2. CHƯƠNG 2: KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH

3. CHƯƠNG 3: CÂY QUYẾT ĐỊNH MỜ

4. CHƯƠNG 4: CÀI ĐẶT PHẦN MỀM MINH HỌA

KẾT LUẬN CHUNG

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Khai Phá Dữ Liệu Khái Niệm Và Ý Nghĩa

Khai phá dữ liệu là một lĩnh vực quan trọng trong công nghệ thông tin, giúp phát hiện tri thức từ các tập dữ liệu lớn. Quá trình này không chỉ đơn thuần là phân tích dữ liệu mà còn bao gồm việc tìm kiếm các mẫu và mô hình hữu ích. Khai phá dữ liệu đã trở thành một công cụ thiết yếu trong nhiều lĩnh vực như tài chính, y tế và marketing. Việc hiểu rõ về khai phá dữ liệu sẽ giúp các nhà nghiên cứu và doanh nghiệp tối ưu hóa quy trình ra quyết định.

1.1. Khái Niệm Khai Phá Dữ Liệu Và Quá Trình KDD

Khai phá dữ liệu (Data Mining) là quá trình tìm kiếm tri thức từ dữ liệu lớn. Quá trình khám phá tri thức (KDD) bao gồm nhiều bước, từ thu thập dữ liệu đến phân tích và đánh giá kết quả. Mỗi bước đều quan trọng để đảm bảo tính chính xác và hữu ích của thông tin thu được.

1.2. Tầm Quan Trọng Của Khai Phá Dữ Liệu Trong Thế Giới Hiện Đại

Trong bối cảnh dữ liệu ngày càng gia tăng, khai phá dữ liệu trở thành một công cụ không thể thiếu. Nó giúp các tổ chức phát hiện ra các xu hướng, mẫu hành vi và thông tin có giá trị từ dữ liệu lớn, từ đó đưa ra quyết định chính xác hơn.

II. Những Thách Thức Trong Khai Phá Dữ Liệu Vấn Đề Cần Giải Quyết

Khai phá dữ liệu không phải là một quá trình đơn giản. Nó đối mặt với nhiều thách thức như chất lượng dữ liệu, tính chính xác của mô hình và khả năng xử lý dữ liệu lớn. Những vấn đề này cần được giải quyết để đảm bảo hiệu quả của quá trình khai phá dữ liệu.

2.1. Chất Lượng Dữ Liệu Yếu Tố Quyết Định Thành Công

Chất lượng dữ liệu là yếu tố quan trọng trong khai phá dữ liệu. Dữ liệu không chính xác hoặc không đầy đủ có thể dẫn đến kết quả sai lệch. Do đó, việc làm sạch và chuẩn hóa dữ liệu là rất cần thiết.

2.2. Khả Năng Xử Lý Dữ Liệu Lớn Thách Thức Công Nghệ

Với sự gia tăng của dữ liệu lớn, khả năng xử lý và phân tích dữ liệu trở thành một thách thức lớn. Các công nghệ mới như học máy và trí tuệ nhân tạo đang được áp dụng để giải quyết vấn đề này.

III. Phương Pháp Khai Phá Dữ Liệu Bằng Cây Quyết Định Giải Pháp Hiệu Quả

Cây quyết định là một trong những phương pháp phổ biến trong khai phá dữ liệu. Nó giúp phân loại và dự đoán dựa trên các thuộc tính của dữ liệu. Phương pháp này không chỉ đơn giản mà còn dễ hiểu, giúp người dùng dễ dàng áp dụng.

3.1. Cây Quyết Định Khái Niệm Và Cấu Trúc

Cây quyết định là một mô hình phân loại dữ liệu, trong đó mỗi nút đại diện cho một thuộc tính và mỗi nhánh đại diện cho một giá trị của thuộc tính đó. Cấu trúc này giúp dễ dàng hình dung và phân tích dữ liệu.

3.2. Giải Thuật ID3 Cách Xây Dựng Cây Quyết Định

Giải thuật ID3 là một trong những phương pháp phổ biến để xây dựng cây quyết định. Nó sử dụng thông tin entropy để xác định thuộc tính nào nên được chọn làm nút phân chia, từ đó tạo ra cây quyết định hiệu quả.

IV. Ứng Dụng Cây Quyết Định Trong Khai Phá Dữ Liệu Kết Quả Nghiên Cứu

Cây quyết định đã được áp dụng rộng rãi trong nhiều lĩnh vực như y tế, tài chính và marketing. Các nghiên cứu cho thấy rằng phương pháp này có thể cải thiện độ chính xác trong việc dự đoán và phân loại dữ liệu.

4.1. Ứng Dụng Trong Y Tế Dự Đoán Bệnh Tật

Cây quyết định được sử dụng để dự đoán khả năng mắc bệnh dựa trên các yếu tố như tuổi tác, giới tính và tiền sử bệnh. Kết quả cho thấy độ chính xác cao trong việc phân loại bệnh nhân.

4.2. Ứng Dụng Trong Marketing Phân Tích Hành Vi Khách Hàng

Trong marketing, cây quyết định giúp phân tích hành vi khách hàng và dự đoán xu hướng mua sắm. Điều này giúp các doanh nghiệp tối ưu hóa chiến lược tiếp thị và tăng doanh thu.

V. Kết Luận Tương Lai Của Khai Phá Dữ Liệu Với Cây Quyết Định

Khai phá dữ liệu với cây quyết định đang ngày càng trở nên quan trọng trong việc xử lý và phân tích dữ liệu lớn. Tương lai của lĩnh vực này hứa hẹn sẽ có nhiều cải tiến và ứng dụng mới, đặc biệt là trong bối cảnh công nghệ thông tin phát triển nhanh chóng.

5.1. Xu Hướng Phát Triển Công Nghệ Khai Phá Dữ Liệu

Công nghệ khai phá dữ liệu sẽ tiếp tục phát triển với sự hỗ trợ của trí tuệ nhân tạo và học máy. Điều này sẽ giúp cải thiện độ chính xác và hiệu quả của các mô hình khai phá dữ liệu.

5.2. Tầm Quan Trọng Của Đào Tạo Và Nghiên Cứu Trong Lĩnh Vực

Đào tạo và nghiên cứu trong lĩnh vực khai phá dữ liệu là rất cần thiết để phát triển các kỹ thuật mới và nâng cao năng lực cho các chuyên gia trong ngành. Điều này sẽ giúp đáp ứng nhu cầu ngày càng cao về phân tích dữ liệu.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet khai phá dữ liệu với cây quyết định luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển bùng nổ của công nghệ thông tin và ngành công nghiệp phần cứng, khả năng thu thập và lưu trữ dữ liệu đã tăng lên một cách chóng mặt. Theo ước tính, các kho dữ liệu hiện nay có dung lượng lên đến hàng Gigabyte, thậm chí Terabyte, chứa đựng hàng triệu bản ghi từ các hoạt động sản xuất, kinh doanh và quản lý. Tuy nhiên, việc khai thác tri thức hữu ích từ lượng dữ liệu khổng lồ này vẫn là một thách thức lớn. Khai phá dữ liệu (Data Mining) ra đời nhằm mục đích biến đổi dữ liệu thô thành các thông tin có giá trị, hỗ trợ ra quyết định hiệu quả.

Luận văn tập trung nghiên cứu kỹ thuật khai phá dữ liệu bằng phương pháp cây quyết định và các cải tiến trong cây quyết định mờ, nhằm nâng cao độ chính xác và khả năng xử lý dữ liệu phức tạp, không chắc chắn. Phạm vi nghiên cứu bao gồm các thuật toán xây dựng cây quyết định như ID3, C4.5 và mở rộng sang cây quyết định mờ, áp dụng trong lĩnh vực công nghệ thông tin. Mục tiêu cụ thể là phân tích, đánh giá hiệu quả các thuật toán, đồng thời phát triển phần mềm minh họa để chứng minh tính ứng dụng thực tiễn.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả khai thác tri thức từ các kho dữ liệu lớn, góp phần cải thiện các hệ thống hỗ trợ quyết định trong nhiều lĩnh vực như y tế, tài chính, viễn thông và thương mại điện tử. Các chỉ số đánh giá như độ chính xác phân lớp, tốc độ xử lý và khả năng xử lý dữ liệu thiếu hoặc nhiễu được sử dụng làm thước đo hiệu quả của các phương pháp nghiên cứu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Quá trình khám phá tri thức trong cơ sở dữ liệu (KDD): Bao gồm các bước xác định vấn đề, tiền xử lý dữ liệu, khai phá dữ liệu, đánh giá và sử dụng tri thức. Đây là nền tảng cho việc phát triển các thuật toán khai phá dữ liệu.
Lý thuyết cây quyết định: Cây quyết định là mô hình phân lớp dựa trên việc phân chia dữ liệu theo các thuộc tính nhằm tối ưu hóa độ thu thập thông tin (Information Gain) hoặc tỷ lệ thu thập thông tin (Gain Ratio). Các thuật toán như ID3 và C4.5 được sử dụng để xây dựng cây quyết định hiệu quả.
Logic mờ và cây quyết định mờ: Áp dụng lý thuyết tập mờ để xử lý dữ liệu không chắc chắn, nhập nhằng, giúp cải thiện khả năng phân lớp trong các trường hợp dữ liệu phức tạp.
Các khái niệm chính: Entropy, Information Gain, Gain Ratio, pre-pruning và post-pruning (tiền cắt tỉa và hậu cắt tỉa), các thuật toán phân lớp như mạng nơron nhân tạo, k-lân cận gần nhất, giải thuật di truyền.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng các tập dữ liệu huấn luyện và kiểm tra thực tế trong lĩnh vực công nghệ thông tin, bao gồm dữ liệu phân loại khách hàng, dữ liệu y tế, và các kho dữ liệu lớn có chứa dữ liệu liên tục, rời rạc, thiếu giá trị và nhiễu.
Phương pháp phân tích: Áp dụng thuật toán ID3 để xây dựng cây quyết định cơ bản, sau đó mở rộng với thuật toán C4.5 nhằm xử lý dữ liệu liên tục và giảm thiểu overfitting bằng kỹ thuật cắt tỉa cây. Tiếp tục nghiên cứu cây quyết định mờ để xử lý dữ liệu không chắc chắn. So sánh hiệu quả các thuật toán dựa trên các chỉ số như độ chính xác phân lớp, tốc độ xử lý, khả năng xử lý dữ liệu thiếu.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn: tổng quan tài liệu (2 tháng), phát triển thuật toán và mô hình (4 tháng), cài đặt phần mềm minh họa (3 tháng), thử nghiệm và đánh giá (2 tháng), hoàn thiện luận văn (1 tháng).
Cỡ mẫu và chọn mẫu: Sử dụng khoảng 500-1000 mẫu dữ liệu cho mỗi tập huấn luyện và kiểm tra, chọn mẫu ngẫu nhiên có phân phối đại diện cho các lớp dữ liệu nhằm đảm bảo tính tổng quát của mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán ID3 trong phân lớp dữ liệu rời rạc: Thuật toán ID3 đạt độ chính xác khoảng 85% trên tập dữ liệu huấn luyện với các thuộc tính rời rạc. Tuy nhiên, khi áp dụng trên dữ liệu có thuộc tính liên tục hoặc dữ liệu nhiễu, độ chính xác giảm xuống còn khoảng 70%, do hạn chế trong xử lý giá trị liên tục và dễ bị overfitting.
Cải tiến với thuật toán C4.5: Việc sử dụng Gain Ratio thay cho Information Gain giúp giảm thiểu việc ưu tiên các thuộc tính có nhiều giá trị, từ đó tạo ra cây quyết định cân bằng hơn. C4.5 xử lý tốt dữ liệu liên tục bằng cách xác định ngưỡng phân chia tối ưu, nâng cao độ chính xác lên khoảng 90%. Kỹ thuật tiền cắt tỉa và hậu cắt tỉa giúp giảm kích thước cây, tăng khả năng tổng quát hóa.
Ứng dụng cây quyết định mờ: Khi áp dụng cây quyết định mờ (Fuzzy Decision Tree), độ chính xác phân lớp trên dữ liệu có tính nhập nhằng và thiếu chính xác tăng lên khoảng 92%, vượt trội so với các thuật toán truyền thống. Phương pháp này cho phép xử lý dữ liệu không chắc chắn hiệu quả hơn nhờ sử dụng entropy mờ và các toán tử logic mờ.
So sánh tốc độ xử lý: Thuật toán ID3 có tốc độ xây dựng cây nhanh nhất, trung bình khoảng vài giây với tập dữ liệu 1000 mẫu. C4.5 chậm hơn do tính toán Gain Ratio và cắt tỉa, mất khoảng 10-15 giây. Cây quyết định mờ có thời gian xử lý lâu nhất, khoảng 20-30 giây, do tính toán phức tạp của logic mờ.

Thảo luận kết quả

Kết quả cho thấy thuật toán ID3 phù hợp với các bài toán phân lớp dữ liệu rời rạc, đơn giản, nhưng hạn chế khi dữ liệu có thuộc tính liên tục hoặc nhiễu. C4.5 khắc phục được nhiều hạn chế của ID3 nhờ cải tiến trong lựa chọn thuộc tính và xử lý dữ liệu liên tục, đồng thời giảm thiểu overfitting bằng kỹ thuật cắt tỉa. Điều này phù hợp với các nghiên cứu trước đây trong lĩnh vực khai phá dữ liệu.

Cây quyết định mờ thể hiện ưu thế rõ rệt trong việc xử lý dữ liệu không chắc chắn, nhập nhằng, vốn là thách thức lớn trong khai phá dữ liệu thực tế. Việc sử dụng entropy mờ và các toán tử logic mờ giúp mô hình linh hoạt hơn, phù hợp với các ứng dụng như y tế, tài chính, nơi dữ liệu thường không hoàn chỉnh hoặc có sai số.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và tốc độ xử lý của các thuật toán, cũng như bảng tổng hợp các chỉ số đánh giá như độ chính xác, độ nhạy, độ đặc hiệu. Điều này giúp minh họa rõ ràng ưu nhược điểm của từng phương pháp.

Đề xuất và khuyến nghị

Áp dụng thuật toán C4.5 trong các hệ thống khai phá dữ liệu thực tế: Động từ hành động là "triển khai", mục tiêu là nâng cao độ chính xác phân lớp trên dữ liệu có thuộc tính liên tục và nhiễu, thời gian thực hiện trong vòng 6 tháng, chủ thể thực hiện là các tổ chức phát triển phần mềm và trung tâm dữ liệu.
Phát triển và tích hợp cây quyết định mờ cho các ứng dụng xử lý dữ liệu không chắc chắn: Động từ hành động là "phát triển", mục tiêu cải thiện khả năng xử lý dữ liệu nhập nhằng, thời gian 9 tháng, chủ thể là các nhóm nghiên cứu và doanh nghiệp công nghệ.
Tăng cường công tác tiền xử lý dữ liệu: Động từ hành động là "tối ưu hóa", nhằm giảm thiểu dữ liệu nhiễu và thiếu, nâng cao chất lượng dữ liệu đầu vào, thời gian 3 tháng, chủ thể là các chuyên gia dữ liệu và nhà quản lý hệ thống.
Đào tạo và nâng cao năng lực cho nhân sự về kỹ thuật khai phá dữ liệu và cây quyết định: Động từ hành động là "đào tạo", mục tiêu nâng cao kỹ năng phân tích và ứng dụng thuật toán, thời gian liên tục, chủ thể là các trường đại học và tổ chức đào tạo chuyên ngành.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu: Giúp hiểu sâu về các thuật toán khai phá dữ liệu, đặc biệt là cây quyết định và cây quyết định mờ, phục vụ cho nghiên cứu và phát triển đề tài.
Chuyên gia phân tích dữ liệu và kỹ sư dữ liệu: Áp dụng các phương pháp và thuật toán được trình bày để nâng cao hiệu quả khai thác tri thức từ dữ liệu lớn, cải thiện chất lượng dự báo và phân lớp.
Doanh nghiệp và tổ chức phát triển phần mềm: Tham khảo để xây dựng các hệ thống khai phá dữ liệu, hỗ trợ ra quyết định trong các lĩnh vực như tài chính, y tế, viễn thông, marketing.
Nhà quản lý và hoạch định chính sách trong lĩnh vực công nghệ thông tin: Hiểu rõ về tiềm năng và thách thức của khai phá dữ liệu, từ đó đưa ra các quyết định đầu tư và phát triển công nghệ phù hợp.

Câu hỏi thường gặp

Khai phá dữ liệu là gì và tại sao nó quan trọng?
Khai phá dữ liệu là quá trình tự động tìm kiếm các mẫu, mô hình có ý nghĩa trong dữ liệu lớn. Nó quan trọng vì giúp chuyển đổi dữ liệu thô thành tri thức hữu ích, hỗ trợ ra quyết định chính xác và kịp thời.
Cây quyết định hoạt động như thế nào trong phân lớp dữ liệu?
Cây quyết định phân lớp bằng cách kiểm tra các thuộc tính theo thứ tự từ nút gốc đến nút lá, mỗi nút tương ứng với một phép thử thuộc tính, cuối cùng gán nhãn lớp cho dữ liệu mới dựa trên đường đi trong cây.
Ưu điểm của thuật toán C4.5 so với ID3 là gì?
C4.5 cải tiến bằng cách sử dụng Gain Ratio thay vì Information Gain, xử lý tốt dữ liệu liên tục, áp dụng kỹ thuật cắt tỉa để tránh overfitting, từ đó nâng cao độ chính xác và khả năng tổng quát hóa.
Cây quyết định mờ khác gì so với cây quyết định truyền thống?
Cây quyết định mờ sử dụng logic mờ để xử lý dữ liệu không chắc chắn, nhập nhằng, cho phép phân lớp linh hoạt hơn và chính xác hơn trong các trường hợp dữ liệu phức tạp hoặc thiếu sót.
Làm thế nào để xử lý dữ liệu thiếu giá trị trong khai phá dữ liệu?
Có thể ước lượng giá trị thiếu dựa trên các mẫu có giá trị xác định, hoặc gán giá trị phổ biến nhất cho thuộc tính đó. Thuật toán C4.5 có cơ chế xử lý dữ liệu thiếu bằng cách phân phối trọng số cho các tập con tương ứng.

Kết luận

Quá trình khai phá dữ liệu gồm nhiều bước, trong đó tiền xử lý dữ liệu chiếm phần lớn thời gian và ảnh hưởng lớn đến kết quả cuối cùng.
Thuật toán cây quyết định là công cụ hiệu quả cho phân lớp và dự đoán, với các thuật toán ID3 và C4.5 được sử dụng phổ biến.
Cải tiến cây quyết định mờ giúp xử lý tốt dữ liệu không chắc chắn, nâng cao độ chính xác phân lớp trong các ứng dụng thực tế.
Việc lựa chọn và áp dụng phương pháp khai phá dữ liệu phù hợp với đặc điểm dữ liệu và bài toán là yếu tố then chốt để đạt hiệu quả cao.
Các bước tiếp theo bao gồm phát triển phần mềm ứng dụng, mở rộng nghiên cứu sang các thuật toán mới và đào tạo nhân lực chuyên môn sâu về khai phá dữ liệu.

Hành động ngay: Các nhà nghiên cứu và doanh nghiệp nên áp dụng các thuật toán cây quyết định cải tiến để khai thác tri thức từ dữ liệu lớn, đồng thời đầu tư vào đào tạo và phát triển công nghệ khai phá dữ liệu nhằm nâng cao năng lực cạnh tranh và hiệu quả quản lý.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1. Quá trình phát hiện tri thức trong cơ sở dữ liệu Ngày nay, hầu hết mọi lĩnh vực của đời sống thực phải đối mặt với khối lượng ngày càng tăng của dữ liệu được thu thập từ các hoạt động của con người (như dữ liệu giao dịch thị trường, bản ghi việc sử dụng thẻ tín dụng, thông tin về các cuộc gọi điện thoại, các thống kê của chính phủ) tới các dữ liệu thu thập được từ bên ngoài (như hình ảnh các thiên thể, cơ sở dữ liệu về phân tử, hoặc bản ghi y tế). Các công cụ thu thập dữ liệu tự động và các công nghệ cơ sở dữ liệu phát triển mạnh mẽ tạo ra một lượng dữ liệu khổng lồ được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu và các nơi lưu trữ thông tin khác. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích.

Từ đó, các kĩ thuật Khai phá dữ liệu đã trở thành tiêu điểm của một lĩnh vực mới nghiên cứu và ứng dụng về khám phá tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining). Khám phá tri thức: phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình dữ liệu với các tính năng: hợp thức, mới, khả ích và có thể hiểu được. Khai phá dữ liệu: khai phá dữ liệu là một bước trong quá trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi số lượng dữ liệu khổng lồ. Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.

Khai phá dữ liệu là một bước của Quá trình khám phá tri thức (Knowledge Discovery Process), bao gồm: 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề. Thu thập và tiền xử lý dữ liệu: Bao gồm quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data selection), biến đổi dữ liệu (data transformation) 3. Khai phá dữ liệu và rút ra các tri thức: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kỹ thuật khai phá dữ liệu.

Kết quả cho ta một nguồn trí thức thô. Phân tích và đánh giá kết quả: Dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn trí thức thu được. Sử dụng các tri thức phát hiện được. Quá trình khám phá tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay lại các bước đã qua.

Hình vẽ dưới đây biểu diễn quá trình khám phá tri thức Hình 1.1: Quá trình khám phá tri thức Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu. 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết. Bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức và gồm các khâu sau: - Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán, đây là một bước rất quan trọng trong quá trình tiền xử lý dữ liệu. Một số lỗi thường mắc phải trong khi thu thập dữ liệu là tính không đủ chặt chẽ, logic, dữ liệu rỗng, dư thừa, hoặc dữ liệu không hợp lệ.

Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu, ví dụ tuổi = 0. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một Giai đoạn rất quan trọng vì dữ liệu này nếu không được “làm sạch” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.

- Tích hợp dữ liệu (Data Intergation): tích hợp dữ liệu từ các nguồn khác nhau như cơ sở dữ liệu, kho dữ liệu, file text,các dữ liệu từ các nguồn ứng dụng Web,… - Lựa chọn dữ liệu (Data Selection): Lựa chọn, thu thập những dữ liệu phù hợp với nhiệm vụ phân tích, trích rút từ các nguồn dữ liệu ban đầu. - Chuyển đổi dữ liệu (Data Transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2: Sơ đồ quá trình tiền xử lý dữ liệu Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu. Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu như các nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,.

Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần thiết.

Bước thứ năm là sử dụng các tri thức phát hiện được, ở giai đoạn này các kỹ thuật biểu diễn và trực quan hóa được sử dụng để biểu diễn tri thức khai phá được cho người sử dụng. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Khai phá dữ liệu 1.

Định nghĩa và các yêu cầu trong khai phá dữ liệu Khai phá dữ liệu: là sự phân tích dữ liệu quan sát (thường là lớn) để tìm ra các quan hệ rõ ràng và để tóm tắt (khái quát) dữ liệu theo các cách mới mà vừa dễ hiểu, vừa hữu ích cho người sở hữu dữ liệu. Các quan hệ và các tóm tắt thu được thông qua khai phá dữ liệu thường gọi là các mô hình (models) hoặc khuôn mẫu (patterns). Ví dụ như các phương trình tuyến tính, các luật, các nhóm, các đồ thị, các cấu trúc cây, các khuôn mẫu lặp lại theo thời gian. Đây là một khoa học liên ngành mới, giao của thống kê học, học máy, quản trị dữ liệu và các cơ sở dữ liệu, nhận dạng khuôn mẫu, trí tuệ nhân tạo, và các lĩnh vực khác.

Tất cả chúng liên quan đến các khía cạnh cụ thể của phân tích dữ liệu, chúng có nhiều thứ chung, nhưng mỗi môn có các bài toán và phương pháp giải quyết phân biệt và đặc trưng. Ở trên ta nhắc đến “dữ liệu quan sát – observational data”, đối lập với “dữ liệu thực nghiệm – experimental data”. Khai phá dữ liệu thường làm việc trên dữ liệu mà đã thực sự được thu thập trước đó cho mục đích khác với việc phân tích của khai phá dữ liệu (chẳng hạn, chúng được thu thập nhằm cập nhật tất cả các giao dịch trong một ngân hàng). Điều này có nghĩa rằng các mục tiêu của khai phá dữ liệu không được xác định trong chiến lược thu thập dữ liệu.

Điều này là một trong những điểm để phân biệt khai phá dữ liệu với thống kê. Với thống kê, dữ liệu thường được thu thập bằng cách sử dụng các chiến lược hiệu quả để trả lời các câu hỏi xác định trước. Với lý do này, khai phá dữ liệu thường được coi là phân tích dữ liệu thứ cấp (secondary) Định nghĩa trên cũng đề cập đến các tập dữ liệu trong khai phá dữ liệu thường là lớn. Nếu chỉ làm việc trên tập dữ liệu nhỏ, chúng ta hoàn toàn mới chỉ thảo luận phân tích dữ liệu kiểu cổ điển như công việc của các nhà thống kê.

Khi đối mặt với dữ liệu lớn, các bài toán mới sẽ nảy sinh như các bài toán liên quan đến các vấn đề lưu trữ và truy cập dữ liệu, hay các vấn đề cơ bản như là làm thế nào để xác định các đại diện của dữ liệu, làm thế nào phân tích dữ liệu trong thời gian chấp nhận được, làm thế nào để quyết định xem một mối liên hệ chỉ đơn thuần là sự xuất hiện ngẫu nhiên không phản ánh một thực tế nào cả. 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thông thường, dữ liệu có sẵn chỉ bao gồm một mẫu (sample) từ một tập đầy đủ dữ liệu trong khi mục đích của khai phá dữ liệu là khái quát hóa (generalize) từ mẫu đó cho toàn bộ tập dữ liệu. Chẳng hạn chúng ta mong muốn dự đoán hành vi của các khách hàng tương lai, hoặc dự đoán các tính chất của cấu trúc proteins mà chúng ta chưa bao giờ nhìn thấy trước đó. Những khái quát hóa như vậy có thể không thể có được bằng các cách tiếp cận thống kê chuẩn vì dữ liệu thường không phải là các mẫu “ngẫu nhiên” mà là “mẫu tiện lợi” (“convenience samples”) hoặc “mẫu cơ hội” (“opportunity samples”).

Đôi khi chúng ta muốn tóm tắt hoặc nén một tập dữ liệu lớn theo một cách sao cho kết quả là dễ hiểu, không có bất cứ một ý niệm nào của khái quát hóa cả như trong trường hợp tóm tẳt dữ liệu điều tra dân số đầy đủ của một quốc gia, hoặc một cơ sở dữ liệu gồm hàng triệu giao dịch bán lẻ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai phá dữ liệu và học máy

Nghiên cứu khoa học Công nghệ thông tin

Các thuật toán Cây quyết định

Logic mờ và Trí tuệ nhân tạo