§¹i §¹i häc häc quèc quèc gia gia Hµ Hµ néi néi Tr-êng Tr-êng ®¹i häc c«ng nghÖ ®¹i häc c«ng nghÖ Nguyễn Ngọc Long NGUYỄN NGỌC LONG KHAI PHÁ DỮ LIỆU SỬ KHAI DỤNGPHÁ DỮKẾT LUẬT LIỆU HỢP SỬ DỤNG LUẬT KẾT HỢP Ngành: Công Nghệ Thông Tin Mã số: 1.10 LUẬN VĂN LUẬN VĂN THẠC THẠC SỸ SỸ HÀ NỘI – 2005 HÀ NỘI – 2005 1 1.1 Hà nội 03/2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com §¹i §¹ihäc häcquèc quècgia giaHµ Hµnéi néi Tr-êng ®¹i häc c«ng nghÖ Tr-êng ®¹i häc c«ng nghÖ Nguyễn Ngọc Long NGUYỄN NGỌC LONG KHAIPHÁ KHAI PHÁDỮ DỮLIỆU LIỆU SỬDỤNG SỬ DỤNGLUẬT LUẬTKẾT KẾTHỢP HỢP Ngành: Công Nghệ Thông Tin Mã số: 1.10 LUẬN VĂN THẠC SỸ LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS. Vũ Đức Thi HÀ NỘI – 2005 HÀ NỘI – 2005 2 1.2 Hà nội 03/2004 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Formatted: Font: 20 pt, Bold Formatted: Normal, Centered TÓM TẮT . 2 Formatted: Font: 12 pt, Bold MỞ ĐẦU . 7 CHƢƠNG 1 TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC .1 Nhu cầu, cách nhìn nhận và thực hiện trong các hệ CSDL truyền thống .2 Các vấn đề hạn chế và mục tiêu cần có đƣợc .3 Tìm kiếm bƣớc phát triển mới trong tổ chức khai thác CSDL.4 Quá trình phát hiện tri thức .1 Phát hiện tri thức .2 Các giai đoạn của quá trình phát hiện tri thức . 15 CHƢƠNG 2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .1 Mục tiêu của khai phá dữ liệu.2 Các quá trình khai phá dữ liệu .3 Các công việc chính của khai phá dữ liệu .4 Kiến trúc của hệ thống khai phá dữ liệu .5 Các thành phần của giải thuật khai phá dữ liệu .6 Các hƣớng tiếp cận cơ bản và kỹ thuật áp dụng .7 Các ứng dụng của khai phá dữ liệu.8 Một số phƣơng pháp khai phá dữ liệu phổ biến . Phƣơng pháp quy nạp (induction). Cây quyết định và luật . Phát hiện các luật kết hợp. Phân nhóm và phân đoạn (Clasterring and Segmentation). Các phƣơng pháp dựa trên mẫu . Mô hình phụ thuộc dựa trên đồ thị xác xuất . Mô hình học quan hệ. Khai phá dữ liệu văn bản . Giải thuật di truyền .9 Nhìn nhận và đánh giá chung. 32 CHƢƠNG 3 KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP . Luật kết hợp. Các khái niệm cơ sở . Một số tính chất của tập mục phổ biến và luật kết hợp. Các loại luật kết hợp . Khai phá luật kết hợp đơn chiều, đơn mức, luật kết hợp Boolean . Thuật toán Apriori . Phát triển thuật toán Apriori . Thuật toán sinh các luật kết hợp từ tập mục phổ biến. Khai phá tập mục phổ biến không sinh các ứng cử . Khai phá luật kết hợp định lƣợng . Khai phá luật kết hợp đa mức . Luật kết hợp đa mức . Các cách tiếp cận khai phá luật kết hợp đa mức . Khai phá luật kết hợp đóng . Khắc phục hạn chế của thuật toán Apriori . 76 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Tập mục phổ biến đóng . Thuật toán Charm . 81 CHƢƠNG 4 THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP . Mô tả dữ liệu . Xây dựng chƣơng trình . Kết quả thu đƣợc. 101 TÀI LIỆU THAM KHẢO . 2 LỜI MỞ ĐẦU . 7 CHƢƠNG 1 TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC .1 Nhu cầu, cách nhìn nhận và thực hiện trong các hệ CSLD truyền thống.2 Các vấn đề hạn chế và mục tiêu cần có đƣợc .3 Tìm kiếm bƣớc phát triển mới trong tổ chức khai thác CSDL .4 Quá trình phát hiện tri thức .1 Phát hiện tri thức .2 Các giai đoạn của quá trình phát hiện tri thức . 15 CHƢƠNG 2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .1 Mục tiêu của khai phá dữ liệu.2 Các quá trình khai phá dữ liệu .3 Các công việc chính của khai phá dữ liệu .4 Kiến trúc của hệ thống khai phá dữ liệu .5 Các thành phần của giải thuật khai phá dữ liệu .6 Các hƣớng tiếp cận cơ bản và kỹ thuật áp dụng .7 Các ứng dụng của khai phá dữ liệu .8 Một số phƣơng pháp khai phá dữ liệu phổ biến . Phƣơng pháp quy nạp (induction). Cây quyết định và luật . Phát hiện các luật kết hợp . Phân nhóm và phân đoạn (Clasterring and Segmentation) . Các phƣơng pháp dựa trên mẫu . Mô hình phụ thuộc dựa trên đồ thị xác xuất . Mô hình học quan hệ . Khai phá dữ liệu văn bản . Giải thuật di truyền .9 Nhìn nhận và đánh giá chung. 32 CHƢƠNG 3 KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP . Luật kết hợp. Các khái niệm cơ sở . Một số tính chất của tập mục phổ biến và luật kết hợp . Các loại luật kết hợp. Khai phá luật kết hợp đơn chiều, đơn mức, luật kết hợp Boolean . 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Thuật toán Apriori . Phát triển thuật toán Apriori . Thuật toán sinh các luật kết hợp từ tập mục phổ biến. Khai phá tập mục phổ biến không sinh các ứng cử . Khai phá luật kết hợp định lƣợng . Khai phá luật kết hợp đa mức . Luật kết hợp đa mức. Các cách tiếp cận khai phá luật kết hợp đa mức . Khai phá luật kết hợp đóng . Khắc phục hạn chế của thuật toán Apriori . Tập mục phổ biến đóng . Thuật toán Charm. 75 CHƢƠNG 4 THỬ NGHIỆM KHAI PHÁ LUẬT KẾT HỢP . Mô tả dữ liệu . Xây dựng chƣơng trình . 75 KẾT LUẬN CỦA LUẬN VĂN. 75 TÀI LIỆU THAM KHẢO . 75 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC KÝ HIỆU VIẾT TẮT Tên viết tắt Tên đầy đủ CSDL Cơ sở dữ liệu DL Dữ liệu DM Data mining HTTT Hệ thống thông tin KDD Knowledge discovery in database OLAP On-Line Analytical Processing 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG MỤC LỤC CÁC HÌNH VẼ Hình 1.1: Kiến trúc kho dữ liệu 13 Hình 1.2 Quá trình phát hiện tri thức 14 Hình 2.1 Mẫu kết quả với nhiệm vụ phân nhóm 19 Hình 2.2 Kiến trúc hệ thống khai phá dữ liệu 20 Hình 2.3 Quá trình khai phá dữ liệu 21 Hình 2.4 Mô tả cây quyết định cho khái niệm chơi tennis 25 Hình 3.1 Cơ sở dữ liệu D 36 Hình 3.2 Độ hỗ trợ của các mục 36 Hình 3.3 Độ hỗ trợ của các tập mục 36 Hình 3.4 Độ tin cậy của các luật 36 Hình 3.5 Cơ sở dữ liệu D minh họa cho thuật toán Apriori 42 Hình 3.6: Quá trình thực hiện thuật toán Apriori với độ hỗ trợ là 2/9 (2 lần ) 43 Hình 3.8: Sơ đồ quá trình khai phá bằng phân 49 Hình 3.9: CSDL các tác vụ D minh họa cho thuật toán FP-Growth 55 Hình 3.10: Bảng các mục phổ biến đã đƣợc sắp theo thứ tự 56 Hình 3.11: FP-Tree đƣợc xây dựng dần khi thêm các tác vụ T100, T200, T300 56 Hình 3.12: FP-Tree đƣợc xây dựng dần khi thêm các tác vụ T400, T500 57 Hình 3.13: Cây FP-Tree của CSDL 57 Hình 3.14: Thực hiện thuật toán FP-Growth với cây có chứa đƣờng đơn 60 Hình 3.15 Dữ liệu điều tra dân số 62 Hình 3.16- Mô tả khái niệm phân cấp của các mục 65 Hình 3.17 – Khai phá nhiều mức với độ hỗ trợ nhƣ nhau 66 Hình 3.18 – Khai phá nhiều mức với độ hỗ trợ khác nhau 67 Hình 3.19 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc bởi mục đơn 68 Hình 3.20 – Khai phá nhiều mức với giảm độ hỗ trợ, lọc bởi k-mục 68 Hình 3.21: CSDL bán sách minh họa cho tập mục phổ biến đóng 70 Hình 3.22 Các tập mục phổ biến 73 Hình 3.23 Dàn các tập con đầy đủ cho CSDL hình 3.24 Thuật toán Charm theo thứ tự từ điển 77 8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI MỞ ĐẦU Sự bùng nổ thông tin là một yếu tố lớn cho sự phát triển xã hội. Cùng với sự phát triển vƣợt bậc này là yêu cầu đòi hỏi ngày càng cao trong việc xử lý và tìm kiếm thông tin sao cho nhanh và đạt đƣợc hiệu quả tối ƣu nhất. Cùng với sự phát triển đó, công nghệ phần cứng với bộ xử lý tốc độ cao, ổ cứng, các thiết bị băng từ dung lƣợng lớn song hành cùng với sự phát triển không ngừng của thiết bị viễn thông đã và đang hỗ trợ đắc lực cho công cuộc phát triển thông tin. Tâm điểm hiện nay là các hệ thống khai thác thông tin phục vụ việc tự động hóa trong các lĩnh vực kinh doanh cũng nhƣ quản lý trong điều hành ra quyết định. Hiện tƣợng ―bùng nổ thông tin‖ và sự ra đời hàng loạt các hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện ra đời đã giúp con ngƣời khai thác hiệu quả hơn nguồn tài nguyên dữ liệu phức tạp này. Từ sự phát triển với tốc độ kinh ngạc của các HTTT, việc khai phá dữ liệu phục vụ cho các yêu cầu trợ giúp quyết định cao hơn, chính xác và nhanh chóng hơn ngày càng nhiều, có ý nghĩa ngày càng quan trọng và là yếu tố quyết định trong mọi lĩnh vực hoạt động kinh doanh và quản lý. Những thông tin bổ ích, những ―tri thức‖ thông minh và hiệu quả rút ra từ những nguồn dữ liệu phức tạp và rộng lớn đã trở thành yếu tố sống còn trong các hoạt động thƣờng ngày của từng tổ chức kinh doanh, quản lý. ―Khai phá dữ liệu‖ trở thành trung tâm của hàng loạt các nghiên cứu và thảo luận cực kỳ sôi động nhằm tìm kiếm và khám phá ra đƣợc nhiều cách thức, phƣơng pháp hiệu quả với mong muốn tìm ra đƣợc càng ngày càng nhiều các tri thức mới, quan trọng và bổ ích. Điểm qua tình hình phát triển thông tin những năm gần đây, ta có một loạt các lĩnh vực nghiên cứu về tổ chức kho dữ liệu (data ware house, information ware house), các hệ hỗ trợ quyết định (DSS) , các phƣơng pháp phát hiện tri thức và các phƣơng pháp khai phá dữ liệu (data mining). Xét trên khía cạnh về nhu cầu ở mức trung bình hay trong phạm vi nhỏ hẹp, các kho dữ liệu có thể giúp khai thác thông tin bằng các công cụ truy vấn và báo cáo cũng nhƣ đƣợc dùng để hỗ trợ phân tích Khai phá dữ liệu sử dụng luật kết hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nguyễn Ngọc Long, K9T3 10 Luận văn thạc sỹ trực tuyến, kiểm định các giả thuyết. Tuy nhiên điều ngƣời ta thấy thiếu ở đây là vấn đề tri thức (thông tin thông minh), điều đó có nghĩa là nếu dữ liệu trong các kho dữ liệu đƣợc phân tích một cách thông minh thì chúng sẽ là nguồn tài nguyên vô giá.
Luận Văn Thạc Sĩ VNU UET Về Khai Phá Dữ Liệu Sử Dụng Luật Kết Hợp
Luận văn thạc sĩ nghiên cứu vnu uet khai phá dữ liệu sử dụng luật kết hợp, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực luật học.
Trường đại học
Đại học Công nghệChuyên ngành
Công Nghệ Thông TinNgười đăng
Ẩn danhThể loại
luận văn thạc sỹPhí lưu trữ
35 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Nguyễn Ngọc Long
Người hướng dẫn: PGS. Vũ Đức Thi
Trường học: Đại học Công nghệ
Chuyên ngành: Công Nghệ Thông Tin
Đề tài: Khai Phá Dữ Liệu Sử Dụng Luật Kết Hợp
Loại tài liệu: luận văn thạc sỹ
Năm xuất bản: 2005
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ