ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ ------------------------------------------- TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN Hà Nội – 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ --------------------- TRẦN QUANG HÀO PHÂN CỤM DỮ LIỆU DỰA TrRÊN ĐỒ THỊ SỬ DỤNG CÂY KHUNG CỰC TIỂU Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ thuật Phần mềm (Software Engineering) Mã số: 60480103 LUẬN VĂN THẠC SỸ C NG NGHỆ TH NG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. HOÀNG XUÂN HUẤN Hà Nội – 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Điều ầu ti n tôi xin gửi lời cảm ơn sâu sắc nhất ến PGS.TS Hoàng Xuân Huấn. Thầy ã cung cấp cho tôi những kiến thức, tài liệu, phƣơng pháp khi nghi n cứu v l m luận v n. Tôi xin cảm ơn thầy về sự hỗ trợ chân thành và nhiệt tình trong suốt thời gian qua. Đối với t i thầy l một ngƣời thầy áng k nh v lu n hết l ng v học vi n T i xin gửi lời cảm ơn chân th nh ến các thầy c ộ ã giảng y các cán ộ trong kho c ng nghệ th ng tin kho s u i học ph ng t chức h nh ch nh T i xin gửi lời cảm ơn ến gi nh ng nghiệp v n những ngƣời ã ộng vi n t i rất nhiều trong quá tr nh học tập Hà Nội, ngày 2 tháng 12 n m 2014 Học viên Trần Quang Hào 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN T i xin c m o n những kiến thức trình bày trong luận v n n y l o t i t m hiểu, nghiên cứu và trình bày theo cách hiểu của bản thân ƣới sự hƣớng dẫn trực tiếp của PGS.TS Hoàng Xuân Huấn. Trong quá trình làm luận v n t i có th m khảo các tài liệu có li n qu n v ã ghi rõ ngu n gốc tham khảo tài liệu ó Mọi sao chép không hợp lệ, vi ph m quy chế o t o tôi xin chịu hoàn toàn trách nhiệm. Hà Nội, ngày 2 tháng 12 n m 2014 Học viên Trần Quang Hào 2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CẢM ƠN .1 LỜI CAM ĐOAN .3 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .5 DANH MỤC HÌNH VẼ .6 LỜI MỞ ĐẦU .7 CHƢƠNG 1: GIỚI THIỆU VỀ KH M PH TRI TH C V PH N CỤM Ữ LIỆU . Khám phá tri thức . Vai trò và các mục tiêu chính của KDD . Khái niệm phân cụm ữ liệu: . Các ứng dụng của phân cụm .11 1 5 Một số phƣơng pháp phân cụm iển h nh.12 1 5 1 Phƣơng pháp phân cụm phân ho ch .12 1 5 2 Phƣơng pháp phân cụm phân cấp.13 1 5 3 Phƣơng pháp phân cụm dựa trên mật ộ .16 1 5 4 Phƣơng pháp phân cụm dự tr n lƣới . Một số vấn ề li n qu n ến phân cụm . Mêtric trên dữ liệu hỗn hợp.23 CHƢƠNG 2: THU T TO N PH N CỤM S ỤNG C Y KHUNG CỰC TIỂU .Cây khung cực tiểu .24 2 1 1 Đ nh ngh cây khung cực tiểu .24 2 1 2 Thuật toán xây ựng cây khung cực tiểu . Một số khái niệm cần dùng . Cụm ƣợc mô tả bởi Zahn v H n l . Thiết lập i toán phân cụm ng thị: .28 2 5 Độ phức t p củ thuật toán 2-MSTs . 35 3 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 3: THỰC NGHIỆM NG ỤNG .2 Chƣơng tr nh v kết quả thử nghiệm.37 3 2 1 Chƣơng tr nh .2 Kết quả thử nghiệm .48 TÀI LIỆU THAM KHẢO .49 4 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Từ tiếng anh Từ hoặc cụm từ CSDL Database Cơ sở dữ liệu CQĐ Decision Tree Cây quyết ịnh KPDL Data mining Khai phá dữ liệu PCDL Clustering Data Phân cụm dữ liệu TB Average Trung bình CLS ConceptLearning System Hệ thống học khái niệm DW Data Warehouse Kho dữ liệu DM Data Mart Kho dữ liệu cục bộ KDD Knowledge Discovery in Data Khám phá tri thức trong dữ liệu MDL Minimum Description Length Chiều dài tối thiểu MST Minimum spanning tree Cây khung cực tiểu 5 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1 Quá trình phát hiện tri thức trong CSDL .2: Mô phỏng vấn ề PCDL .3: Phân cụm tập S = { c e} theo phƣơng pháp “ ƣới l n” .4: Hai cụm ƣợc tìm bởi thuật toán DBSCAN.5: Hai cụm dữ liệu có thể t m ƣợc nhờ DBSCAN.6: Ba tầng liên tiếp nhau của cấu trúc STING.1: Một số hình minh họa phân cụm bởi Zahn . Một số hình minh họa phân cụm bởi Handl . Minh họa MSTs hai vòng . Minh họa cụm tách về mật ộ . Minh họa cụm không thể t ch ƣợc hơn nữa . Minh họa cụm với tỉ lệ cut khác nhau . Giao diện co e chƣơng tr nh . Giao diện khi ch y chƣơng tr nh . 38 H nh 3 3 ảng kế ho ch khai thác bay . 39 H nh 3 4 ảng s u khi t nh toán T1 v T2 nhận ng tách cụm .5: Bảng Gain của các thuộc tính .5 : Bảng với f10 nhận giá trị 0.6: Bảng với f10 nhận giá trị 1.7: Bảng t nh G in củ các thuộc t nh lần 2 .8: Bảng f13 nhận giá trị b ng 0 .9: Bảng f13 nhận giá trị b ng 1 . Bảng kết quả phân cụm s u khi t nh entropy lần 1. Bảng kết quả phân cụm s u khi t nh entropy lần 1. 44 6 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Bảng kết quả phân cụm s u khi t nh entropy lần 2. Bảng kết quả phân cụm s u khi t nh entropy lần 2. 45 H nh 3 14 ảng dữ liệu thử nghiệm lần 2 . 46 H nh 3 15 ảng s u khi t nh toán T1 v T2 nhận ng tách cụm . Bảng kết quả phân cụm s u khi t nh enropy lần 1 . Bảng kết quả phân cụm s u khi t nh enropy lần 2 . 47 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI MỞ ĐẦU Ng y n y o sự phát triển m nh củ các ứng ụng c ng nghệ th ng tin trong các l nh vực nhƣ kinh tế xã hội kho học … ã t o r khối lƣợng cơ sở ữ liệu kh ng l Để kh i thác th ng tin hiệu quả i hỏi phải có một số kỹ thuật xử lý c o cấp ó l phân ho ch ữ liệu h y các cụm. Hiện nay, phân cụm dữ liệu vẫn là bài toán ng ƣợc nhiều ngƣời quan tâm nghiên cứu, tuy nhiên, trong các thuật toán thƣờng yêu cầu ngƣời ùng xác ịnh trƣớc số lƣợng cụm. Số cụm là một tham số quan trọng và ảnh hƣởng nhiều tới kết quả của quá trình phân cụm, ứng với số lƣợng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó kh n ể quyết ịnh kết quả phân cụm nào là tốt nhất. Trong luận v n n y em tr nh y khảo cứu của tác giả về tiếp cận phân cụm dữ liệu sử dụng cây khung cực tiểu Đặc biệt i sâu v o kỹ thuật phân cụm của thuật toán 2-MSTs. Ngo i phần mở ầu và kết luận, cấu trúc luận v n có 3 chƣơng: Chƣơng 1: Gi i thi u về h m ph tr th c v ph n cụm ữ i u Chƣơng n y sẽ tr nh y các khái niệm cơ ản về khám phá tri thức v phân cụm ữ liệu tóm tắt một số phƣơng pháp phân cụm ữ liệu iển h nh Chƣơng 2: Thuật to n ph n cụm sử ụng c hung cực tiểu Trong chƣơng n y ể l m rõ hơn kỹ thuật phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cực tiểu , một số vấn ề li n qu n ến cây khung cực tiểu ƣợc tr nh y ngoài ra sẽ phân tích kỹ thuật phân cụm cây khung cực tiểu, tìm hiểu thuật toán phân cụm 2-MSTs. Chƣơng 3: Thực nghi m ng ụng Trong phần thực nghiệm c i ặt thuật toán 2-MSTs v m phỏng thuật toán qu v ụ kh i thác y củ ng nh h ng kh ng. Phần kết luận trình bày tóm tắt về các nội dung thực hiện trong luận v n ng thời ƣ r các vấn ề nghiên cứu tiếp cho tƣơng l i 7 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG 1: GIỚI THIỆU VỀ H M PH TRI TH C V PH N CỤM DỮ IỆU 1. Khám phá tri th c Khám phá tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với những t nh n ng: hợp thức, mới, khả ích và có thể hiểu ƣợc Đây l một quá trình nghiên cứu một khối lƣợng dữ liệu lớn b ng các phƣơng tiện tự ộng. Mục ch của sự phát hiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu v các m h nh ng t n t i trong các cơ sở dữ liệu nhƣng vẫn còn bị che khuất bởi hàng núi dữ liệu. Các thông tin và kiến thức thu ƣợc có thể ƣợc sử dụng cho các ứng dụng khác nhau, ví dụ nhƣ phân t ch thị trƣờng, phát hiện gian lận v uy tr khách h ng ể kiểm soát sản xuất và khoa học th m dò. Khai phá dữ liệu có thể ƣợc xem nhƣ l một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin Khái niệm KDD (Knowledge Discovery in Databases) ƣợc ịnh ngh l quá trình trích chọn các mẫu hoặc tri thức hấp dẫn, Quá trình KDD có thể phân thành các gi i o n sau: 1. Lựa chọn dữ liệu: L ƣớc ta lựa chọn tập dữ liệu n ầu theo một số tiêu chí nhất ịnh từ tập dữ liệu lớn nhƣ: t se t w rehouses h y t repositories 2. Tiền xử lý dữ liệu: ƣớc này làm s ch dữ liệu (xử lý với dữ liệu kh ng ầy ủ, dữ liệu nhiễu, dữ liệu không nhất quán …) rút gọn dữ liệu (sử dụng hàm nhóm và tính t ng, các phƣơng pháp nén ữ liệu, sử dụng histograms, lấy mẫu … ) rời r c hóa dữ liệu (rời r c hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng ) Qu ƣớc này, dữ liệu sẽ nhất quán ầy ủ ƣợc rút gọn v ƣợc rời r c hóa.
Luận văn thạc sĩ Trần Quang Hào: Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cực tiểu
Luận văn thạc sĩ VNU UET nghiên cứu phân cụm dữ liệu dựa trên đồ thị với phương pháp cây khung cự tiểu, mang lại hiệu quả cao trong phân tích dữ liệu.
Trường đại học
Trường Đại học Công nghệ - Đại học Quốc gia Hà NộiChuyên ngành
Công nghệ thông tinNgười đăng
Ẩn danhThể loại
Luận văn thạc sĩPhí lưu trữ
30 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Trần Quang Hào
Người hướng dẫn: PGS. Hoàng Xuân Huấn
Trường học: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành: Công nghệ thông tin
Đề tài: Phân Cụm Dữ Liệu Dựa Trên Đồ Thị Sử Dụng Cây Khung Cực Tiểu
Loại tài liệu: Luận văn thạc sĩ
Năm xuất bản: 2014
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ