ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội -2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NHƢ NGỌC PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƢỚNG ĐẾN DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHAN XUÂN HIẾU Hà Nội -2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Trước hết, tôi xin gửi lời cảm ơn sâu sắc nhất đến TS. Phan Xuân Hiếu - Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội, người đã tận tình hướng dẫn, chỉ bảo và định hướng cho tôi trong suốt quá trình thực hiện luận văn tốt nghiệp. Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội và các thầy cô giáo đã giảng dạy tôi trong suốt thời gian học tập tại trường, tạo điều kiện giúp đỡ tôi hoàn thiện luận văn này. Xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn động viên giúp đỡ tôi trong thời gian học tập và hoàn thành luận văn. Trong quá trình nghiên cứu, thực hiện, mặc dù đã cố gắng, nỗ lực để hoàn thiện, luận văn của tôi cũng không tránh khỏi những thiếu sót và hạn chế. Kính mong nhận được sự đóng góp của thầy cô và các bạn. Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thị Như Ngọc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã trình bày là của cá nhân tôi hoặc được tôi tổng hợp từ nhiều nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Tôi xin chịu toàn bộ trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan của tôi. Hà Nội, tháng 10 năm 2014 Tác giả Nguyễn Thị Như Ngọc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT. 3 DANH MỤC HÌNH ẢNH . 4 DANH MỤC BẢNG BIỂU . TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG . Thị trường thông tin di động Việt Nam . Khái niệm “churn” . Phân loại “churn” . Các nghiên cứu liên quan . Mục tiêu và phạm vi đề tài. KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG . Lý thuyết khai phá dữ liệu . Tại sao cần khai phá dữ liệu . Khái niệm khai phá dữ liệu . Các bài toán khai phá dữ liệu điển hình . Mô hình kho dữ liệu di động. Một số ứng dụng khai phá dữ liệu di động . Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, dịch vụ . Nhận dạng và dự đoán các biểu hiện gian lận . Phân tích dự đoán thuê bao rời mạng . Dự đoán nhu cầu tăng dung lượng đường truyền . BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG . Phát biểu bài toán . Phân lớp dữ liệu thuê bao rời mạng . Lựa chọn thuộc tính. Cây quyết định C4. Support Vector Machines . 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Mô hình đánh giá hiệu năng . THỰC NGHIỆM VÀ ĐÁNH GIÁ . Dữ liệu thực nghiệm . Phân lớp dữ liệu sử dụng cây quyết định C4. Phân lớp sử dụng thuật toán Naïve Bayes . Phân lớp sử dụng thuật toán SVM . Phân lớp sử dụng thuật toán Neural Networks . Đánh giá hiệu năng . 43 TÀI LIỆU THAM KHẢO . 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Thuật ngữ Định nghĩa Bộ TT&TT Bộ Thông tin và truyền thông ITU International Telecommunication Union - Tổ chức viễn thông quốc tế thuộc Liên hiệp quốc USD United States dollar – Đồng đô la Mỹ KPDL Khai phá dữ liệu KDD Knowledge Discovery and Data Mining DWH DataWarehouse OLAP Online Analytical Processing VAS Dịch vụ giá trị gia tăng NB Naïve Bayes SVM Support vector machine NN Neural Networks LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 DANH MỤC HÌNH ẢNH Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012 .9 Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012.9 Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam . 10 Hình 4 - Quá trình phát hiện tri thức trong CSDL . 15 Hình 5 - Mô hình kho dữ liệu di động . 17 Hình 6 - Tiến trình phân lớp dữ liệu . 22 Hình 7 - Mô hình quan hệ các bảng dữ liệu . 23 Hình 8 - Các giai đoạn của mô hình dự đoán thuê bao rời mạng . 24 Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu . 25 Hình 10 - Số lượng thuộc tính được thu thập . 26 Hình 11 - Ví dụ về cây quyết định . 26 Hình 12 - Nhiều mặt phẳng phân tách dữ liệu . 29 Hình 13 - Siêu mặt phẳng phân tách. 30 Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp. 31 Hình 15 - Mạng nơ- ron hồi quy. 31 Hình 16 - Dữ liệu thực nghiệm . 35 Hình 17 - Dữ liệu rời rạc . 35 Hình 18 - Thực hiện phân lớp với thuật toán Naïve Bayes . 37 Hình 19 - Thực hiện phân lớp với thuật toán SVM . 38 Hình 20 - Thực hiện phân lớp với thuật toán Neural Networks . 40 Hình 21 - Hiệu năng các thuật toán với lớp thuê bao rời mạng . 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 DANH MỤC BẢNG BIỂU Bảng 1 - Ma trận nhầm lẫn . 33 Bảng 2 - Kết quả mô hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác nhau . 36 Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/10 . 36 Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/2 . 36 Bảng 5 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/1 . 37 Bảng 6 - Kết quả mô hình phân lớp sử dụng NB với tỷ lệ mẫu khác nhau . 37 Bảng 7 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/10 . 38 Bảng 8 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/2 . 38 Bảng 9 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/1 . 38 Bảng 10 - Kết quả mô hình phân lớp sử dụng SVM với tỉ lệ mẫu khác nhau . 39 Bảng 11 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/10 . 39 Bảng 12 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 . 39 Bảng 13 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 . 39 Bảng 14 - Kết quả mô hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau. 40 Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10 . 40 Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2 . 40 Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1 . 41 Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp C4. 42 Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp Naïve Bayes. 42 Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp SVM . 42 Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mô hình phân lớp NN . 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 MỞ ĐẦU Dịch vụ thông tin di động ngày càng phát triển mạnh mẽ, trở thành một phần tất yếu trong cuộc sống của mỗi người dân Việt Nam. Với sự ra đời của hàng loạt các nhà cung cấp dịch vụ mạng điện thoại di động. Quản lý thông tin thuê bao di động nhằm nâng cao khả năng chăm sóc khách hàng, đưa ra các chiến lược kinh doanh là việc không thể thiếu đối với các nhà cung cấp dịch vụ mạng di động. Ngày nay “kho dữ liệu” đã trở thành một khái niệm quen thuộc đối với các doanh nghiệp, “kho dữ liệu” hỗ trợ doanh nghiệp ra quyết định cho các hoạt động tăng sự tập trung vào khách hàng như phân tích các mô hình khách hàng, so sánh hiệu suất doanh số bán hàng theo quý, theo năm, và theo vùng địa lý để điều chỉnh chiến lược sản xuất, phân tích hoạt động và tìm kiếm nguồn lợi nhuận, quản lý các mối quan hệ khách hàng, điều chỉnh môi trường và quản lý chi phí tài sản của công ty. Xây dựng kho dữ liệu thuê bao di động là hướng đi đúng đắn nhằm nâng cao năng lực cạnh tranh và chăm sóc khách hàng của các nhà mạng di động. Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, khách hàng ngày càng đòi hỏi cao về chất lượng và dịch vụ. Hơn nữa khách hàng có nhiều lựa chọn và có quyền chuyển đổi nhà cung cấp dịch vụ, kết quả là khách hàng rời mạng tăng lên một cách nhanh chóng. Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễn thông cần phải đưa ra những hoạch định chiến lược để giữ chân khách hàng. Các yếu tố quan trọng để giữ chân khách hàng là dự đoán khách hàng rời mạng và chiến lược phòng chống khách hàng rời mạng hiệu quả. Hướng nghiên cứu của tôi là từ kho dữ liệu di động thực hiện khai thác, phân tích nhằm phát hiện các hành vi rời mạng của thuê bao và dự đoán thuê bao rời mạng cho đề tài luận văn của mình. Luận văn được xây dựng dựa theo lý thuyết khai phá dữ liệu được các nhà khoa học nghiên cứu đồng thời tôi xin trình bày quan điểm riêng của mình về việc áp dụng khai phá dữ liệu trong phát hiện hành vi và dự đoán thuê bao rời mạng. Dữ liệu được sử dụng trong luận văn là dữ liệu “anonymous”, chỉ mang tính chất nghiên cứu và không tiết lộ bất cứ thông tin của tổ chức hay cá nhân nào.
Luận Văn Thạc Sĩ: Phân Tích Dữ Liệu Thuê Bao Di Động Hướng Đến Dự Đoán Rời Mạng Viễn Thông
Luận văn thạc sĩ VNU UET phân tích dữ liệu thuê bao di động nhằm dự báo tình trạng rời mạng viễn thông, cung cấp cái nhìn sâu sắc về xu hướng.
Trường đại học
Trường Đại học Công nghệ - Đại học Quốc gia Hà NộiChuyên ngành
Công nghệ thông tinNgười đăng
Ẩn danhThể loại
Luận văn thạc sỹPhí lưu trữ
30 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Nguyễn Thị Như Ngọc
Người hướng dẫn: TS. Phan Xuân Hiếu
Trường học: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Chuyên ngành: Công nghệ thông tin
Đề tài: Phân Tích Dữ Liệu Thuê Bao Di Động Hướng Đến Dự Đoán Thuê Bao Rời Mạng Viễn Thông
Loại tài liệu: Luận văn thạc sỹ
Năm xuất bản: 2014
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ