Ứng dụng Khoa học Dữ liệu và công cụ Orange vào Phân tích (UEH)

Tài liệu nghiên cứu Môn học khoa học dữ liệu đề tài ứng dụng khoa học dữ liệu và công cụ orange vào phân tích, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Đại học Kinh tế Tp. Hồ Chí Minh

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

Tiểu luận nhóm

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

Lời mở đầu

Lời cảm ơn

1. Chương 1: Giới thiệu đề tài

1.1. Lý do chọn đề tài:

1.2. Mục tiêu nghiên cứu

1.3. Phương pháp thực hiện

1.4. Đối tượng nghiên cứu và phạm vi nghiên cứu

1.5. Bố cục nghiên cứu

2. Chương 2: Mô tả và tiền xử lý dữ liệu

2.1. Mô tả bộ dữ liệu

2.2. Mô tả các biến:

2.3. Thống kê mô tả

2.3.1. Mô tả dữ liệu

2.3.2. Đồ thị phân lớp:

2.4. Tiền xử lý dữ liệu

3. Chương 3: Khai phá dữ liệu

3.1. Phân lớp dữ liệu:

4. Chương 4: Kết luận và kiến nghị

Tài liệu tham khảo

Tóm tắt

I. Orange Data Mining là gì Giải pháp học máy không cần code

Trong bối cảnh khoa học dữ liệu ngày càng trở nên quan trọng, các công cụ giúp đơn giản hóa quy trình phân tích trở thành một lợi thế cạnh tranh lớn. Orange Data Mining, hay còn gọi là Orange3, nổi lên như một công cụ khoa học dữ liệu mã nguồn mở mạnh mẽ, cho phép thực hiện các tác vụ phức tạp mà không yêu cầu kỹ năng lập trình chuyên sâu. Nền tảng này hoạt động dựa trên nguyên tắc lập trình trực quan, nơi người dùng có thể xây dựng workflow phân tích bằng cách kéo và thả các thành phần được gọi là 'widgets'. Mỗi widget đại diện cho một bước trong quy trình, từ việc nhập dữ liệu, tiền xử lý dữ liệu, huấn luyện mô hình machine learning, cho đến trực quan hóa dữ liệu. Điều này làm cho việc phân tích dữ liệu với Orange trở nên trực quan và dễ tiếp cận hơn bao giờ hết, đặc biệt với những người mới bắt đầu hoặc các nhà phân tích nghiệp vụ không chuyên về code. Thay vì viết hàng trăm dòng lệnh Python hay R, người dùng chỉ cần kết nối các widget lại với nhau để tạo thành một luồng xử lý logic. Khả năng tương tác cao của Orange cho phép người dùng ngay lập tức thấy được kết quả của mỗi bước, từ biểu đồ phân phối dữ liệu đến hiệu suất của một mô hình dự báo. Công cụ này hỗ trợ đa dạng các thuật toán từ phân loại dữ liệu, phân cụm dữ liệu cho đến phân tích luật kết hợp, biến nó thành một phần mềm phân tích dữ liệu miễn phí toàn diện cho cả mục đích học thuật và thương mại.

1.1. Ưu điểm của Orange Trực quan hóa dữ liệu và học máy

Điểm mạnh cốt lõi của Orange Data Mining nằm ở khả năng trực quan hóa dữ liệu (data visualization) và tích hợp liền mạch các mô hình học máy không cần code. Người dùng có thể dễ dàng khám phá các mối quan hệ ẩn trong dữ liệu thông qua các biểu đồ tương tác như Scatter Plot, Box Plot hay Heatmap. Việc trực quan hóa không chỉ dừng ở dữ liệu đầu vào mà còn mở rộng ra cả kết quả của mô hình, chẳng hạn như hiển thị một cây quyết định (decision tree) một cách tường minh hoặc biểu diễn không gian phân cụm. Điều này giúp người phân tích nhanh chóng nắm bắt được bản chất của dữ liệu và giải thích kết quả mô hình một cách dễ hiểu. Hơn nữa, thư viện widget phong phú của Orange bao phủ gần như toàn bộ quy trình khai phá dữ liệu (data mining), từ các thuật toán đơn giản như K-Means đến các mô hình phức tạp như Mạng nơ-ron (Neural Network) và Máy véc-tơ hỗ trợ (SVM).

1.2. Giao diện và các Widget trong Orange Khối xây dựng cơ bản

Giao diện chính của Orange được gọi là Canvas, là không gian làm việc nơi người dùng xây dựng các workflow phân tích. Các khối xây dựng cơ bản trên Canvas là widget trong Orange. Các widget này được phân loại một cách khoa học thành các nhóm chức năng như Data (nhập/xuất dữ liệu), Visualize (trực quan hóa), Model (huấn luyện mô hình), Evaluate (đánh giá mô hình) và Unsupervised (học không giám sát). Ví dụ, widget 'File' dùng để tải dữ liệu, widget 'Data Table' để xem dữ liệu dạng bảng, widget 'Distributions' để xem phân phối của các thuộc tính. Người dùng chỉ cần kéo các widget từ thanh công cụ ra Canvas và dùng chuột để nối chúng lại, tạo thành một dòng chảy dữ liệu logic. Mỗi kết nối đại diện cho việc dữ liệu hoặc mô hình được truyền từ widget này sang widget khác, tạo nên một quy trình phân tích hoàn chỉnh và dễ dàng gỡ lỗi.

II. Cách tiền xử lý dữ liệu hiệu quả bằng Orange Data Mining

Chất lượng của mô hình khoa học dữ liệu phụ thuộc rất lớn vào giai đoạn tiền xử lý dữ liệu (data preprocessing). Đây là bước không thể thiếu nhằm đảm bảo dữ liệu đầu vào sạch, nhất quán và phù hợp cho việc huấn luyện. Với Orange Data Mining, quy trình này trở nên trực quan hơn thông qua một chuỗi các widget chuyên dụng. Dựa trên phân tích bộ dữ liệu về khách hàng rời bỏ của một công ty viễn thông, quy trình tiền xử lý bắt đầu bằng việc khám phá các đặc trưng thống kê. Công đoạn này giúp xác định các vấn đề tiềm ẩn như giá trị thiếu, phân phối lệch hay các thuộc tính không liên quan. Một trong những kỹ thuật quan trọng trong bước này là lựa chọn thuộc tính (feature selection). Thay vì giữ lại tất cả các biến, việc loại bỏ những biến không có giá trị dự báo giúp mô hình hoạt động hiệu quả hơn, giảm nhiễu và tránh overfitting. Tài liệu nghiên cứu cho thấy, việc sử dụng các công cụ như 'Rank' để đánh giá tầm quan trọng của biến là một phương pháp hiệu quả. Cuối cùng, một workflow tiền xử lý hoàn chỉnh sẽ kết thúc bằng việc lưu lại bộ dữ liệu đã được làm sạch, sẵn sàng cho các bước khai phá dữ liệu tiếp theo.

2.1. Khám phá dữ liệu ban đầu với Feature Statistics

Bước đầu tiên trong mọi dự án phân tích dữ liệu với Orange là hiểu rõ bộ dữ liệu đang có. Widget 'Feature Statistics' cung cấp một cái nhìn tổng quan nhanh chóng về các đặc trưng thống kê mô tả của từng biến. Như trong tài liệu tham khảo, widget này hiển thị các giá trị như giá trị trung bình (Mean), trung vị (Median), giá trị xuất hiện nhiều nhất (Mode), và độ phân tán (Dispersion) cho các biến số. Nó cũng cho biết số lượng giá trị bị thiếu (Missing). Ví dụ, qua phân tích, có thể thấy biến 'Seconds of Use' có giá trị trung bình là 4472 nhưng mode là 0, cho thấy một lượng lớn khách hàng không sử dụng hoặc sử dụng rất ít dịch vụ. Việc nắm bắt những thông tin này giúp định hướng các bước xử lý tiếp theo.

2.2. Sử dụng Rank để đánh giá mức độ quan trọng của thuộc tính

Không phải tất cả các thuộc tính trong bộ dữ liệu đều có sức ảnh hưởng như nhau đến biến mục tiêu. Widget 'Rank' trong Orange cho phép xếp hạng mức độ quan trọng của các thuộc tính dựa trên các thước đo thống kê như Gain Ratio hoặc Gini Index. Trong nghiên cứu về dự đoán khách hàng rời bỏ, nhóm nghiên cứu đã sử dụng 'Rank' để đánh giá mối tương quan giữa các biến độc lập và biến phụ thuộc 'Churn'. Kết quả cho thấy hai biến 'Age' và 'Age Group' có chỉ số Gain Ratio bằng 0 và Gini là N/A, cho thấy chúng có độ tương quan rất thấp và không đóng góp nhiều vào việc dự báo. Dựa trên kết quả này, quyết định loại bỏ hai biến này được đưa ra để làm sạch bộ dữ liệu và tối ưu hóa mô hình.

2.3. Hoàn thiện workflow Select Columns và Save Data

Sau khi xác định được các thuộc tính cần loại bỏ, widget 'Select Columns' được sử dụng để thực hiện việc này. Người dùng có thể dễ dàng di chuyển các biến không mong muốn (như 'Age' và 'Age Group') từ danh sách 'Features' sang danh sách 'Ignored'. Dữ liệu đầu ra từ widget này sẽ là một phiên bản thu gọn, chỉ chứa các thuộc tính có giá trị. Bước cuối cùng của quy trình tiền xử lý dữ liệu là lưu lại bộ dữ liệu sạch này để tái sử dụng. Widget 'Save Data' cho phép ghi dữ liệu đã xử lý ra một file mới, đảm bảo tính nhất quán cho các bước phân tích và mô hình hóa về sau. Toàn bộ quy trình này tạo thành một workflow rõ ràng và có thể lặp lại trên Orange.

III. Hướng dẫn phân tích dự báo khách hàng rời bỏ với Orange

Một trong những ứng dụng phổ biến nhất của khoa học dữ liệu là phân tích dự báo (predictive analysis), và phân loại dữ liệu (classification) là kỹ thuật cốt lõi. Trong bối cảnh kinh doanh, dự báo khách hàng nào có khả năng rời bỏ (churn) là một bài toán quan trọng. Phân tích dữ liệu với Orange cung cấp một môi trường lý tưởng để xây dựng và so sánh các mô hình phân loại. Dựa trên nghiên cứu điển hình, sau khi dữ liệu đã được tiền xử lý, biến mục tiêu 'Churn' được xác định. Nhiều thuật toán machine learning khác nhau đã được áp dụng, bao gồm Cây quyết định (Tree), SVM, Hồi quy Logistic, và Mạng nơ-ron (Neural Network). Điểm mạnh của Orange là khả năng đánh giá đồng thời tất cả các mô hình này bằng widget 'Test & Score'. Widget này cung cấp các chỉ số hiệu suất quan trọng như AUC (Area Under Curve), CA (Classification Accuracy), Precision và Recall. Kết quả so sánh cho phép người phân tích lựa chọn mô hình hoạt động tốt nhất trên bộ dữ liệu cụ thể, thay vì chỉ dựa vào cảm tính. Quá trình này không chỉ giúp tìm ra mô hình chính xác nhất mà còn cung cấp cái nhìn sâu sắc về điểm mạnh và yếu của từng phương pháp.

3.1. Đánh giá mô hình với Test Score và Confusion Matrix

Widget 'Test & Score' là trung tâm của quá trình đánh giá mô hình trong Orange. Nó cho phép so sánh hiệu suất của nhiều thuật toán phân loại cùng một lúc. Trong nghiên cứu được trích dẫn, phương pháp Cross-validation (với 5 folds) đã được sử dụng để đảm bảo kết quả đánh giá khách quan. Kết quả cho thấy mô hình Neural Network đạt hiệu suất cao nhất với chỉ số AUC là 0.977 và CA là 0.943. Để hiểu sâu hơn về lỗi của mô hình, 'Confusion Matrix' (Ma trận nhầm lẫn) được sử dụng. Ma trận này chỉ rõ số lượng các trường hợp dự đoán đúng và sai cho từng lớp. Ví dụ, ma trận của Neural Network cho thấy mô hình nhầm lẫn 75 trường hợp 'Không Churn' thành 'Churn' và 105 trường hợp ngược lại, cung cấp một bức tranh chi tiết về hiệu suất thực tế.

3.2. Trực quan hóa hiệu suất bằng đồ thị ROC Analysis

Bên cạnh các chỉ số số, trực quan hóa dữ liệu hiệu suất cũng rất quan trọng. Đồ thị ROC (Receiver Operating Characteristic) là một công cụ mạnh mẽ để đánh giá khả năng phân biệt giữa các lớp của một mô hình phân loại. Trong Orange, widget 'ROC Analysis' vẽ đường cong ROC cho từng mô hình. Đường cong càng gần góc trên bên trái (điểm (0,1)), mô hình càng có hiệu suất tốt. Phân tích từ tài liệu gốc khẳng định rằng đường cong của Neural Network tiệm cận trục tung nhất, một lần nữa củng cố kết luận đây là mô hình hiệu quả nhất trong bốn mô hình được thử nghiệm để giải quyết bài toán phân tích dự báo khách hàng rời bỏ.

IV. Phương pháp phân cụm dữ liệu hiệu quả với Orange 3

Bên cạnh học có giám sát, học không giám sát cũng là một nhánh quan trọng của khai phá dữ liệu, với kỹ thuật tiêu biểu là phân cụm dữ liệu (clustering). Mục tiêu của phân cụm là tự động nhóm các đối tượng tương tự vào cùng một cụm mà không cần biết trước nhãn của chúng. Orange3 cung cấp các công cụ mạnh mẽ để thực hiện và đánh giá các thuật toán phân cụm. Trong nghiên cứu về dữ liệu viễn thông, hai phương pháp phân cụm chính đã được áp dụng: Hierarchical Clustering và K-Means. Hierarchical Clustering xây dựng một cây phân cấp các cụm, trong khi K-Means cố gắng phân chia dữ liệu thành một số lượng cụm (K) đã định trước. Việc đánh giá chất lượng phân cụm là một thách thức, và Orange hỗ trợ cả đánh giá nội tại (internal validation) và đánh giá ngoại tại (external validation). Đánh giá nội tại sử dụng các chỉ số như Silhouette để đo độ cô đọng và tách biệt của các cụm. Đánh giá ngoại tại so sánh kết quả phân cụm với một nhãn có sẵn (nếu có) để xem các cụm được tạo ra có tương ứng với các lớp thực tế hay không. Quá trình này giúp khám phá các cấu trúc tự nhiên trong dữ liệu, chẳng hạn như phân khúc khách hàng dựa trên hành vi sử dụng.

4.1. So sánh Hierarchical Clustering và K Means trong Orange

Hai thuật toán này tiếp cận bài toán phân cụm dữ liệu theo cách khác nhau. Với Hierarchical Clustering, người dùng có thể thử các phương pháp liên kết (linkage) khác nhau như 'Complete', 'Average', hay 'Ward' để xem cấu trúc phân cấp nào phù hợp nhất. Ngược lại, K-Means yêu cầu người dùng chỉ định trước số cụm. Trong phân tích ví dụ, cả hai phương pháp đều được thử nghiệm với số cụm từ 2 đến 5. Kết quả cho thấy Hierarchical Clustering, đặc biệt với phương pháp liên kết 'Weighted' và 'Complete' cho 2 cụm, mang lại kết quả tốt hơn dựa trên cả đánh giá nội và ngoại.

4.2. Đo lường chất lượng phân cụm bằng chỉ số Silhouette

Để đánh giá nội tại, chỉ số Silhouette là một thước đo phổ biến. Widget 'Silhouette Plot' trong Orange trực quan hóa chỉ số này cho từng điểm dữ liệu trong mỗi cụm. Một chỉ số Silhouette cao (gần 1) cho thấy điểm dữ liệu đó rất phù hợp với cụm của nó và cách xa các cụm khác. Nghiên cứu chỉ ra rằng khi áp dụng K-Means, nhiều cụm có chỉ số Silhouette thấp, cho thấy phương pháp này không tối ưu cho bộ dữ liệu đang xét. Ngược lại, phương pháp Hierarchical Clustering (với liên kết Weighted và Complete) tạo ra các cụm có chỉ số Silhouette trung bình cao hơn 0.5, cho thấy mô hình đáng tin cậy. Đây là một dẫn chứng quan trọng để lựa chọn phương pháp clustering phù hợp.

4.3. Đánh giá ngoại tại qua Pivot Table để tìm kiếm insight

Khi có một biến nhãn (như 'Churn'), ta có thể thực hiện đánh giá ngoại tại để xem các cụm được tạo ra có ý nghĩa nghiệp vụ hay không. Widget 'Pivot Table' được sử dụng để đối chiếu kết quả phân cụm với nhãn 'Churn'. Phân tích cho thấy, với phương pháp Hierarchical 2 cụm, một cụm gần như chỉ chứa các khách hàng 'Không rời bỏ' (tỷ lệ rất cao, ví dụ 100% hoặc 99.55%). Điều này cho thấy thuật toán đã thành công trong việc xác định một phân khúc khách hàng rất trung thành. Insight này cực kỳ giá trị, giúp doanh nghiệp hiểu rõ hơn về các nhóm khách hàng khác nhau trong tập dữ liệu của mình.

V. Ứng dụng Orange Xây dựng workflow khoa học dữ liệu hoàn chỉnh

Sức mạnh thực sự của Orange Data Mining nằm ở khả năng tích hợp tất cả các bước, từ thu thập dữ liệu đến triển khai mô hình, vào một workflow duy nhất. Việc này không chỉ giúp quản lý quy trình một cách có hệ thống mà còn tăng cường khả năng tái lặp và kiểm chứng của nghiên cứu. Một workflow điển hình cho bài toán phân tích dữ liệu với Orange bắt đầu với widget 'File' để nạp dữ liệu. Dòng chảy dữ liệu sau đó đi qua các bước tiền xử lý dữ liệu như đã mô tả, bao gồm việc sử dụng 'Rank' để chọn lọc thuộc tính và 'Select Columns' để loại bỏ các biến không cần thiết. Tiếp theo, dòng chảy được chia nhánh: một nhánh đi đến 'Test & Score' để huấn luyện và đánh giá các mô hình phân loại dữ liệu, nhánh còn lại đi đến các widget như 'Distances', 'Hierarchical Clustering' hoặc 'K-Means' để thực hiện phân cụm dữ liệu. Cuối cùng, các kết quả từ mô hình tốt nhất (ví dụ: Neural Network) có thể được sử dụng trong widget 'Predictions' để dự báo trên một tập dữ liệu mới. Việc xây dựng một workflow tổng thể như vậy giúp biến một quy trình phân tích phức tạp thành một sơ đồ logic, dễ hiểu và dễ dàng trình bày.

5.1. Sơ đồ workflow tổng thể Từ dữ liệu thô đến insight

Một sơ đồ workflow hoàn chỉnh trong Orange, như được minh họa trong 'Hình 46 Workflow toàn bài' của tài liệu gốc, là một bản đồ trực quan của toàn bộ quá trình nghiên cứu. Nó bắt đầu với nguồn dữ liệu, đi qua các bước làm sạch, lựa chọn mô hình, đánh giá và cuối cùng là đưa ra dự báo. Workflow này không phải là một chu trình tĩnh. Người dùng có thể dễ dàng thay đổi các tham số của một widget bất kỳ (ví dụ: thay đổi số cụm trong K-Means) và toàn bộ workflow phía sau sẽ tự động cập nhật kết quả. Tính tương tác này cho phép thử nghiệm nhanh các giả thuyết khác nhau, một yếu tố cực kỳ quan trọng trong quá trình khai phá dữ liệu.

5.2. Kiến nghị kinh doanh từ kết quả phân tích dữ liệu

Mục tiêu cuối cùng của khoa học dữ liệu ứng dụng là tạo ra giá trị kinh doanh. Các kết quả phân tích từ Orange cung cấp cơ sở vững chắc để đưa ra các kiến nghị chiến lược. Dựa trên phân tích các biến có ảnh hưởng lớn đến tỷ lệ rời bỏ như 'Customer Value' và 'Seconds of Use', doanh nghiệp có thể hành động. Ví dụ, khi biết rằng nhóm khách hàng rời bỏ chủ yếu có giá trị 'Customer Value' thấp (<500), công ty có thể thiết kế các chương trình khuyến mãi, gói cước ưu đãi hoặc chiến dịch chăm sóc khách hàng đặc biệt nhắm vào phân khúc này. Tương tự, việc nhận thấy khách hàng rời bỏ thường có thời gian sử dụng dịch vụ thấp (<6500 giây) có thể gợi ý cho việc phát triển các gói dịch vụ linh hoạt hơn để khuyến khích họ sử dụng, từ đó giảm tỷ lệ rời bỏ và tăng doanh thu.

11/09/2025

Bạn đang xem trước tài liệu:

Môn học khoa học dữ liệu đề tài ứng dụng khoa học dữ liệu và công cụ orange vào phân tích

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu đề tài Chương 2: Mô tả và tiền xử lý dữ liệu Chương 3: Khai phá dữ liệu Chương 4: Kết luận và kiến nghị Chương 2. Mô tả và tiền xử lý dữ liệu 1. Mô tả bộ dữ liệu Nhóm chúng em lựa chọn bộ dữ liệu … làm mô hình nghiên cứu. Đây là bộ dữ liệu phân lớp và các dữ liệu được thu thập ngẫu nhiên từ cơ sở dữ liệu của một công ty viễn thông trong khoảng thời gian 12 tháng.

Bộ dữ liệu này nhằm mục đích dự đoán khách hàng sẽ rời bỏ dịch vụ (churn) hay không dựa trên các yếu tố như thông tin cá nhân, dịch vụ đăng ký, tần suất sử dụng, và các thông tin giao dịch. Bộ dữ liệu tổng cộng có … dòng dữ liệu, mỗi dòng đại diện cho một khách hàng, bao gồm thông tin cho … biến của bộ dữ liệu và không có giá trị bị thiếu. Biến mục tiêu Churn có 2 giá trị (0,1) tương ứng với “0” là khách hàng không rời bỏ và “1” là khách hàng rời bỏ. Hình 1 Thông tin bộ dữ liệu 1.

Mô tả các biến: - Call Failure (Các cuộc gọi thất bại): số lượng các cuộc gọi thất bại - Complains (Số lượng khiếu nại): Nhị phân (0: không khiếu nại; 1: có khiếu nại) - Subscription Length (Thời hạn đăng ký dịch vụ): tổng số tháng đăng ký dịch vụ - Charge Amount (Tiền phí cước): Thuộc tính thứ tự (0: số tiền thấp nhất; 9: số tiền cao nhất) - …. - Cụ thể bảng dữ liệu và vai trò của các biến trong hình sau: 10 Hình 2 Kiểu dữ liệu và vai trò của các giá trị 2. Thống kê mô tả 2.1 Mô tả dữ liệu Để mô tả dữ liệu, ta vào hộp thoại Feature Statistics trong hộp thoại Data. 11 Hình 3 Feature Statistics Bảng thống kê mô tả bao gồm các đại lượng: Mean, Mode, Median, Dispersion, Min, Max và Missing cho từng biến.

Có thể thấy rằng các biến đều không có giá trị bị thiếu. Trong đó: - Mean: giá trị trung bình - Mode: giá trị xuất hiện nhiều nhất trong tập dữ liệu - Median: trung vị - giá trị nằm giữa tập dữ liệu - Dispersion: Độ phân tán - Min: Giá trị nhỏ nhất - Max: Giá trị lớn nhất 12 - Missing: Phần trăm dữ liệu bị thiếu Nhận xét: 1. Số giây sử dụng (Seconds of Use): Thời gian sử dụng trung bình là 4472.46 giây, với trung vị là 2990 giây nhưng nhiều khách hàng không sử dụng hoặc sử dụng rất ít nên mode là 0. Biến này có giá trị nhỏ nhất là 0 giây và lớn nhất là 17090 giây, với mức độ phân tán là 0.

Điều này cho thấy việc khách hàng dành khá ít thời gian cho việc sử dụng dịch vụ của công ty. Không có dữ liệu bị thiếu. Giá trị khách hàng (Customer Value): Giá trị trung bình là 470.97, với trung vị là 228.48 và mode là 0. Giá trị thấp nhất là 0 chạy dần tới giá trị cao nhất là 2165.28, với mức độ phân tán là 1.

So với giá trị lớn nhất của biến ta thấy có sự chênh lệch lớn gấp 5 lần giá trị trung bình. Số liệu này cho thấy sự chênh lệch rõ rệt giữa các nhóm khách hàng. Không có dữ liệu bị thiếu. Tần suất gửi tin nhắn (Frequency of SMS): Giá trị trung bình là 73.17 cao hơn nhiều so với trung vị 21 và mode 0, điều này cho thấy nhiều khách hàng không gửi tin nhắn hoặc gửi rất ít tin nhắn.

Giá trị thấp nhất là 0 tin nhắn, giá trị cao nhất là 522 tin nhắn, với mức độ phân tán là 1. Dữ liệu cho thấy sự chênh lệch rõ ràng trong hành vi sử dụng dịch vụ gửi tin nhắn. Phần lớn khách hàng có tần suất sử dụng thấp hoặc không sử dụng, trong khi một số ít khách hàng có tần suất sử dụng rất cao. Không có dữ liệu bị thiếu.

Tần suất sử dụng (Frequency of Use): Giá trị trung bình là 69.46, với trung vị là 54 và mode là 0, điều này cho thấy phần lớn khách hàng ít hoặc thậm chí là không sử dụng dịch vụ. Giá trị thấp nhất là 0 dao động đến giá trị cao nhất là 255, với mức phân tán 0. Dữ liệu có sự phân hóa mạnh cho thấy tần suất sử dụng dịch vụ dường như có hai nhóm khách hàng chính: nhóm không sử dụng và nhóm sử dụng thường xuyên. Không có dữ liệu bị thiếu.

Thời hạn đăng ký (Subscription Length): Giá trị trung bình của thời hạn đăng ký là 32.54 tháng, với trung vị là 35 tháng và giá trị phổ biến nhất (mode) là 36 tháng. Điều này cho thấy đa số khách hàng có thời hạn đăng ký kéo dài từ 35 đến 36 tháng, phân phối có vẻ khá cân đối, không có sự chênh lệch lớn. Thời hạn đăng ký dao động từ 3 tháng (ngắn nhất) đến 47 tháng (dài nhất), cho thấy sự khác biệt rõ rệt giữa các nhóm khách hàng. Độ phân tán thấp là 0.26, dữ liệu cho thấy phần lớn khách hàng có thời hạn đăng ký tương đối ổn định quanh giá trị trung vị (35 tháng).

Không có dữ liệu bị thiếu. Tuổi (Age): Tuổi trung bình của khách hàng là 31 tuổi, với trung vị và mode đều là 30 tuổi. Điều này cho thấy phần lớn đối tượng khách hàng nằm trong độ tuổi trưởng thành, có khả năng tự chủ về tài chính. Tuổi nhỏ nhất là 15, trong khi tuổi lớn nhất là 55, và độ phân tán là 0.

Từ 15 tuổi đến 55 tuổi cho thấy sự đa dạng về độ tuổi khách hàng, đồng thời độ phân tán khá thấp 0,28 cho thấy nhóm khách hàng có sự tương đồng về độ tuổi. Không có dữ liệu bị thiếu. Số lượng cuộc gọi riêng biệt (Distinct Called Numbers): Số lượng cuộc gọi riêng biệt mà khách hàng gọi trung bình là 23.51, với trung vị là 21 và mode là 0. Dữ liệu cho thấy một phần lớn khách hàng không thực hiện cuộc gọi hoặc chỉ thực hiện rất ít cuộc gọi.

Có thể đây là nhóm khách hàng không sử dụng dịch vụ hoặc khách hàng ít quan tâm đến việc gọi điện. Tần suất cuộc gọi dao động từ 0 (giá trị nhỏ nhất) đến 97 (giá trị lớn nhất), với mức độ phân tán thấp là 0. Điều này cho thấy nhóm ít khách hàng thực hiện cuộc gọi nhiều, tạo ra một mức độ dao động lớn trong dữ liệu. Không có dữ liệu bị thiếu.

Số lần cuộc gọi thất bại (Call Failure): Số lần cuộc gọi thất bại trung bình là 7.63, với trung vị là 6 và mode là 0 (tức là phần lớn khách hàng không gặp phải cuộc gọi thất bại, hoặc chỉ có rất ít cuộc gọi thất bại). 14 Số lần cuộc gọi thất bại dao động từ 0 (giá trị nhỏ nhất) đến 36 (giá trị lớn nhất), ta thấy được phần lớn khách hàng có ít hoặc không có cuộc gọi thất bại ( thể hiện bởi mode = 0), nhưng một số ít khách hàng có thể gặp phải một lượng lớn cuộc gọi thất bại (tối đa lên đến 36 lần). Đồng thời với mức độ phân tán thấp 0.95 cho thấy rằng các giá trị không biến động quá lớn, chỉ có một nhóm nhỏ khách hàng mới gặp phải nhiều cuộc gọi thất bại. Không có dữ liệu bị thiếu.2 Đồ thị phân lớp: Do đây là bộ dữ liệu phân lớp nên ta vẽ đồ thị phân bố x theo y.

Ta tiến hành chọn công cụ distribution trong hộp thoại Visualize. Hình 4 Distributions của đặc tính Call Failure • Call Failure: Nhận xét: - Call Failure <= 34: không xác định 0 và 1. - Call Failure >= 35: Churn là 0 15 Hình 5 Distributions của đặc tính Complains • Complains: Nhận xét Complains = 0 và Complains = 1: không xác định 0 và 1. Hình 6 Distributions của đặc tính Subscription Lengthiption • Subscription Length Nhận xét: 16 Subscription Length <= 17 và 24 <= Subscr Length <= 45: không xác định 0 và 1.

- 18 <= Subscription Length <= 23 và Subscription Length >= 46: Churn là 0 Hình 7 Distributions của đặc tính Charge Amount • Charge Amount: Nhận xét: - 4 <= Charge Amount: không xác định 0 và 1 - Charge Amount > 4: Churn là 0 17 Hình 8 Distributions của đặc tính Frequency of use • Seconds of Use NHẬN XÉT: …. Hình 9 Distributions của đặc tính Frequency of use • Frequency of use: Nhận xét: …. 18 Hình 10 Distributions của đặc tính Frequency of SMS ………… Kết luận: Vậy tất cả các biến đều không thể phân biệt tốt giữa hai giá trị 0 và 1 của biến Churn.Tiền xử lý dữ liệu - Gain ratio: là một số liệu được sử dụng trong lĩnh vực khoa học dữ liệu và học máy để đánh giá hiệu quả của một thuộc tính cụ thể trong việc phân loại dữ liệu - Gini: là thước đo mức độ không tinh khiết trong một tập dữ liệu. Chỉ số này được tính bằng cách cộng các xác suất bình phương của từng lớp.

Chỉ số Gini thấp hơn cho thấy tập dữ liệu tinh khiết hơn Vì bộ dữ liệu … không có dữ liệu bị thiếu nên ta không sử dụng công cụ Impute trong hộp thoại transform để xử lý dữ liệu. Tiếp đến, ta tiến hành lọc dữ liệu “…. gồm các bước sau trong phần mềm Orange: Đầu tiên tiến hành kiểm tra sự tương quan giữa các biến độc lập với biến phụ thuộc bằng Rank. 19 Hình 11 Rank của các đặc tính dữ liệu Theo đó ta quan sát được biến Age và biến Age Group đều có độ tương quan thấp theo chỉ số Gain ratio= 0 và Gini= NA nên ta tiến hành loại bỏ.

Ngoài ra các biến còn lại có chỉ số Gain ratio và Gini > 0 nên đều ảnh hưởng đến biến Churn. Sau đó ta loại bỏ hai biến Age và Age Group bằng công cụ Widget Select Columns 20 Hình 12 Loại bỏ - Select Columns sau khi kiểm tra qua Rank Sau khi các cột đã được lọc, chọn Widget Data Table để kiểm tra: Hình 13 Data Table sau khi đã tiền xử lý dữ liệu Cuối cùng lưu dữ liệu lại bằng Save Data. Sau cùng, ta có giao diện trên Orange như sau: 21 Hình 14 Workflow tiền xử lý dữ liệu Chương 3. Khai phá dữ liệu 1.

Phân lớp dữ liệu: Dữ liệu đã cho là dữ liệu đã có nhãn target: Churn, nên chúng ta tiến hành các bước phân lớp dữ liệu để tiến hành dự báo đúng sai. Các bước thực hiện sẽ được làm trên phần mềm Orange như sau: Trước khi phân lớp dữ liệu, vào file excel đã lưu ở các bước trên, cũng tức là file excel đã được tiền xử lý, lọc từ 3150 xuống còn 3140 dòng, để chừa 10 dòng ra để kiểm tra. Vào file Orange, trích xuất file có 3140 dòng qua widget File, kiểm tra số lượng dòng qua Data Table.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ