NGHIÊN CĀU XÂY DĂNG MÔ HÌNH ENSEMBLE LEARNING ĐÂ DĂ BÁO KHÁCH HÀNG RâI M¾NG T¾I VNPT TÂY NINH

Nghiên cứu mô hình ensemble learning dự đoán khách hàng rời mạng VNPT Tây Ninh. Ứng dụng AI, phân tích dữ liệu, tối ưu giữ chân khách hàng hiệu quả.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Đồ án tốt nghiệp thạc sỹ kỹ thuật

2024

117

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

1. CHƯƠNG 1: TỔNG QUAN VÀ ĐẶT TÀI NGHIÊN CỨU

1.1. Tổng quan về mạng viễn thông và thuê bao

1.2. Tổng quan về hiện trạng thuê bao rãi mạng viễn thông

1.3. Tổng quan dữ liệu lớn và khách hàng mạng viễn thông

1.4. Tổng quan về mô hình dự báo học kết hợp

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Các công trình liên quan trên thế giới

2.2. Các công trình liên quan ở Việt Nam

3. CHƯƠNG 3: TẬP DỮ LIỆU NGHIÊN CỨU

3.1. Giới thiệu về tập dữ liệu khách hàng rãi mạng viễn thông

3.2. Phân tích tập dữ liệu khách hàng rãi mạng viễn thông

3.3. Tiền xử lý tập dữ liệu khách hàng rãi mạng viễn thông

4. CHƯƠNG 4: MÔ HÌNH HỌC KẾT HỢP DỰ BÁO

4.1. Môi trường mô phỏng thí nghiệm

4.2. Thí nghiệm huấn luyện mô hình học kết hợp

4.2.1. Mô hình Baseline

4.2.2. Nhóm mô hình Logistic Regression, kNN và Naïve Bayes

4.2.3. Mô hình học kết hợp Decision Tree Classifier

4.2.4. Mô hình học kết hợp Bagging, AdaBoost và GB

4.2.5. Mô hình học kết hợp Random Forest Classifier

4.3. Đánh giá kết quả huấn luyện mô hình học kết hợp

4.3.1. Kết quả các mô hình học kết hợp

4.3.2. So sánh với kết quả Telco Customer Churn

4.3.3. So sánh với đề án rãi mạng của tác giả Nguyễn Đắc Trung

4.4. Mô hình học kết hợp xuất Meta-Model

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG RỜI MẠNG VỚI TẬP DỮ LIỆU TẠI VNPT TÂY NINH

5.1. Thiết kế và phát triển ứng dụng

5.2. Phân tích tập dữ liệu khách hàng sử dụng dịch vụ viễn thông tại VNPT Tây Ninh

5.3. Minh họa các chức năng chính của ứng dụng

PHẦN KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Dự Đoán Churn tại VNPT Tây Ninh

Nghiên cứu dự đoán khách hàng rời mạng (Churn Prediction) trở nên cấp thiết trong bối cảnh cạnh tranh khốc liệt của ngành viễn thông. Các doanh nghiệp, đặc biệt là VNPT Tây Ninh, cần chủ động giữ chân khách hàng. Phương pháp dự đoán thủ công tốn thời gian và kém chính xác. Việc áp dụng Ensemble Learning giúp tăng cường hiệu quả dự báo và đưa ra các giải pháp kịp thời. Mục tiêu chính của nghiên cứu là xây dựng mô hình học kết hợp có khả năng dự báo chính xác churn dựa trên dữ liệu khách hàng. Nghiên cứu sẽ phân tích dữ liệu từ Kaggle và VNPT, lựa chọn thuật toán phù hợp, đánh giá độ chính xác và xây dựng ứng dụng dự báo. Theo báo cáo của JobsGo 2023, VNPT là một trong những công ty viễn thông hàng đầu Việt Nam, cần duy trì vị thế cạnh tranh bằng cách tối ưu chăm sóc khách hàng và retention rate.

1.1. Tầm quan trọng của dự đoán Churn trong Viễn thông

Trong ngành viễn thông, việc dự đoán khách hàng rời mạng có vai trò quan trọng trong việc duy trì doanh thu và lợi nhuận. Các doanh nghiệp viễn thông phải đối mặt với sự cạnh tranh khốc liệt và chi phí lớn để thu hút khách hàng mới. Do đó, việc giữ chân khách hàng hiện tại trở nên quan trọng hơn bao giờ hết. Churn prediction cho phép doanh nghiệp xác định những khách hàng có nguy cơ rời mạng và thực hiện các biện pháp can thiệp kịp thời, từ đó giảm thiểu tỷ lệ churn và bảo vệ doanh thu. Dữ liệu được thu thập và phân tích từ VNPT giai đoạn 2010 - 2022.

1.2. Giới thiệu về VNPT Tây Ninh và Bài toán Churn

VNPT Tây Ninh, như một chi nhánh của VNPT, đối mặt với các thách thức chung của ngành, bao gồm cả vấn đề churn. Tuy nhiên, bối cảnh địa phương và đặc điểm khách hàng riêng biệt đòi hỏi các giải pháp tùy chỉnh. Việc nghiên cứu và xây dựng mô hình dự đoán churn riêng cho VNPT Tây Ninh cho phép công ty đưa ra các quyết định dựa trên dữ liệu và tối ưu hóa các chiến lược giữ chân khách hàng phù hợp với thị trường địa phương. Điều này giúp VNPT Tây Ninh nâng cao khả năng cạnh tranh và duy trì vị thế trên thị trường viễn thông của tỉnh.

II. Vấn Đề Khách Hàng Rời Mạng và Phương Pháp Tiếp Cận

Vấn đề khách hàng rời mạng gây ảnh hưởng lớn đến doanh thu và lợi nhuận của các công ty viễn thông. Các yếu tố ảnh hưởng đến churn rất đa dạng, từ giá cước, chất lượng dịch vụ đến trải nghiệm khách hàng. Nghiên cứu này sử dụng Ensemble Learning để xử lý dữ liệu lớn và phức tạp, xác định các yếu tố quan trọng và xây dựng mô hình dự đoán chính xác. Mục tiêu là cung cấp cho VNPT Tây Ninh công cụ hiệu quả để giảm tỷ lệ churn và tăng retention rate. Nghiên cứu dựa trên việc phân tích dữ liệu từ các nguồn khác nhau, bao gồm thông tin cá nhân, lịch sử sử dụng dịch vụ và tương tác với chăm sóc khách hàng.

2.1. Các yếu tố chính ảnh hưởng đến quyết định rời mạng

Quyết định rời mạng của khách hàng chịu ảnh hưởng bởi nhiều yếu tố. Giá cước cao so với đối thủ, chất lượng dịch vụ không ổn định, và trải nghiệm khách hàng kém là những nguyên nhân hàng đầu. Ngoài ra, các yếu tố khác như chính sách chăm sóc khách hàng không hiệu quả, thiếu các chương trình khuyến mãi hấp dẫn, và sự xuất hiện của các đối thủ cạnh tranh với các dịch vụ mới cũng đóng vai trò quan trọng. Việc xác định và đánh giá tầm quan trọng của từng yếu tố là bước quan trọng để xây dựng mô hình dự đoán churn hiệu quả. Các mô hình học máy như Ensemble Learning cho phép phân tích các yếu tố một cách toàn diện và xác định mối quan hệ giữa chúng và quyết định churn của khách hàng.

2.2. Giới thiệu về Ensemble Learning và ưu điểm vượt trội

Ensemble Learning là một phương pháp học máy kết hợp nhiều mô hình học máy đơn lẻ để tạo ra một mô hình dự đoán mạnh mẽ hơn. Ưu điểm của Ensemble Learning bao gồm khả năng cải thiện độ chính xác, giảm overfitting, và tăng tính ổn định của mô hình. Các thuật toán Ensemble Learning phổ biến bao gồm Random Forest, Gradient Boosting, XGBoost, LightGBM, và CatBoost. Những thuật toán này đã được chứng minh là hiệu quả trong nhiều bài toán phân tích dữ liệu khác nhau, bao gồm cả dự đoán churn. Trong nghiên cứu này, Ensemble Learning được sử dụng để tận dụng sức mạnh của nhiều mô hình học máy khác nhau và tạo ra một mô hình dự đoán churn có độ chính xác cao cho VNPT Tây Ninh.

III. Phương Pháp Xây Dựng Mô Hình Dự Đoán Churn tại VNPT

Quá trình xây dựng mô hình dự đoán churn bao gồm nhiều bước, từ thu thập và tiền xử lý dữ liệu đến lựa chọn và huấn luyện mô hình. Dữ liệu được thu thập từ các nguồn khác nhau, bao gồm hệ thống quản lý khách hàng, hồ sơ thanh toán, và tương tác với chăm sóc khách hàng. Sau khi thu thập, dữ liệu được tiền xử lý để loại bỏ các giá trị thiếu, chuẩn hóa dữ liệu, và chuyển đổi các biến. Tiếp theo, các thuật toán Ensemble Learning được áp dụng để huấn luyện mô hình. Cuối cùng, mô hình được đánh giá và tinh chỉnh để đạt được độ chính xác cao nhất. Mục tiêu là tạo ra một mô hình có thể dự đoán chính xác những khách hàng có nguy cơ rời mạng cao và cung cấp thông tin chi tiết để VNPT Tây Ninh thực hiện các biện pháp can thiệp kịp thời.

3.1. Thu thập và Tiền Xử lý Dữ liệu Khách hàng VNPT

Việc thu thập dữ liệu là bước đầu tiên và quan trọng nhất trong quá trình xây dựng mô hình dự đoán churn. Dữ liệu cần được thu thập từ nhiều nguồn khác nhau, bao gồm hệ thống quản lý khách hàng (CRM), lịch sử thanh toán, thông tin về dịch vụ sử dụng, và tương tác với bộ phận chăm sóc khách hàng. Sau khi thu thập, dữ liệu cần được tiền xử lý để đảm bảo chất lượng và tính nhất quán. Quá trình tiền xử lý bao gồm xử lý các giá trị thiếu, loại bỏ các dữ liệu nhiễu, chuẩn hóa dữ liệu, và chuyển đổi các biến. Việc tiền xử lý dữ liệu cẩn thận sẽ giúp cải thiện độ chính xác và hiệu quả của mô hình dự đoán churn.

3.2. Lựa chọn và Huấn luyện Mô hình Ensemble Learning

Sau khi dữ liệu đã được tiền xử lý, bước tiếp theo là lựa chọn và huấn luyện mô hình Ensemble Learning. Việc lựa chọn thuật toán phù hợp phụ thuộc vào đặc điểm của dữ liệu và mục tiêu của bài toán. Các thuật toán Ensemble Learning phổ biến như Random Forest, Gradient Boosting, XGBoost, LightGBM, và CatBoost có thể được sử dụng. Sau khi lựa chọn thuật toán, mô hình cần được huấn luyện trên dữ liệu. Quá trình huấn luyện bao gồm điều chỉnh các tham số của mô hình để đạt được độ chính xác cao nhất. Việc sử dụng các kỹ thuật như cross-validation và hyperparameter tuning có thể giúp cải thiện hiệu suất của mô hình.

IV. Đánh Giá và Ứng Dụng Mô Hình Dự Đoán Churn tại VNPT

Sau khi huấn luyện, mô hình dự đoán churn cần được đánh giá để đảm bảo độ chính xác và hiệu quả. Các chỉ số đánh giá phổ biến bao gồm accuracy, precision, recall, F1-score, và AUC-ROC. Nếu mô hình đạt được độ chính xác chấp nhận được, nó có thể được triển khai vào thực tế. Ứng dụng của mô hình có thể bao gồm việc xác định những khách hàng có nguy cơ rời mạng cao và cung cấp thông tin chi tiết để VNPT Tây Ninh thực hiện các biện pháp can thiệp kịp thời. Mục tiêu là giảm tỷ lệ churn và tăng retention rate, từ đó cải thiện hiệu quả kinh doanh.

4.1. Các chỉ số đánh giá hiệu quả của Mô hình dự đoán

Việc đánh giá hiệu quả của mô hình dự đoán churn là rất quan trọng để đảm bảo rằng mô hình hoạt động tốt trong thực tế. Các chỉ số đánh giá phổ biến bao gồm accuracy (độ chính xác), precision (độ chuẩn xác), recall (độ phủ), F1-score (điểm F1), và AUC-ROC (diện tích dưới đường cong ROC). Accuracy đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán. Precision đo lường tỷ lệ dự đoán đúng trong số các khách hàng được dự đoán là churn. Recall đo lường tỷ lệ khách hàng churn được dự đoán đúng. F1-score là trung bình điều hòa của precision và recall. AUC-ROC đo lường khả năng phân biệt giữa khách hàng churn và không churn. Việc sử dụng kết hợp các chỉ số này giúp đánh giá toàn diện hiệu quả của mô hình.

4.2. Triển khai và Ứng dụng mô hình vào hệ thống VNPT Tây Ninh

Sau khi mô hình dự đoán churn đã được đánh giá và chứng minh là hiệu quả, bước tiếp theo là triển khai và ứng dụng vào hệ thống của VNPT Tây Ninh. Việc triển khai có thể bao gồm tích hợp mô hình vào hệ thống CRM hoặc xây dựng một ứng dụng riêng biệt. Ứng dụng của mô hình có thể bao gồm việc xác định những khách hàng có nguy cơ rời mạng cao và cung cấp thông tin chi tiết cho bộ phận chăm sóc khách hàng để thực hiện các biện pháp can thiệp kịp thời. Ví dụ, VNPT Tây Ninh có thể cung cấp các ưu đãi đặc biệt hoặc cải thiện chất lượng dịch vụ cho những khách hàng có nguy cơ rời mạng cao. Việc triển khai và ứng dụng mô hình một cách hiệu quả có thể giúp VNPT Tây Ninh giảm tỷ lệ churn và tăng retention rate.

V. Kết Luận và Hướng Phát Triển cho Nghiên Cứu Churn VNPT

Nghiên cứu này đã trình bày phương pháp xây dựng mô hình dự đoán churn bằng Ensemble Learning cho VNPT Tây Ninh. Kết quả cho thấy Ensemble Learning có thể cải thiện độ chính xác dự đoán so với các phương pháp truyền thống. Nghiên cứu cũng đề xuất các hướng phát triển tiếp theo, bao gồm việc thu thập thêm dữ liệu, thử nghiệm các thuật toán Ensemble Learning khác, và tích hợp mô hình vào hệ thống chăm sóc khách hàng để tăng hiệu quả. Mục tiêu cuối cùng là giúp VNPT Tây Ninh giảm tỷ lệ churn và tăng cường khả năng cạnh tranh.

5.1. Tóm tắt kết quả đạt được và những hạn chế của nghiên cứu

Nghiên cứu đã thành công trong việc xây dựng và đánh giá một mô hình dự đoán churn bằng Ensemble Learning cho VNPT Tây Ninh. Mô hình đạt được độ chính xác cao hơn so với các phương pháp truyền thống. Tuy nhiên, nghiên cứu cũng có một số hạn chế. Dữ liệu sử dụng trong nghiên cứu có thể chưa đầy đủ và không phản ánh đầy đủ các yếu tố ảnh hưởng đến churn. Ngoài ra, mô hình có thể cần được tinh chỉnh và cập nhật thường xuyên để duy trì độ chính xác trong bối cảnh thị trường thay đổi. Các kết quả chỉ mang tính chất tham khảo, cần được đánh giá lại khi có sự thay đổi về yếu tố đầu vào.

5.2. Đề xuất hướng nghiên cứu tiếp theo và ứng dụng thực tế

Hướng nghiên cứu tiếp theo có thể tập trung vào việc thu thập thêm dữ liệu, bao gồm cả dữ liệu từ các nguồn bên ngoài như mạng xã hội và khảo sát khách hàng. Việc thử nghiệm các thuật toán Ensemble Learning khác và kết hợp chúng với các phương pháp học máy khác cũng có thể cải thiện độ chính xác của mô hình. Ngoài ra, việc tích hợp mô hình vào hệ thống chăm sóc khách hàng có thể giúp VNPT Tây Ninh thực hiện các biện pháp can thiệp kịp thời và hiệu quả hơn. Ứng dụng trong thực tế sẽ giúp VNPT chủ động trong công tác chăm sóc khách hàng hơn.

01/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu xây dựng mô hình ensemble learning để dự báo khách hàng rời mạng tại vnpt tây ninh

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Ngành viễn thông tại Việt Nam đã chứng kiến sự phát triển vượt bậc với khoảng 140 triệu thuê bao di động tính đến cuối năm 2022, chiếm 143% dân số, cùng với hơn 68 triệu thuê bao internet và 16,3 triệu thuê bao cá nhân. VNPT Tây Ninh, một trong những nhà cung cấp dịch vụ viễn thông lớn, đang đối mặt với thách thức lớn về việc dự báo và giảm tỷ lệ khách hàng rời mạng (churn). Tỷ lệ churn cao ảnh hưởng trực tiếp đến doanh thu và chi phí đầu tư của doanh nghiệp, trong khi ARPU (Average Revenue Per User) chỉ đạt khoảng 180.000 đồng và vòng đời khách hàng trung bình khoảng 20 tháng. 

Nghiên cứu tập trung xây dựng mô hình Ensemble Learning nhằm dự báo chính xác khách hàng rời mạng tại VNPT Tây Ninh dựa trên tập dữ liệu khách hàng thu thập từ năm 2010 đến 2022. Mục tiêu cụ thể bao gồm phân tích đặc trưng dữ liệu khách hàng, lựa chọn thuật toán phù hợp, xây dựng mô hình meta-model, đánh giá hiệu quả và ứng dụng mô hình trong thực tế. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu suất kinh doanh, tiết kiệm chi phí, tăng khả năng cạnh tranh và đóng góp vào phát triển kỹ thuật quản lý khách hàng trong ngành viễn thông.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Ensemble Learning**: Kỹ thuật kết hợp nhiều mô hình học máy nhằm cải thiện độ chính xác và độ tin cậy của dự báo. Các phương pháp phổ biến gồm Bagging, Boosting, và Stacking.
- **Mô hình Stacking**: Kỹ thuật kết hợp các mô hình cơ sở (base-models) ở tầng 0 và một mô hình meta (meta-model) ở tầng 1 để tổng hợp dự báo, nâng cao hiệu quả dự báo.
- **Thuật toán học máy cơ bản**: Logistic Regression, k-Nearest Neighbor (kNN), Naive Bayes, Decision Tree, Random Forest, AdaBoost, Gradient Boosting.
- **Churn Customer (Khách hàng rời mạng)**: Thuật ngữ chỉ khách hàng ngừng sử dụng dịch vụ viễn thông, ảnh hưởng đến doanh thu và chiến lược giữ chân khách hàng.
- **Các chỉ số đánh giá mô hình**: Accuracy, Precision, Recall, F1-score, AUC.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Tập dữ liệu khách hàng viễn thông VNPT Tây Ninh gồm 114.177 quan sát với 29 biến đặc trưng, thu thập từ năm 2010 đến 2023, bao gồm thông tin cá nhân, hành vi sử dụng dịch vụ, lịch sử thanh toán, và trạng thái thuê bao.
- **Phân tích dữ liệu**: Khảo sát phân bố ngành nghề, loại khách hàng, doanh thu, trạng thái thanh toán, và các đặc trưng hành vi. Tiền xử lý dữ liệu bao gồm loại bỏ ngoại lệ, xử lý giá trị thiếu, tạo biến giả (dummies).
- **Phương pháp phân tích**: Áp dụng các thuật toán học máy đơn lẻ và kỹ thuật Ensemble Learning để xây dựng mô hình dự báo khách hàng rời mạng. Sử dụng kỹ thuật Oversampling để cân bằng dữ liệu.
- **Timeline nghiên cứu**: Thu thập và xử lý dữ liệu (6 tháng), xây dựng và huấn luyện mô hình (4 tháng), đánh giá và tối ưu mô hình (3 tháng), triển khai ứng dụng mô hình (2 tháng).
- **Cỡ mẫu và chọn mẫu**: Toàn bộ tập dữ liệu khách hàng VNPT Tây Ninh được sử dụng, đảm bảo tính đại diện và độ tin cậy cao cho mô hình.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Random Forest kết hợp Oversampling và giảm chiều dữ liệu đạt độ chính xác dự báo khách hàng rời mạng cao nhất, với Accuracy đạt trên 95%, F1-score trên 94%.
- Tỷ lệ khách hàng rời mạng trong tập dữ liệu là khoảng 1.59%, cho thấy sự mất cân bằng dữ liệu nghiêm trọng, cần áp dụng kỹ thuật cân bằng dữ liệu.
- Các yếu tố ảnh hưởng lớn nhất đến việc khách hàng rời mạng bao gồm số lần báo hỏng dịch vụ, số tháng thanh toán trước còn lại, và số lần tạm ngưng dịch vụ.
- Mô hình Stacking với meta-model Logistic Regression tổng hợp dự báo từ các mô hình cơ sở như kNN, XGBoost, và Random Forest cải thiện độ chính xác dự báo lên đến 96%, vượt trội so với các mô hình đơn lẻ.

### Thảo luận kết quả

Kết quả cho thấy kỹ thuật Ensemble Learning đặc biệt là Stacking và Random Forest rất hiệu quả trong việc dự báo khách hàng rời mạng trong ngành viễn thông, phù hợp với đặc thù dữ liệu lớn, phức tạp và mất cân bằng. So sánh với các nghiên cứu trước đây trong và ngoài nước, mô hình này có độ chính xác và khả năng ứng dụng thực tiễn cao hơn nhờ việc kết hợp nhiều thuật toán và xử lý dữ liệu kỹ lưỡng. Việc xác định các yếu tố ảnh hưởng giúp doanh nghiệp tập trung vào các biện pháp giữ chân khách hàng hiệu quả hơn. Dữ liệu có thể được trình bày qua biểu đồ phân bố tỷ lệ churn theo từng biến đặc trưng và bảng so sánh hiệu suất các mô hình.

## Đề xuất và khuyến nghị

- **Triển khai mô hình dự báo tự động**: Áp dụng mô hình Ensemble Learning vào hệ thống CRM của VNPT Tây Ninh để dự báo khách hàng rời mạng theo thời gian thực, nâng cao độ chính xác dự báo lên trên 95%, hoàn thành trong 6 tháng tới.
- **Tăng cường chăm sóc khách hàng có nguy cơ rời mạng cao**: Dựa trên kết quả dự báo, thiết lập các chương trình ưu đãi, hỗ trợ kỹ thuật và tư vấn cá nhân hóa nhằm giảm tỷ lệ churn ít nhất 10% trong vòng 1 năm.
- **Phát triển các gói dịch vụ tích hợp**: Khuyến khích khách hàng sử dụng các gói tích hợp (tivi, di động, internet) để tăng doanh thu và giảm khả năng rời mạng, mục tiêu tăng tỷ lệ khách hàng sử dụng gói tích hợp lên 60% trong 2 năm.
- **Đào tạo nhân viên và nâng cao năng lực phân tích dữ liệu**: Tổ chức các khóa đào tạo về kỹ thuật học máy và phân tích dữ liệu cho đội ngũ quản lý và kỹ thuật, nhằm tối ưu hóa việc vận hành mô hình và khai thác dữ liệu khách hàng.
- **Cập nhật và mở rộng dữ liệu liên tục**: Thu thập dữ liệu khách hàng mới và cập nhật dữ liệu hiện tại để mô hình luôn phản ánh chính xác hành vi khách hàng, đảm bảo hiệu quả dự báo lâu dài.

## Đối tượng nên tham khảo luận văn

- **Doanh nghiệp viễn thông**: Giúp cải thiện chiến lược giữ chân khách hàng, tối ưu hóa chi phí marketing và nâng cao doanh thu.
- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu**: Cung cấp phương pháp và mô hình học máy tiên tiến trong lĩnh vực dự báo khách hàng.
- **Chuyên gia quản lý khách hàng (CRM)**: Áp dụng mô hình dự báo để nâng cao hiệu quả quản lý và chăm sóc khách hàng.
- **Các nhà hoạch định chính sách và quản lý ngành viễn thông**: Hiểu rõ xu hướng khách hàng và tác động của các yếu tố kinh tế kỹ thuật đến thị trường viễn thông.

## Câu hỏi thường gặp

1. **Mô hình Ensemble Learning là gì và tại sao lại hiệu quả trong dự báo khách hàng rời mạng?**  
Ensemble Learning là kỹ thuật kết hợp nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định dự báo. Nó hiệu quả vì tận dụng ưu điểm của từng mô hình, giảm thiểu sai số và tăng khả năng tổng quát hóa.

2. **Tại sao cần xử lý mất cân bằng dữ liệu trong bài toán dự báo churn?**  
Dữ liệu khách hàng rời mạng thường chiếm tỷ lệ rất nhỏ (khoảng 1.59%), nếu không xử lý mất cân bằng, mô hình dễ bị thiên lệch, dự báo sai nhóm khách hàng quan trọng.

3. **Các yếu tố nào ảnh hưởng nhiều nhất đến việc khách hàng rời mạng?**  
Số lần báo hỏng dịch vụ, số tháng thanh toán trước còn lại, số lần tạm ngưng dịch vụ là những yếu tố quan trọng nhất ảnh hưởng đến quyết định rời mạng của khách hàng.

4. **Mô hình Stacking khác gì so với các phương pháp Ensemble khác?**  
Stacking sử dụng một mô hình meta để học cách kết hợp dự báo từ nhiều mô hình cơ sở, trong khi Bagging và Boosting chỉ kết hợp dự báo theo cách trung bình hoặc trọng số.

5. **Làm thế nào để áp dụng mô hình dự báo vào thực tế tại VNPT Tây Ninh?**  
Mô hình được tích hợp vào hệ thống CRM, dự báo khách hàng có nguy cơ rời mạng để kịp thời triển khai các chương trình giữ chân, đồng thời cập nhật dữ liệu liên tục để duy trì hiệu quả.

## Kết luận

- Xây dựng thành công mô hình Ensemble Learning dự báo khách hàng rời mạng với độ chính xác trên 95%, phù hợp với đặc thù dữ liệu viễn thông VNPT Tây Ninh.  
- Xác định các yếu tố ảnh hưởng chính đến churn giúp doanh nghiệp tập trung cải thiện dịch vụ và chăm sóc khách hàng.  
- Mô hình Stacking meta-model nâng cao hiệu quả dự báo so với các mô hình đơn lẻ.  
- Đề xuất các giải pháp ứng dụng mô hình trong quản lý khách hàng, tăng doanh thu và giảm chi phí.  
- Tiếp tục cập nhật dữ liệu và tối ưu mô hình để duy trì hiệu quả trong tương lai.

Hành động tiếp theo là triển khai mô hình vào hệ thống CRM của VNPT Tây Ninh và đào tạo nhân viên vận hành, đồng thời mở rộng nghiên cứu áp dụng cho các nhà mạng khác nhằm nâng cao năng lực cạnh tranh toàn ngành.

Trích đoạn nội dung tài liệu

HàC VIÆN CÔNG NGHÆ B¯U CHÍNH VIÄN THÔNG ----------------------------------- NguyÅn Tráng ThÁo NGHIÊN CĀU XÂY DĂNG MÔ HÌNH ENSEMBLE LEARNING ĐÂ DĂ BÁO KHÁCH HÀNG RâI M¾NG T¾I VNPT TÂY NINH ĐÀ ÁN TàT NGHIÆP TH¾C SỸ KỸ THU¾T (Theo đßnh h°áng āng dāng) THÀNH PHà Hâ CHÍ MINH – NM 2024 HàC VIÆN CÔNG NGHÆ B¯U CHÍNH VIÄN THÔNG -------------------------------------- NguyÅn Tráng ThÁo NGHIÊN CĀU XÂY DĂNG MÔ HÌNH ENSEMBLE LEARNING ĐÂ DĂ BÁO KHÁCH HÀNG RâI M¾NG T¾I VNPT TÂY NINH Chuyên ngành: Há tháng thông tin Mã sá: 8.04 ĐÀ ÁN TàT NGHIÆP TH¾C SỸ KỸ THU¾T (Theo đßnh h°áng āng dāng) NG¯âI H¯àNG DẪN KHOA HàC: TS. HUỲNH TRàNG TH¯A THÀNH PHà Hâ CHÍ MINH – NM 2024 i LâI CAM ĐOAN Tôi cam oan rằng Å án tát nghiáp th¿c sĩ: <NGHIÊN CỨU XÂY DỰNG MÔ HÌNH ENSEMBLE LEARNING Đà DỰ BÁO KHÁCH HÀNG RÞI M¾NG T¾I VNPT TÂY NINH= là công trình nghiên cāu cÿa chính tôi. Tôi cam oan các sá liáu, kÃt quÁ nêu trong Å án là trung thăc và ch°a từng °āc ai công bá trong bÃt kỳ công trình nào khác. Không có sÁn phẩm/nghiên cāu nào cÿa ng°ãi khác °āc sÿ dăng trong Å án này mà không °āc trích d¿n theo úng quy ßnh.

Hã Chí Minh, ngày 14 tháng 05 nm 2024 Hác viên thăc hiÇn đÁ án NguyÅn Tráng ThÁo ii LâI CÀM ¡N Trong suát quá trình hác tÁp và nghiên cāu thăc hián Å án tát nghiáp th¿c sĩ, ngoài nỗ lăc cÿa bÁn thân, tôi ã nhÁn °āc să h°áng d¿n nhiát tình quý báu cÿa quý ThÅy Cô, cùng vái să ßng viên và ÿng hß cÿa gia ình, b¿n bè và ãng nghiáp. Vái lòng kính tráng và biÃt ¢n sâu sÃc, tôi xin gÿi lãi cÁm ¢n chân thành tái: Ban Giám Đác, Phòng ào t¿o sau ¿i hác và quý ThÅy Cô ã t¿o mái iÅu kián thuÁn lāi giúp tôi hoàn thành Å án. Tôi xin chân thành cÁm ¢n ThÅy TS. Huỳnh Tráng Th°a, ng°ãi thÅy kính yêu ã hÃt lòng giúp ÿ, h°áng d¿n, ßng viên, t¿o iÅu kián cho tôi trong suát quá trình thăc hián và hoàn thành Å án tát nghiáp th¿c sĩ.

Tôi xin chân thành cÁm ¢n gia ình, b¿n bè, ãng nghiáp trong c¢ quan ã ßng viên, hỗ trā tôi trong lúc khó khn ể tôi có thể hác tÁp và hoàn thành Å án. Mặc dù ã có nhiÅu cá gÃng, nỗ lăc, nh°ng do thãi gian và kinh nghiám nghiên cāu khoa hác còn h¿n chÃ nên không thể tránh khßi nhāng thiÃu sót. Tôi rÃt mong nhÁn °āc să góp ý cÿa quý ThÅy Cô cùng b¿n bè ãng nghiáp ể kiÃn thāc cÿa tôi ngày mßt hoàn thián h¢n. Xin chân thành cÁm ¢n! TP.

Hã Chí Minh, ngày 14 tháng 05 nm 2024 Hác viên thăc hiÇn đÁ án NguyÅn Tráng ThÁo iii DANH SÁCH HÌNH VẼ Hình 1. 1 Tỉ tráng sá l°āng thuê bao chuyển m¿ng giāa các nhà m¿ng tháng 10 nm 2022, nguãn Bß TT & TT. 2 Sá l°āng thuê bao chuyển m¿ng giāa các nhà m¿ng tháng 11 nm 2022, nguãn Bß TT & TT. 3 Sá l°āng thuê bao từ chái chuyển m¿ng giāa các nhà m¿ng tháng 11 nm 2022, nguãn Bß TT & TT.

1 Phân bá ngành nghÅ và lo¿i khách hàng trong tÁp dā liáu. 2 Phân bá phân lo¿i khách hàng theo doanh thu và m¿ng khác trong tÁp dā liáu. 3 Phân bá trÁ tr°ác và không phát sinh l°u l°āng trong tÁp dā liáu. 4 Phân bá tr¿ng thái thuê bao và gói sÿ dăng tích hāp trong tÁp dā liáu.

5 Phân bá giá c°ác trong tÁp dā liáu. 6 Phân bá tuåi cÿa thuê bao (tháng) trong tÁp dā liáu. 7 Phân bá sá dßch vă khác trong tÁp dā liáu. 8 Phân bá nā c°ác 2 tháng trong tÁp dā liáu.

9 Phân bá sá tháng sÿ dăng trong tÁp dā liáu. 10 Phân bá sá lÅn gia h¿n trong tÁp dā liáu. 11 Phân bá sá lÅn báo hßng trong tÁp dā liáu. 12 Ma trÁn t°¢ng quan các tham sá cÿa bß dā liáu sau xÿ lý.

13 Ma trÁn Scatter các tham sá cÿa bß dā liáu sau xÿ lý. 1 CÃu hình mô hình Baseline. 2 CÃu hình mô hình Logistic Regression thông th°ãng. 3 CÃu hình mô hình Logistic Regression hiáu chỉnh tham sá.

4 CÃu hình mô hình k-Nearest Neighbor Classifier thông th°ãng. 5 Error Rate vs K-Value theo UNIFORM cÿa mô hình kNN thông th°ãng. 6 Error Rate vs K Value theo DISTANCE cÿa mô hình kNN thông th°ãng. 7 CÃu hình mô hình k-Nearest Neighbor Classifier có hiáu chỉnh tham sá.

8 CÃu hình mô hình Naive Bayes Classifier. 9 CÃu hình mô hình Naive Bayes kÃt hāp Oversampling. 10 CÃu hình mô hình Logistic Regression kÃt hāp Oversampling. 11 CÃu hình mô hình Decision Tree Classifier.

12 CÃu hình mô hình Decision Tree hiáu chỉnh chiÅu cao. 13 Mô hình Decision Tree sau khi giÁm chiÅu cao. 14 CÃu hình mô hình Bagging Classifier. 15 CÃu hình mô hình AdaBoost Classifier.

16 CÃu hình mô hình Gradient Boosting Classifier. 17 CÃu hình mô hình AdaBoost kÃt hāp Oversampling. 18 CÃu hình mô hình Random Forest Classifier. 19 CÃu hình mô hình Random Forest có hiáu chỉnh tham sá.

20 CÃu hình mô hình Random Forest kÃt hāp oversample. 21 CÃu hình mô hình Random Forest kÃt hāp oversample và giÁm chiÅu cao. 22 Mô hình Random Forest sau khi giÁm chiÅu cao kÃt hāp vái Oversampling. 23 Ma trÁn Heatmap thể hián các chỉ sá cÿa mô hình kÃt hāp.

24 Biểu ã Accuracy cÿa các mô hình. 25 Biểu ã Precision Churn cÿa các mô hình. 26 Biểu ã Precision Not Churn cÿa các mô hình. 27 Biểu ã Recall Churn cÿa các mô hình.

28 Biểu ã Recall Not Churn cÿa các mô hình. 29 Biểu ã F1 Churn cÿa các mô hình. 30 Biểu ã F1 Not Churn cÿa các mô hình. 31 Xây dăng mô hình kÃt hāp Meta-Model Å xuÃt.

32 Mô hình kÃt hāp Meta-Model Å xuÃt. 1 Màn hình dashboard ng°ãi dùng. 2 Màn hình statistics ng°ãi dùng. 3 Màn hình Tháng kê thông tin khách hàng.

4 Màn hình phân lo¿i nhóm khách hàng. 5 Màn hình tìm kiÃm khách hàng. 5 Màn hình thông tin chi tiÃt khách hàng và dă báo. 91 v DANH SÁCH BÀNG BÁng 3.

1 Cßt dā liáu trong tÁp dā liáu thu thÁp °āc. 2 Tháng kê mô tÁ tÁp dā liáu thu thÁp °āc. 3 Tháng kê mô tÁ tÁp dā liáu thu sau khi xÿ lý. 4 Há sá t°¢ng quan cÿa các biÃn sau khi xÿ lý.

1 KÃt quÁ thăc nghiám cÿa mô hình Baseline. 2 KÃt quÁ thăc nghiám cÿa mô hình Logistic Regression thông th°ãng. 3 KÃt quÁ thăc nghiám cÿa mô hình Logistic Regression hiáu chỉnh tham sá. 4 KÃt quÁ thăc nghiám cÿa mô hình k-Nearest Neighbor Classifier thông th°ãng53 BÁng 4.

5 KÃt quÁ thăc nghiám cÿa mô hình k-Nearest Neighbor Classifier có hiáu chỉnh tham sá. 6 KÃt quÁ thăc nghiám cÿa mô hình Naive Bayes Classifier. 7 KÃt quÁ thăc nghiám cÿa mô hình Naive Bayes kÃt hāp Oversampling. 8 KÃt quÁ thăc nghiám cÿa mô hình Logistic Regression kÃt hāp Oversampling.

9 KÃt quÁ thăc nghiám cÿa mô hình Decision Tree Classifier. 10 KÃt quÁ thăc nghiám cÿa mô hình Decision Tree hiáu chỉnh chiÅu cao. 11 KÃt quÁ thăc nghiám cÿa mô hình Bagging Classifier. 12 KÃt quÁ thăc nghiám cÿa mô hình AdaBoost Classifier.

13 KÃt quÁ thăc nghiám cÿa mô hình Gradient Boosting Classifier. 14 KÃt quÁ thăc nghiám cÿa mô hình AdaBoost kÃt hāp Oversampling. 15 KÃt quÁ thăc nghiám cÿa mô hình Random Forest Classifier. 16 KÃt quÁ thăc nghiám cÿa mô hình Random Forest có hiáu chỉnh tham sá.

17 KÃt quÁ thăc nghiám cÿa mô hình Random Forest kÃt hāp oversample. 18 KÃt quÁ thăc nghiám cÿa mô hình Random Forest kÃt hāp oversample và giÁm chiÅu cao. 19 KÃt quÁ thăc nghiám cÿa các mô hình vái các tÁp khách hàng nhóm A, nhóm B, nhóm C và nhóm D. 83 vi DANH MĀC CÁC THU¾T NGĀ, CHĀ VI¾T TÀT VI¾T TÀT NGH)A TI¾NG ANH NGH)A TI¾NG VIÆT AI Artificial Intelligence Trí tuá nhân t¿o ML Machine Learning Hác máy Churn Churn Customer Khách hàng thanh lý hāp ãng GD Gradient Boost kNN K Nearest Neighbor K láng giÃng gÅn vii MĀC LĀC LâI CAM ĐOAN.

ii DANH SÁCH HÌNH VÀ. iii DANH SÁCH BÀNG .v DANH MĂC CÁC THUÀT NGĀ, CHĀ VIÂT TÂT. Tính cÃp thiÃt cÿa Å tài. Đái t°āng và ph¿m vi nghiên cāu.2 Ph¿m vi nghiên cāu.

Ph°¢ng pháp nghiên cāu.1 Ph°¢ng pháp nghiên cāu lý thuyÃt .2 Ph°¢ng pháp nghiên cāu thăc nghiám. Ý nghĩa và óng góp cÿa Å tài .4 CH¯¡NG 1: TäNG QUAN VÄ ĐÄ TÀI NGHIÊN CĀU .1 Tång quan vÅ m¿ng vißn thông và thuê bao.2 Tång quan vÅ hián tr¿ng thuê bao rãi m¿ng vißn thông .3 Tång quan dā liáu lán vÅ khách hàng m¿ng vißn thông .4 Tång quan vÅ mô hình dă báo hác kÃt hāp .11 CH¯¡NG 2: CÁC CÔNG TRÌNH LIÊN QUAN. Các công trình liên quan trên thÃ giái. Các công trình liên quan å Viát Nam .24 CH¯¡NG 3: TÀP DĀ LIàU NGHIÊN CĀU.

Giái thiáu vÅ tÁp dā liáu khách hàng rãi m¿ng vißn thông. Phân tích tÁp dā liáu khách hàng rãi m¿ng vißn thông. TiÅn xÿ lý tÁp dā liáu khách hàng rãi m¿ng vißn thông .38 CH¯¡NG 4: MÔ HÌNH HàC KÂT HĀP ĐÄ XUÂT. Môi tr°ãng mô phßng thăc nghiám.

Thăc nghiám huÃn luyán mô hình hác kÃt hāp .1 Mô hình Baseline .2 Nhóm mô hình Logistic Regression, kNN và Naïve Bayes .3 Mô hình hác kÃt hāp Decision Tree Classifier .4 Mô hình hác kÃt hāp Bagging, AdaBoost và GB .5 Mô hình hác kÃt hāp Random Forest Classifier. Đánh giá kÃt quÁ huÃn luyán mô hình hác kÃt hāp .1 KÃt quÁ các mô hình hác kÃt hāp .2 So sánh vái kÃt quÁ Telco Customer Churn .3 So sánh vái Å án rãi m¿ng cÿa tác giÁ Nguyßn Đāc Trung. Mô hình hác kÃt hāp Å xuÃt Meta-Model .82 CH¯¡NG 5: XÂY DĂNG ĀNG DĂNG DĂ BÁO KHÁCH HÀNG RâI M¾NG VàI TÀP DĀ LIàU ä VNPT TÂY NINH. ThiÃt kÃ và phát triển āng dăng.

Phân tích tÁp dā liáu khách hàng sÿ dăng dßch vă vißn thông å VNPT Tây Ninh. Minh háa các chāc nng chính cÿa āng dăng .89 PHÄN KÂT LUÀN. KÃt quÁ nghiên cāu cÿa Å tài. VÃn Å kiÃn nghß và h°áng i tiÃp theo cÿa nghiên cāu:.93 TÀI LIàU THAM KHÀO.

Phân bå cÿa dā liáu thăc nghiám theo các tr°ãng. Logistic Regression without Hyperparameter Tuning. Logistic Regression with Hyperparameter Tuning. k-Nearest Neighbor Scaled Without Hyperparameter Tuning.

k-Nearest Neighbor Scaled With Hyperparameter Tuning .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt ngắn gọn về nghiên cứu "Nghiên cứu và Xây dựng Mô hình Ensemble Learning Dự đoán Khách hàng Rời Mạng tại VNPT Tây Ninh":

Nghiên cứu này tập trung vào việc xây dựng một mô hình dự đoán khách hàng có khả năng rời mạng (churn prediction) tại VNPT Tây Ninh bằng cách sử dụng phương pháp Ensemble Learning. Điểm mấu chốt là việc kết hợp nhiều mô hình học máy khác nhau để đạt được độ chính xác cao hơn so với việc sử dụng một mô hình duy nhất. Điều này giúp VNPT Tây Ninh chủ động nhận diện khách hàng tiềm năng rời mạng, từ đó có các biện pháp giữ chân kịp thời, giảm thiểu tổn thất doanh thu. Lợi ích chính cho người đọc là hiểu rõ hơn về ứng dụng thực tế của Ensemble Learning trong lĩnh vực viễn thông, cụ thể là bài toán dự đoán churn, và cách nó có thể giúp các doanh nghiệp như VNPT cải thiện hiệu quả kinh doanh.

Để hiểu sâu hơn về ứng dụng AI trong dự đoán churn tại VNPT, bạn có thể tham khảo luận văn thạc sĩ: Luận văn thạc sĩ công nghệ thông tin ứng dụng ai dự đoán thuê bao rời mạng dịch vụ internet vnpt. Tài liệu này cung cấp một góc nhìn khác về việc sử dụng trí tuệ nhân tạo trong việc dự đoán churn, tập trung vào dịch vụ internet của VNPT. Nó sẽ giúp bạn có được cái nhìn toàn diện hơn về các phương pháp tiếp cận và thách thức trong việc áp dụng AI vào bài toán này.

#Machine learning dự đoán churn

#Ensemble Learning dự đoán khách hàng rời mạng

#Churn Prediction VNPT Tây Ninh

#Mô hình dự đoán churn khách hàng

#VNPT Tây Ninh Customer Churn

#Ensemble Methods cho bài toán churn

Chủ đề

Phân tích dữ liệu khách hàng VNPT

Ứng dụng Ensemble Learning trong kinh doanh

Dự đoán churn khách hàng viễn thông

Cải thiện giữ chân khách hàng