## Tổng quan nghiên cứu
Ngành viễn thông tại Việt Nam đã chứng kiến sự phát triển vượt bậc với khoảng 140 triệu thuê bao di động tính đến cuối năm 2022, chiếm 143% dân số, cùng với hơn 68 triệu thuê bao internet và 16,3 triệu thuê bao cá nhân. VNPT Tây Ninh, một trong những nhà cung cấp dịch vụ viễn thông lớn, đang đối mặt với thách thức lớn về việc dự báo và giảm tỷ lệ khách hàng rời mạng (churn). Tỷ lệ churn cao ảnh hưởng trực tiếp đến doanh thu và chi phí đầu tư của doanh nghiệp, trong khi ARPU (Average Revenue Per User) chỉ đạt khoảng 180.000 đồng và vòng đời khách hàng trung bình khoảng 20 tháng.
Nghiên cứu tập trung xây dựng mô hình Ensemble Learning nhằm dự báo chính xác khách hàng rời mạng tại VNPT Tây Ninh dựa trên tập dữ liệu khách hàng thu thập từ năm 2010 đến 2022. Mục tiêu cụ thể bao gồm phân tích đặc trưng dữ liệu khách hàng, lựa chọn thuật toán phù hợp, xây dựng mô hình meta-model, đánh giá hiệu quả và ứng dụng mô hình trong thực tế. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu suất kinh doanh, tiết kiệm chi phí, tăng khả năng cạnh tranh và đóng góp vào phát triển kỹ thuật quản lý khách hàng trong ngành viễn thông.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Ensemble Learning**: Kỹ thuật kết hợp nhiều mô hình học máy nhằm cải thiện độ chính xác và độ tin cậy của dự báo. Các phương pháp phổ biến gồm Bagging, Boosting, và Stacking.
- **Mô hình Stacking**: Kỹ thuật kết hợp các mô hình cơ sở (base-models) ở tầng 0 và một mô hình meta (meta-model) ở tầng 1 để tổng hợp dự báo, nâng cao hiệu quả dự báo.
- **Thuật toán học máy cơ bản**: Logistic Regression, k-Nearest Neighbor (kNN), Naive Bayes, Decision Tree, Random Forest, AdaBoost, Gradient Boosting.
- **Churn Customer (Khách hàng rời mạng)**: Thuật ngữ chỉ khách hàng ngừng sử dụng dịch vụ viễn thông, ảnh hưởng đến doanh thu và chiến lược giữ chân khách hàng.
- **Các chỉ số đánh giá mô hình**: Accuracy, Precision, Recall, F1-score, AUC.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu**: Tập dữ liệu khách hàng viễn thông VNPT Tây Ninh gồm 114.177 quan sát với 29 biến đặc trưng, thu thập từ năm 2010 đến 2023, bao gồm thông tin cá nhân, hành vi sử dụng dịch vụ, lịch sử thanh toán, và trạng thái thuê bao.
- **Phân tích dữ liệu**: Khảo sát phân bố ngành nghề, loại khách hàng, doanh thu, trạng thái thanh toán, và các đặc trưng hành vi. Tiền xử lý dữ liệu bao gồm loại bỏ ngoại lệ, xử lý giá trị thiếu, tạo biến giả (dummies).
- **Phương pháp phân tích**: Áp dụng các thuật toán học máy đơn lẻ và kỹ thuật Ensemble Learning để xây dựng mô hình dự báo khách hàng rời mạng. Sử dụng kỹ thuật Oversampling để cân bằng dữ liệu.
- **Timeline nghiên cứu**: Thu thập và xử lý dữ liệu (6 tháng), xây dựng và huấn luyện mô hình (4 tháng), đánh giá và tối ưu mô hình (3 tháng), triển khai ứng dụng mô hình (2 tháng).
- **Cỡ mẫu và chọn mẫu**: Toàn bộ tập dữ liệu khách hàng VNPT Tây Ninh được sử dụng, đảm bảo tính đại diện và độ tin cậy cao cho mô hình.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình Random Forest kết hợp Oversampling và giảm chiều dữ liệu đạt độ chính xác dự báo khách hàng rời mạng cao nhất, với Accuracy đạt trên 95%, F1-score trên 94%.
- Tỷ lệ khách hàng rời mạng trong tập dữ liệu là khoảng 1.59%, cho thấy sự mất cân bằng dữ liệu nghiêm trọng, cần áp dụng kỹ thuật cân bằng dữ liệu.
- Các yếu tố ảnh hưởng lớn nhất đến việc khách hàng rời mạng bao gồm số lần báo hỏng dịch vụ, số tháng thanh toán trước còn lại, và số lần tạm ngưng dịch vụ.
- Mô hình Stacking với meta-model Logistic Regression tổng hợp dự báo từ các mô hình cơ sở như kNN, XGBoost, và Random Forest cải thiện độ chính xác dự báo lên đến 96%, vượt trội so với các mô hình đơn lẻ.
### Thảo luận kết quả
Kết quả cho thấy kỹ thuật Ensemble Learning đặc biệt là Stacking và Random Forest rất hiệu quả trong việc dự báo khách hàng rời mạng trong ngành viễn thông, phù hợp với đặc thù dữ liệu lớn, phức tạp và mất cân bằng. So sánh với các nghiên cứu trước đây trong và ngoài nước, mô hình này có độ chính xác và khả năng ứng dụng thực tiễn cao hơn nhờ việc kết hợp nhiều thuật toán và xử lý dữ liệu kỹ lưỡng. Việc xác định các yếu tố ảnh hưởng giúp doanh nghiệp tập trung vào các biện pháp giữ chân khách hàng hiệu quả hơn. Dữ liệu có thể được trình bày qua biểu đồ phân bố tỷ lệ churn theo từng biến đặc trưng và bảng so sánh hiệu suất các mô hình.
## Đề xuất và khuyến nghị
- **Triển khai mô hình dự báo tự động**: Áp dụng mô hình Ensemble Learning vào hệ thống CRM của VNPT Tây Ninh để dự báo khách hàng rời mạng theo thời gian thực, nâng cao độ chính xác dự báo lên trên 95%, hoàn thành trong 6 tháng tới.
- **Tăng cường chăm sóc khách hàng có nguy cơ rời mạng cao**: Dựa trên kết quả dự báo, thiết lập các chương trình ưu đãi, hỗ trợ kỹ thuật và tư vấn cá nhân hóa nhằm giảm tỷ lệ churn ít nhất 10% trong vòng 1 năm.
- **Phát triển các gói dịch vụ tích hợp**: Khuyến khích khách hàng sử dụng các gói tích hợp (tivi, di động, internet) để tăng doanh thu và giảm khả năng rời mạng, mục tiêu tăng tỷ lệ khách hàng sử dụng gói tích hợp lên 60% trong 2 năm.
- **Đào tạo nhân viên và nâng cao năng lực phân tích dữ liệu**: Tổ chức các khóa đào tạo về kỹ thuật học máy và phân tích dữ liệu cho đội ngũ quản lý và kỹ thuật, nhằm tối ưu hóa việc vận hành mô hình và khai thác dữ liệu khách hàng.
- **Cập nhật và mở rộng dữ liệu liên tục**: Thu thập dữ liệu khách hàng mới và cập nhật dữ liệu hiện tại để mô hình luôn phản ánh chính xác hành vi khách hàng, đảm bảo hiệu quả dự báo lâu dài.
## Đối tượng nên tham khảo luận văn
- **Doanh nghiệp viễn thông**: Giúp cải thiện chiến lược giữ chân khách hàng, tối ưu hóa chi phí marketing và nâng cao doanh thu.
- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu**: Cung cấp phương pháp và mô hình học máy tiên tiến trong lĩnh vực dự báo khách hàng.
- **Chuyên gia quản lý khách hàng (CRM)**: Áp dụng mô hình dự báo để nâng cao hiệu quả quản lý và chăm sóc khách hàng.
- **Các nhà hoạch định chính sách và quản lý ngành viễn thông**: Hiểu rõ xu hướng khách hàng và tác động của các yếu tố kinh tế kỹ thuật đến thị trường viễn thông.
## Câu hỏi thường gặp
1. **Mô hình Ensemble Learning là gì và tại sao lại hiệu quả trong dự báo khách hàng rời mạng?**
Ensemble Learning là kỹ thuật kết hợp nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định dự báo. Nó hiệu quả vì tận dụng ưu điểm của từng mô hình, giảm thiểu sai số và tăng khả năng tổng quát hóa.
2. **Tại sao cần xử lý mất cân bằng dữ liệu trong bài toán dự báo churn?**
Dữ liệu khách hàng rời mạng thường chiếm tỷ lệ rất nhỏ (khoảng 1.59%), nếu không xử lý mất cân bằng, mô hình dễ bị thiên lệch, dự báo sai nhóm khách hàng quan trọng.
3. **Các yếu tố nào ảnh hưởng nhiều nhất đến việc khách hàng rời mạng?**
Số lần báo hỏng dịch vụ, số tháng thanh toán trước còn lại, số lần tạm ngưng dịch vụ là những yếu tố quan trọng nhất ảnh hưởng đến quyết định rời mạng của khách hàng.
4. **Mô hình Stacking khác gì so với các phương pháp Ensemble khác?**
Stacking sử dụng một mô hình meta để học cách kết hợp dự báo từ nhiều mô hình cơ sở, trong khi Bagging và Boosting chỉ kết hợp dự báo theo cách trung bình hoặc trọng số.
5. **Làm thế nào để áp dụng mô hình dự báo vào thực tế tại VNPT Tây Ninh?**
Mô hình được tích hợp vào hệ thống CRM, dự báo khách hàng có nguy cơ rời mạng để kịp thời triển khai các chương trình giữ chân, đồng thời cập nhật dữ liệu liên tục để duy trì hiệu quả.
## Kết luận
- Xây dựng thành công mô hình Ensemble Learning dự báo khách hàng rời mạng với độ chính xác trên 95%, phù hợp với đặc thù dữ liệu viễn thông VNPT Tây Ninh.
- Xác định các yếu tố ảnh hưởng chính đến churn giúp doanh nghiệp tập trung cải thiện dịch vụ và chăm sóc khách hàng.
- Mô hình Stacking meta-model nâng cao hiệu quả dự báo so với các mô hình đơn lẻ.
- Đề xuất các giải pháp ứng dụng mô hình trong quản lý khách hàng, tăng doanh thu và giảm chi phí.
- Tiếp tục cập nhật dữ liệu và tối ưu mô hình để duy trì hiệu quả trong tương lai.
Hành động tiếp theo là triển khai mô hình vào hệ thống CRM của VNPT Tây Ninh và đào tạo nhân viên vận hành, đồng thời mở rộng nghiên cứu áp dụng cho các nhà mạng khác nhằm nâng cao năng lực cạnh tranh toàn ngành.