Tổng quan nghiên cứu
Trong bối cảnh ngành viễn thông ngày càng cạnh tranh gay gắt, việc giữ chân khách hàng hiện hữu trở thành bài toán sống còn đối với các nhà mạng. Theo số liệu tại VNPT Đồng Nai, doanh thu bình quân của thuê bao lâu năm đạt khoảng 169.952 VNĐ, cao hơn đáng kể so với thuê bao mới chỉ đạt 123 VNĐ. Chi phí phát triển một thuê bao mới ước tính khoảng 50.135 VNĐ, trong khi chi phí duy trì thuê bao hiện hữu thấp hơn nhiều. Tỷ lệ khách hàng rời mạng trong ngành viễn thông dao động từ 20% đến 40% mỗi năm, gây thiệt hại lớn về doanh thu và ảnh hưởng đến lợi thế cạnh tranh của doanh nghiệp.
Mục tiêu nghiên cứu của luận văn là xây dựng hệ thống hỗ trợ dự báo khách hàng có khả năng rời mạng cao trong dịch vụ Fiber Vnn tại Viễn thông Đồng Nai, nhằm giúp doanh nghiệp chủ động trong việc giữ chân khách hàng và tối ưu hóa chi phí. Nghiên cứu tập trung vào việc áp dụng kỹ thuật khai phá dữ liệu và mô hình máy học, đặc biệt là mô hình Cây quyết định tăng cường hai lớp (Two-Class Boosted Decision Tree), để cải thiện độ chính xác và thời gian thực thi dự báo. Phạm vi nghiên cứu bao gồm dữ liệu khách hàng từ năm 2017 đến 2020 với hơn 238.000 thuê bao, tập trung tại khu vực Đồng Nai. Kết quả dự báo chính xác sẽ giúp doanh nghiệp giảm thiểu tỷ lệ rời mạng, tăng doanh thu và nâng cao hiệu quả kinh doanh trong kỷ nguyên số.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Khai phá dữ liệu (Data Mining): Quá trình trích xuất thông tin giá trị từ khối lượng lớn dữ liệu thô, bao gồm các bước tiền xử lý, trích lọc, phân tích và đánh giá mẫu dữ liệu. Đây là nền tảng để phát hiện các mẫu hành vi khách hàng rời mạng.
Học máy (Machine Learning): Phân thành học giám sát và không giám sát, trong đó học giám sát được sử dụng để xây dựng mô hình dự báo dựa trên dữ liệu có nhãn. Các thuật toán phổ biến gồm cây quyết định, mạng nơron, hồi quy logic.
Mô hình Cây quyết định tăng cường hai lớp (Two-Class Boosted Decision Tree): Phương pháp học tập tổng hợp, trong đó cây quyết định thứ hai sửa lỗi cho cây thứ nhất, giúp tăng độ chính xác dự báo. Mô hình này phù hợp với bài toán phân lớp nhị phân như dự báo khách hàng rời mạng.
Xử lý mất cân bằng dữ liệu (Imbalanced Dataset): Do tỷ lệ khách hàng rời mạng thấp hơn nhóm khách hàng duy trì, các kỹ thuật như SMOTE, ADASYN, under-sampling và over-sampling được áp dụng để cân bằng dữ liệu, tránh sai lệch trong dự báo.
Các chỉ số đánh giá mô hình: AUC, Precision, Recall, F1-score được sử dụng để đánh giá hiệu quả mô hình, đặc biệt trong trường hợp mất cân bằng dữ liệu.
Phương pháp nghiên cứu
Nguồn dữ liệu: Sử dụng bộ dữ liệu lịch sử của 238.700 thuê bao Fiber Vnn tại Viễn thông Đồng Nai, thu thập đến tháng 12/2020, gồm 14 thuộc tính liên quan đến hành vi khách hàng và trạng thái rời mạng.
Phương pháp phân tích:
- Tiền xử lý dữ liệu bao gồm làm sạch, chuẩn hóa (feature scaling) và trích lọc thuộc tính quan trọng bằng phần mềm Weka.
- Áp dụng thuật toán K-means để phân cụm nguyên nhân ảnh hưởng đến khách hàng rời mạng.
- Xây dựng mô hình dự báo bằng thuật toán Cây quyết định tăng cường hai lớp trên nền tảng Microsoft Azure Machine Learning.
- So sánh hai phương pháp huấn luyện: trên dữ liệu thô và dữ liệu đã qua tiền xử lý.
Timeline nghiên cứu:
- Thu thập và chuẩn bị dữ liệu: 3 tháng.
- Phát triển và huấn luyện mô hình: 4 tháng.
- Đánh giá và tối ưu mô hình: 2 tháng.
- Triển khai hệ thống và báo cáo kết quả: 1 tháng.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Độ chính xác mô hình: Mô hình Cây quyết định tăng cường hai lớp đạt độ chính xác (accuracy) 98.2% và AUC 0.995 trên tập dữ liệu thô, cho thấy khả năng phân biệt tốt giữa khách hàng rời mạng và duy trì.
Ảnh hưởng của tiền xử lý dữ liệu: Sau khi áp dụng tiền xử lý, chuẩn hóa và trích lọc thuộc tính, tỷ lệ khách hàng rời mạng trong dữ liệu được cân bằng hơn (tăng từ 28.13% lên khoảng 40%), giúp mô hình dự báo chính xác hơn và giảm thiểu sai lệch do mất cân bằng dữ liệu.
Các thuộc tính quan trọng: Các yếu tố như số lần báo hỏng, số lần gọi kiểm hài lòng/không hài lòng, số lần tạm ngưng, tuổi đời thuê bao và giá cước đăng ký được xác định là những nhân tố ảnh hưởng lớn đến khả năng rời mạng.
Hiệu quả so sánh hai phương pháp: Phương pháp huấn luyện trên dữ liệu đã qua tiền xử lý cho kết quả dự báo ổn định hơn, giảm thời gian huấn luyện và tăng độ tin cậy so với phương pháp sử dụng dữ liệu thô.
Thảo luận kết quả
Nguyên nhân chính dẫn đến khách hàng rời mạng bao gồm sự không hài lòng về chất lượng dịch vụ (số lần báo hỏng, phản hồi không hài lòng), các vấn đề tài chính (số lần tạm ngưng, gia hạn đặt cọc) và giá trị gói cước không phù hợp. Kết quả này tương đồng với các nghiên cứu trong ngành viễn thông quốc tế, đồng thời khẳng định tính hiệu quả của mô hình Cây quyết định tăng cường hai lớp trong việc xử lý bài toán phân lớp mất cân bằng.
Việc áp dụng kỹ thuật tiền xử lý dữ liệu và trích lọc thuộc tính giúp giảm thiểu hiện tượng overfitting, tăng tốc độ huấn luyện và nâng cao độ chính xác dự báo. Dữ liệu có thể được trình bày qua biểu đồ ROC để minh họa hiệu suất mô hình, hoặc bảng so sánh các chỉ số Precision, Recall giữa hai phương pháp huấn luyện.
Kết quả nghiên cứu có ý nghĩa thực tiễn lớn, giúp Viễn thông Đồng Nai chủ động phát hiện sớm khách hàng có nguy cơ rời mạng, từ đó xây dựng các chính sách chăm sóc và giữ chân hiệu quả, giảm thiểu tổn thất doanh thu.
Đề xuất và khuyến nghị
Triển khai hệ thống dự báo tự động: Xây dựng hệ thống dự báo khách hàng rời mạng tích hợp mô hình Cây quyết định tăng cường hai lớp trên nền tảng đám mây Azure, nhằm cập nhật dữ liệu và dự báo theo thời gian thực. Thời gian thực hiện: 6 tháng. Chủ thể: Phòng CNTT và Phòng Kinh doanh Viễn thông Đồng Nai.
Tăng cường thu thập và làm sạch dữ liệu: Định kỳ thu thập dữ liệu khách hàng, đặc biệt các biến liên quan đến chất lượng dịch vụ và tài chính, đồng thời áp dụng các kỹ thuật tiền xử lý để đảm bảo dữ liệu đầu vào chính xác và đầy đủ. Thời gian: liên tục hàng quý. Chủ thể: Bộ phận Chăm sóc khách hàng và Phòng Dữ liệu.
Xây dựng chính sách chăm sóc khách hàng cá nhân hóa: Dựa trên kết quả dự báo, thiết kế các chương trình khuyến mãi, giảm giá hoặc nâng cấp dịch vụ phù hợp với từng nhóm khách hàng có nguy cơ rời mạng cao nhằm tăng sự hài lòng và giữ chân khách hàng. Thời gian: 3 tháng sau khi có dữ liệu dự báo. Chủ thể: Phòng Marketing và Kinh doanh.
Đào tạo nhân viên và nâng cao nhận thức: Tổ chức các khóa đào tạo về kỹ thuật khai phá dữ liệu và ứng dụng mô hình dự báo cho đội ngũ nhân viên kinh doanh và chăm sóc khách hàng để nâng cao hiệu quả sử dụng hệ thống. Thời gian: 2 tháng. Chủ thể: Phòng Đào tạo và Phòng CNTT.
Đối tượng nên tham khảo luận văn
Các nhà quản lý doanh nghiệp viễn thông: Giúp hiểu rõ về tầm quan trọng của dự báo khách hàng rời mạng và áp dụng các giải pháp công nghệ để nâng cao hiệu quả kinh doanh.
Chuyên viên phân tích dữ liệu và khoa học dữ liệu: Cung cấp kiến thức chuyên sâu về kỹ thuật khai phá dữ liệu, xử lý mất cân bằng dữ liệu và xây dựng mô hình dự báo trong lĩnh vực viễn thông.
Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Kinh tế: Là tài liệu tham khảo quý giá về ứng dụng học máy trong thực tiễn, đặc biệt trong bài toán phân lớp và dự báo khách hàng.
Phòng Marketing và Chăm sóc khách hàng: Hỗ trợ xây dựng chiến lược giữ chân khách hàng dựa trên phân tích dữ liệu và dự báo chính xác, từ đó tối ưu hóa chi phí và nâng cao trải nghiệm khách hàng.
Câu hỏi thường gặp
Mô hình Cây quyết định tăng cường hai lớp có ưu điểm gì so với các mô hình khác?
Mô hình này kết hợp nhiều cây quyết định để sửa lỗi lẫn nhau, giúp tăng độ chính xác và giảm sai số dự báo. Ví dụ, trong nghiên cứu, mô hình đạt AUC 0.995, vượt trội so với các mô hình đơn lẻ như mạng nơron hay hồi quy logic.Làm thế nào để xử lý dữ liệu mất cân bằng trong bài toán dự báo khách hàng rời mạng?
Các kỹ thuật như SMOTE, ADASYN, under-sampling và over-sampling được sử dụng để cân bằng tỷ lệ giữa nhóm khách hàng rời mạng và duy trì, giúp mô hình không bị thiên lệch và dự báo chính xác hơn.Tại sao cần tiền xử lý và trích lọc thuộc tính trước khi huấn luyện mô hình?
Tiền xử lý giúp làm sạch và chuẩn hóa dữ liệu, còn trích lọc thuộc tính loại bỏ các biến không quan trọng, giảm kích thước dữ liệu, tăng tốc độ huấn luyện và nâng cao độ chính xác mô hình.Mô hình dự báo có thể áp dụng cho các dịch vụ viễn thông khác ngoài Fiber Vnn không?
Có thể, tuy nhiên cần điều chỉnh và huấn luyện lại mô hình với dữ liệu đặc thù của từng dịch vụ để đảm bảo độ chính xác và phù hợp với đặc điểm khách hàng.Làm thế nào để đánh giá hiệu quả mô hình dự báo khách hàng rời mạng?
Sử dụng các chỉ số như AUC, Precision, Recall, F1-score để đánh giá khả năng phân loại chính xác giữa khách hàng rời mạng và duy trì. Ví dụ, mô hình trong nghiên cứu đạt Precision 97% và AUC 0.995, cho thấy hiệu quả cao.
Kết luận
- Luận văn đã xây dựng thành công mô hình dự báo khách hàng rời mạng sử dụng thuật toán Cây quyết định tăng cường hai lớp với độ chính xác trên 98%.
- Tiền xử lý dữ liệu và trích lọc thuộc tính đóng vai trò quan trọng trong việc cải thiện hiệu suất mô hình, đặc biệt trong xử lý dữ liệu mất cân bằng.
- Các thuộc tính như số lần báo hỏng, phản hồi hài lòng, số lần tạm ngưng và giá cước là những nhân tố chính ảnh hưởng đến hành vi rời mạng.
- Hệ thống dự báo được đề xuất có thể hỗ trợ doanh nghiệp viễn thông chủ động giữ chân khách hàng, giảm thiểu tổn thất doanh thu và nâng cao lợi thế cạnh tranh.
- Các bước tiếp theo bao gồm triển khai hệ thống dự báo tự động, mở rộng thu thập dữ liệu và xây dựng chính sách chăm sóc khách hàng cá nhân hóa nhằm tối ưu hóa hiệu quả kinh doanh.
Hành động ngay hôm nay để ứng dụng mô hình dự báo khách hàng rời mạng, nâng cao hiệu quả kinh doanh và giữ vững vị thế trên thị trường viễn thông!