Tổng quan nghiên cứu

Trong bối cảnh thị trường internet tại Việt Nam đã đạt đến mức bão hòa với tỷ lệ thuê bao cao và sự cạnh tranh gay gắt giữa các nhà cung cấp dịch vụ internet (ISP), việc giữ chân khách hàng trở thành thách thức lớn đối với các doanh nghiệp viễn thông. Theo ước tính, VNPT TP. Hồ Chí Minh quản lý hơn 660.000 thuê bao internet trong giai đoạn 2017-2023, với tỷ lệ thuê bao rời mạng có xu hướng gia tăng do nhiều yếu tố như chất lượng dịch vụ, giá cước và sự cạnh tranh từ các ISP khác. Nghiên cứu này nhằm phân tích, thiết kế và triển khai các mô hình dự đoán thuê bao rời mạng sử dụng trí tuệ nhân tạo (AI) và các thuật toán máy học, từ đó hỗ trợ VNPT trong việc phát hiện sớm khách hàng có nguy cơ rời bỏ dịch vụ.

Mục tiêu cụ thể của luận văn là đánh giá hiệu quả của các mô hình máy học như KNN, Naive Bayes, hồi quy Logistic, rừng ngẫu nhiên, cây quyết định, Adaboost, Gradient Boost, XGBoost, mạng nơ-ron nhân tạo (ANN) và mạng nơ-ron tích chập (CNN) trong dự đoán hành vi rời mạng của thuê bao internet VNPT tại TP. Hồ Chí Minh. Phạm vi nghiên cứu bao gồm dữ liệu thuê bao internet của VNPT thu thập trong 6 năm từ 2017 đến 2023, với hơn 664.000 bản ghi và 17 thuộc tính liên quan đến hành vi sử dụng dịch vụ. Ý nghĩa nghiên cứu thể hiện qua việc cung cấp công cụ dự báo chính xác, giúp VNPT tối ưu hóa chiến lược chăm sóc khách hàng, giảm tỷ lệ rời mạng và duy trì thị phần trong bối cảnh cạnh tranh ngày càng khốc liệt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình máy học hiện đại trong lĩnh vực dự đoán hành vi khách hàng, bao gồm:

  • Máy học (Machine Learning - ML): Tập trung vào việc xây dựng các thuật toán cho phép máy tính học từ dữ liệu và cải thiện hiệu suất dự đoán mà không cần lập trình cứng nhắc. Các thuật toán được áp dụng gồm KNN, Naive Bayes, hồi quy Logistic, SVM, cây quyết định, rừng ngẫu nhiên và các phương pháp tăng cường như Adaboost, Gradient Boost và XGBoost.

  • Học sâu (Deep Learning - DL): Sử dụng mạng nơ-ron nhân tạo nhiều lớp để trích xuất đặc trưng phức tạp từ dữ liệu lớn. Mạng nơ-ron nhân tạo (ANN) và mạng nơ-ron tích chập (CNN) được áp dụng nhằm nâng cao khả năng dự đoán chính xác trong bài toán phân loại thuê bao rời mạng.

Các khái niệm chính bao gồm: dự đoán thuê bao rời mạng (Customer Churn Prediction - CCP), siêu tham số mô hình, ma trận nhầm lẫn, độ chính xác (Accuracy), độ nhạy (Recall), điểm F1 (F1-score), và các kỹ thuật tiền xử lý dữ liệu như làm sạch, loại bỏ ngoại lệ, xử lý dữ liệu thiếu và trích chọn đặc trưng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bảng danh sách chi tiết các thuê bao internet của VNPT TP. Hồ Chí Minh, thu thập trong 6 năm (2017-2023), gồm 664.329 bản ghi với 17 thuộc tính như thời gian sử dụng, tốc độ đường truyền, mức cước, số lần không phát sinh lưu lượng, khu vực lắp đặt, số lần tạm dừng dịch vụ, điểm tín nhiệm, số lần gia hạn dịch vụ, v.v. Dữ liệu được thu thập từ các hoạt động bán hàng, bàn giao dịch vụ và chăm sóc khách hàng của VNPT.

Phương pháp phân tích bao gồm:

  • Tiền xử lý dữ liệu: Loại bỏ dữ liệu ngoại lai, xử lý dữ liệu thiếu, chuẩn hóa và tạo biến mới nhằm nâng cao chất lượng dữ liệu đầu vào cho mô hình.

  • Xây dựng mô hình: Áp dụng các thuật toán máy học và học sâu đã nêu để huấn luyện trên bộ dữ liệu huấn luyện (chiếm khoảng 70%), kiểm định (15%) và thử nghiệm (15%). Quá trình huấn luyện bao gồm tinh chỉnh siêu tham số nhằm tối ưu hiệu suất mô hình.

  • Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác, độ nhạy, điểm F1, ma trận nhầm lẫn và thời gian huấn luyện để so sánh hiệu quả các mô hình.

  • Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng thời gian từ 2017 đến 2024, với giai đoạn thu thập và xử lý dữ liệu kéo dài 6 năm, tiếp theo là xây dựng và đánh giá mô hình trong năm 2023-2024.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình Gradient Boost và XGBoost vượt trội: Mô hình XGBoost đạt độ chính xác lên đến khoảng 92%, cao hơn 5-7% so với các mô hình truyền thống như KNN và Naive Bayes. Thời gian huấn luyện của XGBoost cũng được tối ưu, nhanh hơn so với các mô hình học sâu phức tạp.

  2. Mạng nơ-ron nhân tạo (ANN) và mạng nơ-ron tích chập (CNN) cho kết quả khả quan: ANN đạt độ chính xác khoảng 89%, trong khi CNN đạt khoảng 90%, thể hiện khả năng trích xuất đặc trưng phức tạp từ dữ liệu lớn. Tuy nhiên, thời gian huấn luyện của các mô hình này dài hơn đáng kể so với các mô hình cây quyết định.

  3. Ảnh hưởng của các đặc trưng đến dự đoán: Các thuộc tính như số tháng sử dụng dịch vụ, số lần tạm dừng dịch vụ, điểm tín nhiệm và số lần gia hạn dịch vụ có mức độ quan trọng cao trong việc dự đoán thuê bao rời mạng, chiếm tỷ trọng trên 70% trong tổng ảnh hưởng các biến.

  4. Tỷ lệ thuê bao rời mạng cao tập trung ở các khu vực có mức độ cạnh tranh lớn và dịch vụ chưa đồng đều: Phân tích dữ liệu cho thấy các khu vực có tỷ lệ rời mạng trên 15%, cao hơn mức trung bình toàn TP. Hồ Chí Minh khoảng 5%.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu suất giữa các mô hình là do khả năng xử lý dữ liệu phức tạp và trích xuất đặc trưng của các thuật toán. Mô hình XGBoost và Gradient Boosting tận dụng kỹ thuật tăng cường giúp cải thiện độ chính xác dự đoán bằng cách tập trung vào các lỗi của mô hình trước đó. Mạng nơ-ron nhân tạo và CNN phù hợp với dữ liệu lớn và phức tạp, tuy nhiên đòi hỏi tài nguyên tính toán cao và thời gian huấn luyện dài.

So sánh với các nghiên cứu trong ngành viễn thông, kết quả này phù hợp với xu hướng ứng dụng AI hiện đại trong dự đoán hành vi khách hàng, đồng thời khẳng định tính khả thi và hiệu quả của việc áp dụng các mô hình máy học và học sâu trong thực tế. Việc trình bày dữ liệu qua biểu đồ tầm quan trọng các đặc trưng và ma trận nhầm lẫn giúp minh họa rõ ràng hiệu quả của từng mô hình, hỗ trợ các nhà quản lý trong việc lựa chọn giải pháp phù hợp.

Đề xuất và khuyến nghị

  1. Triển khai mô hình XGBoost trong hệ thống quản lý khách hàng của VNPT: Tập trung vào việc tích hợp mô hình này để dự đoán sớm khách hàng có nguy cơ rời mạng, nhằm nâng cao tỷ lệ giữ chân khách hàng trong vòng 12 tháng tới.

  2. Tăng cường thu thập và làm sạch dữ liệu: Đề xuất VNPT cải thiện quy trình thu thập dữ liệu, đặc biệt là các thuộc tính liên quan đến hành vi sử dụng và điểm tín nhiệm, nhằm nâng cao chất lượng dữ liệu đầu vào cho mô hình.

  3. Đào tạo nhân viên và nâng cao năng lực phân tích dữ liệu: Tổ chức các khóa đào tạo về AI và máy học cho đội ngũ phân tích dữ liệu và chăm sóc khách hàng, giúp họ hiểu và vận dụng hiệu quả các mô hình dự đoán.

  4. Phát triển hệ thống cảnh báo tự động: Xây dựng hệ thống cảnh báo dựa trên kết quả dự đoán để kịp thời triển khai các chương trình khuyến mãi, chăm sóc khách hàng nhằm giảm tỷ lệ rời mạng trong vòng 3-6 tháng.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý và chiến lược kinh doanh của VNPT: Giúp họ hiểu rõ hơn về hành vi khách hàng và áp dụng các mô hình dự đoán để tối ưu hóa chiến lược giữ chân khách hàng.

  2. Chuyên viên phân tích dữ liệu và khoa học dữ liệu: Cung cấp kiến thức chuyên sâu về ứng dụng các thuật toán máy học và học sâu trong lĩnh vực viễn thông, từ đó phát triển các mô hình dự đoán hiệu quả.

  3. Các nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Là tài liệu tham khảo quý giá về quy trình xây dựng, đánh giá và so sánh các mô hình AI trong bài toán dự đoán khách hàng rời mạng.

  4. Các doanh nghiệp viễn thông và ISP khác: Có thể áp dụng các phương pháp và kết quả nghiên cứu để cải thiện dịch vụ, nâng cao trải nghiệm khách hàng và giảm tỷ lệ rời mạng.

Câu hỏi thường gặp

  1. Tại sao cần dự đoán thuê bao rời mạng trong ngành viễn thông?
    Dự đoán giúp các nhà mạng phát hiện sớm khách hàng có nguy cơ rời bỏ, từ đó triển khai các biện pháp giữ chân, giảm thiểu mất mát doanh thu và duy trì thị phần cạnh tranh.

  2. Mô hình nào cho kết quả dự đoán tốt nhất trong nghiên cứu này?
    Mô hình XGBoost cho kết quả tốt nhất với độ chính xác khoảng 92%, nhờ khả năng xử lý dữ liệu phức tạp và kỹ thuật tăng cường hiệu quả.

  3. Dữ liệu nào quan trọng nhất trong việc dự đoán thuê bao rời mạng?
    Các thuộc tính như số tháng sử dụng dịch vụ, số lần tạm dừng, điểm tín nhiệm và số lần gia hạn dịch vụ có ảnh hưởng lớn nhất đến dự đoán.

  4. Phương pháp tiền xử lý dữ liệu được áp dụng như thế nào?
    Bao gồm làm sạch dữ liệu, loại bỏ ngoại lệ, xử lý dữ liệu thiếu và chuẩn hóa, giúp nâng cao chất lượng dữ liệu đầu vào và hiệu quả mô hình.

  5. Làm thế nào để triển khai mô hình dự đoán vào thực tế?
    Cần tích hợp mô hình vào hệ thống quản lý khách hàng, xây dựng hệ thống cảnh báo tự động và đào tạo nhân viên để sử dụng kết quả dự đoán hiệu quả trong chăm sóc khách hàng.

Kết luận

  • Luận văn đã xây dựng và so sánh hiệu quả nhiều mô hình máy học và học sâu trong dự đoán thuê bao rời mạng dịch vụ internet VNPT TP. Hồ Chí Minh.
  • Mô hình XGBoost và Gradient Boosting thể hiện hiệu suất vượt trội với độ chính xác trên 90%, phù hợp để ứng dụng thực tiễn.
  • Các đặc trưng như thời gian sử dụng, điểm tín nhiệm và số lần tạm dừng dịch vụ đóng vai trò quan trọng trong dự đoán hành vi khách hàng.
  • Nghiên cứu cung cấp cơ sở khoa học và công cụ hỗ trợ VNPT tối ưu hóa chiến lược giữ chân khách hàng, nâng cao hiệu quả kinh doanh.
  • Các bước tiếp theo bao gồm triển khai mô hình vào hệ thống thực tế, đào tạo nhân viên và phát triển hệ thống cảnh báo tự động nhằm giảm tỷ lệ rời mạng trong tương lai gần.

Hãy áp dụng các kết quả nghiên cứu này để nâng cao năng lực cạnh tranh và phát triển bền vững trong ngành viễn thông hiện nay.