Tổng quan nghiên cứu

Ngành viễn thông toàn cầu đang chứng kiến sự phát triển mạnh mẽ với sự bùng nổ của công nghệ 5G, theo báo cáo của Ericsson, đến cuối năm 2020, hơn 1 tỷ người dùng, chiếm khoảng 15% dân số thế giới, đã được phủ sóng 5G, với 220 triệu thuê bao 5G. Tại Việt Nam, số lượng thuê bao di động đạt gần 130 triệu, trong đó VNPT Đồng Nai là một trong những đơn vị cung cấp dịch vụ viễn thông lớn với hơn 175.000 thuê bao Fiber, 74.000 thuê bao MyTV và hơn 66.000 thuê bao điện thoại cố định. Trong bối cảnh cạnh tranh gay gắt, việc dự báo khách hàng hiện hữu sử dụng thêm dịch vụ (cross-selling) trở thành một bài toán quan trọng nhằm tăng trưởng doanh thu và giữ chân khách hàng.

Mục tiêu nghiên cứu của luận văn là xây dựng chương trình dự báo thuê bao hiện hữu sử dụng thêm dịch vụ tại VNPT Đồng Nai, sử dụng các kỹ thuật khai phá dữ liệu và mô hình học máy, đặc biệt là mô hình Cây quyết định (Decision Tree). Phạm vi nghiên cứu tập trung vào dữ liệu thuê bao hiện hữu tại VNPT Đồng Nai, với dữ liệu thu thập đến tháng 12/2021, bao gồm gần 300.000 khách hàng. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao độ chính xác dự báo (AUC trên 80%), giúp doanh nghiệp tối ưu hóa chiến lược kinh doanh và chăm sóc khách hàng, đồng thời giảm thiểu rủi ro mất khách hàng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

  • Khai phá dữ liệu (Data Mining): Quá trình tìm kiếm tri thức tiềm ẩn và các mẫu dự đoán trong cơ sở dữ liệu lớn. Các bước chính gồm lựa chọn dữ liệu, tiền xử lý, biến đổi dữ liệu, khai thác dữ liệu và đánh giá tri thức. Kỹ thuật khai thác dữ liệu được ứng dụng rộng rãi trong viễn thông để phân tích hành vi khách hàng và dự báo nhu cầu dịch vụ.

  • Mô hình Cây quyết định (Decision Tree): Phương pháp học máy phân lớp dựa trên việc chia dữ liệu thành các nhóm con dựa trên thuộc tính đặc trưng. Thuật toán ID3 được sử dụng để xây dựng cây quyết định bằng cách chọn thuộc tính tối ưu dựa trên entropy hoặc thông tin gain. Cây quyết định cho phép biểu diễn tri thức dưới dạng luật if-then dễ hiểu và có khả năng xử lý dữ liệu nhiễu.

  • Thuật toán K-Means: Phương pháp phân cụm không giám sát, phân chia dữ liệu thành k cụm sao cho các điểm trong cùng cụm có tính chất tương đồng. Thuật toán được sử dụng để phân nhóm khách hàng nhằm xác định các đặc điểm chung ảnh hưởng đến việc sử dụng thêm dịch vụ.

  • Phân lớp Naive Bayes: Thuật toán thống kê dựa trên định lý Bayes, giả định các thuộc tính độc lập, giúp dự đoán xác suất khách hàng thuộc nhóm sử dụng thêm dịch vụ hay không.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Tập dữ liệu lịch sử của 293.337 khách hàng VNPT Đồng Nai đến tháng 12/2021, bao gồm 11 thuộc tính liên quan đến dịch vụ internet, truyền hình, điện thoại cố định, di động trả sau, thời gian sử dụng dịch vụ và chi phí cước.

  • Phương pháp phân tích: Sử dụng Microsoft Azure Machine Learning để huấn luyện mô hình Cây quyết định tăng cường (Boosted Decision Tree). Dữ liệu được tiền xử lý, chuẩn hóa và chia thành tập huấn luyện (80%) và tập kiểm thử (20%). So sánh kết quả giữa mô hình sử dụng dữ liệu thô và dữ liệu đã tiền xử lý.

  • Timeline nghiên cứu: Thu thập và xử lý dữ liệu trong 6 tháng đầu năm 2022, huấn luyện và đánh giá mô hình trong 3 tháng tiếp theo, triển khai hệ thống dự báo và báo cáo kết quả trong 3 tháng cuối năm 2022.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  • Mô hình Cây quyết định tăng cường đạt độ chính xác dự báo (AUC) trên 80%, cao hơn khoảng 10% so với mô hình không sử dụng tiền xử lý dữ liệu.

  • Tỷ lệ khách hàng phát triển thêm dịch vụ chiếm khoảng 35% trong tổng số khách hàng hiện hữu, với nhóm khách hàng sử dụng dịch vụ Fiber và MyTV có khả năng mua thêm dịch vụ cao hơn 20% so với nhóm khác.

  • Thời gian sử dụng dịch vụ trên 3 năm và chi phí cước hàng tháng trên 500 nghìn đồng là các yếu tố quan trọng ảnh hưởng đến khả năng sử dụng thêm dịch vụ, với tỷ lệ phát triển thêm dịch vụ tăng lần lượt 15% và 18%.

  • So sánh với các nghiên cứu trong và ngoài nước, kết quả mô hình dự báo tại VNPT Đồng Nai tương đồng với các mô hình học máy khác như Random Forests và hồi quy logistic, nhưng ưu thế về thời gian thực thi và khả năng giải thích cao hơn.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả mô hình Cây quyết định tăng cường là khả năng xử lý dữ liệu phức tạp và khai thác các mối quan hệ phi tuyến tính giữa các thuộc tính khách hàng. Việc tiền xử lý dữ liệu giúp loại bỏ nhiễu và chuẩn hóa thông tin, nâng cao chất lượng huấn luyện. Kết quả phù hợp với các nghiên cứu trước đây cho thấy mô hình học máy kết hợp kỹ thuật khai phá dữ liệu hỗn hợp có hiệu suất dự báo vượt trội.

Dữ liệu có thể được trình bày qua biểu đồ ROC để minh họa độ chính xác của mô hình, bảng so sánh tỷ lệ phát triển dịch vụ theo nhóm khách hàng và biểu đồ phân bố chi phí cước. Những phát hiện này có ý nghĩa quan trọng trong việc xây dựng chiến lược kinh doanh, giúp VNPT Đồng Nai tập trung nguồn lực vào nhóm khách hàng tiềm năng, từ đó tăng doanh thu và giảm tỷ lệ khách hàng rời bỏ.

Đề xuất và khuyến nghị

  • Triển khai hệ thống dự báo tự động: Áp dụng mô hình Cây quyết định tăng cường vào hệ thống quản lý khách hàng để tự động phân loại và dự báo khả năng sử dụng thêm dịch vụ, nhằm nâng cao hiệu quả chăm sóc khách hàng. Thời gian thực hiện: 6 tháng; Chủ thể: Phòng CNTT và Kinh doanh VNPT Đồng Nai.

  • Tăng cường thu thập và làm sạch dữ liệu: Đảm bảo dữ liệu khách hàng được cập nhật đầy đủ, chính xác và chuẩn hóa thường xuyên để nâng cao chất lượng dự báo. Thời gian: liên tục; Chủ thể: Bộ phận quản lý dữ liệu.

  • Phát triển các chương trình khuyến mãi cá nhân hóa: Dựa trên kết quả dự báo, thiết kế các gói dịch vụ và ưu đãi phù hợp với từng nhóm khách hàng có khả năng sử dụng thêm dịch vụ cao, nhằm tăng tỷ lệ chuyển đổi. Thời gian: 3 tháng; Chủ thể: Phòng Marketing.

  • Đào tạo nhân viên kinh doanh và chăm sóc khách hàng: Nâng cao kỹ năng sử dụng công cụ dự báo và hiểu biết về hành vi khách hàng để tư vấn hiệu quả hơn. Thời gian: 2 tháng; Chủ thể: Phòng Nhân sự và Đào tạo.

Đối tượng nên tham khảo luận văn

  • Các nhà quản lý viễn thông: Giúp hiểu rõ về phương pháp dự báo khách hàng sử dụng thêm dịch vụ, từ đó xây dựng chiến lược phát triển sản phẩm và dịch vụ phù hợp.

  • Chuyên gia phân tích dữ liệu và khoa học dữ liệu: Cung cấp mô hình và phương pháp khai phá dữ liệu ứng dụng thực tiễn trong ngành viễn thông, đặc biệt là kỹ thuật Cây quyết định tăng cường.

  • Sinh viên và nghiên cứu sinh ngành Công nghệ Thông tin, Kinh tế: Là tài liệu tham khảo về ứng dụng machine learning trong dự báo hành vi khách hàng và khai phá dữ liệu lớn.

  • Các nhà phát triển phần mềm và hệ thống CRM: Hỗ trợ phát triển các giải pháp phần mềm dự báo và quản lý khách hàng dựa trên dữ liệu lớn và học máy.

Câu hỏi thường gặp

  1. Mô hình Cây quyết định có ưu điểm gì trong dự báo khách hàng?
    Cây quyết định dễ hiểu, có khả năng xử lý dữ liệu phức tạp và cho phép biểu diễn tri thức dưới dạng luật if-then, giúp doanh nghiệp dễ dàng áp dụng và giải thích kết quả.

  2. Tại sao cần tiền xử lý dữ liệu trước khi huấn luyện mô hình?
    Tiền xử lý giúp loại bỏ dữ liệu nhiễu, chuẩn hóa thông tin, làm tăng chất lượng dữ liệu đầu vào, từ đó nâng cao độ chính xác và hiệu quả của mô hình dự báo.

  3. Phương pháp nào được sử dụng để đánh giá hiệu quả mô hình?
    Độ chính xác dự báo được đánh giá bằng chỉ số AUC (Area Under Curve) của biểu đồ ROC, với mô hình đạt AUC trên 80% được coi là có hiệu quả cao.

  4. Dữ liệu sử dụng trong nghiên cứu có đặc điểm gì?
    Dữ liệu gồm gần 300.000 khách hàng hiện hữu tại VNPT Đồng Nai, với 11 thuộc tính liên quan đến dịch vụ, thời gian sử dụng và chi phí cước, được thu thập đến tháng 12/2021.

  5. Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế?
    Doanh nghiệp có thể tích hợp mô hình dự báo vào hệ thống CRM để tự động phân loại khách hàng, từ đó thiết kế các chương trình khuyến mãi và chăm sóc phù hợp nhằm tăng doanh thu và giữ chân khách hàng.

Kết luận

  • Đã xây dựng thành công mô hình dự báo thuê bao hiện hữu sử dụng thêm dịch vụ tại VNPT Đồng Nai với độ chính xác AUC trên 80%.
  • Mô hình Cây quyết định tăng cường cho hiệu quả cao hơn so với mô hình không tiền xử lý dữ liệu.
  • Các yếu tố như thời gian sử dụng dịch vụ và chi phí cước hàng tháng ảnh hưởng rõ rệt đến khả năng sử dụng thêm dịch vụ của khách hàng.
  • Kết quả nghiên cứu hỗ trợ doanh nghiệp trong việc tối ưu hóa chiến lược kinh doanh và chăm sóc khách hàng.
  • Đề xuất triển khai hệ thống dự báo tự động và các chương trình khuyến mãi cá nhân hóa trong vòng 6 tháng tới để nâng cao hiệu quả kinh doanh.

Hãy áp dụng mô hình dự báo này để nâng cao năng lực cạnh tranh và phát triển bền vững trong ngành viễn thông hiện đại!