Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu toàn cầu, Big Data đã trở thành tài nguyên quý giá, đặc biệt trong lĩnh vực viễn thông với hàng triệu thuê bao và lượng dữ liệu khổng lồ được sinh ra mỗi ngày. Tại Việt Nam, các doanh nghiệp viễn thông như Viettel Group đã đầu tư mạnh mẽ vào trung tâm phân tích dữ liệu lớn nhằm nâng cao hiệu quả kinh doanh và chăm sóc khách hàng. Tuy nhiên, việc khai thác hiệu quả dữ liệu lớn vẫn còn nhiều thách thức do tính đa dạng, tốc độ và khối lượng dữ liệu. Luận văn tập trung nghiên cứu ứng dụng phương pháp khai phá luật kết hợp trong Big Data để tìm hiểu sở thích, thói quen tiêu dùng của khách hàng trong ngành viễn thông, từ đó hỗ trợ doanh nghiệp xây dựng chiến lược kinh doanh phù hợp.

Mục tiêu nghiên cứu là phát triển mô hình khai phá các luật kết hợp dựa trên thuật toán Apriori được cải tiến trên nền tảng MapReduce để xử lý dữ liệu lớn, nhằm phát hiện các mối quan hệ giữa các dịch vụ giá trị gia tăng mà khách hàng thường sử dụng cùng nhau. Phạm vi nghiên cứu tập trung vào dữ liệu thuê bao di động trả trước của Tổng công ty Viễn thông Viettel trong năm 2022, với khoảng 2.488 mẫu dữ liệu được thu thập và xử lý. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao trải nghiệm khách hàng, tăng doanh thu qua bán chéo dịch vụ và tối ưu hóa các chương trình khuyến mãi.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết Big Data với mô hình 5V (Volume, Velocity, Variety, Veracity, Value) để mô tả đặc trưng dữ liệu lớn trong viễn thông. Khai phá dữ liệu (Data Mining) được định nghĩa là quá trình khám phá các mẫu và thông tin có giá trị từ bộ dữ liệu lớn, trong đó khai phá luật kết hợp (Association Rule Mining) là kỹ thuật trọng tâm nhằm phát hiện mối quan hệ giữa các mục trong cơ sở dữ liệu giao dịch.

Thuật toán Apriori là công cụ chính được sử dụng để tìm các tập mục thường xuyên và sinh ra các luật kết hợp mạnh dựa trên ngưỡng độ hỗ trợ (support) và độ tin cậy (confidence). Để xử lý hiệu quả dữ liệu lớn, luận văn áp dụng mô hình MapReduce trên nền tảng Apache Hadoop và Apache Spark, giúp phân tán và song song hóa quá trình tính toán, giảm thiểu thời gian xử lý và tăng khả năng mở rộng.

Các khái niệm chính bao gồm:

  • Tập mục thường xuyên (Frequent Itemsets): Các tập con xuất hiện với tần suất vượt ngưỡng hỗ trợ tối thiểu.
  • Luật kết hợp mạnh (Strong Association Rules): Luật thỏa mãn cả ngưỡng hỗ trợ và độ tin cậy tối thiểu.
  • Mô hình MapReduce: Mô hình lập trình phân tán giúp xử lý dữ liệu lớn hiệu quả.
  • Big Data 5V: Khối lượng, tốc độ, đa dạng, chính xác và giá trị của dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu thực nghiệm gồm 2.488 thuê bao di động trả trước của Viettel, bao gồm thông tin thuê bao, đăng ký dịch vụ giá trị gia tăng (VAS), và dữ liệu tiêu dùng chi tiết. Dữ liệu được thu thập từ hệ thống Data Lake của doanh nghiệp, đảm bảo tính đa dạng và độ tin cậy.

Phương pháp phân tích gồm các bước:

  1. Thu thập và tiền xử lý dữ liệu: Loại bỏ dữ liệu không hợp lệ, chuẩn hóa và tích hợp dữ liệu từ nhiều nguồn.
  2. Áp dụng thuật toán Apriori trên mô hình MapReduce: Sinh các tập mục thường xuyên và luật kết hợp mạnh với ngưỡng hỗ trợ và độ tin cậy được thiết lập phù hợp (ví dụ minsup = 40%, minconf = 60%).
  3. Đánh giá kết quả: Phân tích các luật kết hợp tìm được, so sánh với các nghiên cứu trước và đánh giá ý nghĩa kinh doanh.
  4. Thời gian nghiên cứu: Nghiên cứu được thực hiện trong năm 2022, tập trung vào dữ liệu thu thập trong cùng năm.

Cỡ mẫu 2.488 thuê bao được chọn theo phương pháp chọn mẫu ngẫu nhiên có chủ đích, đảm bảo đại diện cho tập khách hàng sử dụng dịch vụ VAS phổ biến. Việc lựa chọn phương pháp phân tích dựa trên tính hiệu quả của thuật toán Apriori trong khai phá luật kết hợp và khả năng mở rộng khi áp dụng trên nền tảng Big Data.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phát hiện các luật kết hợp mạnh giữa các dịch vụ VAS:
    Qua phân tích, các luật kết hợp như "Mobile TV → Game" với độ hỗ trợ 55% và độ tin cậy 70%, "CRBT và Imuzik → AnyBook hoặc Zozo" với độ hỗ trợ 48% và độ tin cậy 65% được xác định rõ ràng. Điều này cho thấy khách hàng sử dụng dịch vụ Mobile TV thường có nhu cầu sử dụng dịch vụ Game kèm theo, phản ánh xu hướng tiêu dùng đa dạng trên nền tảng data.

  2. Phân bố sở thích theo nhóm tuổi và khu vực:
    Luật kết hợp giữa độ tuổi khách hàng và các gói dịch vụ cho thấy nhóm tuổi từ 18-35 chiếm khoảng 60% sử dụng các dịch vụ giải trí như KEENG MOVIES và KEENG MUSIC, trong khi nhóm tuổi trên 50 có xu hướng sử dụng dịch vụ Ứng tiền và Collect Call nhiều hơn (chiếm 35%). Khu vực miền Bắc và miền Nam có sự khác biệt về mức độ sử dụng dịch vụ, với miền Nam chiếm 55% tập khách hàng sử dụng dịch vụ TV360.

  3. Hiệu quả của mô hình MapReduce trong xử lý dữ liệu lớn:
    Việc triển khai thuật toán Apriori trên mô hình MapReduce giúp giảm thời gian xử lý xuống còn khoảng 30% so với phương pháp truyền thống, đồng thời tăng khả năng mở rộng khi dữ liệu tăng lên. Thời gian xử lý trung bình cho tập dữ liệu 2.488 thuê bao là khoảng 45 phút, so với hơn 2 giờ nếu chạy trên hệ thống đơn lẻ.

  4. Tăng khả năng dự đoán sở thích khách hàng:
    Các luật kết hợp mạnh giúp doanh nghiệp dự đoán chính xác hơn sở thích và hành vi tiêu dùng của khách hàng, từ đó tăng tỷ lệ phản hồi của khách hàng với các chương trình khuyến mãi lên khoảng 20% so với trước khi áp dụng mô hình.

Thảo luận kết quả

Nguyên nhân các luật kết hợp mạnh xuất hiện là do khách hàng có xu hướng sử dụng đồng thời các dịch vụ giải trí và tiện ích trên nền tảng di động, phản ánh sự phát triển đa dạng của dịch vụ viễn thông hiện đại. Kết quả phù hợp với các nghiên cứu trong ngành viễn thông về hành vi tiêu dùng đa dịch vụ.

Việc áp dụng mô hình MapReduce giúp giải quyết hạn chế của thuật toán Apriori truyền thống về thời gian và bộ nhớ, phù hợp với đặc thù dữ liệu lớn trong viễn thông. Kết quả có thể được trình bày qua biểu đồ cột thể hiện độ hỗ trợ và độ tin cậy của các luật kết hợp, hoặc bảng tổng hợp các luật kết hợp mạnh theo nhóm tuổi và khu vực.

Ý nghĩa của nghiên cứu là giúp doanh nghiệp viễn thông nâng cao hiệu quả kinh doanh thông qua việc hiểu rõ hơn về sở thích khách hàng, từ đó xây dựng các chiến lược bán chéo dịch vụ và chăm sóc khách hàng cá nhân hóa, góp phần tăng doanh thu và giữ chân khách hàng.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống khai phá luật kết hợp tự động:
    Doanh nghiệp nên xây dựng hệ thống khai phá luật kết hợp tự động trên nền tảng Big Data để liên tục cập nhật và phân tích hành vi khách hàng theo thời gian thực, giúp kịp thời điều chỉnh chiến lược kinh doanh. Thời gian triển khai dự kiến trong 6 tháng, do phòng CNTT chủ trì.

  2. Tối ưu hóa các chương trình bán chéo dựa trên luật kết hợp:
    Sử dụng kết quả khai phá để thiết kế các gói dịch vụ kết hợp phù hợp với từng nhóm khách hàng, tăng tỷ lệ mua kèm dịch vụ lên ít nhất 15% trong vòng 1 năm. Bộ phận marketing và kinh doanh chịu trách nhiệm thực hiện.

  3. Phân nhóm khách hàng theo hành vi tiêu dùng:
    Áp dụng kỹ thuật phân nhóm dựa trên các luật kết hợp để cá nhân hóa các chương trình khuyến mãi, nâng cao mức độ hài lòng và trung thành của khách hàng. Mục tiêu tăng tỷ lệ giữ chân khách hàng lên 10% trong 12 tháng tới.

  4. Đào tạo nhân sự và nâng cao năng lực phân tích dữ liệu:
    Tổ chức các khóa đào tạo về Big Data và khai phá dữ liệu cho đội ngũ phân tích và kinh doanh nhằm nâng cao hiệu quả sử dụng công cụ và dữ liệu. Thời gian đào tạo trong 3 tháng, do phòng nhân sự phối hợp với chuyên gia CNTT thực hiện.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý doanh nghiệp viễn thông:
    Giúp hiểu rõ hơn về ứng dụng Big Data trong phân tích hành vi khách hàng, từ đó xây dựng chiến lược kinh doanh hiệu quả và nâng cao lợi thế cạnh tranh.

  2. Chuyên viên phân tích dữ liệu và kỹ sư Big Data:
    Cung cấp kiến thức chuyên sâu về thuật toán Apriori, mô hình MapReduce và cách áp dụng trong thực tế ngành viễn thông, hỗ trợ phát triển các giải pháp phân tích dữ liệu lớn.

  3. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin:
    Là tài liệu tham khảo quý giá về khai phá luật kết hợp trong Big Data, giúp mở rộng hiểu biết và ứng dụng trong các lĩnh vực khác.

  4. Bộ phận marketing và chăm sóc khách hàng:
    Hỗ trợ xây dựng các chương trình bán hàng và chăm sóc khách hàng dựa trên phân tích hành vi tiêu dùng, tăng hiệu quả tiếp cận và giữ chân khách hàng.

Câu hỏi thường gặp

  1. Khai phá luật kết hợp là gì và tại sao quan trọng trong viễn thông?
    Khai phá luật kết hợp là kỹ thuật tìm mối quan hệ giữa các mục trong dữ liệu giao dịch, giúp phát hiện các dịch vụ thường được sử dụng cùng nhau. Trong viễn thông, điều này giúp doanh nghiệp hiểu sở thích khách hàng và thiết kế các gói dịch vụ phù hợp, tăng doanh thu.

  2. Thuật toán Apriori hoạt động như thế nào?
    Apriori tìm các tập mục thường xuyên dựa trên ngưỡng hỗ trợ tối thiểu, sau đó sinh ra các luật kết hợp mạnh dựa trên ngưỡng độ tin cậy. Thuật toán lặp lại việc sinh tập mục ứng viên và loại bỏ các tập không thỏa mãn điều kiện để tối ưu hiệu quả.

  3. Tại sao cần áp dụng mô hình MapReduce cho thuật toán Apriori?
    Vì dữ liệu viễn thông rất lớn và phức tạp, việc chạy thuật toán Apriori truyền thống tốn nhiều thời gian và bộ nhớ. MapReduce giúp phân tán công việc xử lý trên nhiều node, giảm thời gian và tăng khả năng mở rộng.

  4. Luật kết hợp có thể giúp gì cho chiến lược kinh doanh?
    Luật kết hợp giúp xác định các dịch vụ khách hàng thường mua cùng nhau, từ đó doanh nghiệp có thể thiết kế các chương trình bán chéo, khuyến mãi cá nhân hóa, nâng cao trải nghiệm và doanh thu.

  5. Dữ liệu nào được sử dụng để khai phá luật kết hợp trong nghiên cứu này?
    Dữ liệu gồm thông tin thuê bao, đăng ký dịch vụ giá trị gia tăng, dữ liệu tiêu dùng thoại, tin nhắn, data của khoảng 2.488 thuê bao trả trước của Viettel, được thu thập và xử lý trên hệ thống Data Lake.

Kết luận

  • Luận văn đã ứng dụng thành công thuật toán Apriori trên mô hình MapReduce để khai phá luật kết hợp trong dữ liệu lớn ngành viễn thông, giúp phát hiện các mối quan hệ giữa dịch vụ và sở thích khách hàng.
  • Kết quả phân tích cho thấy các dịch vụ giá trị gia tăng như Mobile TV, Game, CRBT, Imuzik thường được khách hàng sử dụng đồng thời, phản ánh xu hướng tiêu dùng đa dạng.
  • Việc áp dụng mô hình phân tán giúp giảm đáng kể thời gian xử lý và tăng khả năng mở rộng khi dữ liệu tăng lên.
  • Nghiên cứu cung cấp cơ sở khoa học cho doanh nghiệp viễn thông trong việc xây dựng chiến lược bán chéo, chăm sóc khách hàng cá nhân hóa và tối ưu hóa chương trình khuyến mãi.
  • Đề xuất triển khai hệ thống khai phá luật kết hợp tự động, đào tạo nhân sự và áp dụng kết quả vào thực tiễn kinh doanh trong vòng 6-12 tháng tới.

Để tiếp tục phát triển, doanh nghiệp nên mở rộng nghiên cứu với dữ liệu đa dạng hơn, áp dụng các thuật toán học máy nâng cao và tích hợp phân tích thời gian thực nhằm nâng cao hiệu quả khai thác dữ liệu lớn. Hành động ngay hôm nay để tận dụng tối đa giá trị của Big Data trong kinh doanh viễn thông!