Tổng quan nghiên cứu

Trong kỷ nguyên số, sự phát triển mạnh mẽ của Internet và công nghệ thông tin đã tạo ra một lượng dữ liệu khổng lồ, bao gồm cả dữ liệu có cấu trúc và phi cấu trúc. Việc trích xuất tri thức từ dữ liệu này trở thành một thách thức lớn đối với các nhà khoa học dữ liệu. Đặc biệt, trong lĩnh vực ngân hàng, các bài toán phân tích truyền thống chủ yếu dựa trên dữ liệu có cấu trúc mà chưa khai thác hiệu quả các mối quan hệ giữa khách hàng. Luận văn thạc sĩ này tập trung nghiên cứu bài toán phân tích mạng xã hội, nhằm xây dựng mạng lưới thể hiện mối quan hệ giữa các khách hàng doanh nghiệp tại Ngân hàng VietinBank dựa trên dữ liệu giao dịch thực tế tháng 12 năm 2020. Mục tiêu chính là phát hiện các cộng đồng khách hàng và xác định các nút quan trọng trong mạng lưới để hỗ trợ xây dựng chính sách chăm sóc khách hàng hiệu quả hơn. Phạm vi nghiên cứu tập trung vào dữ liệu giao dịch của 59.529 công ty với 52.792 mối quan hệ, trong đó mạng lớn nhất chứa 31.792 nút, chiếm khoảng 53% tổng số nút. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp một phương pháp tiếp cận mới trong phân tích dữ liệu phi cấu trúc, giúp ngân hàng hiểu rõ hơn về cấu trúc mạng khách hàng, từ đó nâng cao hiệu quả quản lý và phát triển dịch vụ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu mạng xã hội và lý thuyết đồ thị, bao gồm:

  • Lý thuyết ràng buộc yếu (Strength of Weak Ties) của Granovetter (1973), nhấn mạnh vai trò của các liên kết yếu như cầu nối giữa các nhóm xã hội khác nhau, giúp lan truyền thông tin hiệu quả.
  • Lý thuyết lỗ trống cấu trúc (Structural Holes) của Burt (1992), đề cập đến lợi thế của các cá nhân đóng vai trò trung gian giữa các nhóm cộng đồng, giúp họ tiếp nhận thông tin đa dạng hơn.
  • Tính chất thế giới nhỏ (Small-world) của Watts và Strogatz (1998), mô tả mạng xã hội có khoảng cách trung bình giữa các nút rất nhỏ, tạo điều kiện thuận lợi cho sự lan truyền thông tin nhanh chóng.
  • Mạng không có tỷ lệ (Scale-free network) với phân phối bậc theo luật lũy thừa, trong đó một số nút có số lượng liên kết rất lớn, đóng vai trò trung tâm trong mạng.
  • Khái niệm đồ thị và các loại đồ thị: đơn đồ thị, đa đồ thị, đồ thị có hướng và vô hướng, các cấu phần như đỉnh, cạnh, bậc đỉnh, đường đi, thành phần liên thông mạnh/yếu, cliques và k-cores.
  • Chỉ số thống kê mô tả mạng: khoảng cách ngắn nhất, đường kính mạng, sức mạnh nút (node strength), hệ số phân cụm (clustering coefficient).
  • Phát hiện cộng đồng: sử dụng thuật toán Leiden, cải tiến từ thuật toán Louvain, dựa trên tối ưu hóa modularity để phân chia mạng thành các cộng đồng liên thông mạnh, không chồng chéo.
  • Chỉ số tính trung tâm (centrality): bậc (degree centrality), khoảng cách trung tâm (closeness centrality), vị trí trung tâm (betweenness centrality) để xác định các nút quan trọng trong mạng.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu giao dịch tháng 12 năm 2020 của Ngân hàng VietinBank, bao gồm 59.529 khách hàng doanh nghiệp và 52.792 mối quan hệ giao dịch.
  • Xây dựng mạng xã hội: Mạng có hướng được xây dựng dựa trên các giao dịch giữa các khách hàng, với ba dạng mạng:
    • Mạng không trọng số (G)
    • Mạng trọng số theo tổng số tiền giao dịch (GT)
    • Mạng trọng số theo tổng số lần giao dịch (GN)
  • Phân tích mạng:
    • Trích xuất thành phần liên thông lớn nhất (thành phần 1) làm mạng con để phân tích chi tiết.
    • Tính toán các chỉ số thống kê mô tả như đường kính mạng (38), mật độ mạng (6e-05), phân bố bậc, sức mạnh nút, hệ số phân cụm.
  • Phát hiện cộng đồng: Áp dụng thuật toán Leiden để phân chia mạng thành các cộng đồng dựa trên tối ưu modularity.
  • Xác định nút quan trọng: Sử dụng các chỉ số tính trung tâm (bậc, khoảng cách trung tâm, vị trí trung tâm) để xác định các khách hàng quan trọng trong toàn bộ mạng và trong từng cộng đồng.
  • Timeline nghiên cứu: Thu thập và xử lý dữ liệu tháng 12/2020, phân tích và đánh giá mạng xã hội trong thời gian nghiên cứu luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Cấu trúc mạng lớn và thưa: Mạng xã hội xây dựng từ dữ liệu giao dịch có 8.980 thành phần liên thông, trong đó thành phần lớn nhất chứa 31.792 nút (53% tổng số nút) và 33,1% tổng số cạnh. Hầu hết các thành phần nhỏ chiếm trên 90% số lượng thành phần, chủ yếu là các nút cô lập hoặc có bậc thấp (74,67% nút trong thành phần lớn nhất có bậc bằng 1).

  2. Phân bố bậc và sức mạnh nút: Mạng có phân bố bậc giảm nhanh, với bậc vào trung bình là 1.01 và bậc ra trung bình là 2. Sức mạnh vào (theo tổng số tiền) trung bình khoảng 411 VNĐ, sức mạnh ra khoảng 400 VNĐ, cho thấy khách hàng có xu hướng chuyển tiền ra nhiều hơn nhận vào trong tháng 12/2020. Hệ số tương quan Spearman giữa số lần giao dịch và tổng số tiền là 0,42, cho thấy mối liên hệ vừa phải giữa hai trọng số này.

  3. Phát hiện cộng đồng: Thuật toán Leiden phân chia mạng GT thành 136 cộng đồng, mạng GN thành 131 cộng đồng và mạng G thành 130 cộng đồng. Mạng GT có modularity cao nhất (khoảng 0.9514), cho thấy trọng số tổng số tiền giao dịch giúp phân chia cộng đồng hiệu quả hơn so với trọng số số lần giao dịch hoặc mạng không trọng số.

  4. Xác định nút quan trọng: Nút có bậc cao nhất (1264) cũng là nút có vị trí trung tâm cao nhất trong mạng. Tuy nhiên, một số nút có vị trí trung tâm cao nhưng khoảng cách trung tâm thấp, cho thấy vai trò quan trọng trong các cộng đồng nhỏ hơn. Việc xác định nút quan trọng trong từng cộng đồng giúp phát hiện các khách hàng có ảnh hưởng cục bộ, hỗ trợ xây dựng chính sách chăm sóc khách hàng hiệu quả hơn.

Thảo luận kết quả

Kết quả cho thấy mạng xã hội xây dựng từ dữ liệu giao dịch ngân hàng có đặc điểm điển hình của mạng scale-free với sự tập trung liên kết vào một số nút trung tâm. Mạng thưa với mật độ thấp và đường kính lớn (38 bước) phản ánh tính phân tán và đa dạng của khách hàng doanh nghiệp. Việc sử dụng trọng số tổng số tiền giao dịch làm trọng số cạnh giúp phân chia cộng đồng chính xác hơn, phù hợp với thực tế kinh doanh khi giá trị giao dịch phản ánh mức độ quan hệ kinh tế giữa các khách hàng. Thuật toán Leiden khắc phục được nhược điểm của Louvain, đảm bảo các cộng đồng liên thông mạnh và tối ưu modularity, phù hợp với mạng lớn và phức tạp. Việc xác định nút quan trọng dựa trên các chỉ số trung tâm giúp ngân hàng nhận diện được các khách hàng có vai trò cầu nối, ảnh hưởng lớn trong mạng lưới, từ đó có thể xây dựng các chính sách ưu đãi, giữ chân khách hàng hiệu quả hơn. So sánh với các nghiên cứu khác, kết quả phù hợp với các đặc điểm mạng xã hội trong lĩnh vực tài chính và thương mại, đồng thời mở ra hướng ứng dụng thực tiễn trong quản lý khách hàng ngân hàng.

Đề xuất và khuyến nghị

  1. Mở rộng dữ liệu lịch sử giao dịch: Thu thập và xây dựng mạng xã hội dựa trên toàn bộ lịch sử giao dịch của khách hàng thay vì chỉ dữ liệu tháng 12 để có cái nhìn tổng quát và chính xác hơn về mối quan hệ giữa các khách hàng. Chủ thể thực hiện: Phòng CNTT và phân tích dữ liệu ngân hàng; Thời gian: 6-12 tháng.

  2. Áp dụng thuật toán phát hiện cộng đồng nâng cao: Sử dụng thuật toán Leiden hoặc các thuật toán tối ưu modularity khác để phân tích mạng lớn, đảm bảo các cộng đồng phát hiện được liên thông mạnh và có ý nghĩa thực tiễn. Chủ thể thực hiện: Nhóm nghiên cứu khoa học dữ liệu; Thời gian: liên tục trong quá trình phân tích.

  3. Xây dựng hệ thống cảnh báo và chăm sóc khách hàng quan trọng: Dựa trên kết quả xác định nút quan trọng trong mạng, thiết kế các chính sách ưu đãi, chăm sóc riêng biệt nhằm giữ chân khách hàng có vai trò trung tâm, giảm thiểu rủi ro mất mát khách hàng quan trọng. Chủ thể thực hiện: Phòng quản lý khách hàng và marketing; Thời gian: 3-6 tháng.

  4. Phát triển công cụ trực quan hóa mạng xã hội: Xây dựng phần mềm hoặc dashboard trực quan giúp các nhà quản lý dễ dàng theo dõi cấu trúc mạng, cộng đồng và các nút quan trọng, hỗ trợ ra quyết định nhanh chóng và chính xác. Chủ thể thực hiện: Phòng phát triển phần mềm; Thời gian: 6 tháng.

  5. Nghiên cứu mở rộng ứng dụng phân tích mạng xã hội trong các bài toán khác: Áp dụng đặc trưng mạng xã hội vào các bài toán dự đoán rủi ro tín dụng, phát hiện gian lận, hoặc phân tích hành vi khách hàng để nâng cao hiệu quả quản lý. Chủ thể thực hiện: Nhóm nghiên cứu và phòng rủi ro; Thời gian: 12 tháng trở lên.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý ngân hàng và phòng chăm sóc khách hàng: Giúp hiểu rõ cấu trúc mạng khách hàng, phát hiện nhóm khách hàng quan trọng để xây dựng chính sách chăm sóc và giữ chân hiệu quả.

  2. Chuyên gia khoa học dữ liệu và phân tích mạng xã hội: Cung cấp phương pháp xây dựng và phân tích mạng xã hội dựa trên dữ liệu giao dịch thực tế, áp dụng thuật toán Leiden trong phát hiện cộng đồng.

  3. Nhà nghiên cứu trong lĩnh vực tài chính và kinh tế: Tham khảo mô hình mạng xã hội trong phân tích mối quan hệ giao dịch giữa các doanh nghiệp, hỗ trợ nghiên cứu về chuỗi cung ứng và dòng tiền.

  4. Phát triển phần mềm và công nghệ thông tin: Hướng dẫn xây dựng hệ thống phân tích mạng xã hội, trực quan hóa dữ liệu mạng và phát triển các công cụ hỗ trợ ra quyết định dựa trên mạng xã hội.

Câu hỏi thường gặp

  1. Phân tích mạng xã hội có ý nghĩa gì trong ngành ngân hàng?
    Phân tích mạng xã hội giúp ngân hàng hiểu rõ mối quan hệ giữa các khách hàng, phát hiện các nhóm cộng đồng và nút quan trọng, từ đó xây dựng chính sách chăm sóc khách hàng hiệu quả, giảm rủi ro và tăng doanh thu.

  2. Tại sao lại chọn thuật toán Leiden thay vì Louvain?
    Thuật toán Leiden khắc phục nhược điểm của Louvain bằng cách đảm bảo các cộng đồng phát hiện được là liên thông mạnh, tránh các cộng đồng không liên thông và tối ưu modularity tốt hơn, phù hợp với mạng lớn và phức tạp.

  3. Trọng số tổng số tiền giao dịch có quan trọng hơn số lần giao dịch không?
    Theo kết quả nghiên cứu, trọng số tổng số tiền giao dịch giúp phân chia cộng đồng chính xác hơn so với trọng số số lần giao dịch, vì nó phản ánh mức độ quan hệ kinh tế thực tế giữa các khách hàng.

  4. Làm thế nào để xác định nút quan trọng trong mạng xã hội?
    Nút quan trọng được xác định dựa trên các chỉ số tính trung tâm như bậc (degree), khoảng cách trung tâm (closeness), và vị trí trung tâm (betweenness), giúp nhận diện các nút có vai trò cầu nối và ảnh hưởng lớn trong mạng.

  5. Có thể áp dụng kết quả nghiên cứu này vào các bài toán khác không?
    Có, đặc trưng mạng xã hội và các chỉ số trung tâm có thể được sử dụng trong các bài toán dự đoán rủi ro tín dụng, phát hiện gian lận, phân tích hành vi khách hàng, giúp nâng cao hiệu quả quản lý và ra quyết định trong ngân hàng.

Kết luận

  • Luận văn đã xây dựng thành công mạng xã hội khách hàng doanh nghiệp tại VietinBank dựa trên dữ liệu giao dịch tháng 12/2020 với 59.529 nút và 52.792 cạnh.
  • Mạng có đặc điểm lớn, thưa, với thành phần liên thông lớn nhất chiếm hơn 50% tổng số nút và cạnh.
  • Thuật toán Leiden được áp dụng hiệu quả trong phát hiện cộng đồng, với mạng trọng số tổng số tiền giao dịch cho kết quả phân chia cộng đồng tốt nhất (modularity ~0.95).
  • Các chỉ số tính trung tâm giúp xác định các khách hàng quan trọng trong toàn bộ mạng và trong từng cộng đồng, hỗ trợ xây dựng chính sách chăm sóc khách hàng phù hợp.
  • Định hướng nghiên cứu tiếp theo là mở rộng dữ liệu lịch sử giao dịch để có cái nhìn tổng quát hơn và ứng dụng phân tích mạng xã hội trong các bài toán quản lý rủi ro và phát triển dịch vụ ngân hàng.

Hành động tiếp theo: Khuyến nghị các phòng ban liên quan phối hợp triển khai thu thập dữ liệu lịch sử, phát triển công cụ phân tích và trực quan hóa mạng xã hội, đồng thời áp dụng kết quả nghiên cứu vào thực tiễn quản lý khách hàng.