Ứng dụng khoa học dữ liệu dự báo khả năng rời đi của khách hàng trong ngân hàng - Đại học UEH

Dự báo rời đi của khách hàng ngân hàng với khoa học dữ liệu. Ứng dụng giúp giảm tỷ lệ churn, tăng lợi nhuận và giữ chân khách hàng hiệu quả.

Trường đại học

Đại học UEH

Người đăng

Ẩn danh

Thể loại

Đồ án

2023

46
3
0

Phí lưu trữ

30 Point

Tóm tắt

I. Hướng dẫn ứng dụng khoa học dữ liệu dự báo khách hàng rời bỏ

Trong bối cảnh ngành ngân hàng ngày càng cạnh tranh, việc giữ chân khách hàng hiện tại trở thành yếu tố sống còn. Chi phí để thu hút một khách hàng mới cao hơn nhiều so với việc duy trì một khách hàng cũ. Nghiên cứu của Nie et al. (2011) chỉ ra rằng, giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuận của ngân hàng lên đến 85%. Điều này cho thấy tầm quan trọng chiến lược của việc dự đoán và ngăn chặn hiện tượng khách hàng rời bỏ (customer churn). Khoa học dữ liệu nổi lên như một giải pháp mạnh mẽ, cho phép các ngân hàng phân tích hành vi, xác định các yếu tố rủi ro và xây dựng các mô hình dự báo chính xác. Thay vì phản ứng một cách bị động khi khách hàng đã rời đi, các tổ chức tài chính có thể chủ động can thiệp. Việc ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng không chỉ giúp tối ưu hóa các chiến dịch tiếp thị mà còn cải thiện trải nghiệm khách hàng, từ đó xây dựng lòng trung thành và đảm bảo tăng trưởng bền vững. Phân tích dựa trên dữ liệu lớn giúp nhận diện các mẫu hành vi ẩn, cung cấp cái nhìn sâu sắc về lý do khách hàng không hài lòng và có ý định chuyển sang đối thủ cạnh tranh. Đây là nền tảng để xây dựng các giải pháp giữ chân hiệu quả.

1.1. Bối cảnh và sự cần thiết của việc dự báo churn

Sau cuộc khủng hoảng tài chính năm 2008, các ngân hàng trung ương, đặc biệt là ECB, đã áp dụng nhiều biện pháp tiền tệ linh hoạt. Các chính sách này dù kích thích kinh tế nhưng lại gây áp lực lên lợi nhuận của các ngân hàng. Để bù đắp, nhiều ngân hàng tăng phí dịch vụ, dẫn đến sự không hài lòng và làm gia tăng tỷ lệ khách hàng rời bỏ. Nghiên cứu của Deloitte (2018) và Accenture (2019) đều nhấn mạnh rằng chất lượng dịch vụ và trải nghiệm khách hàng là yếu tố then chốt. Do đó, nhu cầu về một mô hình dự báo rời bỏ chính xác trở nên cấp thiết hơn bao giờ hết. Việc này giúp ngân hàng xác định sớm các khách hàng có nguy cơ cao và triển khai các chiến lược giữ chân khách hàng phù hợp.

1.2. Mục tiêu nghiên cứu Từ dữ liệu đến chiến lược thực tiễn

Mục tiêu chính của việc phân tích dữ liệu là xây dựng một mô hình dự báo hành vi rời bỏ của khách hàng. Cụ thể, nghiên cứu tập trung vào việc phát hiện các đặc điểm của nhóm khách hàng có nguy cơ rời đi, dự đoán khả năng churn bằng các thuật toán học máy, và phân cụm để xác định nhóm khách hàng trung thành. Đối tượng nghiên cứu là bộ dữ liệu “Churn for Bank Customers”, bao gồm thông tin về khách hàng tại Pháp, Đức và Tây Ban Nha. Kết quả của nghiên cứu sẽ là cơ sở để đề xuất các giải pháp kinh doanh, giúp ngân hàng cải thiện dịch vụ và nâng cao khả năng cạnh tranh trên thị trường.

II. Thách thức từ tỷ lệ rời bỏ Vấn đề cấp bách của ngân hàng

Tỷ lệ khách hàng rời bỏ là một trong những thách thức lớn nhất đối với ngành tài chính-ngân hàng. Mất khách hàng không chỉ có nghĩa là mất doanh thu trực tiếp mà còn kéo theo nhiều hệ lụy tiêu cực khác. Chi phí để thu hút khách hàng mới, bao gồm các hoạt động quảng cáo, tiếp thị và bán hàng, thường cao gấp nhiều lần so với chi phí để giữ chân khách hàng hiện tại. Khi một khách hàng rời đi, ngân hàng mất đi nguồn thu nhập ổn định từ các khoản phí dịch vụ, lãi suất tiền gửi và các sản phẩm tài chính khác. Hơn nữa, sự ra đi của khách hàng có thể tạo ra hiệu ứng truyền miệng tiêu cực, làm ảnh hưởng đến uy tín và thương hiệu của ngân hàng. Việc không thể dự báo và kiểm soát tỷ lệ churn hiệu quả sẽ khiến ngân hàng rơi vào thế bị động, liên tục phải chạy theo việc bù đắp lượng khách hàng đã mất. Điều này không chỉ tốn kém về mặt tài chính mà còn làm giảm khả năng tập trung vào việc đổi mới sản phẩm và nâng cao chất lượng dịch vụ. Do đó, việc hiểu rõ các yếu tố dẫn đến quyết định rời bỏ và xây dựng một hệ thống dự báo rời bỏ là một nhiệm vụ chiến lược, quyết định sự thành bại của ngân hàng trong dài hạn.

2.1. Phân tích các yếu tố ảnh hưởng đến quyết định rời bỏ

Nhiều yếu tố có thể tác động đến quyết định ở lại hay rời đi của một khách hàng. Nghiên cứu dựa trên bộ dữ liệu “Churn for Bank Customers” cho thấy các biến số như điểm tín dụng (CreditScore), tuổi tác (Age), số dư tài khoản (Balance), quốc gia (Geography) và số lượng sản phẩm đang sử dụng (NumOfProducts) có ảnh hưởng mạnh mẽ. Ví dụ, khách hàng ở Đức có xu hướng rời bỏ cao hơn (32.44%) so với Pháp (16.15%). Những khách hàng có điểm tín dụng thấp hoặc sử dụng quá nhiều sản phẩm (3-4 sản phẩm) cũng có tỷ lệ churn cao hơn. Ngược lại, các yếu tố như giới tính, thâm niên (Tenure) hay việc có thẻ tín dụng (HasCrCard) lại có tác động không đáng kể.

2.2. Chi phí ẩn và tác động tiêu cực của khách hàng rời bỏ

Ngoài thiệt hại trực tiếp về doanh thu, việc khách hàng rời bỏ còn gây ra những chi phí ẩn. Ngân hàng mất đi cơ hội bán chéo các sản phẩm và dịch vụ trong tương lai. Dữ liệu lịch sử giao dịch của khách hàng đó cũng trở nên kém giá trị cho việc phân tích và cải tiến. Nghiêm trọng hơn, một khách hàng không hài lòng có thể chia sẻ trải nghiệm tiêu cực của họ cho nhiều người khác, làm tổn hại đến danh tiếng mà ngân hàng đã xây dựng trong nhiều năm. Việc liên tục mất khách hàng cũng gây áp lực lên đội ngũ nhân viên và tạo ra một môi trường làm việc không ổn định. Vì vậy, đầu tư vào các giải pháp giữ chân khách hàng là một khoản đầu tư chiến lược mang lại lợi ích kép: vừa tiết kiệm chi phí, vừa củng cố vị thế thương hiệu.

III. Phương pháp phân tích dữ liệu Khám phá đặc thù khách hàng

Để xây dựng mô hình dự báo rời bỏ hiệu quả, quy trình phân tích dữ liệu phải được thực hiện một cách bài bản. Quá trình này bắt đầu từ việc thu thập và tiền xử lý dữ liệu. Bộ dữ liệu “Churn for Bank Customers” từ Kaggle với 10.000 quan sát được sử dụng làm nền tảng. Bước đầu tiên là làm sạch và rút gọn dữ liệu, loại bỏ các thuộc tính không liên quan như CustomerId, RowNumber hay Surname vì chúng không có giá trị dự báo. Tiếp theo, các công cụ trực quan hóa như Dashboard trong Excel và phần mềm Orange được sử dụng để phân tích đặc thù. Giai đoạn này giúp khám phá các mối tương quan giữa các biến độc lập (như tuổi, số dư tài khoản, quốc gia) và biến phụ thuộc (Exited - đã rời bỏ). Việc phân tích cho thấy các nhóm khách hàng có đặc điểm khác nhau sẽ có xu hướng rời bỏ khác nhau. Ví dụ, nhóm khách hàng trung niên (44-66 tuổi) hoặc những người có số dư tài khoản cao thường có tỷ lệ churn cao hơn. Những phát hiện ban đầu này là tiền đề quan trọng để lựa chọn các thuật toán học máy phù hợp và xây dựng các mô hình dự báo chính xác trong giai đoạn tiếp theo.

3.1. Quy trình tiền xử lý và lựa chọn thuộc tính quan trọng

Quy trình tiền xử lý bắt đầu bằng việc kiểm tra các giá trị thiếu hoặc nhiễu. May mắn là bộ dữ liệu khá sạch. Sau đó, công cụ Select Columns trong Orange được dùng để loại bỏ các cột không cần thiết. Việc này giúp giảm chiều dữ liệu và tập trung vào các yếu tố thực sự ảnh hưởng đến hành vi khách hàng. Các thuộc tính được giữ lại bao gồm điểm tín dụng, tuổi, thâm niên, số dư tài khoản, số lượng sản phẩm, tình trạng thành viên tích cực (IsActiveMember),... Đây là những biến số chứa thông tin giá trị cho việc xây dựng mô hình dự báo khách hàng rời bỏ.

3.2. Sử dụng Dashboard và Orange để trực quan hóa dữ liệu

Trực quan hóa là một bước không thể thiếu để hiểu sâu hơn về dữ liệu. Dashboard trên Excel cung cấp một cái nhìn tổng quan về nhân khẩu học của khách hàng, cho thấy 20% khách hàng đã rời bỏ, phần lớn khách hàng ở độ tuổi 28-48 và tập trung chủ yếu ở Pháp. Trong khi đó, phần mềm Orange được dùng để phân tích sâu hơn về mối quan hệ giữa từng biến và tỷ lệ churn. Các biểu đồ phân phối (Distributions) trong Orange cho thấy rõ sự chênh lệch về tỷ lệ khách hàng rời bỏ giữa các nhóm khác nhau, ví dụ như giữa khách hàng ở Đức và Pháp, hay giữa thành viên tích cực và không tích cực. Những phân tích này xác nhận các giả thuyết ban đầu và cung cấp bằng chứng vững chắc cho các bước mô hình hóa.

IV. Cách xây dựng mô hình dự báo rời bỏ với độ chính xác cao

Sau khi đã hiểu rõ dữ liệu, bước tiếp theo là xây dựng và đánh giá các mô hình dự báo. Quá trình này sử dụng các thuật toán học máy để phân loại khách hàng vào hai nhóm: “rời bỏ” (Exited = 1) hoặc “ở lại” (Exited = 0). Trong nghiên cứu này, ba mô hình phổ biến đã được triển khai và so sánh hiệu suất: Logistic Regression, Support Vector Machine (SVM) và Decision Tree (Cây quyết định). Việc lựa chọn mô hình tốt nhất không chỉ dựa trên độ chính xác tổng thể (CA) mà còn phải xem xét các chỉ số khác như F1-Score, Precision, Recall và đặc biệt là ma trận nhầm lẫn (Confusion Matrix). Ma trận này giúp đánh giá các loại sai lầm của mô hình, đặc biệt là sai lầm loại 2 (dự báo khách hàng ở lại nhưng thực tế họ rời đi). Sai lầm này gây thiệt hại lớn nhất cho ngân hàng vì nó khiến ngân hàng bỏ lỡ cơ hội can thiệp. Việc ứng dụng khoa học dữ liệu đòi hỏi sự lựa chọn kỹ lưỡng để đảm bảo mô hình không chỉ chính xác về mặt kỹ thuật mà còn mang lại giá trị thực tiễn cho doanh nghiệp.

4.1. So sánh hiệu suất các thuật toán Tree SVM Logistic Regression

Dữ liệu được đưa vào công cụ Test and Score trong Orange để đánh giá đồng thời ba mô hình. Kết quả cho thấy mô hình Cây quyết định (Tree) vượt trội hơn cả. Mặc dù độ chính xác (CA) của các mô hình khá tương đồng, nhưng khi phân tích sâu hơn vào ma trận nhầm lẫn, mô hình Tree có tỷ lệ sai lầm loại 2 thấp nhất (12.4%), nhỏ hơn đáng kể so với SVM (16.3%) và Logistic Regression (19.6%). Điều này có nghĩa là mô hình Tree ít bỏ sót các trường hợp khách hàng có nguy cơ rời bỏ thực sự nhất. Do đó, Cây quyết định được chọn là mô hình tối ưu để dự báo khách hàng rời bỏ.

4.2. Phân tích chuyên sâu với mô hình Cây quyết định Decision Tree

Mô hình Cây quyết định không chỉ cho kết quả dự báo mà còn cung cấp các quy tắc dễ hiểu. Phân tích Tree Viewer cho thấy các biến quan trọng nhất ảnh hưởng đến quyết định rời bỏ là Age (Tuổi), NumOfProducts (Số lượng sản phẩm), IsActiveMember (Thành viên tích cực) và Balance (số dư tài khoản). Ví dụ, một quy tắc quan trọng là: những khách hàng trên 42 tuổi, là thành viên tích cực và sử dụng trên 2 sản phẩm có xu hướng rời bỏ rất cao (92.2%). Một quy tắc khác: khách hàng dưới 42 tuổi, sử dụng trên 2 sản phẩm và có số dư tài khoản lớn hơn 49.508 USD cũng có khả năng rời đi cao (90.8%). Những quy tắc này là thông tin vô giá giúp ngân hàng khoanh vùng các nhóm khách hàng rủi ro cao.

V. Top đặc điểm nhận diện khách hàng và chiến lược giữ chân

Từ kết quả của các mô hình phân tích dữ liệu, chân dung của hai nhóm khách hàng quan trọng được phác họa rõ nét: nhóm có nguy cơ rời bỏ cao và nhóm khách hàng trung thành. Việc nhận diện chính xác các đặc điểm này cho phép ngân hàng chuyển từ chiến lược đại trà sang các biện pháp can thiệp cá nhân hóa. Khoa học dữ liệu không chỉ dừng lại ở việc dự báo rời bỏ, mà còn mở ra hướng đi cho việc xây dựng các chiến lược giữ chân khách hàng hiệu quả. Bằng cách hiểu rõ “nỗi đau” của từng phân khúc khách hàng, ngân hàng có thể thiết kế các gói sản phẩm, chương trình ưu đãi và dịch vụ chăm sóc phù hợp. Ví dụ, với nhóm khách hàng trung niên có nguy cơ rời bỏ cao, ngân hàng có thể cung cấp các dịch vụ tư vấn hưu trí. Với nhóm khách hàng trung thành, các chương trình tri ân và ưu đãi đặc biệt sẽ giúp củng cố mối quan hệ. Việc ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng là chìa khóa để tối ưu hóa nguồn lực và tạo ra lợi thế cạnh tranh bền vững.

5.1. Chân dung nhóm khách hàng có khả năng rời bỏ cao nhất

Phân tích tổng hợp cho thấy nhóm khách hàng có nguy cơ rời bỏ cao nhất thường có các đặc điểm sau: sinh sống tại Đức, độ tuổi từ 42 đến 50, có điểm tín dụng dưới 490, sử dụng từ 2 sản phẩm/dịch vụ trở lên và là thành viên tích cực. Nguyên nhân có thể đến từ việc họ không nhận được lợi ích tương xứng khi sử dụng nhiều dịch vụ, hoặc các chính sách tài chính tại Đức khiến họ tìm kiếm lựa chọn tốt hơn. Việc xác định nhóm này giúp ngân hàng tập trung các nỗ lực chăm sóc đặc biệt, như đưa ra các chính sách phí linh hoạt hoặc các gói ưu đãi riêng biệt.

5.2. Đặc điểm của nhóm khách hàng trung thành và giải pháp duy trì

Ngược lại, nhóm khách hàng trung thành (được xác định qua bài toán phân cụm) thường có điểm tín dụng ở mức khá (khoảng 630-650), độ tuổi từ 34-38, sinh sống tại Pháp, có thẻ tín dụng và thường chỉ sử dụng 1-2 sản phẩm. Để duy trì lòng trung thành của nhóm này, ngân hàng cần đảm bảo chất lượng dịch vụ luôn ổn định, tối ưu hóa trải nghiệm trên ngân hàng số và cung cấp các chương trình tích điểm, ưu đãi dành riêng cho khách hàng thân thiết. Việc cung cấp dịch vụ tư vấn tài chính cá nhân cũng giúp củng cố mối quan hệ và gia tăng sự gắn kết.

VI. Tương lai của khoa học dữ liệu trong việc giữ chân khách hàng

Việc ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng không còn là một xu hướng mà đã trở thành một yêu cầu bắt buộc đối với các ngân hàng muốn tồn tại và phát triển. Trong tương lai, vai trò của khoa học dữ liệu sẽ ngày càng trở nên quan trọng hơn. Các mô hình sẽ không chỉ dừng lại ở việc dự báo mà còn tiến tới việc đề xuất hành động (prescriptive analytics), tự động gợi ý các giải pháp giữ chân phù hợp cho từng khách hàng cụ thể theo thời gian thực. Việc tích hợp trí tuệ nhân tạo (AI) và học máy vào các hệ thống quản lý quan hệ khách hàng (CRM) sẽ giúp tự động hóa quy trình chăm sóc, từ việc gửi một email ưu đãi đúng thời điểm đến việc kết nối với nhân viên tư vấn khi phát hiện dấu hiệu bất thường. Hơn nữa, phân tích dữ liệu cũng sẽ được mở rộng để bao gồm các nguồn dữ liệu phi cấu trúc như phản hồi trên mạng xã hội hay các cuộc gọi đến tổng đài, mang lại một cái nhìn 360 độ về khách hàng. Đầu tư vào công nghệ và nhân lực cho khoa học dữ liệu chính là đầu tư cho tương lai bền vững của ngành ngân hàng.

6.1. Từ dự báo đến đề xuất Hướng phát triển của mô hình

Các mô hình dự báo trong tương lai sẽ thông minh hơn. Thay vì chỉ đưa ra xác suất một khách hàng sẽ rời đi, chúng có thể đề xuất hành động tối ưu nhất để giữ chân họ. Ví dụ, mô hình có thể gợi ý: “Khách hàng A có 75% khả năng rời bỏ. Hãy đề nghị miễn phí phí quản lý tài khoản trong 6 tháng để giảm 40% nguy cơ này”. Đây là cấp độ phân tích đề xuất (prescriptive analytics), giúp các nhà quản lý đưa ra quyết định nhanh chóng và hiệu quả hơn, tối ưu hóa lợi tức đầu tư cho các chiến dịch giữ chân khách hàng.

6.2. Thách thức và cơ hội cho ngành ngân hàng Việt Nam

Đối với ngành ngân hàng Việt Nam, việc áp dụng khoa học dữ liệu mang lại cả cơ hội và thách thức. Cơ hội nằm ở việc tạo ra lợi thế cạnh tranh sắc bén thông qua việc thấu hiểu khách hàng sâu sắc. Tuy nhiên, thách thức đến từ chất lượng và tính sẵn có của dữ liệu, cũng như sự thiếu hụt nhân lực có chuyên môn cao về phân tích dữ liệuhọc máy. Các ngân hàng cần đầu tư mạnh mẽ vào hạ tầng công nghệ, xây dựng văn hóa ra quyết định dựa trên dữ liệu và phát triển đội ngũ chuyên gia để có thể khai thác tối đa tiềm năng mà cuộc cách mạng dữ liệu mang lại.

20/09/2025

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan 1. Lý do chọn đề tài Sau khủng hoảng tài chính năm 2008, Ngân hàng Trung ương Châu Âu (ECB - The European Central bank) đã sử dụng các biện pháp tiền tệ rất linh hoạt (như nới lỏng định lượng1 và chính sách lãi suất bằng không2) để thúc đẩy tăng trưởng, tăng lạm phát và giảm tỷ lệ thất nghiệp. Những biện pháp này tuy có lợi trong việc kích thích nền kinh tế của các quốc gia, nhưng lại gây bất lợi cực kỳ lớn cho lợi nhuận của các ngân hàng phụ thuộc vào lãi suất do ECB quy định. Khi đó, các ngân hàng không còn lựa chọn nào khác ngoài việc tìm kiếm các nguồn thu nhập thay thế, về bản chất bao gồm việc kiểm soát chi phí và xem xét chính sách giá của họ bằng cách tính phí hoa hồng cao hơn.

Những biện pháp như vậy, mặc dù thành công trong việc tăng thêm thu nhập có được thông qua hoa hồng, tuy nhiên lại có tác động tiêu cực đến sự hài lòng của khách hàng và do đó đã dẫn đến mức độ rời bỏ khách hàng tăng lên. Khách hàng rời bỏ (customer churn) là tình trạng khách hàng dù đã bắt đầu sử dụng sản phẩm hoặc dịch vụ của doanh nghiệp nhưng vì lý do này hay lý do khác, ngừng hoàn toàn và chuyển sang lựa chọn một đối thủ khác. Trong kinh doanh, khi khách hàng không hài lòng với dịch vụ, sản phẩm mà doanh nghiệp cung cấp thì họ sẽ ngừng kết nối, hợp tác với doanh nghiệp. Theo như số liệu thống kê từ nhiều nguồn nghiên cứu trên thế giới:  Nghiên cứu của Deloitte (2018) chỉ ra rằng khả năng cung cấp giá trị và dịch vụ chất lượng là một trong những yếu tố quan trọng nhất ảnh hưởng đến quyết định của khách hàng về việc ở lại hoặc rời bỏ ngân hàng.

 Nghiên cứu của Accenture (2019) đã nhấn mạnh sự quan trọng của trải nghiệm khách hàng trong quá trình giữ chân khách hàng. Nói chung, khách hàng đánh giá cao các trải nghiệm tích cực và có thể chuyển đổi với các tổ chức có trải nghiệm khách hàng kém.  Thống kê từ Federal Reserve Bank of St. Louis (2020) cho thấy chi phí và phí liên quan đến tài khoản ngân hàng là một trong những lý do quan trọng khiến khách hàng đưa ra quyết định rời bỏ ngân hàng.

 Theo Nie et al. (2011), giảm 5% tỷ lệ khách hàng rời bỏ có thể làm tăng lợi nhuận của ngân hàng lên tới 85%. Ta thấy rằng sự rời bỏ hay ở lại của khách hàng là yếu tố quyết định sự phát triển của ngân hàng. Việc tìm kiếm một khách hàng mới sẽ “đắt hơn” rất nhiều so với việc giữ chân một khách hàng hiện có.

Thế nên nhu cầu phân tích tỷ lệ khách hàng rời bỏ ngày càng tăng. Đặc biệt là nhu cầu về mô hình dự đoán được xây dựng trên các phương pháp thuộc lĩnh vực khoa học dữ liệu. Nếu ngân hàng có thể dự đoán tỷ lệ rời bỏ của khách hàng, các chiến 5 dịch tiếp thị nhằm giữ chân khách hàng sẽ được cải thiện, mang lại hiệu quả hơn cho doanh nghiệp. Và đó là lý do nhóm chọn đề tài “Ứng dụng khoa học dữ liệu vào dự báo việc rời đi hay ở lại của khách hàng trong ngân hàng”.

Bằng cách tìm hiểu và nghiên cứu về hành vi rời bỏ ngân hàng của khách hàng tại Pháp, Đức và Tây Ban Nha nói riêng và tại châu Âu nói chung, nhóm mong rằng sẽ đóng góp một phần vào sự phát triển của ngành tài chính - ngân hàng, đồng thời tạo ra giá trị cho các tổ chức trong việc duy trì khách hàng và tăng cường sự cạnh tranh. Mục tiêu nghiên cứu 2. Mục tiêu tổng quát Nhìn chung, mục tiêu tổng quát của đồ án này là phân tích và dự báo hành vi rời bỏ của khách hàng tại ngân hàng nhằm giảm bớt tỷ lệ khách hàng rời bỏ. Mục tiêu cụ thể  Bài toán 1: Phát hiện điểm đặc thù của dữ liệu  Bài toán 2: Dự đoán khả năng rời bỏ hay ở lại của khách hàng  Bài toán 3: Bài toán phân cụm nhằm xác định nhóm khách hàng trung thành 3.

Đối tượng nghiên cứu Nghiên cứu hành vi rời bỏ của khách hàng trên bộ dữ liệu “Churn for Bank Customers”. Phương pháp thực hiện  Bước 1: Thu thập dữ liệu Nhóm chọn bộ dữ liệu “Churn for Bank Customers” từ trang Kaggle.  Bước 2: Tiền lý trước dữ liệu o Làm sạch dữ liệu o Tích hợp dữ liệu o Chỉnh dạng dữ liệu o Giảm kích thước dữ liệu.  Bước 3: Phân tích đặc thù o Excel: Tạo Dashboard để khái quát về các ngân hàng.

o Orange: Tiến hành phân tích đặc thù của dữ liệu và mối tương quan giữa chúng.  Bước 4: Phát triển mô hình Triển khai các thuật toán học máy trong các bài toán phân lớp và phân cụm thông qua Orange.  Bước 5: Đánh giá mô hình Đánh giá hiệu suất và xem xét lại quy trình. 6 Chương 2: Quy trình thực hiện và Kết quả 1.

Mô tả nguồn dữ liệu và cấu trúc nguồn dữ liệu 1. Mô tả nguồn dữ liệu Bộ dữ liệu cho đề tài có tên là “Churn for Bank Customers” và có nguồn từ Kaggle (link). Dữ liệu được thu thập từ một ngân hàng ở châu Âu với các khách hàng ở các quốc gia Pháp, Tây Ban Nha và Đức. Mục đích của việc nghiên cứu bộ dữ liệu này là dự đoán tỷ lệ rời bỏ khách hàng.

Dữ liệu chứa tổng cộng 10.000 quan sát với 14 cột thuộc tính. Trong đó, “Exited” là biến phụ thuộc và phần còn lại là biến độc lập. Cấu trúc nguồn dữ liệu Bảng 1: Cấu trúc nguồn dữ liệu Kiểu dữ STT Thuộc tính Khoảng giá trị Ý nghĩa liệu 1 RowNumber Word 1 đến 10,000 Số thứ tự và không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng 2 CustomerId Longtin 15,565,701 đến ID của khách hàng, chứa các giá 15,815,690 trị ngẫu nhiên và không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng. 3 Surname String Hargrave, Hill, Họ của khách hàng, không ảnh Onio, Boni, hưởng đến việt khách hàng rời Mitchell,.

khỏi ngân hàng. 4 CreditScore Word 350 đến 650 Điểm tín dụng3 của khách hàng. 5 Geography String Spain, France, Vị trí (quốc gia) của khách hàng. Germany 6 Gender String Male, Female Giới tính của khách hàng.

7 Age Integer 18 - 92 Tuổi của khách hàng 8 Tenure Integer 0 – 10 Thâm niên khách hàng, thể hiện số năm kể từ khi khách hàng hợp tác với ngân hàng. 9 Balance Real 0 đến 250,898.1 Số dư trong tài khoản của khách hàng. 10 NumOfProducts Integer 1 đến 4 Số lượng sản phẩm (thẻ tín dụng, thẻ ghi nợ,.) hoặc dịch vụ (gửi tiền tiết kiệm, mua bán ngoại tệ,.) mà khách hàng đã mua từ ngân hàng. 7 11 HasCrCard Integer 0, 1 Thẻ tín dụng, thể hiện việc khách hàng có thẻ tín dụng hay không.

Nếu giá trị là 1 thì khách hàng có thẻ tín dụng, và giá trị là 0 thì ngược lại, khách hàng không có thẻ tín dụng. 12 IsActiveMember Integer 0, 1 Thể hiện việc khách hàng có phải là thành viên tích cực của ngân hàng hay không. Nếu giá trị là 1 thì khách hàng này là thành viên tích cực và giá trị là 0 thì ngược lại.58 đến Thu nhập ước tính của khách 199,992. 14 Exited Integer 0, 1 Cho biết khách hàng khàng có rời bỏ ngân hàng hay không.

Nếu giá trị là 0 thì khách hàng không rời bỏ. Thay vào đó, nếu giá trị bằng 1 thì khách hàng vẫn duy trì mối quan hệ với ngân hàng rời bỏ ngân hàng. Tiền xử lý  Bước 1: Làm sạch dữ liệu Bộ dữ liệu không có giá trị bị thiếu, nhiễu,. nên nhóm sẽ bỏ qua công đoạn làm sạch dữ liệu.

 Bước 2: Tích hợp dữ liệu Bộ dữ liệu được sử dụng gồm 14 biến và 10.000 quan sát, bao gồm đầy đủ thông tin cần thiết cho mục đích nghiên cứu nên nhóm cũng sẽ không tích hợp thêm bộ dữ liệu nào khác vào đề án.  Bước 3: Rút gọn dữ liệu Nhóm sử dụng công cụ Select Columns của Orange để chọn lọc thuộc tính, loại ra các cột thuộc tính không cần thiết cho đề tài nghiên cứu bao gồm: o RowNumber: Số thứ tự của khách hàng, không ảnh hưởng đến việc rời bỏ ngân hàng. o CustomerId: ID của khách hàng, chứa các giá trị ngẫu nhiên và không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng. o Surname: Họ của khách hàng không ảnh hưởng đến việc khách hàng rời khỏi ngân hàng.

Sau đó, nhóm lưu file sau rút gọn thành “Bài toán 1.xlsx” để thực hiện bài toán 1. 8  Bước 4: Chỉnh dạng dữ liệu 9 Nhóm không thực hiện chuẩn hóa dữ liệu do không cần thiết nhiều cho các bài toán. Hình 1: Mô hình tiền xử lý 3. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu Trong bài toán này, nhóm sẽ lấy file “Bài toán 1.xlsx” được lưu trong phần tiền xử lý.

Và bài toán được thực hiện bằng hai công cụ:  Excel: Dùng Dashboard để cung cấp cái nhìn tổng quát về ngân hàng, giúp người đọc nắm thêm thông tin để phục vụ cho phần phân tích chuyên sâu hơn trong Orange.  Orange: Phân tích sâu hơn về hành vi rời bỏ của khách hàng. Nhóm sẽ phân tích từng biến độc lập để xem chúng có thực sự ảnh hưởng đến việc “rời bỏ” hay không. Những phân tích này sẽ làm rõ hơn về hành vi “rời bỏ” của khách hàng và giúp ngân hàng cải thiện chất lượng dịch vụ.

Dashboard: Tổng quan về ngân hàng 3. Các bước thực hiện:  Bước 1: Tạo Table Chọn một ô bất kỳ trên vùng dữ liệu sau đó vào thẻ Insert chọn vào Table (phím tắt Ctrl + T), tại cửa sổ Create Table chọn vào My table has headers, hoàn tất chọn OK.  Bước 2: Tạo Pivottable o Trong thẻ Insert chọn PivotTable, tích vào New Worksheet để tạo PivotTable ở sheet mới. o Tại sheet mới ở cửa sổ PivotTable Fields kéo các trường vào vị trí mong muốn.

o Kế tiếp sẽ vào thẻ Analyze, chọn PivotChart để chọn loại biểu đồ. Sau đó tùy chỉnh các định dạng của biểu đồ sau cho phù hợp. o Đối với các loại biểu đồ không được dùng trong Pivottable có thể sao chép bảng dữ liệu từ Pivottable để tạo biểu đồ.  Bước 3: Tạo Dashboard o Tạo một Sheet mới với tên là Dashboard sau đó Copy các PivotTable vừa tạo và dán nó qua sheet Dashboard.

1 o Nhóm không sử dụng chức năng Slicer do trong phần Dashboard này chỉ cung cấp một cái nhìn tổng quát. Trong phần Orange tiếp theo, nhóm sẽ tiến hành phân tích sâu hơn về các biến. o File Dashboard này được nhóm gắn vào link drive.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ