Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu nhằm dự báo rủi ro khách hàng rời bỏ dịch vụ tại ngân hàng

Tài liệu nghiên cứu Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu nhằm dự báo rủi ro khách hàng rời bỏ dịch, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Đại học UEH

Chuyên ngành

Khoa học dữ liệu

Người đăng

Ẩn danh

Thể loại

báo cáo dự án khoa học

2023

51
1
0

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.2.1. Mục tiêu tổng quát

1.2.2. Các mục tiêu cụ thể

1.3. Đối tượng nghiên cứu

1.4. Mô tả dữ liệu và cấu trúc dữ liệu

1.4.1. Mô tả dữ liệu

1.4.2. Tiền xử lý dữ liệu

1.4.3. Phân tách dữ liệu

2. CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

2.1. Các phương pháp dự đoán và quy trình cụ thể

2.2. Phân lớp dữ liệu

2.3. Phân cụm dữ liệu

2.4. Bài toán 1: Phát hiện các điểm đặc thù của dữ liệu

2.4.1. Mô tả bài toán

2.4.2. Chạy mô hình và kết quả

2.4.3. Kết luận bài toán 1

2.5. Bài toán 2: Dự đoán khả năng khách hàng rời bỏ dịch vụ ngân hàng

2.5.1. Mô tả bài toán

2.5.2. Xây dựng mô hình

2.5.3. Đánh giá và kết quả

2.5.4. Kết luận bài toán 2

2.6. Bài toán 3: Phân loại các nhóm khách hàng lựa chọn rời bỏ dịch vụ

2.6.1. Mô tả bài toán

2.6.2. Xây dựng mô hình giai đoạn đầu

2.6.3. Phương pháp K-means

2.6.4. Phương pháp Hierarchical Clustering

2.6.5. Mô hình cuối cùng

2.6.6. Phân loại các cụm khách hàng

2.6.7. Kết luận bài toán 3

3. CHƯƠNG 3: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Nghiên Cứu Phương Pháp Khai Thác Dữ Liệu

Nghiên cứu phương pháp khai thác dữ liệu dự đoán rủi ro khách hàng rời bỏ dịch vụ ngân hàng là một lĩnh vực quan trọng trong ngành tài chính. Việc áp dụng các phương pháp này giúp ngân hàng hiểu rõ hơn về hành vi của khách hàng và đưa ra các giải pháp hiệu quả để giữ chân họ. Khách hàng rời bỏ dịch vụ không chỉ ảnh hưởng đến doanh thu mà còn tác động đến uy tín của ngân hàng. Do đó, nghiên cứu này không chỉ mang lại giá trị cho ngân hàng mà còn cho cả khách hàng.

1.1. Tầm Quan Trọng Của Khai Thác Dữ Liệu Trong Ngân Hàng

Khai thác dữ liệu giúp ngân hàng phân tích hành vi khách hàng, từ đó dự đoán khả năng rời bỏ dịch vụ. Việc này giúp ngân hàng có những chiến lược phù hợp để giữ chân khách hàng.

1.2. Các Phương Pháp Khai Thác Dữ Liệu Thông Dụng

Các phương pháp như hồi quy logistic, cây quyết định và SVM thường được sử dụng để phân tích dữ liệu khách hàng. Những phương pháp này giúp xác định các yếu tố ảnh hưởng đến quyết định rời bỏ dịch vụ.

II. Vấn Đề Khách Hàng Rời Bỏ Dịch Vụ Ngân Hàng

Tình trạng khách hàng rời bỏ dịch vụ ngân hàng đang gia tăng, đặc biệt trong bối cảnh cạnh tranh khốc liệt. Nguyên nhân chính bao gồm sự không hài lòng với dịch vụ, thiếu sự tương tác và các chính sách không hợp lý. Việc hiểu rõ nguyên nhân này là rất quan trọng để ngân hàng có thể đưa ra các giải pháp hiệu quả.

2.1. Nguyên Nhân Khách Hàng Rời Bỏ

Khách hàng có thể rời bỏ vì nhiều lý do như dịch vụ không đáp ứng nhu cầu, phí dịch vụ cao hoặc thiếu sự chăm sóc khách hàng. Việc phân tích các nguyên nhân này giúp ngân hàng cải thiện dịch vụ.

2.2. Hệ Lụy Của Việc Khách Hàng Rời Bỏ

Khách hàng rời bỏ không chỉ làm giảm doanh thu mà còn ảnh hưởng đến hình ảnh của ngân hàng. Điều này có thể dẫn đến việc mất đi khách hàng tiềm năng trong tương lai.

III. Phương Pháp Dự Đoán Rủi Ro Khách Hàng Rời Bỏ

Để dự đoán rủi ro khách hàng rời bỏ, ngân hàng có thể áp dụng nhiều phương pháp khác nhau. Các phương pháp này không chỉ giúp xác định khách hàng có nguy cơ rời bỏ mà còn cung cấp thông tin để cải thiện dịch vụ.

3.1. Hồi Quy Logistic Trong Dự Đoán

Hồi quy logistic là một trong những phương pháp phổ biến nhất để dự đoán khả năng rời bỏ của khách hàng. Phương pháp này giúp xác định mối quan hệ giữa các yếu tố ảnh hưởng và quyết định của khách hàng.

3.2. Sử Dụng Cây Quyết Định Để Phân Tích

Cây quyết định giúp ngân hàng phân loại khách hàng dựa trên các đặc điểm cụ thể. Phương pháp này dễ hiểu và trực quan, giúp đưa ra quyết định nhanh chóng.

IV. Ứng Dụng Thực Tiễn Của Nghiên Cứu

Nghiên cứu này không chỉ dừng lại ở lý thuyết mà còn có ứng dụng thực tiễn trong việc cải thiện dịch vụ ngân hàng. Các ngân hàng có thể áp dụng các phương pháp đã nghiên cứu để tối ưu hóa quy trình chăm sóc khách hàng.

4.1. Cải Thiện Chất Lượng Dịch Vụ

Bằng cách áp dụng các phương pháp khai thác dữ liệu, ngân hàng có thể cải thiện chất lượng dịch vụ, từ đó giữ chân khách hàng hiệu quả hơn.

4.2. Tăng Cường Tương Tác Với Khách Hàng

Ngân hàng cần tăng cường tương tác với khách hàng thông qua các kênh truyền thông và dịch vụ hỗ trợ. Điều này giúp khách hàng cảm thấy được quan tâm và giảm nguy cơ rời bỏ.

V. Kết Luận Và Tương Lai Của Nghiên Cứu

Nghiên cứu phương pháp khai thác dữ liệu dự đoán rủi ro khách hàng rời bỏ dịch vụ ngân hàng là một bước tiến quan trọng trong việc cải thiện dịch vụ. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều giá trị cho ngành ngân hàng.

5.1. Tương Lai Của Ngành Ngân Hàng

Ngành ngân hàng sẽ tiếp tục phát triển và áp dụng công nghệ mới để cải thiện dịch vụ. Việc dự đoán rủi ro khách hàng sẽ trở thành một phần không thể thiếu trong chiến lược kinh doanh.

5.2. Định Hướng Nghiên Cứu Tiếp Theo

Các nghiên cứu tiếp theo có thể tập trung vào việc phát triển các mô hình dự đoán chính xác hơn và áp dụng trí tuệ nhân tạo trong việc phân tích dữ liệu khách hàng.

10/07/2025

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN 1.Lý do chọn đêề tài Thời gian qua, chúng ta chứng kiễến sụp đổ của hàng loạt các ngần hàng l ớn trễn toàn thễế giới như Silvergate Bank, Silicon Valley Bank, Credit Suisse, First Republic Bank,.Một trong những lý do gầy nễn chuồễi sự kiện trầồm trọng này là do các khách hàng đồồng loạt rời bỏ dịch vụ tại ngần hàng gầy nễn khủng hoảng thanh kho ản. Để hạn chễế được nồễi lo này, ngần hàng có thể sử dụng các thuật toán đ ể d ự báo r ủi ro khách hàng rồồi bỏ dịch vụ của mình. Tình trạng khách hàng rời bỏ dịch vụ đang trở thành một vầến đễồ l ớn đồếi v ới ngành ngần hàng. Sự cạnh tranh ngày càng tăng và khách hàng có nhiễồu l ựa ch ọn h ơn, do đó ngần hàng cầồn phải có những giải pháp hiệu quả để giữ chần khách hàng, tăng doanh sồế và cải thiện chầết lượng dịch vụ.

Các phương pháp khai thác dữ liệu là một lĩnh vực phát triển nhanh trong khoa học máy tnh và cồng nghệ thồng tn. Việc áp dụng các phương pháp này đ ể d ự báo r ủi ro khách hàng rời bỏ dịch vụ seễ giúp chúng ta có th ể tm ra các mầễu d ữ li ệu ẩn và đ ưa ra những quyễết định dựa trễn dữ liệu. Khách hàng là một phầồn quan trọng của ngần hàng, và vi ệc gi ữ chần khách hàng đang sử dụng dịch vụ của ngần hàng là một ưu tễn hàng đầồu. Việc nghiễn cứu và d ự báo rủi ro khách hàng rời bỏ dịch vụ seễ giúp ngần hàng hiểu hơn vễồ nhu cầồu và s ở thích của khách hàng, từ đó cải thiện dịch vụ và đưa ra những chính sách hầếp dầễn đ ể gi ữ các khách hàng sử dụng dịch vụ của mình.

Việc dự báo vễồ khả năng rời bỏ của các hàng cũng giúp tăng cường s ức m ạnh cạnh tranh của ngần hàng. Thị trường ngần hàng đang ngày càng cạnh tranh, vì v ậy, việc giữ chần khách hàng là rầết quan trọng để ngần hàng có thể tăng cường s ức c ạnh tranh và tăng doanh thu. Dự báo rủi ro khách hàng rời b ỏ d ịch v ụ giúp ngần hàng hi ểu 4 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 rõ hơn vễồ thị trường và khách hàng, đưa ra các chính sách hầếp dầễn và gi ảm thi ểu r ủi ro. Ở khía cạnh phát triển cồng nghệ đồếi với ngần hàng, cồng nghệ ngần hàng đang phát triển nhanh chóng, đem lại những lợi ích và tện ích cho khách hàng.

Tuy nhiễn, nó cũng có thể gầy ra rủi ro cho ngần hàng nễếu khồng được áp dụng và qu ản lý đúng cách. Dự báo rủi ro khách hàng rời bỏ dịch vụ giúp ngần hàng đ ưa ra các gi ải pháp đ ể giảm thiểu rủi ro và đảm bảo an toàn thồng tn cho khách hàng. Việc nghiễn cứu đễồ tài này khồng chỉ giúp ngần hàng tăng cường s ức c ạnh tranh mà còn đóng góp cho sự phát triển của khoa học và cồng nghệ. Với các lý do kể trễn, đễồ tài Nghiễn cứu và ứng dụng các ph ương pháp khai thác dữ liệu nhăồm dự báo rủi ro khách hàng rời bỏ dịch vụ t ại ngần hàng là m ột đễồ tài h ứa hẹn mang lại nhiễồu giá trị cho ngành ngần hàng, gi ảm thi ểu các r ủi ro gầy ra b ởi s ự r ời bỏ của khách hàng.

Mục têu nghiên cứu 1. Mục têu tổng quát Đễồ tài nghiễn cứu và ứng dụng các phương pháp khai thác dữ liệu nhăồm dự báo rủi ro khách hàng rời bỏ dịch vụ tại ngần hàng là phần tch các d ữ li ệu khách hàng c ủa ngần hàng, từ đó đưa ra dự báo và đễồ xuầết các gi ải pháp h ợp lý nhăồm gi ảm thi ểu t ỷ l ệ khách hàng rời bỏ dịch vụ. Trước hễết, tổng hợp và phần tch các dữ liệu vễồ khách hàng, bao gồồm thồng tn cá nhần, lịch sử giao dịch, hành vi s ử d ụng d ịch v ụ, v. Sau đó s ử dụng các phương pháp khai thác dữ liệu để tm ra các mầễu và xu h ướng trong d ữ li ệu, từ đó đưa ra dự báo vễồ khả năng khách hàng rời bỏ dịch v ụ trong t ương lai.T ừ các d ự báo thu được, đễồ xuầết các giải pháp hợp lý nhăồm gi ảm thi ểu t ỷ l ệ khách hàng r ời b ỏ dịch vụ, bao gồồm cải thiện chầết lượng dịch vụ, tăng cường tương tác và hồễ trợ khách hàng, tồếi ưu hóa chính sách và chương trình khuyễến mãi, v.

Đánh giá hi ệu qu ả c ủa các 5 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 giải pháp đễồ xuầết thồng qua việc so sánh tỷ lệ khách hàng r ời b ỏ d ịch v ụ tr ước và sau khi triển khai các giải pháp đó. Tổng thể, mục tễu của đễồ tài là áp dụng các phương pháp khai thác d ữ li ệu đ ể phần tch và dự báo rủi ro khách hàng rời bỏ dịch vụ tại ngần hàng, t ừ đó đ ưa ra các giải pháp nhăồm cải thiện hệ thồếng dịch vụ và giữ chần khách hàng. Các mục têu cụ thể Sử dụng phầồn mễồm orange để xử lý dữ liệu và giải quyễết các bài toán sau: Bài toán 1 (Liễn quan gầồn): Phát hiện các đặc điểm đặc thù liễn quan đễến s ự r ời bỏ hoặc khồng rời bỏ dịch vụ tại ngần hàng của khách hàng dựa vào các l ược đồồ và cồng cụ thồếng kễ. Bài toán 3 (Liễn quan gầồn): Phần loại nhóm khách hàng lựa chọn rời bỏ dịch v ụ t ại ngần hàng.

Đốối tượng nghiên cứu Đồồ án này seễ tập trung nghiễn cứu hành vi và thồng tn của khách hàng sử d ụng dịch vụ ngần hàng đa quồếc gia ABC được lầếy thồng tn, dữ liệu cũng như sồế liệu tại Kaggle. Mố tả dữ liệu và cấốu trúc dữ liệu 1. Mô tả dữ liệu Nguồồn dữ liệu được lầếy từ Kaggle. Đầy là bộ dữ liệu khách hàng của các chủ tài khoản tại Ngần hàng Đa quồếc gia ABC và mục đích của dữ liệu này seễ là dự đoán tỷ lệ khách hàng rời bỏ dịch vụ ngần hàng 6 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 https://www.com/code/chaitnyapol/bank-customer-churn-predicton-by- ann/input?fbclid=IwAR3znxuLU6Tq-fhJ19kabqEC00lOdnK4R- d_jook9MYWOV9qXhAVx3rT3CM Dữ liệu gồồm : 10000 dòng và 12 cột thuộc tnh như sau : STT Thuộc tnh Ý nghĩa Mố tả 1 customer_id Mồễi khách hàng đễồu có một mã ID riễng Chuồễi ký tự sồế để định danh 2 Credit_score Điểm tn dụng của khách hàng Sồế nguyễn 3 Country Đầết nước cư trú Tễn quồếc gia 4 Gender Giới tnh Nam hoặc Nữ 5 Age Độ tuổi Sồế nguyễn 6 Tenure Khách hàng có thời gian sử dụng dịch vụ Sồế nguyễn ngần hàng bao lầu 7 Balance Sồế dư tài khoản ngần hàng Sồế nguyễn 8 Products_numbe Sồế dịch vụ sản phẩm mà khách hàng đã Sồế nguyễn r sử dụng 9 Credit_card Khách hàng có thẻ tn dụng khồng: Có hoặc Khồng 10 Actve_member Có phải là khách hàng thần thiễết tại ngần Có hoặc hàng khồng Khồng 11 Estmated_salary Ước tnh khả năng tài chính Sồế nguyễn 7 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 12 Churn Rời bỏ hay khồng rời bỏ dịch vụ ngần Có hoặc hàng Khồng Bảng 1.

Mô tả các thuộc tnh của bộ dữ liệu 1. Tiêền xử lý dữ liệu Bài nghiễn cứu này sử dụng bộ dữ liệu tổng hợp từ trang: https://www.com/code/chaitnyapol/bank-customer-churn-predicton-by- ann/input?fbclid=IwAR3znxuLU6Tq-fhJ19kabqEC00lOdnK4R- d_jook9MYWOV9qXhAVx3rT3CM Trong tập dữ liệu này tác giả đã xử lý các dữ liệu bị thiễếu, dữ li ệu b ị nhiễễu và d ữ liệu khồng nhầết quán vì thễế nhóm seễ bỏ qua cồng đoạn xử lý lồễi dữ liệu Để thồng tn được dễễ hiểu hơn, nhóm đã sử dụng cồng cụ Edit Domain để chuyển đổi tễn của các thuộc tnh từ tễếng anh sang tễếng việt. Biến tiếng anh Biến tiếng việt customer_id Mã định danh khách hàng Credit_score Điểm tn dụng Country Quồếc gia cư trú Gender Giới tnh Age Độ tuổi Tenure Thời gian sử dụng dịch vụ tại ngần hàng Balance Sồế dư tài khoản Products_number Sồế sản phẩm dịch vụ đã trải nghiệm 8 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Credit_card Thẻ tn dụng Actve_member Khách hàng thần thiễết Estmated_salary Khả năng tài chính Churn Rời bỏ hoặc Khồng rời bỏ Bảng 2. Chuyển đổi biêến têếng anh sang têếng việt 1.

Phân tách dữ liệu Từ fle dữ liệu gồếc được tải từ dữ liệu gồếc (sau khi chuyển đổi tễn biễến sang tễếng việt), nhóm đã sử dụng chức năng Data Sample để tách dữ liệu thành 2 fle riễng biệt như sau: - 70% dữ liệu dùng để huầến luyện mồ hình phần lớp. Lưu dữ liệu dưới dạng fle Excel đặt tễn là Churn_Training - 30% dữ liệu còn lại dùng để làm dữ liệu báo cáo cho mồ hình. Lưu dữ liệu dưới dạng fle Excel đặt tễn là Churn_Forecast. Mô hình tiêền xử lý dữ liệu 9 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 10 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KÊẾT QUẢ 2.

Các phương pháp dự đoán và quy trình cụ thể 2. Phân lớp dữ liệu Phần lớp dữ liệu là quá trình phần dữ liệu vào một hay nhiễồu l ớp đ ể dễễ dàng truy xuầết, săếp xễếp và lưu trữ trong tương lai. Phương pháp hốềi quy Logistc (Logistc Regression) Phần tch hồồi quy tuyễến tnh được sử dụng để dự đoán giá trị của một biễến d ựa trễn giá trị của một biễến khác. Biễến bạn muồến dự đoán đ ược gọi là biễến ph ụ thu ộc.

Biễến bạn đang sử dụng để dự đoán giá trị của biễến khác được gọi là biễến độc lập. Minh họa phương pháp Logistc Regression Phương pháp SVM (Support Vector Machine) Là một kyễ thuật học máy phần tách khồng gian thuộc tnh băồng một siễu ph ẳng, do đó tồếi đa hóa lễồ giữa các phiễn bản của các lớp hoặc giá trị lớp khác nhau. 11 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Hình 3. Minh họa phương pháp SVM Phương pháp cấy quyêốt định (Tree) Là phương pháp mồ tả, phần loại và tổng quan hoá tập dữ liệu cho trước Hình 4.

Minh họa phương pháp cây quyêết định Các bước quy trình của 3 phương pháp phấn lớp: 12 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Bước 1: Chọn nguồồn dữ liệu ( biễến khồng tham gia vào quá trình và biễến ph ụ thuộc) Bước 2: Dự đoán băồng 3 phương pháp hồồi quy Logistc regression, Tree và SVM Bước 3: So sánh cả 3 cái và lựa chọn dự đoán nào tồết nhầết Bước 4: Nồếi Test and Score với Confusion để xem kễết qu ả Ma trận nhầồm lầễn Các bước xấy dựng mố hình dự báo tốốt nhấốt: Bước 1: Sau khi chọn được phương pháp dự báo tồết nhầết, nồếi d ữ li ệu vào phương pháp tồết nhầết: SVM, Tree hoặc LR. Đồồng thời nhập dữ li ệu dùng đ ể d ự báo vào orange.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ