CHƯƠNG 1: TỔNG QUAN 1.Lý do chọn đêề tài Thời gian qua, chúng ta chứng kiễến sụp đổ của hàng loạt các ngần hàng l ớn trễn toàn thễế giới như Silvergate Bank, Silicon Valley Bank, Credit Suisse, First Republic Bank,.Một trong những lý do gầy nễn chuồễi sự kiện trầồm trọng này là do các khách hàng đồồng loạt rời bỏ dịch vụ tại ngần hàng gầy nễn khủng hoảng thanh kho ản. Để hạn chễế được nồễi lo này, ngần hàng có thể sử dụng các thuật toán đ ể d ự báo r ủi ro khách hàng rồồi bỏ dịch vụ của mình. Tình trạng khách hàng rời bỏ dịch vụ đang trở thành một vầến đễồ l ớn đồếi v ới ngành ngần hàng. Sự cạnh tranh ngày càng tăng và khách hàng có nhiễồu l ựa ch ọn h ơn, do đó ngần hàng cầồn phải có những giải pháp hiệu quả để giữ chần khách hàng, tăng doanh sồế và cải thiện chầết lượng dịch vụ.
Các phương pháp khai thác dữ liệu là một lĩnh vực phát triển nhanh trong khoa học máy tnh và cồng nghệ thồng tn. Việc áp dụng các phương pháp này đ ể d ự báo r ủi ro khách hàng rời bỏ dịch vụ seễ giúp chúng ta có th ể tm ra các mầễu d ữ li ệu ẩn và đ ưa ra những quyễết định dựa trễn dữ liệu. Khách hàng là một phầồn quan trọng của ngần hàng, và vi ệc gi ữ chần khách hàng đang sử dụng dịch vụ của ngần hàng là một ưu tễn hàng đầồu. Việc nghiễn cứu và d ự báo rủi ro khách hàng rời bỏ dịch vụ seễ giúp ngần hàng hiểu hơn vễồ nhu cầồu và s ở thích của khách hàng, từ đó cải thiện dịch vụ và đưa ra những chính sách hầếp dầễn đ ể gi ữ các khách hàng sử dụng dịch vụ của mình.
Việc dự báo vễồ khả năng rời bỏ của các hàng cũng giúp tăng cường s ức m ạnh cạnh tranh của ngần hàng. Thị trường ngần hàng đang ngày càng cạnh tranh, vì v ậy, việc giữ chần khách hàng là rầết quan trọng để ngần hàng có thể tăng cường s ức c ạnh tranh và tăng doanh thu. Dự báo rủi ro khách hàng rời b ỏ d ịch v ụ giúp ngần hàng hi ểu 4 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 rõ hơn vễồ thị trường và khách hàng, đưa ra các chính sách hầếp dầễn và gi ảm thi ểu r ủi ro. Ở khía cạnh phát triển cồng nghệ đồếi với ngần hàng, cồng nghệ ngần hàng đang phát triển nhanh chóng, đem lại những lợi ích và tện ích cho khách hàng.
Tuy nhiễn, nó cũng có thể gầy ra rủi ro cho ngần hàng nễếu khồng được áp dụng và qu ản lý đúng cách. Dự báo rủi ro khách hàng rời bỏ dịch vụ giúp ngần hàng đ ưa ra các gi ải pháp đ ể giảm thiểu rủi ro và đảm bảo an toàn thồng tn cho khách hàng. Việc nghiễn cứu đễồ tài này khồng chỉ giúp ngần hàng tăng cường s ức c ạnh tranh mà còn đóng góp cho sự phát triển của khoa học và cồng nghệ. Với các lý do kể trễn, đễồ tài Nghiễn cứu và ứng dụng các ph ương pháp khai thác dữ liệu nhăồm dự báo rủi ro khách hàng rời bỏ dịch vụ t ại ngần hàng là m ột đễồ tài h ứa hẹn mang lại nhiễồu giá trị cho ngành ngần hàng, gi ảm thi ểu các r ủi ro gầy ra b ởi s ự r ời bỏ của khách hàng.
Mục têu nghiên cứu 1. Mục têu tổng quát Đễồ tài nghiễn cứu và ứng dụng các phương pháp khai thác dữ liệu nhăồm dự báo rủi ro khách hàng rời bỏ dịch vụ tại ngần hàng là phần tch các d ữ li ệu khách hàng c ủa ngần hàng, từ đó đưa ra dự báo và đễồ xuầết các gi ải pháp h ợp lý nhăồm gi ảm thi ểu t ỷ l ệ khách hàng rời bỏ dịch vụ. Trước hễết, tổng hợp và phần tch các dữ liệu vễồ khách hàng, bao gồồm thồng tn cá nhần, lịch sử giao dịch, hành vi s ử d ụng d ịch v ụ, v. Sau đó s ử dụng các phương pháp khai thác dữ liệu để tm ra các mầễu và xu h ướng trong d ữ li ệu, từ đó đưa ra dự báo vễồ khả năng khách hàng rời bỏ dịch v ụ trong t ương lai.T ừ các d ự báo thu được, đễồ xuầết các giải pháp hợp lý nhăồm gi ảm thi ểu t ỷ l ệ khách hàng r ời b ỏ dịch vụ, bao gồồm cải thiện chầết lượng dịch vụ, tăng cường tương tác và hồễ trợ khách hàng, tồếi ưu hóa chính sách và chương trình khuyễến mãi, v.
Đánh giá hi ệu qu ả c ủa các 5 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 giải pháp đễồ xuầết thồng qua việc so sánh tỷ lệ khách hàng r ời b ỏ d ịch v ụ tr ước và sau khi triển khai các giải pháp đó. Tổng thể, mục tễu của đễồ tài là áp dụng các phương pháp khai thác d ữ li ệu đ ể phần tch và dự báo rủi ro khách hàng rời bỏ dịch vụ tại ngần hàng, t ừ đó đ ưa ra các giải pháp nhăồm cải thiện hệ thồếng dịch vụ và giữ chần khách hàng. Các mục têu cụ thể Sử dụng phầồn mễồm orange để xử lý dữ liệu và giải quyễết các bài toán sau: Bài toán 1 (Liễn quan gầồn): Phát hiện các đặc điểm đặc thù liễn quan đễến s ự r ời bỏ hoặc khồng rời bỏ dịch vụ tại ngần hàng của khách hàng dựa vào các l ược đồồ và cồng cụ thồếng kễ. Bài toán 3 (Liễn quan gầồn): Phần loại nhóm khách hàng lựa chọn rời bỏ dịch v ụ t ại ngần hàng.
Đốối tượng nghiên cứu Đồồ án này seễ tập trung nghiễn cứu hành vi và thồng tn của khách hàng sử d ụng dịch vụ ngần hàng đa quồếc gia ABC được lầếy thồng tn, dữ liệu cũng như sồế liệu tại Kaggle. Mố tả dữ liệu và cấốu trúc dữ liệu 1. Mô tả dữ liệu Nguồồn dữ liệu được lầếy từ Kaggle. Đầy là bộ dữ liệu khách hàng của các chủ tài khoản tại Ngần hàng Đa quồếc gia ABC và mục đích của dữ liệu này seễ là dự đoán tỷ lệ khách hàng rời bỏ dịch vụ ngần hàng 6 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 https://www.com/code/chaitnyapol/bank-customer-churn-predicton-by- ann/input?fbclid=IwAR3znxuLU6Tq-fhJ19kabqEC00lOdnK4R- d_jook9MYWOV9qXhAVx3rT3CM Dữ liệu gồồm : 10000 dòng và 12 cột thuộc tnh như sau : STT Thuộc tnh Ý nghĩa Mố tả 1 customer_id Mồễi khách hàng đễồu có một mã ID riễng Chuồễi ký tự sồế để định danh 2 Credit_score Điểm tn dụng của khách hàng Sồế nguyễn 3 Country Đầết nước cư trú Tễn quồếc gia 4 Gender Giới tnh Nam hoặc Nữ 5 Age Độ tuổi Sồế nguyễn 6 Tenure Khách hàng có thời gian sử dụng dịch vụ Sồế nguyễn ngần hàng bao lầu 7 Balance Sồế dư tài khoản ngần hàng Sồế nguyễn 8 Products_numbe Sồế dịch vụ sản phẩm mà khách hàng đã Sồế nguyễn r sử dụng 9 Credit_card Khách hàng có thẻ tn dụng khồng: Có hoặc Khồng 10 Actve_member Có phải là khách hàng thần thiễết tại ngần Có hoặc hàng khồng Khồng 11 Estmated_salary Ước tnh khả năng tài chính Sồế nguyễn 7 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 12 Churn Rời bỏ hay khồng rời bỏ dịch vụ ngần Có hoặc hàng Khồng Bảng 1.
Mô tả các thuộc tnh của bộ dữ liệu 1. Tiêền xử lý dữ liệu Bài nghiễn cứu này sử dụng bộ dữ liệu tổng hợp từ trang: https://www.com/code/chaitnyapol/bank-customer-churn-predicton-by- ann/input?fbclid=IwAR3znxuLU6Tq-fhJ19kabqEC00lOdnK4R- d_jook9MYWOV9qXhAVx3rT3CM Trong tập dữ liệu này tác giả đã xử lý các dữ liệu bị thiễếu, dữ li ệu b ị nhiễễu và d ữ liệu khồng nhầết quán vì thễế nhóm seễ bỏ qua cồng đoạn xử lý lồễi dữ liệu Để thồng tn được dễễ hiểu hơn, nhóm đã sử dụng cồng cụ Edit Domain để chuyển đổi tễn của các thuộc tnh từ tễếng anh sang tễếng việt. Biến tiếng anh Biến tiếng việt customer_id Mã định danh khách hàng Credit_score Điểm tn dụng Country Quồếc gia cư trú Gender Giới tnh Age Độ tuổi Tenure Thời gian sử dụng dịch vụ tại ngần hàng Balance Sồế dư tài khoản Products_number Sồế sản phẩm dịch vụ đã trải nghiệm 8 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Credit_card Thẻ tn dụng Actve_member Khách hàng thần thiễết Estmated_salary Khả năng tài chính Churn Rời bỏ hoặc Khồng rời bỏ Bảng 2. Chuyển đổi biêến têếng anh sang têếng việt 1.
Phân tách dữ liệu Từ fle dữ liệu gồếc được tải từ dữ liệu gồếc (sau khi chuyển đổi tễn biễến sang tễếng việt), nhóm đã sử dụng chức năng Data Sample để tách dữ liệu thành 2 fle riễng biệt như sau: - 70% dữ liệu dùng để huầến luyện mồ hình phần lớp. Lưu dữ liệu dưới dạng fle Excel đặt tễn là Churn_Training - 30% dữ liệu còn lại dùng để làm dữ liệu báo cáo cho mồ hình. Lưu dữ liệu dưới dạng fle Excel đặt tễn là Churn_Forecast. Mô hình tiêền xử lý dữ liệu 9 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 10 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KÊẾT QUẢ 2.
Các phương pháp dự đoán và quy trình cụ thể 2. Phân lớp dữ liệu Phần lớp dữ liệu là quá trình phần dữ liệu vào một hay nhiễồu l ớp đ ể dễễ dàng truy xuầết, săếp xễếp và lưu trữ trong tương lai. Phương pháp hốềi quy Logistc (Logistc Regression) Phần tch hồồi quy tuyễến tnh được sử dụng để dự đoán giá trị của một biễến d ựa trễn giá trị của một biễến khác. Biễến bạn muồến dự đoán đ ược gọi là biễến ph ụ thu ộc.
Biễến bạn đang sử dụng để dự đoán giá trị của biễến khác được gọi là biễến độc lập. Minh họa phương pháp Logistc Regression Phương pháp SVM (Support Vector Machine) Là một kyễ thuật học máy phần tách khồng gian thuộc tnh băồng một siễu ph ẳng, do đó tồếi đa hóa lễồ giữa các phiễn bản của các lớp hoặc giá trị lớp khác nhau. 11 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Hình 3. Minh họa phương pháp SVM Phương pháp cấy quyêốt định (Tree) Là phương pháp mồ tả, phần loại và tổng quan hoá tập dữ liệu cho trước Hình 4.
Minh họa phương pháp cây quyêết định Các bước quy trình của 3 phương pháp phấn lớp: 12 Downloaded by tran quang (quangsuphamhoak35@gmail.com) lOMoARcPSD|9242611 Bước 1: Chọn nguồồn dữ liệu ( biễến khồng tham gia vào quá trình và biễến ph ụ thuộc) Bước 2: Dự đoán băồng 3 phương pháp hồồi quy Logistc regression, Tree và SVM Bước 3: So sánh cả 3 cái và lựa chọn dự đoán nào tồết nhầết Bước 4: Nồếi Test and Score với Confusion để xem kễết qu ả Ma trận nhầồm lầễn Các bước xấy dựng mố hình dự báo tốốt nhấốt: Bước 1: Sau khi chọn được phương pháp dự báo tồết nhầết, nồếi d ữ li ệu vào phương pháp tồết nhầết: SVM, Tree hoặc LR. Đồồng thời nhập dữ li ệu dùng đ ể d ự báo vào orange.