Luận Văn Thạc Sĩ Ngành Hệ Thống Thông Tin của Phạm Thanh Bình

Luận văn thạc sĩ trình bày hệ thống thông tin dự đoán hoàn trả khoản vay bằng thuật toán học máy, mang lại giải pháp hiệu quả cho ngành tài chính.

Trường đại học

Đại học Quốc gia TP HCM

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lý do chọn đề tài

1.2. Mục tiêu và phạm vi của luận văn

1.3. Nội dung và phương pháp nghiên cứu

1.4. Bố cục của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Khái niệm hoạt động cho vay của tổ chức Tài chính, Ngân hàng

2.2. Các nghiên cứu liên quan

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT: KẾT HỢP MÔ HÌNH

3.1. Cách tiến hành mô hình đề xuất

3.2. Mô hình đề xuất kết hợp Voting Classifiers

3.3. Sơ đồ luồng xử lý mô hình đề xuất kết hợp Stacking

3.4. Ưu điểm và nhược điểm phương pháp Ensemble

3.5. Kết chương

4. CHƯƠNG 4: ỨNG DỤNG CÁC MÔ HÌNH DỰ ĐOÁN HOÀN TRẢ KHOẢN VAY

4.1. Tập dữ liệu

4.2. Tổng quan phương pháp thực nghiệm

4.3. Xây dựng mô hình

4.4. Thu thập dữ liệu

4.5. Các phần mềm, thư viện được sử dụng

4.6. Đề xuất mô hình

4.7. Tiền xử lý dữ liệu, Huấn luyện mô hình

4.8. Đánh giá độ chính xác của mô hình

4.9. Thực nghiệm dự đoán khoản vay

4.9.1. Cấu hình thực nghiệm

4.9.2. Huấn luyện mô hình

4.9.3. Tinh chỉnh mô hình

4.9.4. Mô hình kết hợp

4.9.5. So sánh mô hình

4.9.6. Receiver Operating Characteristic (ROC)

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Hạn chế của nghiên cứu

5.2. Khuyến nghị và định hướng tương lai

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Tổng Quan Luận Văn Thạc Sĩ Hệ Thống Thông Tin Phạm Thanh Bình

Luận văn thạc sĩ của Phạm Thanh Bình thuộc ngành Hệ Thống Thông Tin, Trường Đại học Công Nghệ Thông Tin (Đại học Quốc Gia TP.HCM) năm 2022, tập trung vào việc ứng dụng học máy để dự đoán khả năng hoàn trả khoản vay. Luận văn được hướng dẫn bởi PGS. Nguyễn Đình Thuận. Mục tiêu chính là xây dựng và đánh giá các mô hình học máy, đặc biệt là phương pháp kết hợp mô hình, để hỗ trợ các tổ chức tài chính, ngân hàng giảm thiểu rủi ro tín dụng và nâng cao hiệu quả quản trị. Tác giả bày tỏ lòng biết ơn sâu sắc đến các thầy cô giáo, đặc biệt là PGS. Nguyễn Đình Thuận, bạn bè và gia đình đã tạo điều kiện tốt nhất để hoàn thành luận văn. Cam kết về tính trung thực của nghiên cứu được đảm bảo. Luận văn sử dụng dữ liệu từ Lending Club, một nền tảng kết nối người vay và nhà đầu tư trực tuyến.

1.1. Giới thiệu đề tài và lý do lựa chọn nghiên cứu

Luận văn đi sâu vào bài toán dự đoán khả năng trả nợ của khách hàng vay, một vấn đề cấp thiết đối với các tổ chức tài chính. Hoạt động cho vay là nguồn doanh thu lớn nhưng tiềm ẩn nhiều rủi ro. Việc dự đoán chính xác khả năng trả nợ giúp giảm thiểu nợ xấu, tăng cường quản trị rủi ro. Luận văn khắc phục những hạn chế của các nghiên cứu trước đây, như nghiên cứu của Chang Han (2019) với độ chính xác còn thấp, bằng cách sử dụng các mô hình học máy tiên tiến hơn và kỹ thuật kết hợp mô hình. Phạm Thanh Bình nhấn mạnh sự cần thiết cải thiện độ chính xác dự đoán và đóng góp vào lĩnh vực Hệ Thống Thông Tin trong ngành tài chính.

1.2. Mục tiêu và phạm vi của luận văn thạc sĩ Hệ Thống Thông Tin

Mục tiêu tổng quát của luận văn là nghiên cứu và ứng dụng thành công công nghệ học máy để hỗ trợ các tổ chức tài chính dự đoán khả năng hoàn trả khoản vay của khách hàng. Các mục tiêu cụ thể bao gồm thiết kế, đào tạo, kiểm tra và đánh giá hiệu suất của mô hình học máy trong việc dự đoán khả năng không trả được nợ. Phạm vi nghiên cứu tập trung vào việc sử dụng các phương pháp tiếp cận học máy để cải thiện độ chính xác trong dự đoán, từ đó giúp các tổ chức tài chính đánh giá rủi ro tín dụng hiệu quả hơn. Luận văn cũng hướng đến việc khắc phục các hạn chế của các phương pháp truyền thống vốn tốn thời gian và kém hiệu quả.

II. Thách Thức Dự Đoán Hoàn Trả Khoản Vay Hệ Thống Thông Tin

Việc dự đoán khả năng hoàn trả khoản vay là một thách thức lớn đối với các tổ chức tài chính. Quá trình này đòi hỏi sự cân bằng giữa việc chấp nhận rủi ro để tăng trưởng lợi nhuận và việc giảm thiểu nợ xấu. Việc xác định một người vay có khả năng thanh toán hay không không hề đơn giản. Nếu tổ chức tài chính quá khắt khe, số lượng khoản vay được duyệt sẽ giảm, ảnh hưởng đến lợi nhuận. Ngược lại, nếu quá lỏng lẻng, nguy cơ phê duyệt các khoản vay vỡ nợ sẽ tăng cao. Luận văn của Phạm Thanh Bình giải quyết trực tiếp vấn đề này bằng cách áp dụng các kỹ thuật học máy để đưa ra dự đoán chính xác hơn.

2.1. Các yếu tố ảnh hưởng đến khả năng hoàn trả khoản vay

Khả năng hoàn trả khoản vay chịu ảnh hưởng của nhiều yếu tố khác nhau, bao gồm thông tin cá nhân của người vay (ví dụ: thu nhập, lịch sử tín dụng), đặc điểm khoản vay (ví dụ: số tiền vay, lãi suất), và tình hình kinh tế vĩ mô. Các tổ chức tài chính cần xem xét kỹ lưỡng các yếu tố này để đánh giá rủi ro tín dụng một cách chính xác. Việc bỏ qua hoặc đánh giá sai một trong các yếu tố này có thể dẫn đến quyết định cho vay sai lầm và tăng nguy cơ nợ xấu.

2.2. Hạn chế của các phương pháp dự đoán truyền thống

Các phương pháp dự đoán truyền thống thường dựa vào các quy tắc cứng nhắc và kinh nghiệm của các chuyên gia. Các phương pháp này có thể không hiệu quả trong việc xử lý các bộ dữ liệu lớn và phức tạp, và có thể bỏ qua các mối quan hệ phi tuyến tính giữa các yếu tố ảnh hưởng đến khả năng hoàn trả. Ngoài ra, các phương pháp truyền thống thường tốn thời gian và công sức, và có thể không đủ nhanh nhạy để phản ứng với những thay đổi của thị trường.

III. Phương Pháp Học Máy Kết Hợp Dự Đoán Hoàn Trả Khoản Vay

Luận văn của Phạm Thanh Bình tập trung vào việc áp dụng và kết hợp các mô hình học máy để dự đoán khả năng hoàn trả khoản vay. Các mô hình học máy có khả năng học hỏi từ dữ liệu lịch sử và đưa ra dự đoán chính xác hơn so với các phương pháp truyền thống. Luận văn đề xuất phương pháp kết hợp mô hình, một kỹ thuật mạnh mẽ giúp cải thiện hiệu suất dự đoán bằng cách kết hợp kết quả của nhiều mô hình khác nhau. Sự kết hợp giữa các mô hình Hồi quy Logistic với các mô hình khác như Random Forest, SVM, KNN, ANN, LSTM được nghiên cứu để tìm ra cấu hình tốt nhất.

3.1. Tổng quan về các thuật toán học máy sử dụng Random Forest SVM KNN ...

Luận văn sử dụng một loạt các thuật toán học máy phổ biến, bao gồm Random Forest, Hồi quy Logistic, SVM, KNN, ANN, và LSTM. Mỗi thuật toán có những ưu điểm và nhược điểm riêng, và phù hợp với các loại dữ liệu và bài toán khác nhau. Random Forest là một thuật toán mạnh mẽ và linh hoạt, có khả năng xử lý các bộ dữ liệu lớn và phức tạp. Hồi quy Logistic là một thuật toán đơn giản và hiệu quả, thường được sử dụng để giải quyết các bài toán phân loại nhị phân. SVM là một thuật toán mạnh mẽ, có khả năng tìm ra ranh giới quyết định tối ưu giữa các lớp. KNN là một thuật toán đơn giản và dễ hiểu, dựa trên nguyên tắc "gần người tốt, mình cũng tốt". ANN và LSTM là các thuật toán mạng nơ-ron sâu, có khả năng học hỏi các biểu diễn phức tạp của dữ liệu.

3.2. Kỹ thuật Ensemble Learning Voting Classifiers Stacking

Luận văn sử dụng kỹ thuật Ensemble Learning, cụ thể là Voting Classifiers và Stacking, để kết hợp kết quả của nhiều mô hình học máy khác nhau. Voting Classifiers kết hợp kết quả dự đoán của các mô hình khác nhau bằng cách bỏ phiếu. Stacking kết hợp kết quả dự đoán của các mô hình khác nhau bằng cách sử dụng một mô hình học máy khác để học cách kết hợp các kết quả này. Kỹ thuật Ensemble Learning thường mang lại kết quả dự đoán tốt hơn so với việc sử dụng một mô hình duy nhất.

IV. Ứng Dụng Và Thực Nghiệm Mô Hình Dự Đoán Hoàn Trả Khoản Vay

Luận văn của Phạm Thanh Bình trình bày chi tiết quá trình ứng dụng và thực nghiệm các mô hình dự đoán trên bộ dữ liệu thực tế. Bộ dữ liệu được sử dụng là từ Lending Club, bao gồm 37.066 mẫu tin. Quá trình thực nghiệm bao gồm các bước thu thập dữ liệu, tiền xử lý dữ liệu, xây dựng mô hình, huấn luyện mô hình, và đánh giá hiệu suất mô hình. Các mô hình được tinh chỉnh để đạt được hiệu suất tốt nhất. Kết quả thực nghiệm được so sánh và đánh giá để xác định mô hình tốt nhất cho bài toán dự đoán hoàn trả khoản vay.

4.1. Mô tả tập dữ liệu Lending Club và tiền xử lý

Tập dữ liệu từ Lending Club chứa thông tin về các khoản vay được tài trợ thông qua nền tảng này, bao gồm thông tin về người vay (ví dụ: thu nhập, lịch sử tín dụng) và thông tin về khoản vay (ví dụ: số tiền vay, lãi suất). Quá trình tiền xử lý dữ liệu bao gồm các bước làm sạch dữ liệu, xử lý giá trị thiếu, và chuyển đổi dữ liệu. Các thuộc tính quan trọng được lựa chọn để xây dựng mô hình dự đoán. Kỹ thuật Mutual Information Statistics được sử dụng để lựa chọn thuộc tính (Features Selection).

4.2. Đánh giá hiệu suất mô hình và so sánh kết quả

Hiệu suất của các mô hình được đánh giá bằng các chỉ số như độ chính xác, độ thu hồi, độ chính xác, và diện tích dưới đường cong ROC (AUC). Các mô hình được so sánh với nhau để xác định mô hình tốt nhất cho bài toán dự đoán hoàn trả khoản vay. So sánh hiệu suất giữa các mô hình riêng lẻ, các mô hình đã tinh chỉnh, và các mô hình kết hợp (Voting Classifiers, Stacking) được thực hiện để đánh giá hiệu quả của từng phương pháp.

4.3. Sử dụng ROC Curve để đánh giá mô hình

ROC Curve (Receiver Operating Characteristic curve) là một công cụ quan trọng để đánh giá hiệu suất của các mô hình phân loại, đặc biệt là trong các bài toán có sự mất cân bằng giữa các lớp. ROC Curve cho phép đánh giá khả năng của mô hình trong việc phân biệt giữa các lớp khác nhau, và giúp xác định ngưỡng quyết định tối ưu. Luận văn sử dụng ROC Curve để so sánh hiệu suất của các mô hình học máy khác nhau và lựa chọn mô hình tốt nhất cho bài toán dự đoán hoàn trả khoản vay.

V. Kết Luận Và Hướng Phát Triển Luận Văn Hệ Thống Thông Tin

Luận văn của Phạm Thanh Bình đã thành công trong việc ứng dụng và kết hợp các mô hình học máy để dự đoán khả năng hoàn trả khoản vay. Kết quả nghiên cứu có thể giúp các tổ chức tài chính giảm thiểu rủi ro tín dụng và nâng cao hiệu quả quản trị. Tuy nhiên, luận văn cũng có một số hạn chế, và cần được tiếp tục nghiên cứu và phát triển trong tương lai. Các kết quả đạt được trong luận văn cho thấy tiềm năng to lớn của việc ứng dụng học máy trong lĩnh vực tài chính.

5.1. Tóm tắt kết quả và những đóng góp của luận văn

Luận văn đã chứng minh tính hiệu quả của việc sử dụng các mô hình học máy, đặc biệt là kỹ thuật kết hợp mô hình, để dự đoán khả năng hoàn trả khoản vay. Các kết quả đạt được trong luận văn có thể giúp các tổ chức tài chính cải thiện quy trình đánh giá rủi ro tín dụng và đưa ra quyết định cho vay chính xác hơn. Luận văn cũng đóng góp vào việc phát triển các phương pháp học máy mới cho lĩnh vực tài chính.

5.2. Hạn chế của nghiên cứu và hướng nghiên cứu tương lai

Luận văn có một số hạn chế, chẳng hạn như việc sử dụng dữ liệu từ một nguồn duy nhất (Lending Club) và việc bỏ qua một số yếu tố có thể ảnh hưởng đến khả năng hoàn trả khoản vay (ví dụ: yếu tố kinh tế vĩ mô). Hướng nghiên cứu tương lai có thể tập trung vào việc sử dụng dữ liệu từ nhiều nguồn khác nhau, kết hợp các yếu tố kinh tế vĩ mô vào mô hình, và phát triển các mô hình học máy tiên tiến hơn.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hệ thống thông tin dự đoán hoàn trả khoản vay bằng cách sử dụng thuật toán học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Hoạt động cho vay là một trong những sản phẩm chủ lực của các tổ chức tài chính và ngân hàng, đóng vai trò quan trọng trong việc tạo ra lợi nhuận bền vững. Tuy nhiên, rủi ro tín dụng từ việc khách hàng không hoàn trả khoản vay đúng hạn luôn là thách thức lớn. Theo dữ liệu từ Lending Club, một nền tảng kết nối người vay và nhà đầu tư qua Internet, tập dữ liệu nghiên cứu gồm 37.066 mẫu tin từ tháng 1/2018 đến tháng 9/2020. Vấn đề trọng tâm là dự đoán khả năng không trả được nợ của khách hàng nhằm giảm thiểu rủi ro và nâng cao hiệu quả quản trị tín dụng.

Mục tiêu cụ thể của luận văn là thiết kế và đánh giá các mô hình học máy để dự đoán khả năng hoàn trả khoản vay, từ đó hỗ trợ các tổ chức tài chính trong việc ra quyết định phê duyệt khoản vay. Phạm vi nghiên cứu tập trung trên dữ liệu khách hàng vay vốn qua Lending Club trong giai đoạn 2018-2020. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác dự đoán, giảm thiểu nợ xấu và tăng cường quản trị rủi ro tín dụng, góp phần nâng cao lợi nhuận và sự ổn định của tổ chức tài chính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy phổ biến trong lĩnh vực dự đoán tín dụng, bao gồm:

Hồi quy Logistic (Logistic Regression): Mô hình phân loại nhị phân ước lượng xác suất một khách hàng thuộc nhóm không trả nợ dựa trên hàm sigmoid, phù hợp với bài toán phân lớp tín dụng.
Random Forest: Tập hợp các cây quyết định được huấn luyện trên các tập con dữ liệu khác nhau, giúp giảm thiểu overfitting và tăng độ chính xác dự đoán.
Support Vector Machine (SVM): Mô hình phân loại mạnh mẽ, sử dụng hạt nhân Gaussian RBF để xử lý dữ liệu phi tuyến, phù hợp với các tập dữ liệu phức tạp.
K-Nearest Neighbor (KNN): Thuật toán phân loại dựa trên khoảng cách Euclid đến các điểm dữ liệu gần nhất, đơn giản nhưng hiệu quả trong nhiều trường hợp.
Artificial Neural Network (ANN): Mạng nơ-ron nhân tạo mô phỏng hoạt động của tế bào thần kinh, có khả năng học các mối quan hệ phi tuyến phức tạp.
Long Short-Term Memory (LSTM): Mạng nơ-ron hồi tiếp đặc biệt, xử lý tốt dữ liệu chuỗi thời gian, được áp dụng trong dự đoán tín dụng có tính tuần tự.
Cây quyết định (Decision Tree): Mô hình phân loại dựa trên cấu trúc cây, dễ hiểu và triển khai.

Ngoài ra, luận văn áp dụng kỹ thuật Ensemble Learning với các phương pháp kết hợp mô hình như Voting, Stacking và Boosting nhằm nâng cao hiệu suất dự đoán.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu Lending Club gồm 37.066 mẫu tin, thu thập từ tháng 1/2018 đến tháng 9/2020. Các bước nghiên cứu bao gồm:

Thu thập và tiền xử lý dữ liệu: Xử lý giá trị thiếu, chuyển đổi biến hạng mục sang dạng số (one-hot encoding), chuẩn hóa dữ liệu bằng phương pháp min-max scaling.
Lựa chọn thuộc tính: Sử dụng kỹ thuật Mutual Information Statistics để chọn ra 6 biến quan trọng nhất ảnh hưởng đến khả năng trả nợ.
Phân chia dữ liệu: Tách dữ liệu thành tập huấn luyện (70%) và tập kiểm tra (30%).
Huấn luyện mô hình: Áp dụng các thuật toán học máy đã nêu, đồng thời thực hiện tinh chỉnh siêu tham số bằng GridSearchCV.
Đánh giá mô hình: Sử dụng phương pháp kiểm định chéo K-fold, ma trận nhầm lẫn (confusion matrix), các chỉ số Accuracy, Precision, Recall, F1-Score và đường cong ROC để đánh giá hiệu suất.
Thực nghiệm mô hình kết hợp: Triển khai các phương pháp Ensemble Learning gồm Voting Classifiers, Stacking Classifiers và Boosting (AdaBoost, Gradient Boosting) để cải thiện độ chính xác dự đoán.

Quá trình nghiên cứu được thực hiện trên nền tảng Python 3.7 với các thư viện phổ biến như numpy, pandas, sklearn, keras, seaborn và matplotlib, sử dụng công cụ Google Colab Pro.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình đơn lẻ:
- Mô hình Random Forest đạt độ chính xác khoảng 80%, vượt trội hơn so với các mô hình khác như Hồi quy Logistic (độ chính xác ~70%), SVM, KNN, ANN và LSTM.
- Mô hình Hồi quy Logistic có điểm AUC đạt khoảng 70% và Recall đạt 62%, cho thấy khả năng dự đoán khá tốt nhưng vẫn còn hạn chế.
Hiệu quả của phương pháp Ensemble Learning:
- Mô hình kết hợp Voting giữa Hồi quy Logistic và Random Forest cải thiện độ chính xác lên trên 82%.
- Stacking Classifiers với meta-model được huấn luyện trên đầu ra của các base-models cho kết quả tốt hơn, với AUC tăng khoảng 3-5% so với mô hình đơn lẻ.
- Boosting (AdaBoost và Gradient Boosting) giúp giảm sai số dự đoán, đặc biệt tăng Recall, giảm tỷ lệ bỏ sót khách hàng có nguy cơ không trả nợ.
Ảnh hưởng của lựa chọn thuộc tính:
- Việc sử dụng kỹ thuật Mutual Information Statistics giúp giảm số lượng biến đầu vào từ 13 xuống còn 6 biến quan trọng nhất, làm tăng tốc độ huấn luyện và cải thiện hiệu suất mô hình.
- Các biến như lãi suất khoản vay (int_rate), số tiền trả góp hàng tháng (installment), điểm tín dụng FICO, tỷ lệ nợ trên thu nhập (dti) có ảnh hưởng lớn đến dự đoán.
Xử lý dữ liệu mất cân bằng:
- Áp dụng kỹ thuật Random Oversampling và Undersampling giúp cân bằng dữ liệu giữa nhóm khách hàng trả nợ đầy đủ và không đầy đủ, từ đó cải thiện độ chính xác và khả năng tổng quát của mô hình.

Thảo luận kết quả

Kết quả cho thấy các mô hình học máy truyền thống như Random Forest và Hồi quy Logistic có thể đạt hiệu suất dự đoán khả quan, tuy nhiên vẫn còn hạn chế khi áp dụng riêng lẻ. Việc kết hợp các mô hình qua phương pháp Ensemble Learning đã chứng minh hiệu quả rõ rệt trong việc nâng cao độ chính xác và giảm thiểu rủi ro dự đoán sai.

So sánh với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng học máy trong dự đoán tín dụng, đồng thời cải thiện đáng kể các chỉ số như AUC và Recall. Việc lựa chọn thuộc tính dựa trên Mutual Information giúp giảm thiểu biến không liên quan, tránh hiện tượng overfitting và tăng tốc độ xử lý.

Dữ liệu mất cân bằng là một thách thức lớn trong bài toán này, tuy nhiên các kỹ thuật cân bằng dữ liệu đã giúp mô hình không bị thiên lệch về nhóm chiếm đa số, từ đó nâng cao khả năng phát hiện khách hàng có nguy cơ không trả nợ.

Các biểu đồ ROC curve, ma trận nhầm lẫn và so sánh độ chính xác giữa các mô hình được trình bày chi tiết trong luận văn, minh họa rõ ràng sự vượt trội của các mô hình kết hợp so với mô hình đơn lẻ.

Đề xuất và khuyến nghị

Áp dụng mô hình Ensemble Learning trong quy trình phê duyệt khoản vay:
Các tổ chức tài chính nên triển khai các mô hình kết hợp Voting hoặc Stacking để nâng cao độ chính xác dự đoán khả năng hoàn trả khoản vay, giảm thiểu rủi ro nợ xấu trong vòng 6-12 tháng tới.
Tăng cường thu thập và làm sạch dữ liệu:
Đảm bảo dữ liệu khách hàng đầy đủ, chính xác và cập nhật thường xuyên, đặc biệt các biến quan trọng như điểm tín dụng, thu nhập và lịch sử thanh toán, nhằm cải thiện chất lượng đầu vào cho mô hình.
Triển khai hệ thống giám sát và cập nhật mô hình định kỳ:
Thiết lập quy trình đánh giá hiệu suất mô hình hàng quý, cập nhật siêu tham số và dữ liệu huấn luyện để đảm bảo mô hình luôn phù hợp với biến động thị trường và hành vi khách hàng.
Đào tạo nhân sự và nâng cao nhận thức về công nghệ học máy:
Tổ chức các khóa đào tạo cho đội ngũ phân tích tín dụng và quản lý rủi ro về ứng dụng học máy, giúp họ hiểu và vận dụng hiệu quả các công cụ dự đoán trong công tác ra quyết định.

Đối tượng nên tham khảo luận văn

Các tổ chức tài chính và ngân hàng:
Hỗ trợ xây dựng hệ thống dự đoán rủi ro tín dụng, nâng cao hiệu quả phê duyệt khoản vay và quản lý nợ xấu.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu:
Cung cấp phương pháp luận và mô hình học máy ứng dụng thực tiễn trong lĩnh vực tín dụng, đặc biệt là kỹ thuật Ensemble Learning.
Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, tài chính:
Tham khảo các thuật toán học máy, kỹ thuật lựa chọn thuộc tính và quy trình khai thác dữ liệu chuẩn CRISP-DM trong bài toán dự đoán tín dụng.
Các nhà quản lý rủi ro tín dụng:
Nắm bắt các công cụ và phương pháp mới để đánh giá và kiểm soát rủi ro tín dụng hiệu quả hơn, từ đó đưa ra các chính sách phù hợp.

Câu hỏi thường gặp

Tại sao cần sử dụng mô hình kết hợp (Ensemble Learning) thay vì mô hình đơn lẻ?
Mô hình kết hợp tận dụng ưu điểm của nhiều thuật toán khác nhau, giảm thiểu sai số và tăng độ chính xác dự đoán so với mô hình đơn lẻ. Ví dụ, Voting và Stacking giúp cải thiện AUC từ khoảng 70% lên trên 80%.
Làm thế nào để xử lý dữ liệu mất cân bằng trong bài toán dự đoán khoản vay?
Sử dụng kỹ thuật Random Oversampling hoặc Undersampling để cân bằng số lượng mẫu giữa nhóm trả nợ đầy đủ và không đầy đủ, giúp mô hình không bị thiên lệch và tăng khả năng phát hiện khách hàng rủi ro.
Các biến nào ảnh hưởng nhiều nhất đến khả năng hoàn trả khoản vay?
Các biến quan trọng gồm lãi suất khoản vay (int_rate), số tiền trả góp hàng tháng (installment), điểm tín dụng FICO, tỷ lệ nợ trên thu nhập (dti), số lần quá hạn thanh toán trong 2 năm (delinq_2yrs) và tỷ lệ sử dụng nợ tín dụng (revol_util).
Phương pháp lựa chọn thuộc tính nào được sử dụng và vì sao?
Kỹ thuật Mutual Information Statistics được chọn vì khả năng đo lường mức độ liên quan giữa biến đầu vào và biến mục tiêu, giúp giảm số lượng biến không cần thiết, tăng hiệu quả huấn luyện và dự đoán.
Làm thế nào để đánh giá hiệu suất mô hình dự đoán khoản vay?
Sử dụng các chỉ số như Accuracy, Precision, Recall, F1-Score và đường cong ROC. Đặc biệt, Recall và AUC là các chỉ số quan trọng trong việc đánh giá khả năng phát hiện khách hàng có nguy cơ không trả nợ.

Kết luận

Luận văn đã thiết kế và triển khai thành công các mô hình học máy dự đoán khả năng hoàn trả khoản vay dựa trên dữ liệu Lending Club với hơn 37.000 mẫu tin.
Phương pháp kết hợp mô hình Ensemble Learning (Voting, Stacking, Boosting) cho hiệu suất dự đoán vượt trội so với các mô hình đơn lẻ, với độ chính xác đạt trên 82%.
Kỹ thuật lựa chọn thuộc tính Mutual Information giúp giảm biến đầu vào, tăng tốc độ huấn luyện và cải thiện hiệu quả mô hình.
Việc xử lý dữ liệu mất cân bằng và tinh chỉnh siêu tham số đóng vai trò quan trọng trong việc nâng cao độ chính xác dự đoán.
Đề xuất triển khai mô hình trong thực tế, đồng thời duy trì cập nhật và giám sát định kỳ để đảm bảo mô hình phù hợp với biến động thị trường.

Next steps: Triển khai thử nghiệm mô hình trong môi trường thực tế tại các tổ chức tài chính, thu thập phản hồi và điều chỉnh mô hình phù hợp. Khuyến khích mở rộng nghiên cứu với dữ liệu đa dạng hơn và áp dụng các kỹ thuật học sâu nâng cao.

Các tổ chức tài chính và nhà nghiên cứu được khuyến khích áp dụng và phát triển các mô hình học máy kết hợp để nâng cao hiệu quả quản trị rủi ro tín dụng, góp phần phát triển bền vững ngành tài chính ngân hàng.

Trích đoạn nội dung tài liệu

Chương 1. Tổng quan: Giới thiệu đề tài, lý do chọn đề tài, mục tiêu, phạm vị và nội dung thực hiện trong đề tài. Cơ sở lý thuyết và các nghiên cứu liên quan: Trình bày cở sở lý thuyết, các áp dụng các phương pháp, mô hình dự báo Học máy được áp dụng trong đề tài. Kết hop mô hình: Giới thiệu phương pháp kết hợp mô hình (Ensemble Learning), kết hợp mô hỉnh Hồi quy Logistic với các mô hình Random Forest, SVM, KNN, ANN, Cây quyết định đề tìm ra mô hình dự báo có độ chính xác cao nhất.

Ap dung các mô hình dự đoán hoàn trả khoản vay: tiến hành thực nghiệm các mô hình dự báo trên tập dữ liệu hoàn trả khoản vay của khách hàng dé dự báo khách hàng có khả năng hoàn trả khoản vay hay không. Kết luận và hướng phát triển © - Danh mục công bố khoa học của tác giả ¢ Tai liệu tham khảo Page| 16 CHƯƠNG2_ CƠ SỞ LÝ THUYET VÀ CÁC NGHIÊN CUU LIÊN QUAN 2.1 Khái niệm hoạt động cho vay của tổ chức Tài chính, Ngân hàng Cho vay là một hình thức cấp tín dụng, theo đó tổ chức Tài chính, Ngân hàng giao cho khách hàng một khoản tiền để sử dụng vào mục đích và thời hạn nhất định theo thỏa thuận với nguyên tắc có hoàn trả cả gốc và lãi. Cho vay là hoạt động sinh lời bên cạnh đó cũng có rủi ro cho t6 chức Tài chính, Ngân hàng. Dé té chức tồn tại và phát triển vững chắc, hoạt động cho vay phải an toàn và hiệu quả.

Muốn vậy, phải được thực hiện theo những nguyên tắc nhất định. Thứ nhất, khách hàng vay vốn phải đảm bảo sử dụng vốn vay đúng mục đích đã thoả thuận. Điều này giúp hạn chế rủi ro tín dụng cho tô chức Tài chính, Ngân hàng. Thứ hai, khách hàng phải đảm bảo hoàn trả nợ gốc và lãi vốn vay đúng thời hạn đã thoả thuận trong hợp đồng.

Thứ ba, tổ chức Tài chính, Ngân hàng cho vay đối với những khách hàng tiềm năng, khả thi và có khả năng hoàn trả nợ. Nhờ đó, tổ chức Tài chính, Ngân hàng mới có được lợi nhuận từ việc cho vay. Với xu hướng phát triển của nền kinh tế, nghiệp vụ cho vay ngày càng đa dạng, phong phú, hoàn thiện, đầu tư vào tat cả các lĩnh vực ngành nghề. Dé đáp ứng nhu cầu vay vốn của Ngân hàng ngày càng gia tăng, hoạt động cho vay của Ngân hàng ngày càng mở rộng, đòi hỏi Ngân hàng phải có quy trình quản lý chặt chẽ.

Mục tiêu quản lý khoản mục cho vay thống nhất với mục tiêu chung của Ngân hàng trên cơ sở đảm bảo an toàn. Có thể hiểu ngắn gọn: “Hoạt động cho vay là việc tổ chức Tài chính, Ngân hàng đưa tiền cho khách hàng với cam kết khách hàng phải hoàn trả cả gốc và lãi trong khoảng thời gian xác định”. Tổ chức Tài chính, Ngân hàng trao quyền sử dụng vốn cho khách hàng, khách hàng dùng số vốn này đầu tư vào sản xuất kinh doanh kiếm lời, đảm bảo trả nợ gốc và lãi cho Ngân hàng. Học máy được áp dụng rộng rãi trong nhiều lĩnh vực.

Các mô hình Học máy được tập trung nghiên cứu và phát triển để đáp ứng các yêu cầu dự đoán. Chương này sẽ trình bày một số mô hình Học máy Random Forest, Hồi quy Logistic, SVM, KNN, ANN, LSTM, Cây quyết định.2 Các nghiên cứu liên quan Hiện nay, có nhiều nghiên cứu về dự đoán hoàn trả khoản vay sử dụng nhiều phương pháp như hồi quy và Học máy đề đưa ra dự đoán dựa trên dữ liệu lịch sử về khoản trả nợ của khách hàng. Dự đoán hoàn trả (còn được coi là rủi ro khách hàng hoặc cho điểm khách hàng, dự đoán gian lận) được thực hiện bằng cách sử dụng dữ liệu và Giấy phương pháp khác nhau (Natasha (2019) [12] và trình bày so sánh các phương pháp Học máy khác nhau để phân loại rủi ro người tiêu dùng. 988 hàng va 17 thuộc tính (biến) được sử dụng dé xây dựng mô hình.

Các thuộc tính chủ yếu liên quan đến thông tin cá nhân về khách hàng (ví dụ: Tì ôi, Giới tính, Số lượng trẻ em). Độ chính xác của các mô hình được xem xét là từ 0,61 đến 0,70. Noron chập được Kim (2019) [13] sử dụng để dự đoán trả nợ trong Cho vay xã hội ngang hàng. 855500 hàng và 63 thuộc tính được sử dụng (chẳng hạn như số tiền vay, số tiền thanh toán và thời gian vay).

Độ chính xác là 0,76. Wang và cộng sự. trình bày một nghiên cứu sử dụng 4000 mẫu và 21 thuộc tính để xây dựng và đánh giá một mô hình dự đoán phân loại. Bốn thuật toán được sử dụng: SVM cổ điền, Backpropagation Neural Network, C4.

Kết quả cho thay tông độ chính xác dự đoán của R SVM tốt hơn các phương pháp khác [14]. Reddy va Kavitha [15] sử dụng mạng nơ-ron thông qua phân tích mức độ liên quan thuộc tính trong trình mặc định lớp thử nghiệm. Hassan và Abraham [16] sử dụng bộ dữ liệu Ngân hàng có 1000 trường hợp; mỗi trường hợp có 24 thuộc tính số để phát triển và so sánh các mô hình được tạo ra từ các thuật toán huấn luyện khác nhau, lan truyền ngược gradient liên hợp theo tỷ lệ, thuật toán Levenberg-Marquardt và truyền ngược một bước (SCG, LM và OSS). Nghiên cứu chỉ ra rằng thuật toán chậm nhất là OSS và thuật toán tốt nhất là LM vì nó có R lớn nhất, nhưng điều đó có nghĩa là tốt nhất cho tập dữ liệu này.

Hamid và Ahmed [17] để xuất một mô hình phân loại việc áp dụng các khoản cho. vay đối với các khoản cho vay tốt và xấu bằng cách sử dụng ba thuật toán; J48, mang Bayes và bộ phân loại Naive Bayes. Họ sử dụng ứng dụng Weka dé triển khai và thử nghiệm. Chúng cho thấy J48 có độ chính xác tốt nhất là 78,378%.

Turkson và cộng sự [18] đã áp dung 15 loại thuật toán Học máy khác nhau để dự đoán mức độ tín nhiệm của khách hàng. Thử nghiệm cho thấy rằng, ngoài Centroid gần nhất và Gaussian Naive Page| 18 Bayes, phần còn lại của các thuật toán hoạt động tốt về độ chính xác và các số liệu đánh giá hiệu suất khác. Mỗi thuật toán nay dat tỷ lệ chính xác từ 76% đến hơn 80%. Do đó, cần phát triên mô hình học tập theo nhóm, trong đó sẽ xem xét các vấn đề trên.

Một mô hình như vậy có thể cho phép cải thiện dự đoán khả năng hoàn trả khoản vay của khách hàng. Các phương pháp dự đoán Trong nghiên cứu này ta xem xét vấn dé lựa chon các biến dự đoán trong bài toán phân lớp. Dựa trên các yếu tố thu thập được trong quá trình hoàn trả khoản vay, mục tiêu phân loại là dự báo xem người vay có khả năng hoàn trả khoản vay hay không. Phương pháp gồm các bước thu thập dữ liệu, tiền xử lý dữ liệu, phân tích dữ liệu, xây dựng mô hình bằng cách áp dụng mô hình Random Forest, Hồi quy Logistic, SVM, KNN, ANN, LSTM, Cây quyết định.

Đánh giá hiệu suất, độ chính xác của mô hình, so sánh các mô hình. “Nam = Ỳ Dak pes Hình 2. Tông quan phương pháp nghiên cứu 2.4 Các phương pháp Học máy 2.1 Random Forest Random Forest là tập hợp các Cây quyết định, thường được huấn luyện thông qua phương pháp bagging(hoặc đôi khi là pasting) với max_samples thường được đặt bằng với kích thước bộ huấn luyện. Thay vì phải tạo BaggingClassifier và truyền được vào một DecisionTreeClassifier sử dụng lớp RandomForestClassifier sẽ tiện lợi và tối ưu hon cho thuật toán Cây quyết định (Tương tự, ta có lớp RandomForestRegressor dành cho những tác vụ hồi quy).

Random Forest là một thuật toán Học may phổ biến thuộc về kỹ thuật học có giám sát. Nó có thé được sử dụng cho cả vấn đề Phân loại và Hồi quy trong Học máy. Nó dựa Page| 19 trên khái niệm học tập theo nhóm, là một quá trình kết hợp nhiều bộ phân loại đề giải quyết một vấn đề phức tạp và đề cải thiện hiệu suất của mô hình. Random Forest là một bộ phân loại chứa một số Cây quyết định trên các tập con khác nhau của tập dữ liệu đã cho và lấy giá trị trung bình dé cải thiện độ chính xác dự đoán của tập dữ liệu đó.

Thay vì dựa vào một Cây quyết định, Random Forest lấy dự đoán từ mỗi cây và dựa trên đa số phiếu dự đoán, và nó dự đoán kết quả cuối cùng[8]. Training Training Training Data Data ggg — DatA = Hình 2. Sơ đồ hoạt động của thuật toán Random Forest [8] 2.2 Hồi quy Logistic Hồi quy Logistic được sử dụng phô biến để ước lượng xác suất một mẫu dữ liệu thuộc về một lớp cụ thể nào đó(ví dụ, xác suất một email là thư rác). Nếu xác suất ước lượng cho một lớp lớn hơn 50%, thì mô hình dự đoán mẫu này thuộc lớp đó(được gọi là lớp dương, được gán nhãn là “1”); nếu không, mô hình dự đoán mẫu không thuộc lớp đó(tức thuộc lớp âm, được gan nhãn là “0”).

Vì vậy, đây là một bộ phân loại nhị phan[8]. s* Ước lượng xác suất Mô hình Hồi quy Logistic tính tổng trọng số các đặc trưng đầu vào (cộng với hệ số điều chỉnh), nhưng thay vì cho ra kết quả trực tiếp như mô hình Hdi quy Tuyến tinh, thì mô hình cho ra logistic của tổng, phương trình (1). B = hạ() = ø(x”0) œ) Logistic — được ký hiệu ø( * ) — là một hàm sigmoid (có đồ thị dạng chữ S) cho đầu ra từ 0 đến 1. Hàm này được mô tả trong phương trình (2) và Hình 2.

a(t) = 52) 1+ exp(-— Page | 20 Hình 2. Ý tưởng này được thé hiện trong hàm chỉ phí ở phương trình (4) cho mỗi mẫu dữ liệu huấn luyện x. _{ log(@)nếuy = 1 c(8) = L log(1 — ộ) nếu y = 0 (4) Ham chi phí này hợp lý vì Slog(t) sẽ rất lớn khi t tiệm cận 0 nên chỉ phí sẽ rất lớn nếu mô hình ước lượng xác suất mẫu dương gần với 0. Tương tự, chỉ phí cũng sẽ rất lớn nếu mô hình ước lượng xác suất mẫu âm gan với 1.

Mặt khác, -log(t) gần với 0 khi t gần với 1 nên chỉ phí sẽ gần bằng 0 nếu xác suất ướng lượng gần với 0 cho mẫu thuộc lớp âm hoặc gan với 1 cho mẫu thuộc lớp dương. Hàm chỉ phí trên toàn tập dữ liệu huấn luyện là trung bình chỉ phí trên toàn bộ các mẫu huấn luyện. Nó có thé được biễu diễn bằng một biểu thức đơn giản gọi là logarit mắt mát, được trình bày phương trình (5).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Luận Văn Thạc Sĩ Ngành Hệ Thống Thông Tin - Phạm Thanh Bình" cung cấp cái nhìn sâu sắc về các khía cạnh quan trọng trong lĩnh vực hệ thống thông tin. Luận văn không chỉ trình bày các lý thuyết cơ bản mà còn phân tích các ứng dụng thực tiễn, giúp người đọc hiểu rõ hơn về cách thức hoạt động và quản lý hệ thống thông tin hiện đại. Đặc biệt, tài liệu này còn nêu bật những thách thức và cơ hội trong ngành, từ đó mang lại lợi ích cho những ai đang tìm kiếm kiến thức chuyên sâu hoặc muốn phát triển sự nghiệp trong lĩnh vực này.

Để mở rộng thêm kiến thức, bạn có thể tham khảo các tài liệu liên quan như Thuật toán động để lựa chọn tác vụ trong hệ thống iots, nơi bạn sẽ tìm thấy các phương pháp tối ưu hóa trong hệ thống IoT. Ngoài ra, tài liệu Luận văn giải pháp sinh báo cáo tài chính động sử dụng công nghệ oracle bi publisher sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ thông tin trong báo cáo tài chính. Cuối cùng, Báo cáo thực hành thiết kế kho và phân tích dữ liệu kinh doanh sẽ cung cấp cho bạn những kiến thức cần thiết về phân tích dữ liệu trong kinh doanh. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá sâu hơn về các chủ đề liên quan đến hệ thống thông tin.

#công nghệ thông tin

#quản lý dữ liệu

#nghiên cứu hệ thống thông tin

#phát triển phần mềm

#ngành Hệ thống thông tin

#Đề tài luận văn thạc sĩ

Chủ đề

Quản lý và phân tích dữ liệu

Xu hướng công nghệ thông tin hiện nay

Nghiên cứu trong ngành hệ thống thông tin

Phát triển và ứng dụng phần mềm