Luận Văn Thạc Sĩ: Phân Tích Dữ Liệu Để Quản Lý Rủi Ro Trong Giao Dịch Tín Dụng

Luận văn thạc sĩ nghiên cứu vnu uet khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Kỹ thuật phần mềm

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khai phá dữ liệu là gì?

1.2. Lợi ích của Khai phá dữ liệu

1.3. Các bước chính trong khai phá dữ liệu

1.4. Các kỹ thuật khai phá dữ liệu

1.5. Các thuật toán phân lớp

1.5.1. Rừng ngẫu nhiên - Random Forest

1.5.2. Hồi quy logistic - Logistic Regression

1.5.3. Cây quyết định - Decision tree

1.5.4. Phân lớp xác suất - Navie Bayes

1.5.5. Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM)

2. CHƯƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG

2.1. Lý thuyết rủi ro tín dụng

2.2. Khái niệm rủi ro tín dụng

2.3. Những nguyên nhân phát sinh rủi ro tín dụng

2.4. Phân loại nhóm nợ

2.5. Điều kiện vay vốn

2.6. Căn cứ xác định định mức cho vay

2.7. Đối tượng áp dụng

2.8. Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân

2.9. Phát biểu bài toán

2.10. Quy trình phân lớp xây dựng mô hình

2.11. Mô hình phân lớp dự báo rủi ro

2.12. Lựa chọn nghiên cứu thuật toán

2.13. Phân lớp Cây quyết định

2.13.1. Thuật toán cây quyết định

2.13.2. Hoạt động của thuật toán Cây quyết định

2.13.3. Các biện pháp lựa chọn thuộc tính

2.13.4. Thông tin đạt được

2.13.5. Tỷ lệ tăng

2.13.6. Chỉ số Gini

2.14. Phân lớp Naive Bayes

2.14.1. Quy trình phân lớp

2.14.2. Phân lớp Naive Bayes là gì?

2.14.3. Hoạt động của phân lớp Naive Bayes

3. CHƯƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK

3.1. Khảo sát hoạt động tín dụng của hệ thống Vietinbank

3.2. Tổng quan hoạt động tín dụng của Vietinbank

3.3. Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank

3.4. Hệ thống xếp hạng tín dụng

3.5. Công tác dự báo nợ có khả năng chuyển xấu

3.6. Những tồn tại, hạn chế

3.7. Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng

3.8. Mô hình dữ liệu tại Core Vietinbank

3.9. Môi trường

3.10. Thu thập dữ liệu

3.11. Biến đổi dữ liệu, tính toán sinh ra các bảng

3.12. Làm sạch dữ liệu. Giảm bớt dữ liệu. Lựa chọn dữ liệu

3.13. Tìm hiểu dữ liệu. Lựa chọn thuật toán

3.14. Lựa chọn công cụ

3.15. Xây dựng mô hình phân lớp

3.15.1. Lựa chọn dữ liệu & thuộc tính

3.15.2. Mô hình Cây quyết định J48

3.15.3. Xây dựng cây

3.15.4. Tham số thuật toán J48 trên Weka

3.15.5. Tham số dữ liệu training

3.15.6. Thực nghiệm dữ liệu với J48 trên Weka

3.15.7. Đánh giá các lần chạy thực nghiệm với thuật toán J48

3.15.8. Phân lớp Naive Bayes

3.15.9. Cấu hình tham số thuật toán Naive Bayes

3.15.10. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes

3.15.11. Đánh giá mô hình. So sánh kết quả các lần chạy giữa 2 thuật toán

3.15.12. Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất

3.15.13. Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55%

3.16. Triển khai tích hợp hệ thống Khai phá dữ liệu

4. CHƯƠNG 4: KẾT LUẬN

4.1. Các kết quả đã đạt được

4.2. Mục tiêu tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Phân Tích Dữ Liệu Quản Lý Rủi Ro Tín Dụng

Phân tích dữ liệu quản lý rủi ro tín dụng là một lĩnh vực quan trọng trong ngành ngân hàng. Nó giúp các tổ chức tài chính đánh giá và dự đoán rủi ro liên quan đến các khoản vay. Việc áp dụng các kỹ thuật khai phá dữ liệu cho phép ngân hàng phát hiện các mẫu và xu hướng trong dữ liệu khách hàng, từ đó đưa ra quyết định chính xác hơn trong việc cho vay.

1.1. Khái niệm về Quản Lý Rủi Ro Tín Dụng

Quản lý rủi ro tín dụng liên quan đến việc xác định, đánh giá và giảm thiểu rủi ro từ các khoản vay. Các ngân hàng cần có hệ thống để phân loại và đánh giá rủi ro tín dụng nhằm bảo vệ tài sản của mình.

1.2. Tầm quan trọng của Phân Tích Dữ Liệu trong Ngân Hàng

Phân tích dữ liệu giúp ngân hàng hiểu rõ hơn về hành vi của khách hàng. Điều này không chỉ giúp cải thiện quy trình cho vay mà còn tăng cường khả năng phát hiện gian lận và rủi ro.

II. Những Thách Thức trong Quản Lý Rủi Ro Tín Dụng

Quản lý rủi ro tín dụng đối mặt với nhiều thách thức, bao gồm việc thu thập và xử lý dữ liệu lớn, cũng như việc áp dụng các mô hình phân tích phức tạp. Các ngân hàng cần phải đối mặt với sự thay đổi nhanh chóng trong hành vi của khách hàng và các yếu tố kinh tế.

2.1. Khó khăn trong Việc Thu Thập Dữ Liệu

Việc thu thập dữ liệu từ nhiều nguồn khác nhau có thể gây khó khăn cho ngân hàng. Dữ liệu không đồng nhất và thiếu chính xác có thể dẫn đến quyết định sai lầm trong quản lý rủi ro.

2.2. Sự Phức Tạp của Các Mô Hình Phân Tích

Các mô hình phân tích rủi ro tín dụng thường rất phức tạp và yêu cầu kiến thức chuyên môn cao. Việc lựa chọn mô hình phù hợp và tối ưu hóa nó là một thách thức lớn cho các nhà phân tích.

III. Phương Pháp Phân Tích Dữ Liệu Quản Lý Rủi Ro Tín Dụng

Có nhiều phương pháp phân tích dữ liệu được áp dụng trong quản lý rủi ro tín dụng. Các phương pháp này bao gồm phân lớp, hồi quy và phân tích chuỗi thời gian. Mỗi phương pháp có ưu điểm và nhược điểm riêng, tùy thuộc vào mục tiêu phân tích.

3.1. Kỹ Thuật Phân Lớp trong Quản Lý Rủi Ro

Kỹ thuật phân lớp giúp phân loại khách hàng thành các nhóm rủi ro khác nhau. Điều này cho phép ngân hàng đưa ra quyết định cho vay dựa trên mức độ rủi ro của từng nhóm.

3.2. Hồi Quy và Dự Đoán Rủi Ro Tín Dụng

Hồi quy là một phương pháp mạnh mẽ để dự đoán rủi ro tín dụng. Nó cho phép ngân hàng xác định mối quan hệ giữa các yếu tố khác nhau và mức độ rủi ro của khách hàng.

IV. Ứng Dụng Thực Tiễn của Phân Tích Dữ Liệu trong Ngân Hàng

Phân tích dữ liệu đã được áp dụng rộng rãi trong các ngân hàng để cải thiện quy trình quản lý rủi ro tín dụng. Các ngân hàng sử dụng các mô hình phân tích để dự đoán khả năng trả nợ của khách hàng và phát hiện gian lận.

4.1. Mô Hình Dự Đoán Rủi Ro Tín Dụng

Mô hình dự đoán rủi ro tín dụng giúp ngân hàng xác định khả năng trả nợ của khách hàng. Các mô hình này thường sử dụng dữ liệu lịch sử để đưa ra dự đoán chính xác.

4.2. Tích Hợp Hệ Thống Khai Phá Dữ Liệu

Việc tích hợp hệ thống khai phá dữ liệu vào quy trình quản lý rủi ro tín dụng giúp ngân hàng tối ưu hóa quy trình thẩm định và giảm thiểu rủi ro.

V. Kết Luận và Tương Lai của Phân Tích Dữ Liệu Quản Lý Rủi Ro Tín Dụng

Phân tích dữ liệu quản lý rủi ro tín dụng sẽ tiếp tục phát triển trong tương lai. Các công nghệ mới như trí tuệ nhân tạo và học máy sẽ giúp cải thiện độ chính xác của các mô hình phân tích. Ngân hàng cần phải đầu tư vào công nghệ và đào tạo nhân viên để tận dụng tối đa lợi ích từ phân tích dữ liệu.

5.1. Xu Hướng Tương Lai trong Quản Lý Rủi Ro

Xu hướng sử dụng trí tuệ nhân tạo trong quản lý rủi ro tín dụng sẽ ngày càng gia tăng. Các ngân hàng cần phải chuẩn bị để áp dụng các công nghệ mới này.

5.2. Tầm Quan Trọng của Đào Tạo Nhân Viên

Đào tạo nhân viên về phân tích dữ liệu và các công nghệ mới là rất quan trọng. Điều này giúp ngân hàng nâng cao năng lực cạnh tranh và cải thiện quy trình quản lý rủi ro.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Hoạt động tín dụng trong ngành ngân hàng đóng vai trò trọng yếu trong phát triển kinh tế, tuy nhiên, rủi ro tín dụng luôn là thách thức lớn đối với các tổ chức tài chính. Tại Việt Nam, tổng dư nợ tín dụng của Ngân hàng TMCP Công thương Việt Nam (VietinBank) đã tăng từ khoảng 333 nghìn tỷ đồng năm 2012 lên gần 791 nghìn tỷ đồng năm 2017, tương đương mức tăng 2,3 lần trong vòng 5 năm. Cơ cấu tín dụng cũng chuyển dịch theo hướng bền vững với tỷ trọng cho vay trung và dài hạn tăng dần, đồng thời tỷ lệ nợ xấu được kiểm soát hiệu quả trong giai đoạn này. Tuy nhiên, công tác đánh giá và quản lý rủi ro tín dụng vẫn còn nhiều hạn chế, như phụ thuộc nhiều vào kinh nghiệm chủ quan của cán bộ tín dụng, thiếu các công cụ hỗ trợ phân tích dữ liệu hiện đại và chưa có mô hình dự báo rủi ro chính xác.

Mục tiêu nghiên cứu của luận văn là ứng dụng khai phá dữ liệu (data mining) để xây dựng mô hình phân lớp dự báo rủi ro tín dụng, giúp phân loại các khoản vay mới thành nhóm nợ tốt hoặc nợ xấu, từ đó hỗ trợ ngân hàng trong việc quản lý rủi ro hiệu quả hơn. Phạm vi nghiên cứu tập trung vào nghiệp vụ cho vay tín dụng khách hàng cá nhân tại VietinBank trong giai đoạn 2012-2017. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao chất lượng thẩm định tín dụng, giảm thiểu rủi ro mất vốn và tăng cường hiệu quả hoạt động tín dụng của ngân hàng, đồng thời góp phần phát triển các giải pháp công nghệ thông tin trong lĩnh vực tài chính ngân hàng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình khai phá dữ liệu, đặc biệt tập trung vào kỹ thuật phân lớp (classification) để dự báo rủi ro tín dụng. Khai phá dữ liệu là quá trình phân tích, trích xuất các mẫu và mối quan hệ tiềm ẩn từ kho dữ liệu lớn nhằm hỗ trợ ra quyết định. Các kỹ thuật khai phá dữ liệu được áp dụng bao gồm:

Cây quyết định (Decision Tree): Mô hình phân cấp đệ quy, sử dụng các biện pháp lựa chọn thuộc tính như thông tin đạt được (Information Gain), tỷ lệ tăng (Gain Ratio) và chỉ số Gini để phân chia dữ liệu thành các nhánh, giúp phân loại khách hàng theo mức độ rủi ro tín dụng. Thuật toán J48 (phiên bản của C4.5) được sử dụng phổ biến nhờ tính trực quan và khả năng xử lý dữ liệu rời rạc.
Phân lớp Naive Bayes: Thuật toán phân loại dựa trên định lý Bayes với giả định các thuộc tính đầu vào độc lập có điều kiện. Mặc dù giả định này hiếm khi đúng trong thực tế, Naive Bayes vẫn cho kết quả chính xác và tốc độ xử lý nhanh, phù hợp với dữ liệu có nhiều thuộc tính rời rạc.
Luật kết hợp (Apriori): Kỹ thuật khai phá các luật kết hợp giữa các thuộc tính dữ liệu, giúp phát hiện các mối quan hệ ẩn trong dữ liệu tín dụng, hỗ trợ xây dựng các quy tắc phân loại rủi ro.

Các khái niệm chính trong nghiên cứu bao gồm: rủi ro tín dụng, phân loại nhóm nợ (nợ tốt, nợ xấu), mô hình phân lớp, các chỉ số đánh giá mô hình (độ chính xác, độ hồi tưởng), và các thuật toán khai phá dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ hệ thống Core Banking của VietinBank, bao gồm các bảng dữ liệu về thông tin khách hàng (CIF), hợp đồng vay, giao dịch thanh toán, tài sản đảm bảo và định mức vay. Dữ liệu tập trung vào khách hàng cá nhân với các khoản vay đa dạng như bất động sản, mua ô tô, kinh doanh hộ cá thể và tiêu dùng cá nhân.

Quy trình nghiên cứu gồm các bước:

Thu thập và làm sạch dữ liệu: Loại bỏ các khoản vay không phù hợp (kỳ hạn dưới 1 năm, ưu đãi cán bộ, giao dịch không liên quan), xử lý giá trị thiếu và sai lệch.
Giảm bớt và lựa chọn dữ liệu: Gom nhóm các thuộc tính như tuổi, nghề nghiệp, khu vực cư trú, định mức vay để giảm kích thước dữ liệu mà vẫn giữ nguyên tính đại diện.
Phân tích và tìm hiểu dữ liệu: Thống kê phân bố, kiểm tra các đặc tính dữ liệu, biểu diễn mối quan hệ giữa các thuộc tính với nhóm nợ (tốt/xấu).
Xây dựng mô hình phân lớp: Sử dụng thuật toán cây quyết định J48 và Naive Bayes trên công cụ Weka để huấn luyện và kiểm thử mô hình với cỡ mẫu khoảng vài nghìn bản ghi, chia thành tập huấn luyện và tập kiểm thử theo tỷ lệ phù hợp.
Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác (accuracy), độ hồi tưởng (recall), và so sánh hiệu quả giữa các thuật toán.
Triển khai tích hợp: Kết nối mô hình khai phá dữ liệu vào hệ thống khảo sát tín dụng Survey360 của VietinBank để hỗ trợ đánh giá rủi ro thực tế.

Timeline nghiên cứu kéo dài trong năm 2019, với các giai đoạn thu thập dữ liệu, xây dựng mô hình, đánh giá và triển khai thực nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tăng trưởng dư nợ và cơ cấu tín dụng ổn định: Tổng dư nợ VietinBank tăng từ 333 nghìn tỷ đồng năm 2012 lên 791 nghìn tỷ đồng năm 2017, với tỷ trọng cho vay trung và dài hạn tăng từ 25% lên 34%, cho thấy sự phát triển bền vững của hoạt động tín dụng.
Hiệu quả mô hình phân lớp J48: Thuật toán cây quyết định J48 đạt tỷ lệ phân lớp đúng cao nhất, với độ chính xác trên 85% trong việc phân loại khách hàng vào nhóm nợ tốt hoặc nợ xấu, vượt trội hơn so với Naive Bayes đạt khoảng 55% trên tập huấn luyện.
Các thuộc tính ảnh hưởng lớn đến rủi ro tín dụng: Thu nhập ổn định, nghề nghiệp, khu vực cư trú, định mức được vay và mục đích vay là những yếu tố quan trọng trong mô hình phân lớp, được xác định qua các chỉ số thông tin đạt được và tỷ lệ tăng.
Hạn chế trong công tác quản lý rủi ro hiện tại: VietinBank vẫn phụ thuộc nhiều vào đánh giá chủ quan của cán bộ tín dụng và chưa có hệ thống dự báo rủi ro tự động, dẫn đến tiềm ẩn rủi ro mất vốn và hiệu quả thẩm định chưa cao.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc ứng dụng khai phá dữ liệu trong quản lý rủi ro tín dụng là khả thi và mang lại hiệu quả thực tiễn. Mô hình cây quyết định J48 không chỉ cung cấp độ chính xác cao mà còn dễ hiểu, giúp cán bộ tín dụng có thể giải thích và áp dụng trong quá trình thẩm định. So với các nghiên cứu trong ngành tài chính ngân hàng, kết quả này phù hợp với xu hướng ứng dụng machine learning để nâng cao chất lượng đánh giá tín dụng.

Việc lựa chọn các thuộc tính rời rạc và gom nhóm dữ liệu giúp giảm thiểu độ phức tạp của mô hình, đồng thời vẫn giữ được tính đại diện của dữ liệu. Mô hình cũng hỗ trợ phát hiện các khách hàng có nguy cơ rủi ro cao ngay từ giai đoạn xét duyệt hồ sơ, giúp ngân hàng chủ động trong việc phòng ngừa nợ xấu.

Dữ liệu có thể được trình bày qua biểu đồ Gain (độ lợi thông tin) để minh họa mức độ ảnh hưởng của từng thuộc tính, cũng như bảng so sánh tỷ lệ phân lớp đúng giữa các thuật toán. Ngoài ra, biểu đồ phân bố nhóm nợ theo các đặc tính khách hàng giúp trực quan hóa kết quả phân loại.

Tuy nhiên, mô hình vẫn còn hạn chế do dữ liệu đầu vào chưa bao gồm đầy đủ các yếu tố phi cấu trúc như thái độ khách hàng, biến động kinh tế vĩ mô, và các yếu tố tâm lý. Do đó, nghiên cứu tiếp theo có thể mở rộng phạm vi dữ liệu và áp dụng các thuật toán học sâu để nâng cao độ chính xác dự báo.

Đề xuất và khuyến nghị

Triển khai hệ thống phân lớp rủi ro tự động: Áp dụng mô hình cây quyết định J48 tích hợp vào quy trình thẩm định tín dụng tại VietinBank nhằm nâng cao hiệu quả đánh giá rủi ro, giảm thiểu sai sót do yếu tố con người. Thời gian thực hiện trong 6-12 tháng, do phòng CNTT phối hợp với phòng tín dụng.
Đào tạo cán bộ tín dụng về khai phá dữ liệu và phân tích rủi ro: Tổ chức các khóa đào tạo chuyên sâu về ứng dụng công nghệ khai phá dữ liệu trong quản lý rủi ro tín dụng, giúp nâng cao năng lực và nhận thức của nhân viên. Kế hoạch đào tạo hàng năm, do phòng nhân sự và đào tạo thực hiện.
Mở rộng thu thập và xử lý dữ liệu đa chiều: Bổ sung các nguồn dữ liệu mới như lịch sử giao dịch, hành vi tiêu dùng, thông tin thị trường để cải thiện mô hình dự báo. Thời gian triển khai 12-18 tháng, phối hợp giữa phòng phân tích dữ liệu và các phòng ban liên quan.
Phát triển các sản phẩm tín dụng chuyên biệt dựa trên phân tích rủi ro: Thiết kế các gói vay phù hợp với từng phân khúc khách hàng dựa trên kết quả phân loại rủi ro, nhằm tối ưu hóa lợi nhuận và giảm thiểu rủi ro. Thời gian thực hiện 12 tháng, do phòng sản phẩm và marketing chủ trì.
Xây dựng hệ thống giám sát và cảnh báo sớm rủi ro tín dụng: Tích hợp các chỉ số dự báo rủi ro vào hệ thống quản lý để cảnh báo kịp thời các khoản vay có nguy cơ chuyển thành nợ xấu, giúp ngân hàng chủ động xử lý. Thời gian triển khai 6-9 tháng, do phòng CNTT và kiểm soát rủi ro phối hợp.

Đối tượng nên tham khảo luận văn

Cán bộ tín dụng ngân hàng: Nâng cao kỹ năng đánh giá và dự báo rủi ro tín dụng, áp dụng mô hình phân lớp để ra quyết định cho vay chính xác hơn, giảm thiểu rủi ro mất vốn.
Chuyên gia phân tích dữ liệu và khoa học dữ liệu trong tài chính: Tham khảo quy trình khai phá dữ liệu thực tế, lựa chọn thuật toán phù hợp và cách xử lý dữ liệu trong lĩnh vực tín dụng ngân hàng.
Nhà quản lý ngân hàng và phòng kiểm soát rủi ro: Hiểu rõ các hạn chế trong quản lý rủi ro tín dụng hiện tại và các giải pháp công nghệ hỗ trợ nâng cao hiệu quả quản trị.
Sinh viên và nghiên cứu sinh ngành công nghệ thông tin, tài chính ngân hàng: Học hỏi phương pháp nghiên cứu ứng dụng khai phá dữ liệu trong thực tiễn, từ thu thập dữ liệu đến xây dựng và đánh giá mô hình phân lớp.

Câu hỏi thường gặp

Khai phá dữ liệu là gì và tại sao lại quan trọng trong quản lý rủi ro tín dụng?
Khai phá dữ liệu là quá trình phân tích và trích xuất các mẫu ẩn từ dữ liệu lớn để hỗ trợ ra quyết định. Trong quản lý rủi ro tín dụng, nó giúp phát hiện các dấu hiệu rủi ro tiềm ẩn, dự báo khả năng mất vốn, từ đó nâng cao hiệu quả thẩm định và giảm thiểu nợ xấu.
Tại sao chọn thuật toán cây quyết định và Naive Bayes cho bài toán phân lớp rủi ro tín dụng?
Cây quyết định dễ hiểu, trực quan và phù hợp với dữ liệu rời rạc, cho kết quả chính xác cao. Naive Bayes nhanh, đơn giản và hiệu quả với dữ liệu lớn. Cả hai đều phù hợp với đặc điểm dữ liệu tín dụng có nhiều thuộc tính phân loại.
Dữ liệu đầu vào được chuẩn bị như thế nào để xây dựng mô hình?
Dữ liệu được thu thập từ hệ thống Core Banking, làm sạch bằng cách loại bỏ dữ liệu không hợp lệ, xử lý giá trị thiếu, gom nhóm các thuộc tính để giảm kích thước dữ liệu nhưng vẫn giữ nguyên tính đại diện, đảm bảo chất lượng cho quá trình huấn luyện mô hình.
Mô hình phân lớp dự báo rủi ro tín dụng có thể áp dụng như thế nào trong thực tế?
Mô hình được tích hợp vào hệ thống thẩm định tín dụng để tự động phân loại khách hàng mới vào nhóm nợ tốt hoặc nợ xấu, hỗ trợ cán bộ tín dụng ra quyết định nhanh chóng và chính xác, đồng thời cảnh báo sớm các khoản vay có nguy cơ rủi ro cao.
Những hạn chế và hướng phát triển tiếp theo của nghiên cứu là gì?
Hạn chế hiện tại là dữ liệu chưa bao gồm đầy đủ các yếu tố phi cấu trúc và biến động kinh tế. Hướng phát triển là mở rộng dữ liệu, áp dụng các thuật toán học sâu, kết hợp phân tích đa chiều để nâng cao độ chính xác và khả năng dự báo của mô hình.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình phân lớp dự báo rủi ro tín dụng khách hàng cá nhân tại VietinBank, sử dụng thuật toán cây quyết định J48 và Naive Bayes với độ chính xác trên 85%.
Mô hình giúp phân loại chính xác các khoản vay thành nhóm nợ tốt và nợ xấu, hỗ trợ nâng cao hiệu quả quản lý rủi ro tín dụng.
Kết quả thực nghiệm trên dữ liệu thực tế của VietinBank cho thấy tính khả thi và ứng dụng thực tiễn cao của khai phá dữ liệu trong lĩnh vực tài chính ngân hàng.
Đề xuất triển khai hệ thống phân lớp tự động, đào tạo nhân sự và mở rộng dữ liệu để nâng cao chất lượng dự báo trong tương lai.
Các bước tiếp theo bao gồm tích hợp mô hình vào hệ thống thẩm định tín dụng, giám sát hiệu quả và phát triển các sản phẩm tín dụng chuyên biệt dựa trên phân tích rủi ro.

Quý độc giả và các nhà quản lý ngân hàng được khuyến khích áp dụng các giải pháp khai phá dữ liệu trong quản lý rủi ro tín dụng nhằm nâng cao năng lực cạnh tranh và phát triển bền vững.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2019 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM TRUNG KIÊN KHAI THÁC VÀ PHÂN TÍCH DỮ LIỆU NHẰM QUẢN LÝ RỦI RO TRONG GIAO DỊCH TÍN DỤNG Ngành: Kỹ Thuật Phần Mềm Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 8480103.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. TRẦN TRỌNG HIẾU Hà Nội – 2019 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan rằng những nghiên với đề tài “Khai thác và phân tích dữ liệu nhằm quản lý rủi ro trong giao dịch tín dụng” được trình bày trong luận văn này là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy giáo TS. Trần Trọng Hiếu, không sao chép lại của người khác. Tất cả các nguồn tài liệu tham khảo, các công trình nghiên cứu liên quan đều được trích dẫn cụ thể.

Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ phát hiện nào về sự sao chép mà không có trích dẫn trong tài liệu tham khảo. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CÁM ƠN Em xin chân thành cám ơn thầy giáo TS. Trần Trọng Hiếu người đã nhiệt tình hướng dẫn, chỉ bảo trong suốt quá trình hoàn thành luận văn này cũng như cả giai đoạn bắt đầu xây dựng đề cương xác định hướng nghiên cứu của luận văn. Em xin chân thành cám ơn toàn thể quý thầy cô trong Khoa CNTT đã tận tình truyền đạt những kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi nhất cho em trong quá trình học tập nghiên cứu.

Tôi xin chân thành cám ơn ban lãnh đạo, đồng nghiệp tại Trung tâm Công nghệ Thông tin – Ngân hàng Vietinbank đã tạo rất nhiều điều kiện cho tôi trong việc nghiên cứu và thực hiện luận văn. Xin chân thành cảm ơn gia đình, các học viên trong lớp Cao học K22 đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh. Tôi xin cám ơn đề tài cấp Đại học Quốc Gia Hà Nội mã số: QG.23 Hà Nội, ngày tháng năm 2019 Tác giả luận văn Phạm Trung Kiên LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC LỜI CAM ĐOAN. ii DANH MỤC CÁC TỪ VIẾT TẮT.

vi DANH MỤC HÌNH VẼ. vii GIỚI THIỆU. 1 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU. Khai phá dữ liệu là gì?.

Lợi ích của Khai phá dữ liệu. Các bước chính trong khai phá dữ liệu. Các kỹ thuật khai phá dữ liệu. Kỹ thuật phân lớp.

Kỹ thuật phân cụm. Kỹ thuật phân tích luật kết hợp. Kỹ thuật bài toán hồi quy. Kỹ thuật dự đoán.

Kỹ thuật phân tích chuỗi. Kỹ thuật phân tích độ lệch. Các thuật toán phân lớp. Rừng ngẫu nhiên - Random Forest.

Hồi quy logistic - Logistic Regression. Cây quyết định - Decision tree. Phân lớp sác xuất - Navie Bayes. Máy véc-tơ hỗ trợ - Supper Vector Machine (SVM).

Stochastic Gradient Descent. Láng giềng gần nhất – (K-Nearest Neighbours). Ứng dụng của khai phá dữ liệu. Đề tài khai phá dữ liệu phân lớp rủi ro tín dụng.

13 CHƢƠNG 2: BÀI TOÁN PHÂN LỚP DỰ BÁO RỦI RO TÍN DỤNG. Lý thuyết rủi ro tín dụng. Khái niệm rủi ro tín dụng. 14 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Những nguyên nhân phát sinh rủi ro tín dụng. Phân loại nhóm nợ. Điều kiện vay vốn. Căn cứ xác định định mức cho vay.

Đối tượng áp dụng. Mô hình lượng hóa rủi ro tín dụng cho khách hàng cá nhân. Phát biểu bài toán. Quy trình phân lớp xây dựng mô hình.

Mô hình phân lớp dự báo rủi ro. Lựa chọn nghiên cứu thuật toán. Phân lớp Cây quyết định. Thuật toán cây quyết định.

Hoạt động của thuật toán Cây quyết định. Các biện pháp lựa chọn thuộc tính. Thông tin đạt được. Tỷ lệ tăng.

chỉ số Gini. Phân lớp Naive Bayes. Quy trình phân lớp. Phân lớp Naive Bayes là gì?.

Hoạt động của phân lớp Naive Bayes. 28 CHƢƠNG 3: THỰC NGHIỆM TRÊN DỮ LIỆU VIETINBANK. Khảo sát hoạt động tín dụng của hệ thống Vietinbank. Tổng quan hoạt động tín dụng của Vietinbank.

Các biện pháp quản trị nợ xấu đã được áp dụng tại VietinBank. Hệ thống xếp hạng tín dụng:. Công tác dự báo nợ có khả năng chuyển xấu:. Những tồn tại, hạn chế.

Mô tả bài toán áp dụng KPDL hỗ trợ quản lý rủi ro tín dụng. Mô hình dữ liệu tại Core Vietinbank. Môi trường. Thu thập dữ liệu.

34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Biến đổi dữ liệu, tính toán sinh ra các bảng. Làm sạch dữ liệu. Giảm bớt dữ liệu.

Lựa chọn dữ liệu. Tìm hiểu dữ liệu. Lựa chọn thuật toán. Lựa chọn công cụ.

Xây dựng mô hình phân lớp. Lựa chọn dữ liệu & thuộc tính. Mô hình Cây quyết định J48. Xây dựng cây.

Tham số thuật toán J48 trên Weka. Tham số dữ liệu training. Thực nghiệm dữ liệu với J48 trên Weka. Đánh giá các lần chạy thực nghiệm với thuật toán J48.

Phân lớp Naive Bayes. Cấu hình tham số thuật toán Naive Bayes. Đánh giá các lần chạy thực nghiệm thuật toán Naive Bayes. Đánh giá mô hình.

So sánh kết quả các lần chạy giữa 2 thuật toán. Đánh giá lần chạy J48 đạt tỷ lệ phân lớp đúng cao nhất. Đánh giá lần chạy Navie đạt tỷ lệ dữ liệu tập huấn 55%. Triển khai tích hợp hệ thống Khai phá dữ liệu.

55 CHƢƠNG 4: KẾT LUẬN. Các kết quả đã đạt được. Mục tiêu tương lai. 57 TÀI LIỆU THAM KHẢO.

59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ VIẾT TẮT NHNN Ngân hàng nhà nước Việt Nam TMCP Thương mại cổ phần VietinBank Ngân hàng TMCP Công thương Việt Nam KPDL Khai phá dữ liệu TSĐB Tài sản đảm bảo RRTD Rủi ro tín dụng HĐTD Hoạt động tín dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC HÌNH VẼ Hình 1.1: Lợi ích của Khai phá dữ liệu .1: Các bước khai phá dữ liệu.2: Các bước chuẩn bị data .1: Phát biểu bài toán .1: Quy trình huấn luyện - training .2: Quy trình test dữ liệu .3: Quy trình áp dụng mô hình .1: Mô hình phân lớp dự báo rủi ro .1: Cây quyết định .2: luồng hoạt động của cây quyết định .3: Quy trình phân lớp .1: Tổng dư nợ VietinBank từ 2013 – 2017 .2: Cơ cấu tín dụng VietinBank theo kỳ hạn từ 2012 - 2017 .3: So sánh chỉ tiêu tín dụng, huy động, lợi nhuận, nợ xấu .4: Biểu đồ kiểm soát nợ xấu giai đoạn 2010 đến 2017 .1: Mô hình datawarehouse của Vietinbank .1: Môi trường thực nghiệm .1: Mô hình thu thập dữ liệu .1: Lựa chọn dữ liệu .1: Biểu diễn dữ liệu .2: Đặt khoảng cho thuộc tính định mức được vay .3: Đặt khoảng cho thuộc tính định mức được vay .4: Đặt khoảng cho thuộc tính Tuổi.5: Chọn công cụ chạy bảng độ lợi thông tin trên Weka.6: Bảng độ lợi thông tin trên Weka .7: Biểu đồ Gain – độ lợi thông tin.8: Hướng dẫn vào màn hình tham số J48 trên Weka .9: Hướng dẫn cấu hình tham số xuất dữ liệu trên Weka. 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.12: Cấu hình tham số thuật toán Naive Bayes .13: Kết quả chạy thuật toán Naive Bayes trên Weka.14: Biểu đồ phân lớp Naïve Bayes .15: Biểu đồ tỷ lệ chính xác Navie Bayes .1: Biểu đồ so sánh tỷ lệ phân lớp đúng J48 & Navie bayes.2: kết quả lần chạy phù hợp nhất J48 .3: kết quả lần chạy phù hợp nhất Navie Bayes .1: Màn hình login 3600 .2: Màn hình giao diện .3: Màn hình kết quả. 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 1 GIỚI THIỆU Hoạt động tín dụng (HĐTD) trong ngành ngân hàng là đặc biệt quan trọng vì vậy việc đánh giá và phân loại rủi ro là nhiệm vụ hàng đầu trong quản trị vận hành. Vì lẽ đó nên hiện nay hầu hết các ngân hàng trên thế giới nói chung và Việt Nam nói riêng đều có những hệ thống hỗ trợ trong việc phân loại & đánh giá rủi ro.

Hiện nay các ngân hàng hầu hết đều sử dụng mô hình chấm điểm tín dụng để hỗ trợ đánh giá rủi ro và xếp hạng tín dụng, để từ đó làm cơ sở có quyết định cho khách hàng vay hay không. Các ngân hàng khác nhau thì cũng có thể khác nhau về cấu trúc & cách vận hành hệ thống xếp hạng tín dụng, ví dụ như: cơ cấu và trọng số của các chỉ tiêu, ước tính mức rủi ro gắn liền với các mức xếp hạng, số lượng các mức xếp hạng, hay các chính sách khách hàng, chính sách tín dụng áp dụng v. [6] Hầu hết các Ngân hàng sử dụng bảng chỉ tiêu (bảng danh sách các thang điểm tín dụng ứng với từng thông tin hồ sơ khách hàng, như: thu nhập, nghề nghiệp, tài sản thế chấp…) dùng để tổng hợp và chấm điểm tín dụng đối với khách hàng, nếu thang điểm là tốt thì khách hàng sẽ được tiếp cận với khoản vay tương ứng Từ thực tế cho thấy, quy trình xét duyệt cho vay gặp phải nhiều vấn đề như:  Chất lượng thẩm định tín dụng phụ thuộc vào trình độ phân tích, cũng như chủ quan đánh giá của cán bộ tín dụng.  Các NHTM sử dụng mô hình này sẽ phải bỏ ra nhiều nguồn lực & thời gian để thẩm định thông tin khách hàng, cũng như đòi hỏi cán bộ tín dụng phải có tính chuyên nghiệp, có thâm niên, kỹ năng  Đặc biệt là mô hình chấm điểm này chưa có khả năng dự báo được rủi ro mà mới chỉ đánh giá được phần nào rủi ro nhờ điểm xếp hạng (dựa trên thông tin hiện có của hệ thống) Tác giả hiện đang công tác ở Ngân hàng TMCP Vietinbank với vị trí công việc là cán bộ IT có trách nhiệm hỗ trợ các module nghiệp vụ trong đó có module Tín dụng.

Từ những hạn chế của mô hình chấm điểm xếp hạng tín dụng hiện tại là phụ thuộc cơ bản vào yếu tố con con người, và với mong muốn đề xuất giải pháp cải tiến trong hoạt động quản lý rủi ro tín dụng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Quản trị rủi ro tài chính

Phân tích dữ liệu tín dụng

Học máy và Khai phá dữ liệu

Khoa học dữ liệu trong ngân hàng