Tổng quan nghiên cứu

Hoạt động tín dụng là một trong những hoạt động kinh doanh chủ lực của các ngân hàng thương mại (NHTM), tuy nhiên luôn tiềm ẩn rủi ro tín dụng, đặc biệt là rủi ro khách hàng không thực hiện nghĩa vụ trả nợ. Tại Việt Nam, tỷ lệ nợ xấu trong tín dụng tiêu dùng toàn hệ thống đã tăng lên gần 3,7% tổng dư nợ, trong khi giai đoạn 2018-2022 chỉ dao động quanh mức 2%. Đáng chú ý, tỷ lệ nợ xấu của các công ty tài chính có thể vượt 15%, gây khó khăn và thua lỗ do trích lập dự phòng rủi ro tăng cao. Trước thực trạng này, việc xây dựng hệ thống chấm điểm tín dụng khách hàng cá nhân trở nên cấp thiết nhằm đánh giá chính xác khả năng trả nợ, giảm thiểu rủi ro và nâng cao hiệu quả hoạt động tín dụng.

Luận văn tập trung nghiên cứu ứng dụng mô hình học máy cực trị tiến hóa trong chấm điểm tín dụng khách hàng cá nhân tại Việt Nam, sử dụng dữ liệu thay thế từ tờ khai thuế thu nhập cá nhân và hành vi sử dụng dịch vụ viễn thông. Mục tiêu cụ thể là phát triển mô hình có khả năng phân loại chính xác khách hàng tốt/xấu, tối ưu hóa bộ trọng số đầu vào và hệ số chặn bằng thuật toán bầy dơi để nâng cao hiệu năng và tính ổn định của mô hình. Nghiên cứu được thực hiện trên bộ dữ liệu thu thập từ 10/2018 đến 10/2019, với hơn 72.000 khách hàng được gán nhãn phân loại, trong đó 25,7% là khách hàng xấu. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các tổ chức tín dụng tại Việt Nam nâng cao hiệu quả quản trị rủi ro tín dụng, đồng thời mở rộng khả năng tiếp cận tín dụng cho khách hàng cá nhân.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy phổ biến trong chấm điểm tín dụng, bao gồm:

  • Mô hình học máy cực trị (Extreme Learning Machine - ELM): Là mạng nơ-ron một lớp ẩn với trọng số đầu vào và hệ số chặn được khởi tạo ngẫu nhiên, sau đó tính toán trực tiếp trọng số đầu ra bằng nghiệm bình phương tối thiểu. Ưu điểm là tốc độ học nhanh và khả năng khái quát hóa tốt hơn các phương pháp truyền thống dựa trên đạo hàm.

  • Thuật toán bầy dơi (Bat Algorithm): Thuật toán tối ưu bầy đàn được sử dụng để tối ưu hóa bộ trọng số đầu vào và hệ số chặn của mô hình ELM, giúp cải thiện hiệu năng và tính ổn định của mô hình.

  • Các thuật toán so sánh: Logistic Regression, Cây quyết định, Rừng ngẫu nhiên, Mạng nơ-ron nhân tạo (ANN), Gradient Boosting. Đây là các mô hình phân loại phổ biến trong lĩnh vực chấm điểm tín dụng, được sử dụng để so sánh hiệu quả với mô hình đề xuất.

Các khái niệm chính bao gồm: điểm tín dụng hồ sơ (A-score), điểm tín dụng hành vi (B-score), độ chính xác, độ nhạy, độ đặc hiệu, chỉ số G, và AUC (Area Under Curve) của đường cong ROC.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu được thu thập từ Công ty cổ phần truyền thông VMG, bao gồm:

  • Dữ liệu tờ khai thuế thu nhập cá nhân: thông tin nghề nghiệp, thu nhập, công ty làm việc, xác định bằng số chứng minh nhân dân.
  • Dữ liệu viễn thông: thông tin nhân khẩu, hành vi sử dụng dịch vụ viễn thông, xác định bằng số điện thoại.
  • Dữ liệu nhóm nợ tín dụng: phân loại khách hàng tốt/xấu dựa trên nhóm nợ theo quy định của Ngân hàng Nhà nước.

Quy trình nghiên cứu gồm các bước:

  1. Hợp nhất dữ liệu qua các định danh (CMND, số điện thoại).
  2. Tiền xử lý dữ liệu: xử lý giá trị thiếu, ngoại lai, chuẩn hóa tiêu chí định lượng, chuyển đổi tiêu chí định tính sang dạng số bằng trọng số bằng chứng.
  3. Chia bộ dữ liệu thành tập huấn luyện và kiểm định.
  4. Xây dựng mô hình học máy cực trị tiến hóa (EELM) với thuật toán bầy dơi để tối ưu trọng số đầu vào và hệ số chặn.
  5. So sánh hiệu năng mô hình với các thuật toán phân loại phổ biến dựa trên các tiêu chí: độ chính xác, độ nhạy, độ đặc hiệu, chỉ số G, AUC và tốc độ huấn luyện.
  6. Thời gian nghiên cứu kéo dài trong khoảng 1 năm, từ thu thập dữ liệu đến hoàn thiện mô hình và phân tích kết quả.

Cỡ mẫu nghiên cứu là 72.841 khách hàng có nhãn phân loại, trong đó 25,7% là khách hàng xấu, đảm bảo tính đại diện và độ tin cậy cho kết quả phân tích.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu năng mô hình học máy cực trị tiến hóa (EELM) vượt trội: Mô hình EELM đạt độ chính xác trung bình khoảng 85%, cao hơn 5-7% so với mô hình học máy cực trị truyền thống (ELM) và các mô hình mạng nơ-ron nhân tạo (ANN). Chỉ số AUC của EELM đạt khoảng 0.89, thể hiện khả năng phân biệt tốt giữa khách hàng tốt và xấu.

  2. Tối ưu trọng số đầu vào và hệ số chặn bằng thuật toán bầy dơi giúp ổn định mô hình: Việc sử dụng thuật toán bầy dơi giảm thiểu sự biến động hiệu năng do khởi tạo ngẫu nhiên, tăng độ nhạy lên 82% và độ đặc hiệu lên 88%, cải thiện đáng kể so với mô hình không tối ưu.

  3. So sánh với các thuật toán phổ biến: Mô hình EELM cho kết quả tốt hơn so với Logistic Regression (độ chính xác 78%), Rừng ngẫu nhiên (độ chính xác 83%) và Gradient Boosting (độ chính xác 84%). Tốc độ huấn luyện của EELM nhanh hơn đáng kể, trung bình chỉ mất vài giây cho toàn bộ tập dữ liệu, trong khi các mô hình khác mất thời gian từ vài phút đến hàng chục phút.

  4. Ảnh hưởng của hàm kích hoạt: Hàm ReLU được xác định là hàm kích hoạt phù hợp nhất với bộ dữ liệu nghiên cứu, giúp mô hình đạt hiệu năng cao nhất so với các hàm sigmoid, tanh hay hàm ngưỡng.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình EELM đạt hiệu quả cao là do khả năng học nhanh và khái quát hóa tốt của học máy cực trị, kết hợp với thuật toán bầy dơi tối ưu hóa trọng số đầu vào và hệ số chặn, giúp tránh được nhược điểm khởi tạo ngẫu nhiên gây ra hiệu năng không ổn định. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực khoa học dữ liệu và tài chính, cho thấy mô hình học máy cực trị tiến hóa là một giải pháp tiềm năng cho bài toán chấm điểm tín dụng.

So với các mô hình truyền thống như hồi quy logistic hay rừng ngẫu nhiên, mô hình đề xuất không chỉ nâng cao độ chính xác mà còn giảm thiểu thời gian huấn luyện, phù hợp với yêu cầu xử lý dữ liệu lớn và thời gian thực trong các tổ chức tín dụng. Việc lựa chọn hàm kích hoạt ReLU cũng góp phần tăng hiệu quả mô hình nhờ khả năng xử lý phi tuyến tốt và tránh hiện tượng bão hòa gradient.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác, AUC giữa các mô hình, biểu đồ nhiệt hệ số tương quan Pearson giữa các tiêu chí dự báo, và biểu đồ thời gian huấn luyện để minh họa rõ ràng sự vượt trội của mô hình EELM.

Đề xuất và khuyến nghị

  1. Áp dụng mô hình học máy cực trị tiến hóa trong hệ thống chấm điểm tín dụng: Các ngân hàng và tổ chức tín dụng nên triển khai mô hình EELM để nâng cao độ chính xác và tốc độ xử lý hồ sơ tín dụng, giảm thiểu rủi ro nợ xấu trong vòng 6-12 tháng tới.

  2. Tối ưu hóa dữ liệu đầu vào và mở rộng nguồn dữ liệu thay thế: Khuyến khích thu thập và tích hợp thêm các nguồn dữ liệu thay thế như hành vi viễn thông, dữ liệu thuế để cải thiện chất lượng dự báo, thực hiện trong vòng 1 năm với sự phối hợp giữa phòng công nghệ thông tin và phòng quản lý rủi ro.

  3. Đào tạo nhân sự và nâng cao năng lực phân tích dữ liệu: Tổ chức các khóa đào tạo về học máy và khai phá dữ liệu cho đội ngũ phân tích tín dụng nhằm tận dụng tối đa lợi ích của mô hình mới, triển khai liên tục trong 6 tháng đầu năm.

  4. Xây dựng hệ thống giám sát và đánh giá mô hình định kỳ: Thiết lập quy trình giám sát hiệu năng mô hình chấm điểm tín dụng hàng quý để kịp thời điều chỉnh, cập nhật mô hình phù hợp với biến động thị trường và dữ liệu mới.

Đối tượng nên tham khảo luận văn

  1. Các ngân hàng thương mại và tổ chức tín dụng: Giúp cải thiện hệ thống quản trị rủi ro tín dụng, nâng cao hiệu quả phê duyệt hồ sơ vay và giảm thiểu tỷ lệ nợ xấu.

  2. Chuyên gia và nhà nghiên cứu khoa học dữ liệu: Cung cấp phương pháp ứng dụng học máy cực trị tiến hóa trong lĩnh vực tài chính, mở rộng nghiên cứu về mô hình phân loại và tối ưu thuật toán.

  3. Cơ quan quản lý nhà nước và ngân hàng trung ương: Hỗ trợ xây dựng chính sách quản lý rủi ro tín dụng dựa trên các mô hình khoa học, nâng cao chất lượng giám sát thị trường tín dụng.

  4. Các công ty công nghệ tài chính (Fintech): Áp dụng mô hình để phát triển các sản phẩm tín dụng tiêu dùng thông minh, tăng cường khả năng đánh giá rủi ro khách hàng cá nhân.

Câu hỏi thường gặp

1. Mô hình học máy cực trị tiến hóa khác gì so với mạng nơ-ron truyền thống?
Mô hình học máy cực trị tiến hóa sử dụng trọng số đầu vào và hệ số chặn được khởi tạo ngẫu nhiên, sau đó tính toán trực tiếp trọng số đầu ra bằng nghiệm bình phương tối thiểu, giúp tốc độ học nhanh hơn và tránh các vấn đề về cực tiểu địa phương thường gặp trong mạng nơ-ron truyền thống.

2. Tại sao cần sử dụng thuật toán bầy dơi để tối ưu mô hình?
Thuật toán bầy dơi giúp tìm bộ trọng số đầu vào và hệ số chặn tối ưu, khắc phục nhược điểm khởi tạo ngẫu nhiên gây ra hiệu năng không ổn định, từ đó nâng cao độ chính xác và tính ổn định của mô hình.

3. Dữ liệu thay thế như thuế thu nhập cá nhân và viễn thông có vai trò gì trong chấm điểm tín dụng?
Dữ liệu thay thế cung cấp thông tin bổ sung về hành vi và khả năng tài chính của khách hàng, giúp mô hình dự báo chính xác hơn khả năng trả nợ, đặc biệt khi dữ liệu tín dụng truyền thống không đầy đủ hoặc thiếu minh bạch.

4. Mô hình có thể áp dụng cho các phân khúc khách hàng khác ngoài tín chấp dưới 100 triệu không?
Mô hình có thể được điều chỉnh và huấn luyện lại với dữ liệu phù hợp cho các phân khúc khác, tuy nhiên cần đánh giá lại hiệu năng và điều chỉnh tham số để đảm bảo độ chính xác.

5. Làm thế nào để đánh giá hiệu quả mô hình chấm điểm tín dụng?
Hiệu quả được đánh giá qua các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu, chỉ số G và AUC của đường cong ROC, đồng thời xem xét tốc độ huấn luyện và tính ổn định của mô hình trên các tập dữ liệu kiểm định.

Kết luận

  • Mô hình học máy cực trị tiến hóa kết hợp thuật toán bầy dơi cho hiệu năng phân loại khách hàng tín dụng cá nhân vượt trội, với độ chính xác khoảng 85% và AUC đạt 0.89.
  • Thuật toán bầy dơi giúp tối ưu trọng số đầu vào và hệ số chặn, nâng cao tính ổn định và độ nhạy của mô hình.
  • So với các mô hình truyền thống như Logistic Regression, Rừng ngẫu nhiên và Gradient Boosting, mô hình đề xuất có tốc độ huấn luyện nhanh hơn và hiệu quả dự báo tốt hơn.
  • Việc sử dụng dữ liệu thay thế từ thuế thu nhập cá nhân và viễn thông góp phần nâng cao chất lượng dự báo rủi ro tín dụng.
  • Đề xuất triển khai mô hình trong các tổ chức tín dụng Việt Nam trong vòng 6-12 tháng tới, đồng thời xây dựng hệ thống giám sát và đào tạo nhân sự để tận dụng tối đa lợi ích mô hình.

Luận văn hy vọng sẽ là cơ sở khoa học và thực tiễn để các tổ chức tín dụng nâng cao hiệu quả quản trị rủi ro, đồng thời mở rộng khả năng tiếp cận tín dụng cho khách hàng cá nhân tại Việt Nam. Độc giả và các tổ chức quan tâm được khuyến khích áp dụng và phát triển tiếp mô hình trong các nghiên cứu và ứng dụng thực tế.