Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của kinh tế, tài chính và quản trị, việc ứng dụng các phương pháp phân tích dữ liệu và mô hình hóa ngày càng trở nên phổ biến. Theo báo cáo ngành, việc lựa chọn biến số phù hợp trong mô hình hồi quy và phân loại là một thách thức lớn, ảnh hưởng trực tiếp đến độ chính xác và khả năng dự báo của mô hình. Phương pháp ước lượng Lasso (Least Absolute Shrinkage and Selection Operator) được xem là một giải pháp hiệu quả trong việc chọn biến, giúp xây dựng mô hình thưa, giảm phương sai và cải thiện khả năng dự báo. Nghiên cứu tập trung vào việc xây dựng khung lý thuyết toán học cho phương pháp Lasso, đồng thời ứng dụng thực nghiệm trên dữ liệu ngành tài chính - ngân hàng Việt Nam trong giai đoạn 2009-2019. Mục tiêu chính là so sánh hiệu quả của Lasso với các phương pháp truyền thống như OLS trong hồi quy và hồi quy Logistic trong phân loại, đồng thời đề xuất mô hình đánh giá tín dụng SMOTE-Lasso-Logistic nhằm giải quyết vấn đề mất cân bằng dữ liệu và nâng cao hiệu quả phân loại. Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp công cụ phân tích chính xác hơn, giúp các ngân hàng cải thiện quản trị rủi ro và nâng cao hiệu quả hoạt động tín dụng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp Lasso dựa trên cơ sở toán học của hàm lồi và tối ưu lồi, trong đó hàm mục tiêu kết hợp giữa hàm tổn thất và một tham số phạt chuẩn L1 của các hệ số mô hình. Lasso thực hiện chọn biến bằng cách ép một số hệ số về 0, tạo ra mô hình thưa giúp giảm phương sai và tránh quá khớp. Thuật toán giảm chiều (Coordinate Descent) được sử dụng để tìm lời giải tối ưu cho bài toán Lasso. Ngoài ra, nghiên cứu còn áp dụng mô hình hồi quy Logistic và mở rộng thành Lasso-Logistic cho bài toán phân loại nhị phân, trong đó hàm mục tiêu là hàm âm log-likelihood cộng với tham số phạt L1. Các khái niệm chính bao gồm: hàm lồi, chuẩn L1, thuật toán giảm chiều, mô hình hồi quy Logistic, và kỹ thuật tái chọn mẫu SMOTE để xử lý dữ liệu mất cân bằng.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp phân tích tổng hợp tài liệu để xây dựng cơ sở lý thuyết về Lasso, đồng thời áp dụng phương pháp định lượng trên bộ dữ liệu thực tế của 10 ngân hàng thương mại cổ phần Việt Nam giai đoạn 2009-2019 với 110 quan sát cho bài toán hồi quy và bộ dữ liệu tín dụng gồm 11.124 quan sát cho bài toán phân loại. Dữ liệu được chuẩn hóa và phân chia thành tập huấn luyện và tập kiểm tra theo tỷ lệ 80%-20%. Thuật toán giảm chiều kết hợp thủ tục xác thực chéo được sử dụng để chọn tham số phạt tối ưu. Các mô hình được xây dựng và ước lượng trên ngôn ngữ lập trình R. Đối với bài toán phân loại, kỹ thuật SMOTE được áp dụng để cân bằng dữ liệu huấn luyện trước khi thực hiện Lasso-Logistic. Quá trình nghiên cứu kéo dài trong khoảng thời gian từ năm 2020 đến 2021.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Ứng dụng Lasso trong hồi quy: Kết quả ước lượng trên tập kiểm tra cho thấy sai số trung bình bình phương (MSE) của mô hình Lasso thấp hơn so với OLS, với MSE lần lượt là khoảng 2.366 và 2.478, chứng tỏ Lasso cải thiện khả năng dự báo. Các biến ảnh hưởng mạnh nhất đến tỷ suất sinh lợi ROA và ROE gồm tỷ lệ cho vay trên tổng tài sản (LOAN), quy mô ngân hàng (SIZE) và mức tăng trưởng vốn chủ sở hữu (EQU). Biến sở hữu nhà nước (STATE) và đòn bẩy tài chính (FLE) không có ảnh hưởng đáng kể.

  2. Hiệu quả mô hình SMOTE-Lasso-Logistic trong phân loại tín dụng: Trên bộ dữ liệu gồm 11.124 quan sát với tỷ lệ mất cân bằng 12:1 giữa khách hàng tốt và xấu, mô hình SMOTE-Lasso-Logistic đạt giá trị AUC là 0.781 và KS là 0.435, vượt trội hơn so với các mô hình hồi quy Logistic truyền thống và Cây quyết định kết hợp các kỹ thuật tái chọn mẫu khác. Mô hình có khả năng phân loại đúng 83% khách hàng trên tập kiểm tra, trong đó tỷ lệ phát hiện đúng khách hàng xấu đạt 73%.

  3. Các đặc điểm quan trọng trong đánh giá tín dụng: Mô hình SMOTE-Lasso-Logistic chỉ ra các biến có ảnh hưởng mạnh đến xác suất vỡ nợ như loại sản phẩm vay, giới tính, thu nhập, lãi suất vay, thời gian và thời hạn vay, chi nhánh ngân hàng và mục đích vay. Ví dụ, khách hàng nữ có xác suất vỡ nợ thấp hơn nam; lãi suất vay trên 16% làm tăng nguy cơ vỡ nợ; thời hạn vay trên 42 tháng cũng làm tăng rủi ro.

  4. So sánh các kỹ thuật tái chọn mẫu: Kỹ thuật SMOTE cho hiệu quả tốt hơn so với lấy mẫu quá mức ngẫu nhiên (ROS) và lấy mẫu dưới mức ngẫu nhiên (RUS) khi kết hợp với các mô hình phân loại, giúp cải thiện độ chính xác và giảm hiện tượng quá khớp.

Thảo luận kết quả

Nguyên nhân chính của việc Lasso cải thiện hiệu quả dự báo là do khả năng chọn lọc biến tự động, loại bỏ các biến không có ý nghĩa, từ đó giảm phương sai và tránh quá khớp. Kết quả này phù hợp với các nghiên cứu trước trong lĩnh vực kinh tế và tài chính. Mô hình SMOTE-Lasso-Logistic giải quyết hiệu quả vấn đề mất cân bằng dữ liệu, vốn là thách thức lớn trong đánh giá tín dụng, bằng cách tạo ra các mẫu nhân tạo cho nhóm thiểu số, giúp mô hình học tốt hơn đặc điểm của khách hàng xấu. So sánh với các mô hình truyền thống, SMOTE-Lasso-Logistic không chỉ nâng cao độ chính xác phân loại mà còn cung cấp khả năng giải thích rõ ràng về ảnh hưởng của từng biến, điều mà các mô hình học máy phức tạp như SVM hay ANN khó thực hiện. Dữ liệu có thể được trình bày qua biểu đồ đường cong ROC và phân bố mẫu MSE để minh họa sự vượt trội của Lasso và SMOTE-Lasso-Logistic.

Đề xuất và khuyến nghị

  1. Áp dụng rộng rãi phương pháp Lasso trong phân tích tài chính: Các tổ chức tài chính nên tích hợp Lasso vào quy trình phân tích dữ liệu để xây dựng các mô hình hồi quy và phân loại hiệu quả hơn, giảm thiểu sai số dự báo, trong vòng 6-12 tháng tới.

  2. Triển khai mô hình SMOTE-Lasso-Logistic trong đánh giá tín dụng: Ngân hàng và các tổ chức tín dụng cần áp dụng mô hình này để nâng cao khả năng phát hiện khách hàng rủi ro, giảm thiểu tổn thất tín dụng, ưu tiên triển khai trong 1 năm tới với sự phối hợp của bộ phận quản trị rủi ro và công nghệ thông tin.

  3. Đào tạo nhân sự về kỹ thuật tái chọn mẫu và Lasso: Tổ chức các khóa đào tạo chuyên sâu cho đội ngũ phân tích dữ liệu và quản trị rủi ro nhằm nâng cao năng lực ứng dụng các kỹ thuật hiện đại, dự kiến thực hiện trong 6 tháng.

  4. Phát triển hệ thống phần mềm hỗ trợ tự động hóa: Đầu tư phát triển hoặc mua sắm các phần mềm tích hợp thuật toán Lasso và SMOTE để tự động hóa quá trình phân tích và đánh giá tín dụng, giảm thiểu sai sót do con người, kế hoạch thực hiện trong 12-18 tháng.

Đối tượng nên tham khảo luận văn

  1. Chuyên gia phân tích dữ liệu và nhà khoa học dữ liệu: Nghiên cứu cung cấp kiến thức sâu về thuật toán Lasso và ứng dụng thực tiễn, giúp họ nâng cao kỹ năng xây dựng mô hình dự báo và phân loại chính xác.

  2. Nhà quản trị rủi ro tín dụng tại các ngân hàng: Luận văn giúp hiểu rõ các yếu tố ảnh hưởng đến rủi ro tín dụng và cách áp dụng mô hình SMOTE-Lasso-Logistic để cải thiện quy trình đánh giá khách hàng.

  3. Giảng viên và sinh viên ngành kinh tế, tài chính, ngân hàng: Tài liệu là nguồn tham khảo quý giá về phương pháp chọn biến hiện đại và ứng dụng trong lĩnh vực tài chính, hỗ trợ nghiên cứu và giảng dạy.

  4. Nhà phát triển phần mềm và công nghệ tài chính (Fintech): Thông tin về thuật toán và quy trình xây dựng mô hình giúp phát triển các sản phẩm công nghệ hỗ trợ phân tích tín dụng và quản lý rủi ro.

Câu hỏi thường gặp

  1. Phương pháp Lasso khác gì so với OLS truyền thống?
    Lasso bổ sung tham số phạt chuẩn L1 giúp loại bỏ các biến không quan trọng, tạo mô hình thưa, giảm phương sai và tránh quá khớp, trong khi OLS sử dụng tất cả biến mà không chọn lọc.

  2. Tại sao cần xử lý dữ liệu mất cân bằng trong đánh giá tín dụng?
    Dữ liệu mất cân bằng khiến mô hình thiên về nhóm chiếm đa số, làm giảm khả năng phát hiện nhóm thiểu số (khách hàng xấu), dẫn đến rủi ro tín dụng cao.

  3. SMOTE hoạt động như thế nào trong xử lý mất cân bằng?
    SMOTE tạo ra các mẫu nhân tạo cho nhóm thiểu số bằng cách nội suy giữa các điểm dữ liệu gần nhau, giúp cân bằng dữ liệu mà không lặp lại dữ liệu cũ, giảm hiện tượng quá khớp.

  4. Mô hình SMOTE-Lasso-Logistic có ưu điểm gì so với các mô hình khác?
    Mô hình này vừa xử lý tốt dữ liệu mất cân bằng, vừa chọn lọc biến hiệu quả, nâng cao độ chính xác phân loại và cung cấp khả năng giải thích rõ ràng về ảnh hưởng của từng biến.

  5. Làm thế nào để chọn tham số phạt trong Lasso?
    Tham số phạt được chọn thông qua thủ tục xác thực chéo (cross-validation), nhằm tối ưu hóa độ chính xác dự báo trên tập kiểm tra, tránh chọn tham số quá lớn hoặc quá nhỏ.

Kết luận

  • Nghiên cứu đã xây dựng và phổ biến khung lý thuyết toán học vững chắc cho phương pháp ước lượng Lasso trong hồi quy và phân loại.
  • Ứng dụng thực nghiệm trên dữ liệu ngân hàng Việt Nam cho thấy Lasso cải thiện khả năng dự báo so với OLS và hồi quy Logistic truyền thống.
  • Mô hình SMOTE-Lasso-Logistic giải quyết hiệu quả vấn đề mất cân bằng dữ liệu trong đánh giá tín dụng, nâng cao các chỉ số AUC và KS.
  • Các kỹ thuật tái chọn mẫu như SMOTE, ROS và RUS đều cải thiện hiệu quả mô hình, trong đó SMOTE cho kết quả tốt nhất.
  • Đề xuất triển khai rộng rãi phương pháp Lasso và mô hình SMOTE-Lasso-Logistic trong thực tiễn tài chính, đồng thời phát triển hệ thống hỗ trợ tự động hóa và đào tạo nhân sự chuyên môn.

Hành động tiếp theo: Các tổ chức tài chính nên bắt đầu thử nghiệm và áp dụng mô hình SMOTE-Lasso-Logistic trên dữ liệu thực tế, đồng thời phối hợp với các chuyên gia phân tích dữ liệu để tối ưu hóa quy trình đánh giá tín dụng.