Tổng quan nghiên cứu
Theo báo cáo điều tra lao động việc làm năm 2020 của Tổng cục Thống kê, lực lượng lao động thất nghiệp trên cả nước là khoảng 1,2 triệu người, trong đó 30,8% có trình độ cao đẳng, đại học trở lên, tương đương khoảng 369 nghìn người. Một trong những nguyên nhân chính dẫn đến tình trạng này là kết quả học tập của sinh viên không đạt yêu cầu, khiến họ khó khăn khi tiếp cận công việc sau khi tốt nghiệp. Thống kê từ Trung tâm Hỗ trợ đào tạo và Cung ứng nguồn nhân lực – Bộ Giáo dục và Đào tạo cho thấy sinh viên tốt nghiệp loại xuất sắc có tỷ lệ xin được việc làm lên đến 94,5%, trong khi sinh viên loại trung bình chỉ đạt 77,8%. Tỷ lệ sinh viên có việc làm sau khi ra trường trung bình là 68%, còn lại 32% thất nghiệp hoặc làm việc không ổn định, gây khó khăn trong việc trả nợ các khoản vay ngân hàng.
Nhu cầu vay vốn của sinh viên hàng năm chiếm khoảng 10-15% số lượng sinh viên nhập học. Tuy nhiên, việc đánh giá rủi ro khoản vay hiện còn nhiều hạn chế do thiếu thông tin về học lực và khả năng tốt nghiệp của sinh viên. Do đó, mục tiêu nghiên cứu là xây dựng hệ thống đánh giá rủi ro đối với khoản vay của sinh viên dựa trên phương pháp máy học, cụ thể là mô hình Random Forest, nhằm dự báo khả năng tài chính và học lực của sinh viên. Phạm vi nghiên cứu tập trung vào sinh viên ngành Ngân hàng các khóa 33, 34 và 35 tại Trường Đại học Ngân hàng TP HCM trong giai đoạn 2016-2021. Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ nhà trường và ngân hàng đánh giá chính xác rủi ro tín dụng, đồng thời giúp sinh viên khó khăn tiếp cận nguồn hỗ trợ tài chính phù hợp, giảm tỷ lệ bỏ học và nâng cao hiệu quả đào tạo.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Hệ thống thông tin: Là tập hợp các thành phần thu thập, xử lý, lưu trữ và xuất thông tin nhằm đáp ứng yêu cầu quản lý. Hệ thống thông tin cơ bản gồm đầu vào, bộ xử lý, đầu ra và phản hồi, giúp xử lý dữ liệu thô thành thông tin có giá trị.
Rủi ro tín dụng tài chính: Được hiểu là khả năng người vay không hoàn trả được nợ đúng hạn, gây thiệt hại cho bên cho vay. Rủi ro này phụ thuộc vào nhiều yếu tố như thông tin khách hàng không chính xác, nguồn tài chính trả nợ bị ảnh hưởng, và quy trình thẩm định chưa hợp lý.
Phương pháp định lượng trong đánh giá rủi ro: Sử dụng các mô hình toán học và số liệu thống kê để phân tích tần suất và hậu quả của rủi ro dựa trên dữ liệu thực tế, giúp đưa ra các biện pháp phòng ngừa hiệu quả.
Máy học và phân loại rủi ro: Máy học là công nghệ cho phép máy tính học từ dữ liệu để dự đoán và phân loại. Các thuật toán phân loại phổ biến gồm Logistic Regression, Support Vector Machine, Decision Trees và Random Forest. Trong đó, Random Forest là tập hợp nhiều cây quyết định, giúp cải thiện độ chính xác và giảm hiện tượng quá khớp.
Thuật toán Random Forest: Hoạt động bằng cách xây dựng nhiều cây quyết định trên các tập con dữ liệu ngẫu nhiên, sau đó tổng hợp kết quả dự đoán theo đa số phiếu. Thuật toán này có ưu điểm vượt trội về độ chính xác và khả năng xử lý dữ liệu lớn, phức tạp.
Phương pháp nghiên cứu
Nghiên cứu sử dụng phương pháp máy học với mô hình Random Forest để xây dựng hệ thống đánh giá rủi ro khoản vay sinh viên. Quy trình nghiên cứu gồm các bước:
Xác định vấn đề và mục tiêu nghiên cứu: Tập trung vào đánh giá rủi ro tài chính và học lực của sinh viên ngành Ngân hàng tại Trường Đại học Ngân hàng TP HCM.
Thu thập dữ liệu: Dữ liệu gồm 899 mẫu sinh viên, trong đó 566 mẫu khóa 33 và 34 đã được gán nhãn về nợ học phí và điểm trung bình tốt nghiệp, 333 mẫu khóa 35 đang học năm cuối chưa xác định kết quả. Dữ liệu được thu thập từ các phòng ban như Khảo thí, Tài chính kế toán, Ban quản lý Ký túc xá, với các trường thông tin về nhân khẩu học, kết quả học tập, nợ học phí, vay vốn và ở ký túc xá.
Xử lý dữ liệu: Làm sạch, loại bỏ dữ liệu thiếu, chuẩn hóa và phân chia dữ liệu thành tập huấn luyện và kiểm tra.
Thiết kế và triển khai mô hình Random Forest: Sử dụng ngôn ngữ Python để xây dựng hệ thống, áp dụng thuật toán Random Forest trên dữ liệu đã xử lý.
Đánh giá mô hình: Sử dụng ma trận nhầm lẫn (Confusion matrix) và các chỉ số Precision, Recall, F-Measure để đánh giá độ chính xác và hiệu quả của mô hình.
Thử nghiệm và hoàn thiện hệ thống: Xây dựng giao diện web cho người dùng là quản trị viên và sinh viên, cho phép nhập dữ liệu, truy xuất kết quả dự báo và xuất báo cáo dưới dạng file PDF.
Thời gian nghiên cứu tập trung trong năm 2022, với phạm vi dữ liệu và thực nghiệm tại Trường Đại học Ngân hàng TP HCM.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Mô hình Random Forest dự đoán khả năng tài chính của sinh viên: Trên 566 mẫu, mô hình đạt độ chính xác trung bình 97%. Nhóm sinh viên có khả năng tài chính chiếm 97% mẫu và được phân loại chính xác 100%. Tuy nhiên, nhóm không có khả năng tài chính chiếm 3% mẫu (17 sinh viên) bị phân loại nhầm hoàn toàn vào nhóm có khả năng tài chính, do số lượng mẫu quá ít.
Mô hình dự đoán khả năng tốt nghiệp: Độ chính xác trung bình đạt 85%. Nhóm "Pass" có tỷ lệ phân loại đúng 99,5%, nhóm "Low pass" đúng 70,9%, nhóm "High pass" đúng 17,4%, và nhóm "Fail" không có mẫu nào được phân loại đúng do chỉ có 2 mẫu. Ma trận nhầm lẫn cho thấy nhiều sinh viên thuộc nhóm "Low pass" và "High pass" bị phân loại nhầm vào nhóm "Pass".
Hệ thống đánh giá rủi ro: Được xây dựng trên nền tảng Python với giao diện web, cho phép quản trị viên cập nhật dữ liệu qua file CSV và sinh viên truy cập bằng mã số để nhận kết quả dự báo. Kết quả dự báo được lưu dưới dạng file PDF, thuận tiện cho việc sử dụng trong hỗ trợ tài chính và quản lý rủi ro.
Phân loại sinh viên theo nhóm rủi ro: Hệ thống phân chia sinh viên thành 4 nhóm chính dựa trên khả năng tài chính và học lực, giúp nhà trường và ngân hàng có cơ sở để đưa ra các quyết định hỗ trợ hoặc đánh giá rủi ro khoản vay.
Thảo luận kết quả
Kết quả cho thấy mô hình Random Forest có hiệu quả cao trong việc dự đoán khả năng tài chính và học lực của sinh viên, đặc biệt với nhóm chiếm đa số trong dữ liệu. Tuy nhiên, sự thiếu cân bằng dữ liệu với nhóm sinh viên có rủi ro cao (không có khả năng tài chính hoặc học lực yếu) làm giảm khả năng phân loại chính xác các trường hợp này. Điều này phù hợp với các nghiên cứu trước đây về vấn đề phân loại không cân bằng trong máy học.
So với các thuật toán như Decision Tree, mô hình Random Forest đã cải thiện đáng kể độ chính xác và giảm hiện tượng quá khớp nhờ sử dụng nhiều cây quyết định và kỹ thuật lấy mẫu ngẫu nhiên. Kết quả này cũng tương đồng với các nghiên cứu trong lĩnh vực tài chính và giáo dục, cho thấy Random Forest là lựa chọn phù hợp để xây dựng hệ thống đánh giá rủi ro khoản vay sinh viên.
Việc xây dựng hệ thống đánh giá rủi ro dựa trên dữ liệu thực tế của Trường Đại học Ngân hàng TP HCM giúp minh bạch hóa quy trình hỗ trợ tài chính, rút ngắn thời gian xử lý hồ sơ và nâng cao hiệu quả quản lý. Hệ thống cũng cung cấp thông tin quan trọng cho ngân hàng trong việc đánh giá rủi ro tín dụng, góp phần giảm thiểu nợ xấu.
Dữ liệu và kết quả có thể được trình bày qua các biểu đồ ma trận nhầm lẫn, biểu đồ so sánh độ chính xác giữa các nhóm sinh viên, và bảng tổng hợp các chỉ số đánh giá mô hình, giúp người dùng dễ dàng theo dõi và phân tích.
Đề xuất và khuyến nghị
Tăng cường thu thập và cân bằng dữ liệu: Chủ động thu thập thêm dữ liệu về sinh viên có rủi ro tài chính và học lực thấp để cải thiện độ chính xác của mô hình trong việc phân loại các nhóm này. Thời gian thực hiện trong 1-2 năm, do nhà trường phối hợp với các phòng ban liên quan.
Áp dụng kỹ thuật xử lý dữ liệu không cân bằng: Sử dụng các phương pháp như lấy mẫu quá mức (oversampling) hoặc trọng số lớp (class weighting) trong quá trình huấn luyện mô hình để nâng cao khả năng nhận diện nhóm sinh viên có rủi ro cao. Thực hiện song song với việc thu thập dữ liệu mới.
Mở rộng hệ thống đánh giá sang các ngành học khác: Triển khai hệ thống cho các khoa, ngành khác trong trường để tăng phạm vi ứng dụng và hỗ trợ quản lý tài chính sinh viên toàn trường. Kế hoạch thực hiện trong vòng 1 năm sau khi hoàn thiện mô hình hiện tại.
Tích hợp hệ thống với quy trình hỗ trợ tài chính và cố vấn học tập: Kết nối kết quả đánh giá rủi ro với các đơn vị hỗ trợ sinh viên để tư vấn học tập, hỗ trợ tài chính kịp thời, giảm tỷ lệ bỏ học và nâng cao chất lượng đào tạo. Chủ thể thực hiện là phòng Công tác sinh viên và Trung tâm hỗ trợ sinh viên, triển khai ngay trong năm học tiếp theo.
Đào tạo và nâng cao nhận thức cho cán bộ quản lý và sinh viên: Tổ chức các buổi tập huấn về sử dụng hệ thống, ý nghĩa của đánh giá rủi ro và cách thức ứng dụng kết quả để hỗ trợ sinh viên hiệu quả hơn. Thời gian thực hiện định kỳ hàng năm.
Đối tượng nên tham khảo luận văn
Nhà quản lý giáo dục đại học: Giúp hiểu rõ về ứng dụng công nghệ thông tin và máy học trong quản lý sinh viên, đặc biệt trong đánh giá rủi ro tài chính và học lực, từ đó nâng cao hiệu quả quản lý và hỗ trợ sinh viên.
Ngân hàng và tổ chức tín dụng: Cung cấp cơ sở dữ liệu và mô hình dự báo rủi ro khoản vay sinh viên, giúp cải thiện quy trình thẩm định và quản lý rủi ro tín dụng, giảm thiểu nợ xấu.
Giảng viên và cố vấn học tập: Hỗ trợ trong việc nhận diện sinh viên có nguy cơ học tập kém hoặc gặp khó khăn tài chính, từ đó tư vấn và xây dựng kế hoạch học tập phù hợp nhằm nâng cao kết quả học tập.
Sinh viên và các tổ chức hỗ trợ sinh viên: Giúp sinh viên hiểu rõ về các yếu tố ảnh hưởng đến khả năng tài chính và học tập, đồng thời tiếp cận nhanh chóng các nguồn hỗ trợ tài chính và tư vấn học tập phù hợp.
Câu hỏi thường gặp
Hệ thống đánh giá rủi ro dựa trên dữ liệu nào?
Hệ thống sử dụng dữ liệu nhân khẩu học, kết quả học tập, nợ học phí, vay vốn ngân hàng và thông tin ở ký túc xá của sinh viên ngành Ngân hàng tại Trường Đại học Ngân hàng TP HCM. Dữ liệu được thu thập từ các phòng ban chuyên trách và được làm sạch, xử lý kỹ lưỡng trước khi đưa vào mô hình.Tại sao chọn mô hình Random Forest để xây dựng hệ thống?
Random Forest có ưu điểm vượt trội về độ chính xác, khả năng xử lý dữ liệu lớn và phức tạp, đồng thời giảm thiểu hiện tượng quá khớp so với các mô hình cây quyết định đơn lẻ. Mô hình này cũng cho phép đánh giá tầm quan trọng của các biến trong phân loại.Mô hình có thể dự đoán chính xác rủi ro cho tất cả sinh viên không?
Mô hình đạt độ chính xác cao với nhóm sinh viên chiếm đa số trong dữ liệu, nhưng với nhóm sinh viên có rủi ro cao (ít mẫu) thì độ chính xác thấp do dữ liệu không cân bằng. Cần bổ sung dữ liệu và áp dụng kỹ thuật xử lý dữ liệu không cân bằng để cải thiện.Hệ thống có thể áp dụng cho các ngành học khác không?
Có thể mở rộng áp dụng cho các ngành học khác nếu có dữ liệu tương tự về sinh viên. Việc này giúp nhà trường quản lý rủi ro tài chính và học lực toàn diện hơn, đồng thời hỗ trợ sinh viên hiệu quả hơn.Làm thế nào để sinh viên sử dụng hệ thống?
Sinh viên truy cập hệ thống qua giao diện web, nhập mã số sinh viên để nhận kết quả dự báo về khả năng tài chính và học lực. Kết quả được xuất dưới dạng file PDF để sinh viên sử dụng trong các thủ tục hỗ trợ tài chính hoặc tư vấn học tập.
Kết luận
- Luận văn đã xây dựng thành công hệ thống đánh giá rủi ro đối với khoản vay của sinh viên ngành Ngân hàng tại Trường Đại học Ngân hàng TP HCM dựa trên mô hình máy học Random Forest.
- Mô hình đạt độ chính xác trung bình 97% trong dự đoán khả năng tài chính và 85% trong dự đoán khả năng tốt nghiệp, góp phần nâng cao hiệu quả quản lý rủi ro tín dụng và hỗ trợ sinh viên.
- Hệ thống giúp nhà trường và ngân hàng có thêm thông tin chính xác, nhanh chóng để đưa ra quyết định hỗ trợ tài chính và quản lý rủi ro.
- Các hạn chế về dữ liệu không cân bằng được nhận diện rõ, đề xuất các giải pháp cải thiện trong nghiên cứu tiếp theo.
- Đề nghị triển khai mở rộng hệ thống, tích hợp với quy trình hỗ trợ tài chính và cố vấn học tập, đồng thời đào tạo cán bộ và sinh viên để tận dụng tối đa lợi ích của hệ thống.
Hành động tiếp theo: Các đơn vị quản lý giáo dục và ngân hàng nên phối hợp triển khai áp dụng hệ thống, đồng thời tiếp tục thu thập dữ liệu và hoàn thiện mô hình để nâng cao hiệu quả quản lý và hỗ trợ sinh viên.