Tổng quan nghiên cứu
Trong bối cảnh giáo dục nghề nghiệp tại Việt Nam, tỷ lệ học sinh - sinh viên (HSSV) không có khả năng tốt nghiệp hoặc bị buộc thôi học đang có xu hướng gia tăng, với tỷ lệ bỏ học tại một số trường nghề lên đến 40%. Điều này gây ra lãng phí lớn về thời gian, công sức và tài chính cho xã hội. Đặc biệt, nhiều học sinh bỏ học ngay từ những học kỳ đầu hoặc khi chỉ còn vài tháng là tốt nghiệp, làm giảm hiệu quả đào tạo và ảnh hưởng đến phát triển bền vững của các cơ sở giáo dục nghề nghiệp. Nghiên cứu này tập trung khai phá dữ liệu giáo dục nhằm dự đoán những học sinh không có khả năng tốt nghiệp tại một trường cao đẳng ở Bình Dương, với mục tiêu phát hiện sớm các học sinh có nguy cơ, từ đó nhà trường và giáo viên có thể can thiệp kịp thời, nâng cao chất lượng giáo dục và giảm thiểu tình trạng thôi học.
Phạm vi nghiên cứu bao gồm 660 mẫu dữ liệu của học sinh ngành Kế toán doanh nghiệp hệ trung cấp chuyên nghiệp (TCCN) tại trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương, thu thập trong các khóa T16 đến T21. Nghiên cứu áp dụng các kỹ thuật khai phá dữ liệu và học máy hiện đại như AdaBoost, XGBoost, Logistic Regression, SVM, Naive Bayes, cùng các phương pháp xử lý dữ liệu mất cân bằng (SMOTE) và giảm chiều dữ liệu (PCA). Kết quả dự kiến cung cấp thông tin dự báo chính xác về khả năng tốt nghiệp, hỗ trợ học sinh điều chỉnh kế hoạch học tập và giúp nhà quản lý giáo dục xây dựng chính sách phù hợp nhằm nâng cao tỷ lệ tốt nghiệp.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình khai phá dữ liệu giáo dục (Educational Data Mining - EDM), tập trung vào việc trích xuất tri thức từ dữ liệu học tập để dự đoán kết quả học tập và khả năng tốt nghiệp của học sinh. Các khái niệm chính bao gồm:
- Khai phá dữ liệu trong giáo dục (EDM): Quá trình sử dụng các kỹ thuật học máy, thống kê để phân tích dữ liệu giáo dục nhằm phát hiện các mẫu, quy luật và dự đoán kết quả học tập.
- Phân lớp (Classification): Phân loại học sinh thành các nhóm có khả năng tốt nghiệp hoặc không dựa trên các đặc trưng đầu vào.
- Xử lý dữ liệu mất cân bằng: Sử dụng kỹ thuật SMOTE để tạo thêm mẫu dữ liệu cho lớp thiểu số, giúp cân bằng dữ liệu và cải thiện hiệu suất mô hình.
- Giảm chiều dữ liệu (PCA): Phân tích thành phần chính để giảm số lượng biến đầu vào, giảm thiểu hiện tượng đa cộng tuyến và overfitting.
- Các thuật toán học máy: Bao gồm AdaBoost, XGBoost (thuật toán học kết hợp nâng cao), Logistic Regression, Support Vector Machine (SVM), và Naive Bayes, mỗi thuật toán có ưu nhược điểm riêng trong việc xử lý dữ liệu và dự đoán.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu thứ cấp gồm 660 mẫu học sinh ngành Kế toán doanh nghiệp hệ TCCN tại trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương, thu thập từ hồ sơ nhập học và điểm số các môn học năm nhất. Dữ liệu bao gồm 26 thuộc tính như giới tính, tuổi, điểm trung bình học kỳ, số tín chỉ nợ môn, nơi ở, và trạng thái tốt nghiệp.
Phương pháp nghiên cứu gồm các bước:
- Tiền xử lý dữ liệu: Loại bỏ dữ liệu trùng lặp, xử lý ngoại lệ bằng phương pháp IQR, chuẩn hóa dữ liệu bằng kỹ thuật Robust Scaling để giảm ảnh hưởng của outliers.
- Xử lý mất cân bằng: Áp dụng kỹ thuật SMOTE để sinh thêm mẫu cho lớp học sinh không tốt nghiệp (chiếm khoảng 30.9% dữ liệu).
- Giảm chiều dữ liệu: Sử dụng PCA để giảm từ 26 biến xuống còn 14 thành phần chính, giữ lại trên 90% phương sai dữ liệu.
- Phân chia dữ liệu: Bộ dữ liệu được chia thành tập huấn luyện (448 mẫu), tập kiểm thử (112 mẫu) và tập kiểm tra (100 mẫu).
- Xây dựng và đánh giá mô hình: Áp dụng các thuật toán AdaBoost, XGBoost, Logistic Regression, SVM, Naive Bayes trên dữ liệu đã xử lý. Đánh giá hiệu suất mô hình bằng k-fold cross-validation (k=5), ma trận nhầm lẫn, các chỉ số Accuracy, Recall, Precision, F2-Score, với trọng số ưu tiên Recall nhằm phát hiện chính xác học sinh có nguy cơ không tốt nghiệp.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Tỷ lệ học sinh không tốt nghiệp chiếm 30.9% trong bộ dữ liệu 660 mẫu, cho thấy vấn đề mất cân bằng dữ liệu nghiêm trọng, cần xử lý bằng kỹ thuật SMOTE để cải thiện hiệu quả dự đoán.
- Các biến số tín chỉ nợ môn (N1, N2) có tương quan tiêu cực mạnh với khả năng tốt nghiệp (hệ số tương quan khoảng -0.7), cho thấy học sinh có nhiều tín chỉ nợ có nguy cơ không tốt nghiệp cao hơn.
- Điểm trung bình các môn học như Kế toán doanh nghiệp 2 (KTDN22_4) và Giáo dục quốc phòng (GDQP2_2) có tương quan tích cực cao nhất với kết quả tốt nghiệp (hệ số tương quan 0.73), chứng tỏ điểm số các môn học chuyên ngành và giáo dục quốc phòng là yếu tố quan trọng trong dự đoán.
- Mô hình AdaBoost và XGBoost đạt hiệu suất dự đoán tốt nhất, với độ chính xác trên 85% và F2-Score ưu tiên Recall cao hơn các mô hình khác, cho thấy khả năng phát hiện học sinh có nguy cơ không tốt nghiệp hiệu quả hơn so với Logistic Regression, SVM và Naive Bayes.
Thảo luận kết quả
Kết quả phân tích tương quan và mô hình dự đoán cho thấy số tín chỉ nợ môn là chỉ số quan trọng nhất phản ánh nguy cơ không tốt nghiệp, phù hợp với các nghiên cứu trước đây trong lĩnh vực giáo dục nghề nghiệp. Việc áp dụng kỹ thuật SMOTE giúp cân bằng dữ liệu, giảm thiểu sai số phân loại lớp thiểu số, từ đó nâng cao độ nhạy (Recall) của mô hình.
Mô hình học kết hợp như AdaBoost và XGBoost thể hiện ưu thế vượt trội nhờ khả năng xử lý dữ liệu phức tạp, giảm thiểu overfitting và tận dụng hiệu quả các mẫu dữ liệu khó phân loại. So sánh với các nghiên cứu trong nước và quốc tế, kết quả này đồng nhất với xu hướng sử dụng các thuật toán boosting trong dự đoán kết quả học tập.
Việc giảm chiều dữ liệu bằng PCA giúp giảm thiểu đa cộng tuyến và tăng tính ổn định của mô hình, đồng thời giảm thời gian huấn luyện mà vẫn giữ lại phần lớn thông tin quan trọng. Các biến như tuổi, giới tính và nơi ở có tương quan thấp với kết quả tốt nghiệp, cho thấy yếu tố học tập và tín chỉ nợ môn đóng vai trò quyết định hơn trong dự đoán.
Dữ liệu có sự mất cân bằng giới tính (87% nữ) và độ tuổi chủ yếu 15 tuổi (71%) phản ánh đặc thù ngành học kế toán và hệ TCCN, tuy nhiên không ảnh hưởng lớn đến hiệu quả mô hình dự đoán.
Biểu đồ và bảng ma trận nhầm lẫn minh họa rõ ràng hiệu suất của từng mô hình, trong đó AdaBoost và XGBoost có tỷ lệ True Positive (TP) và Recall cao nhất, giảm thiểu tối đa số học sinh có nguy cơ không tốt nghiệp bị bỏ sót.
Đề xuất và khuyến nghị
- Triển khai hệ thống dự báo sớm học sinh có nguy cơ không tốt nghiệp dựa trên mô hình AdaBoost hoặc XGBoost, nhằm hỗ trợ giáo viên và nhà trường can thiệp kịp thời. Thời gian thực hiện: trong vòng 6 tháng, chủ thể: phòng đào tạo và bộ phận CNTT trường cao đẳng.
- Tăng cường tư vấn học tập và hỗ trợ học sinh có số tín chỉ nợ môn cao, tập trung vào các môn chuyên ngành có ảnh hưởng lớn như Kế toán doanh nghiệp và Giáo dục quốc phòng. Thời gian: liên tục trong năm học, chủ thể: giáo viên chủ nhiệm và cố vấn học tập.
- Đào tạo nâng cao năng lực sử dụng công cụ khai phá dữ liệu và học máy cho cán bộ quản lý giáo dục, giúp họ hiểu và vận dụng hiệu quả các mô hình dự báo trong quản lý học sinh. Thời gian: 3 tháng, chủ thể: ban giám hiệu và phòng đào tạo.
- Xây dựng chính sách khuyến khích học sinh tham gia các lớp học văn hóa bổ sung và các hoạt động hỗ trợ học tập, nhằm nâng cao điểm trung bình và giảm số tín chỉ nợ. Thời gian: triển khai ngay từ đầu khóa học, chủ thể: nhà trường và các tổ chức đoàn thể.
- Tiếp tục thu thập và cập nhật dữ liệu học sinh để cải tiến mô hình dự báo, đảm bảo mô hình luôn phù hợp với thực tế và nâng cao độ chính xác. Thời gian: hàng năm, chủ thể: phòng đào tạo và bộ phận CNTT.
Đối tượng nên tham khảo luận văn
- Nhà quản lý giáo dục nghề nghiệp: Sử dụng kết quả nghiên cứu để xây dựng chính sách đào tạo, giảm tỷ lệ thôi học và nâng cao chất lượng tốt nghiệp.
- Giáo viên và cố vấn học tập: Áp dụng mô hình dự báo để phát hiện sớm học sinh có nguy cơ, từ đó có biện pháp hỗ trợ phù hợp.
- Chuyên gia phân tích dữ liệu và phát triển phần mềm giáo dục: Tham khảo phương pháp khai phá dữ liệu, xử lý mất cân bằng và giảm chiều dữ liệu để phát triển các công cụ hỗ trợ giáo dục thông minh.
- Học viên, sinh viên ngành Hệ thống thông tin và Khoa học dữ liệu: Nghiên cứu mô hình học máy ứng dụng thực tế trong lĩnh vực giáo dục, nâng cao kiến thức và kỹ năng chuyên môn.
Câu hỏi thường gặp
Tại sao phải sử dụng kỹ thuật SMOTE trong nghiên cứu này?
Dữ liệu có sự mất cân bằng nghiêm trọng giữa học sinh tốt nghiệp (69.1%) và không tốt nghiệp (30.9%). SMOTE giúp tạo thêm mẫu cho lớp thiểu số, cải thiện khả năng học của mô hình và tăng độ nhạy trong phát hiện học sinh có nguy cơ không tốt nghiệp.Mô hình nào cho kết quả dự đoán tốt nhất?
Mô hình AdaBoost và XGBoost đạt độ chính xác trên 85% và F2-Score cao, ưu tiên Recall, giúp phát hiện chính xác học sinh có nguy cơ không tốt nghiệp hơn các mô hình Logistic Regression, SVM và Naive Bayes.Tại sao phải giảm chiều dữ liệu bằng PCA?
PCA giúp giảm số lượng biến đầu vào từ 26 xuống 14 thành phần chính, giảm đa cộng tuyến và nguy cơ overfitting, đồng thời giữ lại trên 90% thông tin dữ liệu, giúp mô hình học máy hoạt động hiệu quả hơn.Các yếu tố nào ảnh hưởng nhiều nhất đến khả năng tốt nghiệp?
Số tín chỉ nợ môn (N1, N2) có tương quan tiêu cực mạnh với khả năng tốt nghiệp, trong khi điểm các môn chuyên ngành như Kế toán doanh nghiệp 2 và Giáo dục quốc phòng có tương quan tích cực cao nhất.Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế?
Nhà trường có thể triển khai hệ thống dự báo dựa trên mô hình AdaBoost hoặc XGBoost để phát hiện sớm học sinh có nguy cơ, từ đó tổ chức tư vấn, hỗ trợ học tập và xây dựng chính sách phù hợp nhằm nâng cao tỷ lệ tốt nghiệp.
Kết luận
- Nghiên cứu đã phân tích 660 mẫu dữ liệu học sinh ngành Kế toán doanh nghiệp hệ TCCN tại Bình Dương, phát hiện tỷ lệ học sinh không tốt nghiệp chiếm khoảng 30.9%.
- Áp dụng kỹ thuật SMOTE và PCA giúp xử lý dữ liệu mất cân bằng và giảm chiều dữ liệu hiệu quả, nâng cao chất lượng mô hình dự đoán.
- Mô hình AdaBoost và XGBoost cho kết quả dự đoán tốt nhất với độ chính xác trên 85% và ưu tiên Recall, phù hợp cho việc phát hiện học sinh có nguy cơ không tốt nghiệp.
- Kết quả nghiên cứu cung cấp cơ sở khoa học để nhà trường và giáo viên can thiệp kịp thời, nâng cao chất lượng giáo dục và giảm thiểu tình trạng thôi học.
- Hướng phát triển tiếp theo là triển khai hệ thống dự báo tự động, đào tạo cán bộ quản lý và tiếp tục cập nhật dữ liệu để cải tiến mô hình.
Hành động tiếp theo: Các cơ sở giáo dục nghề nghiệp nên áp dụng mô hình dự báo này để nâng cao hiệu quả quản lý học sinh, đồng thời phối hợp với các bên liên quan xây dựng các chương trình hỗ trợ học tập phù hợp nhằm tăng tỷ lệ tốt nghiệp và giảm thiểu lãng phí nguồn lực giáo dục.