Tổng quan nghiên cứu
Trong bối cảnh cách mạng công nghiệp 4.0 và sự phát triển mạnh mẽ của công nghệ thông tin (CNTT), việc nâng cao chất lượng nguồn nhân lực ngành CNTT tại Việt Nam trở thành một yêu cầu cấp thiết. Mỗi năm, cả nước có khoảng 50.000 sinh viên tốt nghiệp ngành CNTT, tuy nhiên chỉ khoảng 30% trong số đó đáp ứng được yêu cầu của doanh nghiệp. Tình trạng này dẫn đến nhu cầu đào tạo lại kéo dài từ 6 tháng đến 2 năm, gây lãng phí nguồn lực và ảnh hưởng đến hiệu quả phát triển ngành. Trường Đại học Tài chính – Marketing, với khoa CNTT đào tạo từ năm 1992, đang đối mặt với thách thức về tiến độ học tập và chất lượng sinh viên, đặc biệt khi tỷ lệ sinh viên tốt nghiệp đúng hạn trong 5 khóa gần nhất chỉ dao động từ 29,63% đến 57,14%.
Mục tiêu nghiên cứu của luận văn là phân tích dữ liệu học tập của sinh viên ngành CNTT tại trường Đại học Tài chính – Marketing (khóa 2011-2015) để dự báo tiến độ học tập, từ đó hỗ trợ sinh viên và nhà trường trong việc cải thiện kết quả học tập và xây dựng kế hoạch đào tạo phù hợp. Nghiên cứu tập trung ứng dụng các kỹ thuật khai phá dữ liệu và mô hình cây quyết định nhằm phát hiện các yếu tố ảnh hưởng đến tiến độ học tập, đồng thời đề xuất công cụ dự báo hiệu quả. Phạm vi nghiên cứu bao gồm dữ liệu điểm học tập và số tín chỉ tích lũy của sinh viên khoa CNTT trong giai đoạn 2011-2015.
Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp công cụ hỗ trợ giám sát tiến độ học tập, giúp sinh viên lựa chọn môn học phù hợp, đồng thời giúp lãnh đạo khoa và nhà trường có cơ sở để xây dựng chiến lược đào tạo và tuyển sinh hiệu quả, góp phần nâng cao chất lượng nguồn nhân lực CNTT đáp ứng nhu cầu xã hội và doanh nghiệp.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: Khai phá dữ liệu giáo dục (Educational Data Mining - EDM) và mô hình cây quyết định (Decision Tree). EDM là quá trình trích xuất thông tin và mẫu dữ liệu hữu ích từ các cơ sở dữ liệu giáo dục lớn nhằm dự đoán kết quả học tập và hỗ trợ giám sát quá trình học tập của sinh viên. Các khái niệm chính bao gồm:
- Điểm trung bình tích lũy (CGPA): Chỉ số quan trọng phản ánh tiềm năng học tập và kết quả học tập của sinh viên.
- Dữ liệu bất đối xứng (Imbalanced Data): Tình trạng phân bố dữ liệu không đồng đều giữa các lớp, gây khó khăn cho mô hình phân loại.
- Cây quyết định (Decision Tree): Mô hình phân loại dựa trên cấu trúc cây, sử dụng các luật IF-THEN để phân chia dữ liệu thành các nhóm đồng nhất.
- Overfitting và Underfitting: Hiện tượng mô hình học quá chi tiết hoặc quá đơn giản, ảnh hưởng đến khả năng dự đoán chính xác trên dữ liệu mới.
- Kỹ thuật cắt tỉa cây (Pruning): Phương pháp giảm độ phức tạp của cây quyết định nhằm tránh overfitting.
Mô hình cây quyết định được lựa chọn do tính trực quan, dễ hiểu và khả năng xử lý dữ liệu số cũng như dữ liệu phân loại hiệu quả. Thuật toán CART (Classification and Regression Trees) được áp dụng với hệ số Gini Impurity để đánh giá độ thuần khiết của các nút trong cây.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là tập dữ liệu điểm học tập và số tín chỉ tích lũy của sinh viên khoa CNTT trường Đại học Tài chính – Marketing, gồm 551 dòng dữ liệu điểm kết thúc học phần từ khóa 2011 đến khóa 2015. Dữ liệu được thu thập từ phòng Khảo thí và Kiểm định chất lượng, bao gồm các thông tin như mã sinh viên, tên, ngày sinh, lớp, học kỳ, mã học phần, điểm theo hệ số 10, hệ số 4, điểm chữ và trạng thái đạt hay không đạt môn học.
Phương pháp phân tích sử dụng thuật toán cây quyết định để xây dựng mô hình dự báo tiến độ học tập, cụ thể là dự đoán khả năng sinh viên tốt nghiệp đúng hạn. Dữ liệu được tiền xử lý kỹ lưỡng, bao gồm kiểm tra missing values, loại bỏ outliers và chuẩn hóa dữ liệu. Tập dữ liệu được chia thành tập huấn luyện (training dataset) và tập kiểm tra (testing dataset) theo tỷ lệ phù hợp nhằm đảm bảo tính khách quan trong đánh giá mô hình.
Quá trình xây dựng mô hình bao gồm các bước: tiền xử lý dữ liệu, phân tích thống kê mô tả, trực quan hóa dữ liệu, xây dựng cây quyết định sơ bộ, đánh giá và tối ưu mô hình bằng các kỹ thuật cắt tỉa cây (pre-prune và post-prune) sử dụng các tham số như độ cao cây, số lượng mẫu tối thiểu mỗi nút và tham số alpha trong Cost-Complexity Pruning. Ngôn ngữ lập trình Python cùng thư viện scikit-learn được sử dụng để triển khai và đánh giá mô hình.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Tỷ lệ tốt nghiệp đúng hạn thấp: Qua phân tích dữ liệu 5 khóa sinh viên (2011-2015), tỷ lệ sinh viên tốt nghiệp đúng hạn dao động từ 29,63% đến 57,14%, thấp hơn nhiều so với kỳ vọng. Ví dụ, khóa 2014 chỉ có 16 sinh viên tốt nghiệp đúng hạn trên tổng số 54 sinh viên, tương đương 29,63%.
Mô hình cây quyết định dự báo tiến độ học tập hiệu quả: Mô hình cây quyết định sơ bộ đạt độ chính xác khoảng 80% trong việc phân loại sinh viên tốt nghiệp đúng hạn hay không. Sau khi tối ưu bằng kỹ thuật cắt tỉa, độ chính xác mô hình tăng lên khoảng 85%, giảm hiện tượng overfitting và cải thiện khả năng tổng quát hóa.
Các đặc trưng quan trọng ảnh hưởng đến tiến độ học tập: Số tín chỉ tích lũy trong các học kỳ đầu tiên, điểm trung bình học kỳ và số môn học đạt được là những yếu tố có tầm quan trọng cao nhất trong mô hình dự báo. Ví dụ, sinh viên tích lũy đủ tín chỉ trong 2 học kỳ đầu có khả năng tốt nghiệp đúng hạn cao hơn 30% so với nhóm còn lại.
Hiện tượng dữ liệu bất đối xứng tồn tại: Tỷ lệ sinh viên tốt nghiệp đúng hạn thấp tạo ra sự mất cân bằng trong dữ liệu, ảnh hưởng đến hiệu quả của mô hình phân loại. Việc áp dụng kỹ thuật cân bằng dữ liệu và cắt tỉa cây giúp cải thiện độ chính xác dự báo.
Thảo luận kết quả
Kết quả nghiên cứu cho thấy mô hình cây quyết định là công cụ hiệu quả để dự báo tiến độ học tập của sinh viên ngành CNTT tại trường Đại học Tài chính – Marketing. Việc xác định các yếu tố ảnh hưởng giúp nhà trường và sinh viên có thể tập trung cải thiện các khía cạnh quan trọng như tăng cường tích lũy tín chỉ sớm và nâng cao điểm số học kỳ đầu.
So sánh với các nghiên cứu trong nước và quốc tế, độ chính xác mô hình đạt mức tương đương hoặc cao hơn các phương pháp khác như Neural Network hay Naive Bayes, đồng thời mô hình cây quyết định có ưu điểm về tính giải thích và trực quan. Việc xử lý dữ liệu bất đối xứng và áp dụng kỹ thuật cắt tỉa cây là bước tiến quan trọng giúp giảm thiểu hiện tượng overfitting, nâng cao khả năng áp dụng thực tiễn.
Dữ liệu có thể được trình bày qua các biểu đồ phân phối tín chỉ tích lũy, biểu đồ tầm quan trọng các đặc trưng và ma trận nhầm lẫn (confusion matrix) để minh họa hiệu quả mô hình. Những biểu đồ này giúp trực quan hóa mối quan hệ giữa các yếu tố và kết quả học tập, hỗ trợ việc ra quyết định của nhà trường và cố vấn học tập.
Đề xuất và khuyến nghị
Xây dựng hệ thống giám sát tiến độ học tập tự động: Áp dụng mô hình dự báo dựa trên cây quyết định để phát triển công cụ giám sát tiến độ học tập sinh viên theo từng học kỳ, giúp phát hiện sớm các sinh viên có nguy cơ chậm tiến độ. Thời gian triển khai trong 1 năm, chủ thể thực hiện là phòng Công nghệ thông tin và phòng Đào tạo.
Tư vấn và hỗ trợ sinh viên tích lũy tín chỉ hiệu quả: Cố vấn học tập cần sử dụng kết quả dự báo để tư vấn sinh viên lựa chọn môn học phù hợp với năng lực, đặc biệt tập trung vào các học kỳ đầu nhằm tăng tỷ lệ tích lũy tín chỉ đúng kế hoạch. Thời gian thực hiện liên tục trong quá trình học, chủ thể là giảng viên cố vấn học tập.
Tổ chức các chương trình đào tạo kỹ năng học tập và quản lý thời gian: Nhà trường phối hợp với khoa CNTT tổ chức các khóa học kỹ năng mềm, quản lý thời gian và phương pháp học tập hiệu quả nhằm nâng cao động lực và thái độ học tập của sinh viên. Thời gian triển khai trong 6 tháng đầu năm học, chủ thể là phòng Công tác sinh viên và khoa CNTT.
Cải tiến chương trình đào tạo và chính sách tuyển sinh: Dựa trên phân tích dữ liệu và dự báo tiến độ học tập, khoa CNTT cần điều chỉnh chương trình đào tạo phù hợp với năng lực sinh viên, đồng thời xây dựng chính sách tuyển sinh nhằm thu hút sinh viên có tiềm năng học tập tốt. Thời gian thực hiện trong 1-2 năm, chủ thể là Ban giám hiệu và khoa CNTT.
Đối tượng nên tham khảo luận văn
Lãnh đạo các trường đại học và khoa CNTT: Giúp hiểu rõ về ứng dụng khai phá dữ liệu trong giám sát tiến độ học tập, từ đó xây dựng chiến lược đào tạo và quản lý sinh viên hiệu quả.
Giảng viên và cố vấn học tập: Cung cấp công cụ và phương pháp dự báo tiến độ học tập, hỗ trợ tư vấn sinh viên lựa chọn môn học và kế hoạch học tập phù hợp.
Nhà nghiên cứu trong lĩnh vực giáo dục và công nghệ thông tin: Tham khảo mô hình cây quyết định và kỹ thuật khai phá dữ liệu giáo dục để phát triển các nghiên cứu tiếp theo về dự báo kết quả học tập.
Sinh viên ngành CNTT và các ngành liên quan: Hiểu được các yếu tố ảnh hưởng đến tiến độ học tập, từ đó chủ động điều chỉnh kế hoạch học tập nhằm đạt kết quả tốt nhất.
Câu hỏi thường gặp
Mô hình cây quyết định có ưu điểm gì trong dự báo tiến độ học tập?
Mô hình cây quyết định dễ hiểu, trực quan và có khả năng xử lý dữ liệu số và phân loại hiệu quả. Ví dụ, mô hình giúp xác định các yếu tố quan trọng như số tín chỉ tích lũy và điểm học kỳ đầu ảnh hưởng đến khả năng tốt nghiệp đúng hạn.Làm thế nào để xử lý dữ liệu bất đối xứng trong nghiên cứu này?
Nghiên cứu áp dụng kỹ thuật cắt tỉa cây và cân bằng dữ liệu để giảm thiểu ảnh hưởng của dữ liệu bất đối xứng, từ đó nâng cao độ chính xác dự báo. Ví dụ, tỷ lệ sinh viên tốt nghiệp đúng hạn thấp được cân bằng với nhóm còn lại trong quá trình huấn luyện mô hình.Dữ liệu sử dụng trong nghiên cứu có phạm vi như thế nào?
Dữ liệu bao gồm điểm học tập và số tín chỉ tích lũy của sinh viên khoa CNTT trường Đại học Tài chính – Marketing từ khóa 2011 đến khóa 2015, với tổng số 551 dòng dữ liệu điểm học phần.Kết quả dự báo có thể hỗ trợ gì cho sinh viên?
Kết quả giúp sinh viên nhận biết tiến độ học tập của mình, từ đó lựa chọn môn học phù hợp và điều chỉnh kế hoạch học tập nhằm tăng khả năng tốt nghiệp đúng hạn.Phương pháp nghiên cứu có thể áp dụng cho các ngành khác không?
Có, phương pháp khai phá dữ liệu và mô hình cây quyết định có thể được điều chỉnh và áp dụng cho các ngành đào tạo khác để dự báo tiến độ học tập và cải thiện chất lượng đào tạo.
Kết luận
- Luận văn đã xây dựng thành công mô hình cây quyết định dự báo tiến độ học tập sinh viên ngành CNTT tại trường Đại học Tài chính – Marketing với độ chính xác đạt khoảng 85% sau tối ưu.
- Phân tích dữ liệu cho thấy số tín chỉ tích lũy và điểm học kỳ đầu là các yếu tố quan trọng ảnh hưởng đến khả năng tốt nghiệp đúng hạn.
- Nghiên cứu góp phần cung cấp công cụ hỗ trợ giám sát tiến độ học tập, giúp sinh viên và nhà trường có kế hoạch học tập và đào tạo phù hợp.
- Kết quả nghiên cứu có thể mở rộng ứng dụng cho các khoa, ngành khác trong trường và các trường đại học khác.
- Đề xuất các giải pháp thực tiễn nhằm nâng cao chất lượng đào tạo và tỷ lệ tốt nghiệp đúng hạn, đồng thời khuyến khích phát triển các nghiên cứu tiếp theo về khai phá dữ liệu giáo dục.
Hành động tiếp theo: Các đơn vị liên quan nên triển khai xây dựng hệ thống dự báo tiến độ học tập tự động dựa trên mô hình nghiên cứu, đồng thời tổ chức các chương trình hỗ trợ sinh viên nhằm cải thiện kết quả học tập.