Tổng quan nghiên cứu
Trong bối cảnh giáo dục đại học hiện nay, đặc biệt là các trường đào tạo theo hệ thống tín chỉ, tình trạng sinh viên bỏ học đang trở thành vấn đề đáng báo động. Tại Trường Đại học Bình Dương, tỷ lệ sinh viên bị cảnh báo học vụ và bỏ học có xu hướng tăng, ảnh hưởng trực tiếp đến chất lượng đào tạo và uy tín của nhà trường. Theo số liệu thống kê từ các khóa học chính quy năm 2017 đến 2020, tỷ lệ sinh viên bỏ học dao động khoảng 10-15%, trong khi đó, nhiều sinh viên chưa có kế hoạch học tập rõ ràng, dẫn đến kết quả học tập giảm sút và tinh thần học tập kém.
Mục tiêu nghiên cứu của luận văn là ứng dụng kỹ thuật phân lớp dựa trên luật kết hợp, cụ thể là thuật giải CPAR-GR, để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương. Nghiên cứu tập trung vào dữ liệu học tập của sinh viên từ năm 1 đến năm 4, trong phạm vi thời gian từ năm 2017 đến 2020, nhằm xây dựng mô hình dự báo chính xác và hiệu quả.
Ý nghĩa của nghiên cứu không chỉ giúp nhà trường có cơ sở khoa học để phát hiện sớm sinh viên có nguy cơ bỏ học mà còn hỗ trợ các đơn vị chuyên trách xây dựng các giải pháp can thiệp kịp thời, giảm tỷ lệ bỏ học và nâng cao chất lượng đào tạo. Việc ứng dụng công nghệ thông tin và khai phá dữ liệu trong giáo dục đại học góp phần thúc đẩy chuyển đổi số trong quản lý đào tạo, đồng thời nâng cao hiệu quả công tác tư vấn học tập và hỗ trợ sinh viên.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình chính sau:
Khai phá luật kết hợp (Association Rule Mining): Là kỹ thuật tìm kiếm các luật kết hợp trong cơ sở dữ liệu, biểu diễn dưới dạng X ⇒ Y, với X và Y là các tập mục không giao nhau. Luật kết hợp được đánh giá bằng hai chỉ số chính là độ hỗ trợ (support) và độ tin cậy (confidence). Ví dụ, một luật có độ hỗ trợ 0.75 nghĩa là 75% giao dịch chứa cả X và Y, còn độ tin cậy 0.8 nghĩa là 80% giao dịch chứa X cũng chứa Y.
Phân lớp dựa trên luật kết hợp (Classification based on Association Rules): Là quá trình xây dựng mô hình phân lớp dựa trên các luật kết hợp có chứa nhãn lớp ở vế phải. Mục tiêu là tìm ra các luật có độ chính xác cao để phân loại dữ liệu mới.
Thuật giải CPAR-GR (Predictive Association Rule based Classifier using Gain Ratio): Là thuật giải cải tiến của CPAR, kết hợp phương pháp thống kê T-test để lựa chọn thuộc tính quan trọng, giảm kích thước dữ liệu và nâng cao độ chính xác của luật phân lớp. Thuật giải sử dụng độ chính xác Laplace để đánh giá luật và chọn ra các luật tốt nhất phục vụ phân lớp.
Phương pháp tiền xử lý dữ liệu bằng SPSS: Sử dụng phần mềm SPSS để làm sạch dữ liệu, loại bỏ các biến không quan trọng dựa trên phân tích thống kê T-test, giúp giảm thiểu chi phí xử lý và tăng hiệu quả mô hình.
Phương pháp nghiên cứu
Nguồn dữ liệu nghiên cứu là bộ dữ liệu thực tế về quá trình học tập của sinh viên chính quy từ năm 1 đến năm 4 tại Trường Đại học Bình Dương, bao gồm các khóa 2017, 2018, 2019 và 2020. Dữ liệu được mã hóa để bảo mật thông tin cá nhân.
Phương pháp nghiên cứu kết hợp:
Nghiên cứu lý thuyết: Tổng hợp, phân tích các thuật toán phân lớp dựa trên luật kết hợp, đặc biệt là CPAR-GR.
Thu thập và xử lý dữ liệu: Tiền xử lý dữ liệu bằng phần mềm SPSS để làm sạch và lựa chọn thuộc tính quan trọng thông qua phân tích T-test.
Xây dựng mô hình: Áp dụng thuật giải CPAR-GR để khai thác luật kết hợp và xây dựng mô hình phân lớp dự báo khả năng bỏ học.
Thực nghiệm và đánh giá: Chạy thử chương trình demo viết bằng Python, đánh giá độ chính xác của mô hình trên tập dữ liệu huấn luyện và kiểm tra.
Timeline nghiên cứu kéo dài từ tháng 9/2019 đến tháng 4/2021, bao gồm các giai đoạn: thu thập dữ liệu, tiền xử lý, xây dựng mô hình, thực nghiệm và hoàn thiện luận văn.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của phương pháp tiền xử lý dữ liệu bằng SPSS: Qua phân tích T-test, khoảng 30% biến không có tác động đáng kể đến khả năng bỏ học của sinh viên đã được loại bỏ, giúp giảm kích thước dữ liệu và tăng tốc độ xử lý. Ví dụ, các biến như giới tính, quê quán không ảnh hưởng nhiều, trong khi điểm trung bình học kỳ và số tín chỉ tích lũy có ảnh hưởng lớn.
Độ chính xác của mô hình CPAR-GR: Mô hình phân lớp dựa trên luật kết hợp CPAR-GR đạt độ chính xác trung bình trên 85% khi dự báo khả năng bỏ học trên tập kiểm tra, cao hơn khoảng 10% so với các thuật toán phân lớp truyền thống như C4.5 hoặc Naive Bayes.
Luật kết hợp quan trọng được phát hiện: Một số luật có độ tin cậy trên 90% cho thấy sinh viên có điểm trung bình học kỳ dưới 5.0 và số tín chỉ tích lũy thấp có nguy cơ bỏ học cao. Luật này được minh họa trong bảng kết quả tạo luật với độ hỗ trợ 0.15 và độ tin cậy 0.92.
Ứng dụng thực tế của chương trình demo: Giao diện chương trình demo dự báo khả năng bỏ học được xây dựng bằng Python, cho phép nhập dữ liệu sinh viên và dự báo nhanh chóng. Kết quả thực nghiệm cho thấy chương trình có thể hỗ trợ cán bộ quản lý đào tạo trong việc phát hiện sớm sinh viên có nguy cơ bỏ học.
Thảo luận kết quả
Nguyên nhân chính dẫn đến khả năng bỏ học của sinh viên là do thiếu kế hoạch học tập, điểm trung bình thấp và số tín chỉ tích lũy không đạt yêu cầu. Kết quả phân tích thống kê và mô hình phân lớp cho thấy các biến này có ảnh hưởng rõ rệt, phù hợp với thực trạng tại nhiều trường đại học đào tạo theo hệ thống tín chỉ.
So sánh với các nghiên cứu trước đây, mô hình CPAR-GR kết hợp với tiền xử lý dữ liệu bằng SPSS cho kết quả dự báo chính xác hơn, đồng thời giảm thiểu chi phí tính toán. Điều này phù hợp với các nghiên cứu ứng dụng phân lớp dựa trên luật kết hợp trong lĩnh vực giáo dục và y tế, nơi dữ liệu thường có tính phức tạp và mất cân bằng.
Dữ liệu có thể được trình bày qua các biểu đồ phân bố điểm trung bình, số tín chỉ tích lũy và tỷ lệ bỏ học theo từng khóa, giúp trực quan hóa mối quan hệ giữa các biến và khả năng bỏ học. Bảng tổng hợp các luật kết hợp quan trọng cũng hỗ trợ việc đánh giá và lựa chọn các yếu tố ảnh hưởng.
Đề xuất và khuyến nghị
Xây dựng hệ thống cảnh báo sớm: Áp dụng mô hình phân lớp CPAR-GR vào hệ thống quản lý đào tạo để tự động cảnh báo sinh viên có nguy cơ bỏ học, giúp cán bộ tư vấn kịp thời can thiệp. Mục tiêu giảm tỷ lệ bỏ học xuống dưới 10% trong vòng 2 năm tới.
Tăng cường tư vấn học tập: Tổ chức các buổi hướng dẫn lập kế hoạch học tập cho sinh viên, đặc biệt là năm đầu, nhằm nâng cao nhận thức về tầm quan trọng của việc tích lũy tín chỉ và điểm số. Thời gian triển khai trong học kỳ đầu năm học.
Cải tiến chương trình đào tạo: Điều chỉnh nội dung và phương pháp giảng dạy phù hợp với năng lực sinh viên, tăng cường hỗ trợ học tập cho nhóm sinh viên có điểm trung bình thấp. Chủ thể thực hiện là các khoa và phòng đào tạo trong vòng 1 năm.
Đào tạo cán bộ quản lý: Nâng cao năng lực sử dụng công nghệ thông tin và phân tích dữ liệu cho cán bộ quản lý đào tạo để khai thác hiệu quả các công cụ dự báo và hỗ trợ ra quyết định. Thời gian đào tạo định kỳ hàng năm.
Đối tượng nên tham khảo luận văn
Cán bộ quản lý đào tạo đại học: Giúp hiểu rõ về ứng dụng kỹ thuật khai phá dữ liệu trong quản lý sinh viên, từ đó xây dựng các chính sách hỗ trợ phù hợp.
Giảng viên và cố vấn học tập: Sử dụng mô hình dự báo để phát hiện sớm sinh viên có nguy cơ bỏ học, từ đó có biện pháp tư vấn và hỗ trợ kịp thời.
Nhà nghiên cứu trong lĩnh vực khoa học máy tính và giáo dục: Tham khảo phương pháp phân lớp dựa trên luật kết hợp CPAR-GR và kỹ thuật tiền xử lý dữ liệu bằng SPSS để phát triển các nghiên cứu tiếp theo.
Sinh viên ngành khoa học máy tính và công nghệ thông tin: Học hỏi về ứng dụng thực tế của thuật toán khai phá dữ liệu và xây dựng chương trình demo dự báo trong môi trường giáo dục.
Câu hỏi thường gặp
Phân lớp dựa trên luật kết hợp là gì?
Phân lớp dựa trên luật kết hợp là kỹ thuật xây dựng mô hình phân loại dựa trên các luật kết hợp có chứa nhãn lớp, giúp dự đoán nhãn cho dữ liệu mới dựa trên các luật đã tìm được.Thuật giải CPAR-GR có ưu điểm gì so với các thuật toán khác?
CPAR-GR kết hợp phương pháp thống kê T-test để chọn thuộc tính quan trọng, giảm kích thước dữ liệu và nâng cao độ chính xác của luật phân lớp, đồng thời giảm chi phí tính toán so với các thuật toán truyền thống.Tại sao cần tiền xử lý dữ liệu bằng SPSS?
Tiền xử lý giúp loại bỏ các biến không quan trọng, làm sạch dữ liệu, giảm nhiễu và tăng hiệu quả mô hình phân lớp, đồng thời giảm thời gian và tài nguyên xử lý.Mô hình dự báo có thể áp dụng cho các trường đại học khác không?
Có, mô hình có thể được điều chỉnh và áp dụng cho các trường đại học khác có dữ liệu tương tự, giúp dự báo khả năng bỏ học và hỗ trợ quản lý đào tạo.Chương trình demo dự báo hoạt động như thế nào?
Chương trình cho phép nhập dữ liệu sinh viên, sử dụng thuật giải CPAR-GR để phân tích và dự báo khả năng bỏ học, hỗ trợ cán bộ quản lý đưa ra quyết định kịp thời.
Kết luận
- Luận văn đã ứng dụng thành công thuật giải CPAR-GR kết hợp với tiền xử lý dữ liệu bằng SPSS để dự báo khả năng bỏ học của sinh viên Trường Đại học Bình Dương với độ chính xác trên 85%.
- Phương pháp tiền xử lý giúp loại bỏ khoảng 30% biến không quan trọng, giảm chi phí tính toán và nâng cao hiệu quả mô hình.
- Các luật kết hợp quan trọng được phát hiện giúp nhận diện rõ các yếu tố ảnh hưởng đến khả năng bỏ học như điểm trung bình học kỳ và số tín chỉ tích lũy.
- Chương trình demo dự báo được xây dựng bằng Python, có thể ứng dụng thực tế trong quản lý đào tạo và tư vấn học tập.
- Đề xuất các giải pháp cảnh báo sớm, tư vấn học tập, cải tiến chương trình đào tạo và đào tạo cán bộ nhằm giảm tỷ lệ bỏ học trong thời gian tới.
Tiếp theo, nghiên cứu sẽ mở rộng phạm vi dữ liệu, áp dụng thêm các thuật toán phân lớp khác và phát triển hệ thống dự báo tích hợp để nâng cao hiệu quả ứng dụng trong thực tế. Đề nghị các đơn vị quản lý đào tạo và nghiên cứu tiếp tục phối hợp triển khai và hoàn thiện mô hình dự báo này.