I. Giới thiệu
Nghiên cứu về việc dự báo sớm kết quả học tập của sinh viên đang ngày càng trở nên quan trọng trong lĩnh vực giáo dục. Đặc biệt, việc áp dụng các phương pháp học máy, như học bán giám sát, giúp tận dụng tối đa dữ liệu chưa có nhãn lớp trong quá trình phân loại sinh viên. Dữ liệu thưa, một vấn đề phổ biến trong các nghiên cứu giáo dục, thường gây khó khăn trong việc xây dựng mô hình phân lớp hiệu quả. Do đó, nghiên cứu này hướng đến việc phát triển một phương pháp học bán giám sát nhằm cải thiện độ chính xác của việc phân loại sinh viên trong môi trường có dữ liệu thưa.
1.1. Ý nghĩa khoa học
Phát triển phương pháp học bán giám sát có thể mở ra những hướng nghiên cứu mới trong lĩnh vực khai phá dữ liệu giáo dục (EDM). Việc áp dụng các kỹ thuật này giúp cải thiện khả năng phân loại trong điều kiện dữ liệu không đầy đủ, từ đó cung cấp những thông tin hữu ích cho việc quản lý và hỗ trợ sinh viên. Các nghiên cứu trước đây thường chỉ tập trung vào dữ liệu đã có nhãn, trong khi lượng dữ liệu chưa có nhãn vẫn rất lớn. Nghiên cứu này không chỉ đóng góp vào lý thuyết mà còn vào thực tiễn trong việc hỗ trợ sinh viên gặp khó khăn trong học tập.
II. Dữ liệu thưa và phương pháp phân lớp bán giám sát
Dữ liệu thưa được định nghĩa là tập dữ liệu trong đó có nhiều thuộc tính không có giá trị. Trong nghiên cứu này, dữ liệu thưa chủ yếu đến từ điểm số của sinh viên trong các môn học. Việc xử lý dữ liệu thưa là một thách thức lớn, đặc biệt trong bối cảnh phân loại sinh viên. Phương pháp phân lớp bán giám sát (SSC) cho phép kết hợp dữ liệu đã có nhãn với dữ liệu chưa có nhãn, từ đó cải thiện độ chính xác của mô hình phân loại. Bằng cách này, mô hình có thể học từ cả hai loại dữ liệu, giúp tận dụng tối đa thông tin có sẵn.
2.1. Phương pháp học bán giám sát
Phương pháp học bán giám sát cho phép sử dụng các mẫu dữ liệu chưa có nhãn để cải thiện khả năng phân loại. Điều này đặc biệt hữu ích trong môi trường giáo dục, nơi mà dữ liệu có nhãn thường khó thu thập. Việc áp dụng các kỹ thuật như Tri-Training có thể giúp tối ưu hóa việc sử dụng dữ liệu thưa, từ đó nâng cao độ chính xác của dự báo. Nghiên cứu chỉ ra rằng việc làm đầy dữ liệu trước khi áp dụng các phương pháp phân loại sẽ giúp cải thiện đáng kể kết quả phân loại so với việc sử dụng dữ liệu thưa trực tiếp.
III. Kết quả và ứng dụng thực tiễn
Kết quả từ việc áp dụng phương pháp học bán giám sát cho thấy độ chính xác của mô hình phân loại tăng lên đáng kể khi sử dụng dữ liệu chưa có nhãn. Việc này không chỉ giúp xác định sớm những sinh viên có nguy cơ không tốt nghiệp mà còn cung cấp thông tin cho các nhà quản lý giáo dục để có những biện pháp hỗ trợ kịp thời. Ứng dụng thực tiễn của nghiên cứu này có thể được mở rộng ra nhiều lĩnh vực khác trong giáo dục, từ việc phát hiện sớm sinh viên gặp khó khăn đến việc tối ưu hóa quy trình giảng dạy.
3.1. Đánh giá kết quả
Kết quả thực nghiệm cho thấy phương pháp học bán giám sát không chỉ cải thiện độ chính xác phân loại mà còn giúp giảm thiểu thời gian cần thiết để xử lý dữ liệu. Các kết quả này cho thấy tính khả thi và hiệu quả của phương pháp trong môi trường giáo dục, mở ra hướng đi mới cho các nghiên cứu tiếp theo trong lĩnh vực này. Việc áp dụng các phương pháp học máy tiên tiến có thể giúp các cơ sở giáo dục nâng cao chất lượng đào tạo và hỗ trợ sinh viên tốt hơn.