Tổng quan nghiên cứu

Hiện tượng sinh viên thi lại hoặc rớt môn học là vấn đề phổ biến tại nhiều trường đại học, cao đẳng, ảnh hưởng trực tiếp đến tỷ lệ tốt nghiệp đúng hạn và chất lượng nguồn nhân lực. Theo khảo sát, tỷ lệ tốt nghiệp đúng hạn tại một số trường đại học dao động từ 60-80%, trong khi đó, tại Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu, gần 40% sinh viên không được tốt nghiệp đúng hạn trong năm học 2021-2022. Nguyên nhân chính bao gồm việc sinh viên bỏ học giữa chừng, rớt môn do nhiều yếu tố như nghiện game, đi làm thêm quá nhiều, hoặc thiếu định hướng học tập rõ ràng.

Mục tiêu nghiên cứu của luận văn là xây dựng mô hình dự đoán kết quả môn học của sinh viên dựa trên điểm quá trình và điểm định kỳ từ đầu đến giữa học kỳ, nhằm đưa ra khuyến cáo kịp thời giúp cải thiện kết quả học tập và giảm tỷ lệ rớt môn. Phạm vi nghiên cứu tập trung vào dữ liệu điểm của sinh viên các khóa T19, T20, T21, CD19, CD20, CD21 trong hai năm học 2020-2021 và 2021-2022 tại Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu.

Việc xây dựng mô hình dự đoán không chỉ giúp nhà trường nâng cao chất lượng đào tạo mà còn hỗ trợ giáo viên chủ nhiệm và giáo viên bộ môn trong việc theo dõi, nhắc nhở sinh viên kịp thời, góp phần nâng cao tỷ lệ tốt nghiệp đúng hạn và giảm thiểu tình trạng bỏ học. Đây là một bước tiến quan trọng trong việc ứng dụng công nghệ thông tin và máy học vào quản lý giáo dục, phù hợp với xu hướng chuyển đổi số trong giáo dục hiện nay.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của máy học (Machine Learning), một lĩnh vực nghiên cứu giao thoa giữa thống kê, trí tuệ nhân tạo và khoa học máy tính, nhằm phát triển các thuật toán cho phép máy tính tự học và cải thiện hiệu suất dựa trên dữ liệu. Ba thuật toán phân loại chính được áp dụng trong nghiên cứu gồm:

  • Thuật toán Logistic Regression: Thuật toán phân loại nhị phân sử dụng hàm Sigmoid để dự đoán xác suất thuộc về một lớp nhất định. Logistic Regression phù hợp với bài toán dự đoán kết quả học tập có hai trạng thái (đạt hoặc không đạt).

  • Thuật toán Support Vector Machine (SVM): Thuật toán phân loại có giám sát, tìm siêu phẳng tối ưu phân tách dữ liệu thành hai lớp với khoảng cách lề lớn nhất, giúp tăng độ chính xác và khả năng tổng quát hóa của mô hình.

  • Thuật toán Cây quyết định (Decision Tree): Thuật toán phân loại dựa trên cấu trúc cây, sử dụng các phép thử thuộc tính để phân chia dữ liệu thành các nhóm đồng nhất, dễ hiểu và trực quan trong việc giải thích kết quả.

Các thuật toán này được lựa chọn dựa trên khả năng xử lý dữ liệu phân loại nhị phân, tính hiệu quả và phổ biến trong các ứng dụng dự đoán kết quả học tập.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ Phòng đào tạo Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu, bao gồm điểm quá trình và điểm định kỳ của khoảng 2200 sinh viên thuộc các khóa T19, T20, T21, CD19, CD20, CD21 trong hai năm học 2020-2021 và 2021-2022. Mỗi khóa lấy dữ liệu điểm của một môn học chuyên ngành tương ứng.

Phương pháp chọn mẫu là lấy toàn bộ dữ liệu điểm của sinh viên các khóa và ngành học được nghiên cứu nhằm đảm bảo tính đại diện và khách quan. Dữ liệu được làm sạch, chuẩn hóa và phân tích thống kê sơ bộ để lựa chọn các đặc trưng phù hợp cho mô hình.

Quá trình phân tích và xây dựng mô hình được thực hiện trên môi trường Google Colab, sử dụng các thư viện Python như Pandas, Numpy, Matplotlib, Seaborn và Sklearn. Các thuật toán Logistic Regression, SVM và Cây quyết định được huấn luyện và đánh giá trên tập dữ liệu huấn luyện và kiểm thử theo tỷ lệ phân chia phù hợp.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, xử lý dữ liệu, xây dựng mô hình, đánh giá kết quả và đề xuất khuyến cáo.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác dự đoán của các mô hình: Mô hình SVM đạt độ chính xác cao nhất với khoảng 87%, tiếp theo là Logistic Regression với 83% và Cây quyết định đạt khoảng 79%. Sự khác biệt này cho thấy SVM phù hợp hơn với dữ liệu điểm học tập của sinh viên trong việc phân loại kết quả đạt hay không đạt.

  2. Ảnh hưởng của các điểm quá trình và điểm định kỳ: Phân tích Heatmap cho thấy điểm kiểm tra quá trình (QT1, QT2, QT3) và điểm định kỳ (ĐK1, ĐK2, ĐK3) có mức độ ảnh hưởng khác nhau đến kết quả cuối kỳ. Điểm định kỳ có hệ số ảnh hưởng cao hơn, chiếm khoảng 60% tác động đến kết quả môn học.

  3. Tỷ lệ sinh viên dự đoán không đạt: Khoảng 18% sinh viên được dự đoán có nguy cơ không đạt môn học, trong đó nhóm sinh viên này có điểm trung bình các bài kiểm tra quá trình dưới 5.5 và điểm định kỳ dưới 4.0.

  4. Thời gian dự đoán và khả năng ứng dụng thực tế: Mô hình Logistic Regression có thời gian dự đoán nhanh nhất, trung bình dưới 0.5 giây cho toàn bộ dữ liệu, trong khi SVM mất khoảng 1 giây. Điều này cho phép ứng dụng mô hình trong các hệ thống quản lý học tập để cảnh báo kịp thời.

Thảo luận kết quả

Kết quả cho thấy thuật toán SVM vượt trội về độ chính xác nhờ khả năng tìm siêu phẳng phân tách tối ưu và xử lý tốt các dữ liệu có phân bố phức tạp. Điều này phù hợp với các nghiên cứu trong ngành giáo dục và công nghệ thông tin, nơi SVM thường được sử dụng để phân loại dữ liệu học tập.

Việc điểm định kỳ có ảnh hưởng lớn hơn điểm quá trình phản ánh tính quan trọng của các kỳ thi định kỳ trong đánh giá năng lực sinh viên. Tuy nhiên, điểm quá trình cũng đóng vai trò quan trọng trong việc theo dõi tiến trình học tập và phát hiện sớm các sinh viên có nguy cơ.

Tỷ lệ sinh viên dự đoán không đạt khoảng 18% tương đồng với tỷ lệ sinh viên nghỉ học và rớt môn thực tế tại trường, cho thấy mô hình có tính ứng dụng cao trong việc hỗ trợ giáo viên và nhà trường quản lý học tập.

Dữ liệu có thể được trình bày qua các biểu đồ Heatmap thể hiện mức độ ảnh hưởng của từng điểm đến kết quả cuối kỳ, biểu đồ cột so sánh độ chính xác của các mô hình và bảng thống kê tỷ lệ sinh viên dự đoán không đạt theo từng khóa học.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống dự đoán kết quả học tập tự động: Áp dụng mô hình SVM vào hệ thống quản lý học tập của trường để tự động dự đoán kết quả môn học từ giữa học kỳ, giúp giáo viên chủ nhiệm và bộ môn có cơ sở nhắc nhở, hỗ trợ sinh viên kịp thời. Thời gian thực hiện: trong 6 tháng tới.

  2. Tăng cường giám sát và hỗ trợ sinh viên có nguy cơ không đạt: Dựa trên kết quả dự đoán, tổ chức các lớp học phụ đạo, tư vấn học tập và quản lý thời gian cho nhóm sinh viên có điểm quá trình và định kỳ thấp nhằm giảm tỷ lệ rớt môn. Chủ thể thực hiện: phòng đào tạo và các khoa chuyên môn.

  3. Đào tạo nâng cao năng lực sử dụng công nghệ cho giáo viên: Tổ chức các khóa tập huấn về ứng dụng máy học và phân tích dữ liệu cho giáo viên để họ có thể khai thác hiệu quả các công cụ dự đoán và khuyến cáo học tập. Thời gian: 3 tháng đầu năm học mới.

  4. Cải tiến chương trình học và phương pháp giảng dạy: Dựa trên phân tích dữ liệu điểm, điều chỉnh nội dung và phương pháp giảng dạy phù hợp với đặc điểm học tập của sinh viên nhằm nâng cao hiệu quả học tập và giảm thiểu tình trạng bỏ học. Chủ thể thực hiện: ban giám hiệu và các khoa.

Đối tượng nên tham khảo luận văn

  1. Giáo viên chủ nhiệm và giáo viên bộ môn: Nhận diện sớm sinh viên có nguy cơ không đạt môn học để có biện pháp hỗ trợ kịp thời, nâng cao hiệu quả giảng dạy và quản lý lớp học.

  2. Phòng đào tạo và ban giám hiệu nhà trường: Sử dụng mô hình dự đoán để xây dựng chính sách đào tạo, quản lý sinh viên và cải tiến chương trình học phù hợp với thực tế.

  3. Sinh viên và phụ huynh: Hiểu rõ về các yếu tố ảnh hưởng đến kết quả học tập, từ đó chủ động điều chỉnh kế hoạch học tập và hỗ trợ sinh viên trong quá trình học.

  4. Nhà nghiên cứu và chuyên gia công nghệ thông tin trong giáo dục: Tham khảo phương pháp ứng dụng máy học trong dự đoán kết quả học tập, phát triển các mô hình tương tự cho các trường khác hoặc mở rộng nghiên cứu.

Câu hỏi thường gặp

  1. Mô hình dự đoán kết quả học tập sử dụng những dữ liệu nào?
    Mô hình sử dụng điểm quá trình và điểm định kỳ của sinh viên từ đầu đến giữa học kỳ làm dữ liệu đầu vào để dự đoán kết quả cuối kỳ. Ví dụ, điểm QT1, QT2, ĐK1, ĐK2 được phân tích để xác định khả năng đạt hay không đạt môn học.

  2. Thuật toán nào cho kết quả dự đoán chính xác nhất?
    Thuật toán Support Vector Machine (SVM) cho độ chính xác cao nhất khoảng 87%, vượt trội hơn Logistic Regression và Cây quyết định trong nghiên cứu này.

  3. Mô hình có thể áp dụng cho các ngành học khác không?
    Có thể áp dụng cho nhiều ngành học khác nhau, tuy nhiên cần thu thập dữ liệu điểm tương ứng và điều chỉnh mô hình phù hợp với đặc điểm từng ngành.

  4. Làm thế nào để giáo viên sử dụng kết quả dự đoán hiệu quả?
    Giáo viên có thể sử dụng kết quả dự đoán để theo dõi sinh viên có nguy cơ không đạt, từ đó tổ chức các buổi tư vấn, hỗ trợ học tập hoặc đề xuất các biện pháp cải thiện kịp thời.

  5. Mô hình có thể dự đoán chính xác khi nào trong học kỳ?
    Mô hình dự đoán dựa trên điểm quá trình và định kỳ từ đầu đến giữa học kỳ, giúp cảnh báo sớm trước khi kết thúc học kỳ để có biện pháp hỗ trợ kịp thời.

Kết luận

  • Luận văn đã xây dựng thành công mô hình dự đoán kết quả môn học của sinh viên Trường Cao đẳng Kỹ thuật Công nghệ Bà Rịa Vũng Tàu dựa trên các thuật toán máy học phổ biến như SVM, Logistic Regression và Cây quyết định.
  • Mô hình SVM cho kết quả dự đoán chính xác nhất với độ chính xác khoảng 87%, phù hợp để ứng dụng trong thực tế quản lý giáo dục.
  • Dữ liệu điểm quá trình và điểm định kỳ có ảnh hưởng quan trọng đến kết quả học tập, trong đó điểm định kỳ chiếm tỷ trọng lớn hơn.
  • Kết quả nghiên cứu góp phần nâng cao hiệu quả quản lý học tập, giảm tỷ lệ rớt môn và bỏ học, đồng thời hỗ trợ giáo viên và nhà trường trong việc theo dõi, khuyến cáo sinh viên.
  • Các bước tiếp theo bao gồm triển khai hệ thống dự đoán tự động, đào tạo giáo viên sử dụng công nghệ và mở rộng nghiên cứu sang các ngành học khác nhằm nâng cao chất lượng đào tạo toàn diện.

Hãy áp dụng mô hình dự đoán này để nâng cao chất lượng đào tạo và hỗ trợ sinh viên đạt được thành tích học tập tốt hơn trong tương lai!