Tổng quan nghiên cứu

Trong bối cảnh giáo dục hiện đại, việc dự đoán thành tích học tập của sinh viên đóng vai trò quan trọng trong việc nâng cao hiệu quả giảng dạy và hỗ trợ học tập. Theo báo cáo từ một trường quốc tế tại TP. Hồ Chí Minh, dữ liệu thu thập từ 117 học sinh lớp 6 đến lớp 12 cho thấy có thể dự đoán chính xác trạng thái học tập cuối cùng của sinh viên dựa trên các kết quả đánh giá giữa kỳ, bài tập và khảo sát cảm nhận học tập. Vấn đề nghiên cứu tập trung vào việc khai thác dữ liệu giáo dục (Educational Data Mining - EDM) để xây dựng mô hình dự báo sinh viên có nguy cơ không hoàn thành khóa học thành công, gọi là “Fragile Learners”. Mục tiêu cụ thể của luận văn là phát triển mô hình dự báo kết hợp các bộ luật dựa trên dữ liệu điểm số bài tập, khảo sát thái độ học tập (PASS) và kết quả đánh giá năng lực nhận thức (CAT4), nhằm hỗ trợ giáo viên điều chỉnh phương pháp giảng dạy và giúp học sinh cải thiện kết quả học tập. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập trong năm học 2020-2021 tại Horizon International Bilingual School, TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao tỷ lệ học sinh đạt yêu cầu khóa học, giảm tỷ lệ học sinh yếu kém, đồng thời cung cấp công cụ hỗ trợ ra quyết định cho nhà trường và giáo viên dựa trên các chỉ số như độ chính xác dự báo, recall và F-measure.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Khai phá dữ liệu giáo dục (Educational Data Mining - EDM): Là quá trình khai thác các mẫu dữ liệu từ hệ thống giáo dục nhằm phát hiện các quy luật, mô hình dự báo về thành tích học tập của sinh viên.
  • Mô hình cây quyết định (Decision Tree): Phương pháp phân loại dữ liệu dựa trên các thuộc tính như điểm số bài tập, kết quả khảo sát để xây dựng các luật dự báo.
  • Các khái niệm chính:
    • Fragile Learners: Học sinh có nguy cơ không hoàn thành khóa học thành công.
    • PASS (Pupils Attitude to Self and School): Khảo sát thái độ và cảm nhận của học sinh về khả năng học tập.
    • CAT4 (Cognitive Ability Test 4): Đánh giá năng lực nhận thức, đặc biệt là kỹ năng toán học và tư duy số.
    • Độ chính xác (Accuracy), Recall, Precision, F-measure: Các chỉ số đánh giá hiệu quả mô hình dự báo.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm ba bộ dữ liệu: điểm số bài tập và kiểm tra (Assignment dataset), khảo sát PASS và kết quả CAT4, thu thập từ 117 học sinh tại Horizon International Bilingual School trong năm học 2020-2021. Phương pháp chọn mẫu là lấy toàn bộ dữ liệu học sinh lớp 6 đến lớp 12 có đầy đủ thông tin liên quan. Quá trình nghiên cứu gồm các bước:

  1. Tiền xử lý dữ liệu: Làm sạch, kết hợp và chuẩn hóa dữ liệu từ các nguồn khác nhau.
  2. Xây dựng mô hình phân loại: Sử dụng công cụ WEKA để thử nghiệm các thuật toán như J48 (cây quyết định), Random Forest, OneR, SMO, Naïve Bayes, Hoeffding Tree nhằm tìm ra thuật toán tối ưu.
  3. Đánh giá mô hình: Áp dụng kỹ thuật phân chia dữ liệu thành tập huấn luyện, kiểm định và kiểm thử (cross-validation 10-fold), đánh giá dựa trên các chỉ số Accuracy, Precision, Recall và F-measure.
  4. Xác định và kết hợp các luật dự báo: Viết các luật IF-THEN từ cây quyết định cho từng bộ dữ liệu và kết hợp để nâng cao độ chính xác dự báo.
  5. Thời gian nghiên cứu: Từ tháng 2/2020 đến tháng 1/2021.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Thuật toán J48 đạt hiệu quả cao: Độ chính xác đạt 100% cho bộ dữ liệu bài tập, 97% cho PASS và 98% cho CAT4, vượt trội so với các thuật toán khác như Random Forest hay Naïve Bayes.
  2. Các thuộc tính quan trọng nhất: Quiz 1, Quiz 2 và Assignment 2 là các yếu tố quyết định trạng thái học tập cuối cùng của học sinh, trong khi Assignment 1 và Midterm ít ảnh hưởng hơn. Ví dụ, học sinh dù đạt điểm cao ở Midterm nhưng nếu thất bại ở Quiz 2 thì có nguy cơ rớt cao.
  3. Luật dự báo hiệu quả: Ví dụ, luật “Nếu Assignment 2 ≤ 5.3 thì học sinh có nguy cơ rớt” hay “Nếu Perceived Learning Capability ≤ 19.6 thì học sinh có nguy cơ rớt” được xác nhận qua dữ liệu thực tế.
  4. Kết hợp luật từ ba bộ dữ liệu: Việc kết hợp luật từ Assignment, PASS và CAT4 tạo ra bộ luật tổng hợp với độ chính xác dự báo lên đến 100% trong các thử nghiệm kiểm định và kiểm thử.

Thảo luận kết quả

Nguyên nhân của các phát hiện trên xuất phát từ việc các bài kiểm tra ngắn hạn (Quiz 1, Quiz 2) và bài tập gần cuối kỳ phản ánh sát nhất năng lực thực tế và tiến trình học tập của học sinh. Kết quả này phù hợp với các nghiên cứu trước đây cho thấy đánh giá liên tục giúp phát hiện sớm học sinh yếu kém. Việc kết hợp dữ liệu về thái độ học tập (PASS) và năng lực nhận thức (CAT4) giúp mô hình dự báo toàn diện hơn, không chỉ dựa vào điểm số mà còn xét đến yếu tố tâm lý và khả năng tư duy. Các biểu đồ cây quyết định và bảng so sánh độ chính xác các thuật toán minh họa rõ ràng sự ưu việt của mô hình J48 và hiệu quả của việc kết hợp luật. Kết quả này có ý nghĩa thực tiễn lớn trong việc hỗ trợ giáo viên điều chỉnh phương pháp giảng dạy kịp thời, đồng thời giúp học sinh nhận diện điểm yếu để cải thiện.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống dự báo sớm: Áp dụng mô hình dự báo dựa trên điểm số bài tập, khảo sát PASS và CAT4 để phát hiện học sinh “Fragile Learners” ngay từ đầu học kỳ, giúp giáo viên có thể can thiệp kịp thời.
  2. Tăng cường đánh giá liên tục: Khuyến khích tổ chức nhiều bài kiểm tra ngắn hạn (Quiz) và bài tập để thu thập dữ liệu chính xác, làm cơ sở cho mô hình dự báo.
  3. Đào tạo giáo viên sử dụng công cụ phân tích: Tổ chức các khóa tập huấn cho giáo viên về khai phá dữ liệu giáo dục và cách áp dụng các luật dự báo để điều chỉnh phương pháp giảng dạy phù hợp.
  4. Mở rộng thu thập dữ liệu: Thu thập thêm dữ liệu từ nhiều trường học khác nhau, đặc biệt là các trường quốc tế áp dụng CAT4 và PASS để nâng cao độ chính xác và tính tổng quát của mô hình.
  5. Thời gian thực hiện: Các giải pháp trên nên được triển khai trong vòng 1-2 năm học để đánh giá hiệu quả và điều chỉnh phù hợp.
  6. Chủ thể thực hiện: Ban giám hiệu nhà trường phối hợp với phòng công nghệ thông tin và giáo viên chủ nhiệm chịu trách nhiệm triển khai và giám sát.

Đối tượng nên tham khảo luận văn

  1. Giáo viên và cán bộ quản lý giáo dục: Nhận được công cụ hỗ trợ đánh giá và dự báo học sinh yếu kém, từ đó điều chỉnh phương pháp giảng dạy và quản lý lớp học hiệu quả hơn.
  2. Nhà nghiên cứu trong lĩnh vực khoa học máy tính và giáo dục: Tham khảo phương pháp ứng dụng khai phá dữ liệu và học máy trong giáo dục, đặc biệt là mô hình kết hợp luật dự báo.
  3. Nhà hoạch định chính sách giáo dục: Sử dụng kết quả nghiên cứu để xây dựng các chính sách hỗ trợ đào tạo, nâng cao chất lượng giáo dục dựa trên dữ liệu thực tế.
  4. Phát triển phần mềm giáo dục: Áp dụng mô hình và thuật toán trong việc phát triển các ứng dụng hỗ trợ giảng dạy và học tập thông minh, cá nhân hóa.

Câu hỏi thường gặp

  1. Mô hình dự báo này có thể áp dụng cho các môn học khác ngoài Toán không?
    Mô hình có thể được điều chỉnh và áp dụng cho các môn học khác nếu có dữ liệu đánh giá liên tục tương tự như bài tập, kiểm tra và khảo sát thái độ học tập. Ví dụ, môn Văn hay Khoa học cũng có thể áp dụng nếu thu thập đủ dữ liệu.

  2. Độ chính xác của mô hình có bị ảnh hưởng khi mở rộng dữ liệu không?
    Theo kinh nghiệm, khi mở rộng dữ liệu với các trường hợp đa dạng hơn, mô hình cần được huấn luyện lại để duy trì độ chính xác. Việc sử dụng dữ liệu lớn và đa dạng giúp mô hình tổng quát hơn và giảm thiểu sai số.

  3. Làm thế nào để giáo viên sử dụng các luật dự báo trong thực tế?
    Giáo viên có thể sử dụng các luật IF-THEN để nhận diện học sinh có nguy cơ yếu kém dựa trên điểm số và khảo sát, từ đó thiết kế các biện pháp hỗ trợ cá nhân như gia sư, điều chỉnh bài giảng hoặc tăng cường tương tác.

  4. Các chỉ số Precision, Recall và F-measure có ý nghĩa gì trong đánh giá mô hình?
    Precision đo lường tỷ lệ dự báo đúng trong số các dự báo dương tính; Recall đo tỷ lệ phát hiện đúng các trường hợp dương tính thực sự; F-measure là trung bình điều hòa của Precision và Recall, phản ánh cân bằng giữa hai chỉ số này.

  5. Có thể áp dụng mô hình này cho học sinh ở các cấp học khác không?
    Mô hình có thể được điều chỉnh cho các cấp học khác nếu có dữ liệu tương ứng. Tuy nhiên, cần lưu ý đặc điểm phát triển và phương pháp đánh giá của từng cấp để điều chỉnh phù hợp.

Kết luận

  • Luận văn đã phát triển thành công mô hình dự báo học sinh có nguy cơ không hoàn thành khóa học dựa trên khai phá dữ liệu giáo dục với độ chính xác lên đến 100%.
  • Kết hợp dữ liệu điểm số bài tập, khảo sát thái độ học tập và đánh giá năng lực nhận thức giúp mô hình toàn diện và hiệu quả hơn.
  • Mô hình hỗ trợ giáo viên điều chỉnh phương pháp giảng dạy và giúp học sinh nhận diện điểm yếu để cải thiện kịp thời.
  • Các thuật toán cây quyết định như J48 được chứng minh là phù hợp nhất trong bối cảnh nghiên cứu.
  • Đề xuất mở rộng nghiên cứu với dữ liệu lớn hơn và đa dạng hơn để nâng cao tính ứng dụng và độ chính xác của mô hình.

Hành động tiếp theo: Các nhà trường và giáo viên nên áp dụng mô hình dự báo này trong thực tế giảng dạy để nâng cao hiệu quả học tập và hỗ trợ kịp thời học sinh yếu kém. Các nhà nghiên cứu có thể tiếp tục phát triển và mở rộng mô hình cho các môn học và cấp học khác.