Tổng quan nghiên cứu

Trong bối cảnh giáo dục trực tuyến ngày càng phát triển, vấn đề học viên bỏ học trở thành thách thức lớn đối với các cơ sở đào tạo, đặc biệt là các khóa học tiếng Anh trực tuyến. Theo ước tính, tỷ lệ học viên bỏ học trong các khóa học trực tuyến tiếng Anh tại một cơ sở đào tạo ở Bình Dương chiếm tỷ lệ rất nhỏ so với tổng số học viên, tuy nhiên ảnh hưởng tiêu cực của hiện tượng này đến chất lượng đào tạo và hiệu quả kinh doanh là không thể xem nhẹ. Mục tiêu nghiên cứu của luận văn là dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến theo từng giai đoạn bằng các kỹ thuật khoa học dữ liệu, nhằm giúp các cơ sở đào tạo có biện pháp can thiệp kịp thời, nâng cao tỷ lệ duy trì học viên và cải thiện chất lượng đào tạo.

Phạm vi nghiên cứu tập trung vào dữ liệu hành vi học tập của 8.922 học viên tham gia các khóa học tiếng Anh trực tuyến kết hợp với học trực tiếp tại một cơ sở đào tạo ở Bình Dương trong năm 2022-2023. Nghiên cứu sử dụng các thuật toán học máy hiện đại như Rừng ngẫu nhiên (Random Forest), Tăng cường độ dốc cực cao (XGBoost), Tăng cường độ dốc (Gradient Boosting) và Mạng thần kinh chuyển tiếp nguồn cấp dữ liệu (Feed-forward Neural Network) để xây dựng mô hình dự báo. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp công cụ dự báo chính xác, giúp giảm thiểu tỷ lệ học viên bỏ học, từ đó nâng cao hiệu quả quản lý và phát triển các chương trình đào tạo trực tuyến.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Học trực tuyến (E-learning): Là phương thức phân phối nội dung học tập qua các công cụ điện tử và mạng internet, với đặc điểm tương tác cao giữa giảng viên và học viên. Học trực tuyến giúp giảm chi phí đào tạo và mở rộng phạm vi tiếp cận học viên.

  • Khai phá dữ liệu giáo dục (Educational Data Mining - EDM): Phân tích dữ liệu học tập để hiểu hành vi học viên, dự đoán thành tích và khả năng bỏ học, từ đó cải thiện môi trường học tập.

  • Học máy (Machine Learning - ML): Sử dụng các thuật toán để xây dựng mô hình dự đoán dựa trên dữ liệu lịch sử, bao gồm các thuật toán như Random Forest, XGBoost, Gradient Boosting và Mạng thần kinh nhân tạo.

  • Mô hình dự báo bỏ học: Tập trung vào việc dự đoán khả năng học viên bỏ học dựa trên các đặc trưng hành vi, nhân khẩu học và thông tin khóa học, nhằm phát hiện sớm và can thiệp kịp thời.

Các khái niệm chính bao gồm: tỷ lệ bỏ học (churn rate), đặc trưng dữ liệu (feature), siêu tham số (hyperparameter), overfitting, và đánh giá mô hình (precision, AUC-ROC).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là tập dữ liệu thực tế từ một cơ sở đào tạo tiếng Anh trực tuyến tại Bình Dương, gồm 8.922 bản ghi với 118 thuộc tính liên quan đến học viên, khóa học, giảng viên và các yếu tố môi trường học tập. Dữ liệu thu thập trong năm 2022-2023, bao gồm thông tin về hành vi đăng nhập, hoàn thành bài tập, điểm số, số buổi học, kinh nghiệm giảng viên, và các chỉ số liên quan đến tương tác học tập.

Phương pháp phân tích gồm các bước:

  • Tiền xử lý dữ liệu: Làm sạch, chuẩn hóa, xử lý dữ liệu thiếu, loại bỏ thuộc tính không cần thiết, chuyển đổi dữ liệu dạng số sang dạng phân loại phù hợp.

  • Lựa chọn đặc trưng: Sử dụng các phương pháp lọc, gói và nhúng để chọn ra các thuộc tính quan trọng nhất ảnh hưởng đến quyết định nghỉ học.

  • Xây dựng mô hình: Áp dụng các thuật toán học máy gồm Random Forest, XGBoost, Gradient Boosting và Feed-forward Neural Network. Mô hình kết hợp được đề xuất gồm hai lớp: lớp đầu tiên sử dụng ba thuật toán RF, XGBoost, GB để dự đoán tạm thời; lớp thứ hai sử dụng FNN để tổng hợp và đưa ra dự đoán cuối cùng.

  • Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác (precision), diện tích dưới đường cong ROC (AUC-ROC), và kiểm tra chéo (cross-validation) để đánh giá hiệu năng mô hình.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ tháng 1 đến tháng 12 năm 2022, với việc sử dụng ngôn ngữ lập trình Python và các thư viện hỗ trợ như numpy, pandas, scikit-learn, TensorFlow, xgboost, imblearn, Keras.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tỷ lệ học viên bỏ học thấp nhưng có xu hướng tăng theo độ tuổi: Tỷ lệ học viên bỏ học chiếm khoảng 1,4% trong tổng số 8.922 học viên. Độ tuổi từ 3 đến 7 tuổi chiếm phần lớn số học viên và cũng có số lượng học viên bỏ học cao nhất, cho thấy nhóm tuổi này có nguy cơ nghỉ học cao hơn.

  2. Ảnh hưởng của loại và cấp độ khóa học: Các khóa học thuộc loại "SS" và cấp độ SSA, SSBlue, HFC, SSB có tỷ lệ học viên bỏ học cao hơn các loại khác. Đặc biệt, khóa học có độ dài từ 301 đến 400 buổi có tỷ lệ bỏ học lên đến 8,81%, cao hơn so với các nhóm khác.

  3. Tác động của số lượng bài giảng và buổi học trong tuần: Khóa học có số tiết học trên 180 có tỷ lệ học viên bỏ học tương đối cao (15,7%). Các khóa học có buổi học vào thứ 7 và chủ nhật cũng có tỷ lệ bỏ học cao hơn các ngày khác.

  4. Ảnh hưởng của giảng viên và hành vi học viên: Học viên có giảng viên kinh nghiệm dưới 2 năm có tỷ lệ bỏ học cao hơn. Học viên có số lần đăng nhập thấp và ít tương tác trên nền tảng học tập cũng có nguy cơ bỏ học cao. Tuy nhiên, các yếu tố như tỷ lệ hoàn thành bài tập và tỷ lệ vắng mặt không cho thấy sự khác biệt rõ ràng giữa học viên bỏ học và không bỏ học.

Thảo luận kết quả

Kết quả cho thấy các yếu tố về đặc điểm khóa học (độ dài, loại, cấp độ), hành vi học tập (đăng nhập, tương tác) và đặc điểm giảng viên ảnh hưởng đáng kể đến khả năng học viên bỏ học. Việc học viên nhỏ tuổi có tỷ lệ bỏ học cao có thể do sự khó khăn trong việc duy trì sự tập trung và động lực học tập trực tuyến. Các khóa học dài và có nhiều bài giảng dễ gây áp lực, dẫn đến tăng nguy cơ bỏ học.

So sánh với các nghiên cứu trước đây, kết quả phù hợp với nhận định rằng 75% học viên bỏ học xảy ra trong vài tuần đầu tiên và các yếu tố hành vi đóng vai trò quan trọng trong dự báo bỏ học. Mô hình kết hợp các thuật toán học máy đã cải thiện độ chính xác dự báo so với việc sử dụng từng thuật toán riêng lẻ, thể hiện qua các chỉ số precision và AUC-ROC cao hơn.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố tỷ lệ bỏ học theo độ tuổi, loại khóa học, số lượng bài giảng, và biểu đồ ROC so sánh hiệu năng các mô hình dự báo, giúp trực quan hóa mức độ ảnh hưởng của từng yếu tố và hiệu quả mô hình.

Đề xuất và khuyến nghị

  1. Tăng cường giám sát và hỗ trợ học viên nhỏ tuổi: Các cơ sở đào tạo cần thiết kế chương trình học phù hợp, tăng cường tương tác và hỗ trợ đặc biệt cho nhóm học viên từ 3 đến 7 tuổi nhằm giảm tỷ lệ bỏ học trong giai đoạn đầu.

  2. Điều chỉnh độ dài và cấu trúc khóa học: Giảm bớt độ dài khóa học hoặc chia nhỏ thành các giai đoạn ngắn hơn để giảm áp lực học tập, đặc biệt với các khóa có độ dài từ 301 đến 400 buổi, nhằm nâng cao tỷ lệ duy trì học viên.

  3. Tăng cường đào tạo và phát triển năng lực giảng viên: Ưu tiên tuyển dụng và đào tạo giảng viên có kinh nghiệm trên 2 năm, đồng thời tổ chức các khóa bồi dưỡng kỹ năng giảng dạy trực tuyến để nâng cao chất lượng giảng dạy và giữ chân học viên.

  4. Ứng dụng mô hình dự báo khoa học dữ liệu: Áp dụng mô hình kết hợp học máy để dự báo sớm học viên có nguy cơ bỏ học, từ đó triển khai các biện pháp can thiệp kịp thời như tư vấn, hỗ trợ kỹ thuật, hoặc điều chỉnh phương pháp giảng dạy. Thời gian triển khai nên được thực hiện liên tục trong suốt khóa học với sự phối hợp của phòng đào tạo và bộ phận công nghệ thông tin.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý giáo dục trực tuyến: Giúp hiểu rõ các yếu tố ảnh hưởng đến tỷ lệ học viên bỏ học và áp dụng mô hình dự báo để nâng cao hiệu quả quản lý.

  2. Giảng viên và nhân viên đào tạo: Nắm bắt được hành vi học viên và các đặc điểm khóa học để điều chỉnh phương pháp giảng dạy, tăng cường tương tác và giữ chân học viên.

  3. Chuyên gia phân tích dữ liệu và phát triển phần mềm giáo dục: Tham khảo các kỹ thuật học máy và khai phá dữ liệu ứng dụng trong dự báo hành vi học viên, từ đó phát triển các công cụ hỗ trợ giáo dục trực tuyến.

  4. Các nhà nghiên cứu trong lĩnh vực giáo dục và công nghệ thông tin: Cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng khoa học dữ liệu trong giáo dục, mở ra hướng nghiên cứu mới về dự báo và cải thiện chất lượng đào tạo trực tuyến.

Câu hỏi thường gặp

  1. Tại sao tỷ lệ học viên bỏ học lại thấp nhưng vẫn cần dự báo?
    Mặc dù tỷ lệ bỏ học chỉ khoảng 1,4%, nhưng việc dự báo giúp phát hiện sớm những học viên có nguy cơ, từ đó can thiệp kịp thời để giảm thiểu tổn thất về chất lượng đào tạo và chi phí thu hút học viên mới.

  2. Các yếu tố nào ảnh hưởng nhiều nhất đến khả năng bỏ học?
    Độ dài khóa học, loại và cấp độ khóa học, hành vi đăng nhập và tương tác của học viên, cũng như kinh nghiệm giảng viên là những yếu tố có ảnh hưởng đáng kể.

  3. Mô hình kết hợp các thuật toán học máy có ưu điểm gì?
    Mô hình kết hợp tận dụng điểm mạnh của từng thuật toán, cải thiện độ chính xác dự báo và giảm thiểu overfitting so với việc sử dụng từng mô hình riêng lẻ.

  4. Làm thế nào để xử lý dữ liệu mất cân bằng trong bài toán dự báo?
    Sử dụng các kỹ thuật lấy mẫu như over-sampling và under-sampling để cân bằng dữ liệu, giúp mô hình học máy không bị thiên lệch và nâng cao hiệu quả dự báo.

  5. Có thể áp dụng mô hình này cho các môn học khác ngoài tiếng Anh không?
    Có thể, vì các kỹ thuật học máy và khai phá dữ liệu được thiết kế linh hoạt, tuy nhiên cần điều chỉnh đặc trưng và dữ liệu phù hợp với từng môn học và đối tượng học viên cụ thể.

Kết luận

  • Luận văn đã xây dựng thành công mô hình dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến dựa trên khoa học dữ liệu với độ chính xác cao.
  • Các yếu tố như độ dài khóa học, hành vi học viên và kinh nghiệm giảng viên được xác định là những nhân tố quan trọng ảnh hưởng đến quyết định bỏ học.
  • Mô hình kết hợp giữa Random Forest, XGBoost, Gradient Boosting và Feed-forward Neural Network cho thấy hiệu quả vượt trội trong dự báo so với các mô hình đơn lẻ.
  • Kết quả nghiên cứu cung cấp cơ sở khoa học để các cơ sở đào tạo trực tuyến triển khai các biện pháp can thiệp kịp thời, nâng cao tỷ lệ duy trì học viên.
  • Các bước tiếp theo bao gồm triển khai mô hình trong thực tế, mở rộng nghiên cứu sang các môn học khác và phát triển hệ thống cảnh báo sớm tự động.

Hành động ngay: Các nhà quản lý và giảng viên nên áp dụng mô hình dự báo này để nâng cao hiệu quả đào tạo và giảm thiểu tình trạng học viên bỏ học trong các khóa học trực tuyến.