Tổng quan nghiên cứu

Trong bối cảnh giáo dục trực tuyến ngày càng phát triển, vấn đề học viên bỏ học trở thành thách thức lớn đối với các cơ sở đào tạo, đặc biệt là các khóa học tiếng Anh trực tuyến. Theo ước tính, tỷ lệ học viên bỏ học trong các khóa học trực tuyến tiếng Anh tại một cơ sở đào tạo ở Bình Dương chiếm tỷ lệ rất nhỏ so với tổng số học viên, tuy nhiên ảnh hưởng tiêu cực đến hiệu quả đào tạo và chi phí duy trì hệ thống là không thể xem nhẹ. Mục tiêu nghiên cứu của luận văn là dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến theo từng giai đoạn bằng các kỹ thuật khoa học dữ liệu, nhằm giúp các cơ sở đào tạo có biện pháp can thiệp kịp thời, nâng cao tỷ lệ duy trì học viên.

Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ một cơ sở đào tạo tiếng Anh trực tuyến tại Bình Dương trong năm 2022 với tổng cộng 8.922 bản ghi học viên và 118 thuộc tính liên quan đến hành vi học tập, đặc điểm khóa học, giảng viên và môi trường học tập. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số như tỷ lệ học viên bỏ học, hiệu quả đào tạo và chất lượng dịch vụ giáo dục trực tuyến. Việc ứng dụng các mô hình học máy và khai phá dữ liệu giúp dự báo chính xác hơn khả năng nghỉ học, từ đó hỗ trợ các nhà quản lý giáo dục đưa ra các quyết định chiến lược phù hợp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Học trực tuyến (E-learning): Phương thức phân phối nội dung học tập qua các công cụ điện tử, có tính tương tác cao giữa giảng viên và học viên, giúp giảm chi phí và tăng tính linh hoạt trong đào tạo.
  • Khai phá dữ liệu giáo dục (Educational Data Mining - EDM): Phân tích dữ liệu học viên để hiểu hành vi học tập, dự đoán thành tích và khả năng bỏ học nhằm cải thiện môi trường học tập.
  • Học máy (Machine Learning - ML): Sử dụng các thuật toán như Rừng ngẫu nhiên (Random Forest), Tăng cường độ dốc (Gradient Boosting), Tăng cường độ dốc cực cao (XGBoost) và Mạng thần kinh nhân tạo (Artificial Neural Network - ANN) để xây dựng mô hình dự báo.
  • Mô hình kết hợp (Ensemble Learning): Kết hợp nhiều thuật toán dự báo để nâng cao độ chính xác và giảm thiểu sai số, trong đó mô hình mạng thần kinh chuyển tiếp nguồn cấp dữ liệu (Feed-forward Neural Network - FNN) được sử dụng để tổng hợp kết quả từ các mô hình khác.

Các khái niệm chính bao gồm: tỷ lệ bỏ học (churn rate), đặc trưng dữ liệu (feature selection), xử lý dữ liệu mất cân bằng (imbalanced data handling), và đánh giá mô hình qua các chỉ số như độ chính xác (precision) và diện tích dưới đường cong ROC (AUC-ROC).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu thu thập từ một cơ sở đào tạo tiếng Anh trực tuyến tại Bình Dương, gồm 8.922 bản ghi với 118 thuộc tính liên quan đến học viên, khóa học, giảng viên và môi trường học tập. Dữ liệu được thu thập trong năm 2022, bao gồm các thông tin về hành vi học tập, điểm số, số lần đăng nhập, số buổi học, và các đặc điểm khóa học.

Phương pháp nghiên cứu bao gồm các bước:

  1. Tiền xử lý dữ liệu: Làm sạch, chuẩn hóa, xử lý dữ liệu thiếu, loại bỏ các thuộc tính không cần thiết, chuyển đổi dữ liệu dạng số sang dạng phân loại phù hợp.
  2. Lựa chọn đặc trưng: Sử dụng các phương pháp lọc (filter), gói (wrapper) và nhúng (embedded) để chọn ra các thuộc tính quan trọng nhất ảnh hưởng đến khả năng nghỉ học.
  3. Xây dựng mô hình dự báo: Áp dụng các thuật toán học máy gồm Random Forest, Gradient Boosting, XGBoost và FNN. Mô hình kết hợp được xây dựng theo hai lớp: lớp đầu tiên sử dụng ba thuật toán RF, GB, XGBoost để dự đoán tạm thời; lớp thứ hai sử dụng FNN để tổng hợp và đưa ra dự đoán cuối cùng.
  4. Đánh giá mô hình: Sử dụng phương pháp kiểm tra chéo (cross-validation) với tỷ lệ chia dữ liệu 80% cho huấn luyện và 20% cho kiểm tra, đánh giá hiệu năng qua các chỉ số precision và AUC-ROC.

Thời gian nghiên cứu kéo dài trong năm 2022, tập trung vào phân tích dữ liệu, xây dựng và đánh giá mô hình dự báo.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tỷ lệ học viên bỏ học thấp nhưng có xu hướng tăng theo độ tuổi: Trong tổng số 8.922 học viên, tỷ lệ bỏ học chiếm khoảng 1,4%. Độ tuổi từ 3 đến 7 chiếm tỷ lệ lớn nhất trong số học viên bỏ học, cho thấy nhóm tuổi này có nguy cơ nghỉ học cao hơn các nhóm khác.

  2. Ảnh hưởng của đặc điểm khóa học: Các khóa học có độ dài từ 301 đến 400 buổi có tỷ lệ học viên bỏ học lên đến 8,81%, cao hơn đáng kể so với các nhóm khóa học khác. Khóa học có số tiết học trên 180 cũng có tỷ lệ bỏ học tương đối cao (15,7%).

  3. Tác động của thời gian và lịch học: Các khóa học có buổi học vào thứ 7 và chủ nhật có tỷ lệ bỏ học cao hơn các ngày trong tuần khác, cho thấy lịch học cuối tuần có thể ảnh hưởng đến quyết định nghỉ học.

  4. Ảnh hưởng của giảng viên và hành vi học viên: Học viên có giảng viên kinh nghiệm dưới 2 năm có tỷ lệ bỏ học cao hơn. Ngoài ra, học viên có số lần đăng nhập hệ thống thấp cũng có nguy cơ nghỉ học cao hơn, trong khi các yếu tố như tỷ lệ hoàn thành bài tập và số buổi vắng mặt không cho thấy sự khác biệt rõ ràng.

Thảo luận kết quả

Kết quả cho thấy các yếu tố liên quan đến đặc điểm khóa học và hành vi học viên đóng vai trò quan trọng trong việc dự báo khả năng nghỉ học. Đặc biệt, độ dài khóa học và lịch học cuối tuần là những yếu tố cần được chú ý trong thiết kế chương trình đào tạo để giảm thiểu tỷ lệ bỏ học. Việc giảng viên có kinh nghiệm cũng góp phần giữ chân học viên, phù hợp với các nghiên cứu trước đây nhấn mạnh vai trò của chất lượng giảng dạy trong duy trì học viên.

Mô hình kết hợp sử dụng RF, GB, XGBoost và FNN cho kết quả dự báo với độ chính xác cao hơn so với các mô hình đơn lẻ, thể hiện qua chỉ số precision và AUC-ROC vượt trội. Dữ liệu được trình bày qua các biểu đồ phân bố tỷ lệ bỏ học theo từng đặc trưng giúp minh họa rõ ràng mức độ ảnh hưởng của từng yếu tố.

So với các nghiên cứu trong lĩnh vực khai phá dữ liệu giáo dục, nghiên cứu này bổ sung thêm góc nhìn về dự báo nghỉ học trong môi trường học tiếng Anh trực tuyến tại Việt Nam, góp phần nâng cao hiệu quả quản lý và phát triển giáo dục trực tuyến.

Đề xuất và khuyến nghị

  1. Tối ưu hóa lịch học: Điều chỉnh lịch học tránh các buổi học vào thứ 7 và chủ nhật hoặc thiết kế các chương trình học linh hoạt nhằm giảm áp lực cho học viên, dự kiến thực hiện trong vòng 6 tháng tới, do phòng đào tạo và bộ phận quản lý khóa học chịu trách nhiệm.

  2. Rút ngắn độ dài khóa học: Xem xét thiết kế lại các khóa học có độ dài trên 300 buổi để giảm tỷ lệ bỏ học, đồng thời tăng cường các hoạt động hỗ trợ học viên trong các khóa dài, thực hiện trong 1 năm, do bộ phận phát triển chương trình đào tạo đảm nhiệm.

  3. Nâng cao chất lượng giảng viên: Tăng cường đào tạo, bồi dưỡng kinh nghiệm cho giảng viên mới dưới 2 năm kinh nghiệm, đồng thời xây dựng hệ thống đánh giá và phản hồi chất lượng giảng dạy, thực hiện liên tục, do phòng nhân sự và đào tạo giảng viên quản lý.

  4. Tăng cường tương tác và theo dõi học viên: Sử dụng hệ thống cảnh báo sớm dựa trên mô hình dự báo để phát hiện học viên có nguy cơ nghỉ học, từ đó triển khai các biện pháp hỗ trợ cá nhân hóa như tư vấn, nhắc nhở, khuyến khích tham gia hoạt động học tập, thực hiện hàng quý, do bộ phận chăm sóc khách hàng và quản lý học viên thực hiện.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý giáo dục trực tuyến: Giúp hiểu rõ các yếu tố ảnh hưởng đến tỷ lệ học viên bỏ học, từ đó xây dựng chính sách và chiến lược duy trì học viên hiệu quả.

  2. Giảng viên và nhân viên đào tạo: Nắm bắt được các đặc điểm hành vi học viên để điều chỉnh phương pháp giảng dạy, tăng cường tương tác và hỗ trợ học viên kịp thời.

  3. Chuyên gia phân tích dữ liệu giáo dục: Tham khảo phương pháp tiền xử lý dữ liệu, lựa chọn đặc trưng và xây dựng mô hình dự báo kết hợp các thuật toán học máy hiện đại.

  4. Các nhà phát triển phần mềm giáo dục: Áp dụng mô hình dự báo vào hệ thống quản lý học tập (LMS) để tích hợp chức năng cảnh báo sớm và hỗ trợ học viên, nâng cao trải nghiệm người dùng.

Câu hỏi thường gặp

  1. Tại sao tỷ lệ học viên bỏ học lại thấp nhưng vẫn cần dự báo?
    Mặc dù tỷ lệ bỏ học chỉ khoảng 1,4%, nhưng việc dự báo giúp phát hiện sớm các học viên có nguy cơ, từ đó can thiệp kịp thời để giảm thiểu tổn thất về kinh tế và uy tín đào tạo.

  2. Các mô hình học máy nào được sử dụng trong nghiên cứu?
    Nghiên cứu sử dụng các thuật toán Random Forest, Gradient Boosting, XGBoost và mạng thần kinh nhân tạo FNN, kết hợp để nâng cao độ chính xác dự báo.

  3. Dữ liệu mất cân bằng ảnh hưởng thế nào đến mô hình?
    Dữ liệu mất cân bằng (số học viên bỏ học rất ít so với không bỏ học) có thể làm giảm hiệu quả mô hình, do đó nghiên cứu áp dụng kỹ thuật lấy mẫu và lựa chọn đặc trưng để cải thiện.

  4. Yếu tố nào ảnh hưởng nhiều nhất đến khả năng nghỉ học?
    Độ dài khóa học, lịch học cuối tuần, kinh nghiệm giảng viên và số lần đăng nhập hệ thống là những yếu tố có ảnh hưởng rõ rệt đến quyết định nghỉ học của học viên.

  5. Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế?
    Các cơ sở đào tạo có thể tích hợp mô hình dự báo vào hệ thống quản lý học tập để theo dõi và cảnh báo sớm học viên có nguy cơ nghỉ học, từ đó triển khai các biện pháp hỗ trợ phù hợp.

Kết luận

  • Luận văn đã xây dựng thành công mô hình dự báo khả năng nghỉ học của học viên tiếng Anh trực tuyến dựa trên dữ liệu thực tế với 8.922 bản ghi và 118 thuộc tính.
  • Mô hình kết hợp giữa Random Forest, Gradient Boosting, XGBoost và FNN cho kết quả dự báo chính xác, vượt trội so với các mô hình đơn lẻ.
  • Các yếu tố như độ dài khóa học, lịch học cuối tuần, kinh nghiệm giảng viên và hành vi đăng nhập học viên được xác định là những nhân tố quan trọng ảnh hưởng đến khả năng nghỉ học.
  • Đề xuất các giải pháp tối ưu lịch học, rút ngắn độ dài khóa học, nâng cao chất lượng giảng viên và tăng cường tương tác học viên nhằm giảm tỷ lệ bỏ học.
  • Các bước tiếp theo bao gồm triển khai mô hình dự báo vào hệ thống quản lý học tập, theo dõi hiệu quả và điều chỉnh chính sách đào tạo phù hợp; kêu gọi các cơ sở đào tạo áp dụng nghiên cứu để nâng cao chất lượng giáo dục trực tuyến.