Tổng quan nghiên cứu

Trong bối cảnh nền kinh tế tri thức và toàn cầu hóa, việc nâng cao chất lượng giáo dục đại học trở thành ưu tiên hàng đầu nhằm đáp ứng nhu cầu nguồn nhân lực chất lượng cao. Tại Việt Nam, quá trình số hóa và đổi mới toàn diện giáo dục đại học đang diễn ra mạnh mẽ, trong đó việc ứng dụng dữ liệu học tập sinh viên để dự đoán kết quả học tập là một hướng nghiên cứu thiết thực. Trường Đại học Bách Khoa - Đại học Quốc gia TP. Hồ Chí Minh (ĐHBK) sở hữu một kho dữ liệu lớn về điểm số sinh viên từ năm 2014 đến 2017, với gần 3.000 sinh viên và hơn 60.000 bản ghi điểm các môn học thuộc 12 khoa và 2 trung tâm đào tạo. Tuy nhiên, việc khai thác dữ liệu này để dự báo điểm số sinh viên và hỗ trợ quản lý đào tạo còn nhiều hạn chế.

Mục tiêu nghiên cứu là phát triển kỹ thuật lấy mẫu dữ liệu kết hợp giữa thống kê truyền thống và học máy (Machine Learning) nhằm xây dựng mô hình dự đoán điểm số các môn học của sinh viên đại học dựa trên dữ liệu quá khứ. Phạm vi nghiên cứu tập trung trên bộ dữ liệu sinh viên chính quy của ĐHBK trong giai đoạn 2014-2017. Nghiên cứu hướng đến việc xây dựng tập dữ liệu huấn luyện nhỏ gọn nhưng vẫn đảm bảo độ chính xác dự đoán cao, từ đó hỗ trợ sinh viên trong việc lựa chọn môn học phù hợp, đồng thời giúp nhà trường cải thiện công tác quản lý đào tạo và tư vấn học tập.

Ý nghĩa nghiên cứu thể hiện rõ qua việc ứng dụng kỹ thuật lấy mẫu và mô hình dự đoán điểm nhằm nâng cao hiệu quả học tập, giảm thiểu rủi ro điểm thấp, đồng thời cung cấp công cụ hỗ trợ cho cố vấn học tập và quản lý đào tạo trong việc phát hiện sớm các môn học có tỷ lệ sinh viên đạt thấp để có biện pháp cải thiện kịp thời.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: kỹ thuật lấy mẫu trong thống kê và các thuật toán học máy, đặc biệt là mô hình tăng cường độ dốc (Gradient Boosting) và XGBoost.

  • Kỹ thuật lấy mẫu (Sampling): Là phương pháp chọn một tập con đại diện từ tổng thể dữ liệu lớn nhằm giảm chi phí và thời gian xử lý, đồng thời đảm bảo tính đại diện và độ chính xác của phân tích. Phương pháp lấy mẫu theo nhóm (Clustering Sampling) được áp dụng để gom nhóm các sinh viên học chung các môn học hoặc thuộc cùng khoa, từ đó chọn mẫu đại diện phù hợp.

  • Mô hình Gradient Boosting: Thuật toán học máy tăng cường độ dốc xây dựng mô hình dự đoán bằng cách kết hợp nhiều mô hình đơn giản (weak learners) theo chuỗi, mỗi mô hình mới tập trung cải thiện các lỗi của mô hình trước đó, giúp tăng độ chính xác dự đoán.

  • XGBoost: Là phiên bản tối ưu của Gradient Boosting với khả năng xử lý song song, tăng tốc độ huấn luyện và cải thiện hiệu suất dự đoán, đặc biệt phù hợp với dữ liệu dạng bảng (tabular data) như dữ liệu điểm sinh viên.

Các khái niệm chính bao gồm: lấy mẫu ngẫu nhiên đơn giản, lấy mẫu theo nhóm, cây quyết định (Decision Trees), hàm mất mát (Loss function), kỹ thuật xuống đồi (Gradient Descent), và các chỉ số đánh giá mô hình như MAE, RMSE, MSE.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu điểm học tập của sinh viên chính quy ĐHBK từ năm 2014 đến 2017, gồm 2.995 sinh viên với 60.610 bản ghi điểm các môn học thuộc 12 khoa và 2 trung tâm đào tạo. Dữ liệu được thu thập từ hệ thống quản lý đào tạo của trường, bao gồm các thuộc tính như năm học, học kỳ, mã môn học, điểm kiểm tra, điểm thi, điểm tổng kết, v.v.

Phương pháp nghiên cứu bao gồm:

  • Tiền xử lý dữ liệu: Loại bỏ dữ liệu thiếu, dữ liệu không hợp lệ (điểm lớn hơn 10, điểm 0 không hợp lệ), chuẩn hóa định dạng, loại bỏ trùng lặp, chuyển đổi điểm chữ sang điểm số, và phân loại các môn học thành nhóm môn học chung và chuyên ngành.

  • Lấy mẫu theo nhóm: Áp dụng kỹ thuật lấy mẫu theo nhóm để chọn mẫu dữ liệu đại diện dựa trên các nhóm môn học chung và chuyên ngành, nhằm xây dựng tập dữ liệu huấn luyện nhỏ gọn nhưng vẫn đảm bảo tính đại diện.

  • Xây dựng mô hình dự đoán: Sử dụng thuật toán Gradient Boosting và XGBoost để huấn luyện mô hình dự đoán điểm số các môn học dựa trên dữ liệu mẫu đã chọn.

  • Đánh giá mô hình: Sử dụng các chỉ số MAE, RMSE, MSE để đánh giá độ chính xác của mô hình dự đoán trên tập kiểm thử.

Thời gian nghiên cứu kéo dài từ tháng 2 đến tháng 6 năm 2023, với các giai đoạn thu thập và tiền xử lý dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phân bố điểm sinh viên: Dữ liệu điểm sinh viên có phân phối bất đối xứng trái với chỉ số skewness khoảng -0,6375 và độ nhọn kurtosis khoảng 0,343, cho thấy phần lớn sinh viên có điểm tập trung ở mức cao hơn trung bình. Biểu đồ phân bố điểm của từng khoa cho thấy sự khác biệt rõ rệt về mức độ phân bố điểm giữa các khoa, phản ánh đặc thù đào tạo và mức độ khó của từng ngành.

  2. Hiệu quả lấy mẫu theo nhóm: Việc áp dụng kỹ thuật lấy mẫu theo nhóm dựa trên các môn học chung và chuyên ngành giúp giảm kích thước tập dữ liệu huấn luyện xuống còn khoảng 30-40% so với toàn bộ dữ liệu nhưng vẫn giữ được độ chính xác dự đoán cao. Ví dụ, mô hình Gradient Boosting với tập mẫu nhóm các môn học chung đạt RMSE giảm khoảng 15% so với lấy mẫu ngẫu nhiên đơn giản.

  3. Độ chính xác mô hình dự đoán: Mô hình XGBoost cho kết quả dự đoán điểm sinh viên với độ chính xác cao hơn so với Gradient Boosting truyền thống, với chỉ số MAE trung bình khoảng 0,35 điểm và RMSE khoảng 0,45 điểm trên thang điểm 10. Việc kết hợp lấy mẫu theo nhóm với XGBoost giúp cải thiện độ chính xác dự đoán thêm khoảng 10% so với không áp dụng lấy mẫu nhóm.

  4. Ứng dụng thực tiễn: Mô hình dự đoán có thể cảnh báo sớm các môn học mà sinh viên có nguy cơ đạt điểm thấp, hỗ trợ cố vấn học tập và sinh viên trong việc lựa chọn môn học phù hợp, từ đó nâng cao hiệu quả học tập và giảm tỷ lệ học lại.

Thảo luận kết quả

Kết quả phân tích phân bố điểm cho thấy đặc trưng dữ liệu có sự bất đối xứng và phân tán không đồng đều giữa các khoa, điều này đòi hỏi kỹ thuật lấy mẫu phải đảm bảo tính đại diện cho từng nhóm ngành để mô hình dự đoán không bị lệch. Việc áp dụng lấy mẫu theo nhóm đã giải quyết hiệu quả vấn đề này, giúp giảm thiểu bias và tăng tính tổng quát của mô hình.

So sánh với các nghiên cứu trước trong lĩnh vực giáo dục đại học, kết quả sử dụng XGBoost và kỹ thuật lấy mẫu nhóm tương đồng với các báo cáo cho thấy XGBoost là thuật toán mạnh mẽ trong dự đoán kết quả học tập với dữ liệu phức tạp và đa dạng. Việc giảm kích thước tập huấn luyện mà vẫn giữ được độ chính xác cao giúp tiết kiệm tài nguyên tính toán và thời gian huấn luyện, phù hợp với các trường đại học có quy mô dữ liệu lớn.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố điểm theo từng khoa, biểu đồ so sánh độ chính xác mô hình với các phương pháp lấy mẫu khác nhau, và bảng tổng hợp các chỉ số MAE, RMSE để minh họa hiệu quả của kỹ thuật lấy mẫu và mô hình dự đoán.

Đề xuất và khuyến nghị

  1. Áp dụng kỹ thuật lấy mẫu theo nhóm trong quản lý dữ liệu sinh viên: Các khoa và phòng đào tạo nên triển khai lấy mẫu theo nhóm dựa trên đặc điểm môn học và ngành học để xây dựng các tập dữ liệu huấn luyện nhỏ gọn, giúp giảm chi phí xử lý và nâng cao hiệu quả phân tích dự đoán điểm. Thời gian thực hiện trong vòng 6 tháng, do phòng công nghệ thông tin phối hợp với các khoa chủ trì.

  2. Triển khai mô hình dự đoán điểm sử dụng XGBoost: Nhà trường nên áp dụng mô hình XGBoost kết hợp lấy mẫu nhóm để dự đoán điểm số sinh viên, hỗ trợ cố vấn học tập trong việc tư vấn đăng ký môn học và cảnh báo sớm các môn học có nguy cơ điểm thấp. Mục tiêu nâng cao độ chính xác dự đoán ít nhất 10% so với phương pháp hiện tại, triển khai trong 1 năm.

  3. Phát triển công cụ hỗ trợ sinh viên: Xây dựng hệ thống phần mềm dựa trên mô hình dự đoán để cung cấp cho sinh viên công cụ tự đánh giá khả năng học tập và lựa chọn môn học phù hợp, giúp sinh viên chủ động điều chỉnh kế hoạch học tập. Thời gian phát triển và thử nghiệm dự kiến 9 tháng, do phòng đào tạo và trung tâm công nghệ thông tin phối hợp thực hiện.

  4. Đào tạo và nâng cao năng lực cho cán bộ quản lý đào tạo: Tổ chức các khóa đào tạo về kỹ thuật lấy mẫu, phân tích dữ liệu và ứng dụng học máy cho cán bộ quản lý đào tạo và cố vấn học tập nhằm nâng cao năng lực sử dụng dữ liệu trong quản lý và tư vấn. Thời gian tổ chức định kỳ hàng năm, do phòng nhân sự và đào tạo chịu trách nhiệm.

Đối tượng nên tham khảo luận văn

  1. Cán bộ quản lý đào tạo đại học: Luận văn cung cấp phương pháp lấy mẫu và mô hình dự đoán điểm giúp cải thiện công tác quản lý đào tạo, lập kế hoạch giảng dạy và tư vấn học tập.

  2. Cố vấn học tập và giảng viên: Các đối tượng này có thể sử dụng kết quả dự đoán để tư vấn sinh viên lựa chọn môn học phù hợp, phát hiện sớm các môn học có tỷ lệ sinh viên yếu kém để có biện pháp hỗ trợ kịp thời.

  3. Nhà nghiên cứu trong lĩnh vực giáo dục và khoa học dữ liệu: Luận văn cung cấp cơ sở lý thuyết và phương pháp thực nghiệm về kỹ thuật lấy mẫu kết hợp học máy trong dự đoán kết quả học tập, là tài liệu tham khảo hữu ích cho các nghiên cứu tiếp theo.

  4. Sinh viên và người học: Sinh viên có thể sử dụng mô hình dự đoán để tự đánh giá khả năng học tập, lựa chọn môn học phù hợp nhằm nâng cao hiệu quả học tập và điểm số tích lũy.

Câu hỏi thường gặp

  1. Tại sao cần áp dụng kỹ thuật lấy mẫu trong dự đoán điểm sinh viên?
    Lấy mẫu giúp giảm kích thước dữ liệu cần xử lý, tiết kiệm thời gian và tài nguyên tính toán, đồng thời đảm bảo tính đại diện của dữ liệu để mô hình dự đoán có độ chính xác cao và khả năng tổng quát tốt.

  2. Phương pháp lấy mẫu theo nhóm có ưu điểm gì so với lấy mẫu ngẫu nhiên đơn giản?
    Lấy mẫu theo nhóm giúp đảm bảo các nhóm đặc trưng trong dữ liệu được đại diện đầy đủ, giảm bias và tăng tính chính xác của mô hình, trong khi lấy mẫu ngẫu nhiên đơn giản có thể bỏ sót các nhóm quan trọng.

  3. Mô hình XGBoost có điểm mạnh gì trong dự đoán điểm sinh viên?
    XGBoost có khả năng xử lý dữ liệu lớn nhanh chóng, tăng cường độ chính xác dự đoán nhờ kỹ thuật tăng cường độ dốc, đồng thời hỗ trợ xử lý dữ liệu dạng bảng và dữ liệu phân loại hiệu quả.

  4. Làm thế nào để đánh giá độ chính xác của mô hình dự đoán?
    Độ chính xác được đánh giá qua các chỉ số như MAE (Sai số tuyệt đối trung bình), RMSE (Sai số căn bậc hai trung bình), và MSE (Sai số bình phương trung bình). Giá trị các chỉ số này càng nhỏ thì mô hình càng chính xác.

  5. Ứng dụng thực tiễn của mô hình dự đoán điểm sinh viên là gì?
    Mô hình giúp cảnh báo sớm các môn học có nguy cơ điểm thấp, hỗ trợ sinh viên lựa chọn môn học phù hợp, giúp nhà trường cải thiện chương trình đào tạo và nâng cao hiệu quả quản lý đào tạo.

Kết luận

  • Luận văn đã nghiên cứu và phát triển kỹ thuật lấy mẫu theo nhóm kết hợp với mô hình học máy XGBoost để dự đoán điểm số sinh viên đại học dựa trên dữ liệu điểm học tập từ năm 2014 đến 2017 tại ĐHBK.
  • Kỹ thuật lấy mẫu theo nhóm giúp giảm kích thước tập dữ liệu huấn luyện khoảng 30-40% mà vẫn đảm bảo độ chính xác dự đoán cao, tiết kiệm tài nguyên tính toán.
  • Mô hình XGBoost cho kết quả dự đoán với MAE khoảng 0,35 và RMSE khoảng 0,45 trên thang điểm 10, vượt trội so với các phương pháp truyền thống.
  • Nghiên cứu có ý nghĩa thực tiễn lớn trong việc hỗ trợ sinh viên lựa chọn môn học, tư vấn học tập và nâng cao hiệu quả quản lý đào tạo tại các trường đại học.
  • Các bước tiếp theo bao gồm triển khai ứng dụng mô hình trong thực tế, phát triển công cụ hỗ trợ sinh viên và đào tạo cán bộ quản lý đào tạo về kỹ thuật lấy mẫu và học máy.

Hành động khuyến nghị: Các đơn vị đào tạo và quản lý giáo dục nên áp dụng kỹ thuật lấy mẫu theo nhóm và mô hình XGBoost để nâng cao chất lượng dự đoán và hỗ trợ quản lý đào tạo hiệu quả hơn.