Tổng quan nghiên cứu

Trong bối cảnh đại dịch Covid-19 gây ảnh hưởng sâu rộng đến nhiều lĩnh vực, đặc biệt là giáo dục, việc ứng dụng công nghệ thông tin trong công tác tuyển sinh đại học trở nên cấp thiết. Tại Trường Đại học Công nghệ Đồng Nai, công tác dự đoán kết quả tuyển sinh gặp nhiều khó khăn do dựa chủ yếu vào kinh nghiệm và khảo sát hạn chế, dẫn đến dự báo không chính xác. Mục tiêu của luận văn là xây dựng mô hình dự đoán số lượng sinh viên nhập học và lựa chọn ngành học dựa trên dữ liệu tuyển sinh thực tế từ năm 2017 đến 2021, nhằm hỗ trợ nhà trường chuẩn bị nguồn lực đào tạo hiệu quả. Nghiên cứu sử dụng thuật toán cây hồi quy tăng cường (Gradient Boosting Regression Trees) và thuật toán luật kết hợp Apriori để khai thác dữ liệu tuyển sinh, với tổng số dữ liệu hơn 20.000 hồ sơ sinh viên đăng ký xét tuyển trong 5 năm. Kết quả dự đoán không chỉ giúp nhà trường cân đối ngân sách, đội ngũ giảng viên và cơ sở vật chất mà còn nâng cao chất lượng tuyển sinh, đảm bảo chỉ tiêu đào tạo. Việc ứng dụng máy học trong dự đoán tuyển sinh góp phần thúc đẩy chuyển đổi số trong giáo dục đại học, đồng thời tạo nền tảng cho các nghiên cứu tiếp theo về dự báo hành vi sinh viên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực máy học và khai phá dữ liệu:

  • Cây hồi quy tăng cường (Gradient Boosting Regression Trees - BRT): Kết hợp cây hồi quy và thuật toán tăng cường, mô hình này xây dựng chuỗi các cây quyết định nhỏ (stump) để khớp phần dư của mô hình trước đó, từ đó cải thiện độ chính xác dự đoán. BRT khắc phục nhược điểm của cây quyết định truyền thống về thời gian học lại khi thêm dữ liệu mới, đồng thời kiểm soát hiện tượng quá khớp bằng cách giới hạn độ sâu cây và sử dụng hệ số học (learning rate).

  • Thuật toán luật kết hợp Apriori: Thuật toán khai phá các tập luật phổ biến trong dữ liệu lớn dựa trên nguyên lý "mọi tập con của tập phổ biến đều phổ biến". Apriori giúp phát hiện các mối quan hệ giữa các đặc điểm sinh viên và lựa chọn ngành học, dựa trên các chỉ số độ hỗ trợ (support) và độ tin cậy (confidence) được thiết lập trước.

Các khái niệm chính bao gồm: entropy, độ lợi thông tin (information gain), chỉ số Gini trong cây quyết định; độ hỗ trợ và độ tin cậy trong luật kết hợp; học có giám sát và không giám sát trong máy học; các tham số hiệu chỉnh như số lượng cây, độ sâu cây, hệ số học trong BRT.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là thông tin tuyển sinh của Trường Đại học Công nghệ Đồng Nai từ năm 2017 đến 2021, gồm hơn 20.000 hồ sơ sinh viên với các biến như giới tính, điểm trung bình xét tuyển, khu vực tuyển sinh, phương thức xét tuyển, tình trạng tốt nghiệp, chương trình học THPT, địa chỉ, ngành đăng ký và trạng thái nhập học. Dữ liệu được chuẩn hóa, xử lý thiếu và trùng lặp, sau đó lưu trữ trong hệ quản trị cơ sở dữ liệu quan hệ.

Phương pháp phân tích gồm hai giai đoạn:

  1. Huấn luyện mô hình cây hồi quy tăng cường: Dữ liệu được chia thành ba tập: huấn luyện (train), kiểm thử (test) và đánh giá (validation). Mô hình BRT được xây dựng với 300 cây, learning rate 0.3, sử dụng phần mềm STATISTICA và ngôn ngữ Python trên môi trường Windows. Mục tiêu là dự đoán số lượng sinh viên nhập học hàng năm.

  2. Xây dựng luật kết hợp Apriori: Áp dụng trên tập dữ liệu sinh viên đã nhập học để khai thác các luật liên quan đến lựa chọn ngành học dựa trên các đặc điểm cá nhân. Các tham số độ hỗ trợ và độ tin cậy được thiết lập nhằm giới hạn số lượng luật tạo ra.

Quá trình nghiên cứu kéo dài trong năm 2022, tập trung phân tích dữ liệu thực tế tại Đồng Nai, đảm bảo tính ứng dụng cao cho nhà trường.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ quan trọng của biến trong dự đoán nhập học: Kết quả mô hình BRT cho thấy biến "Khu vực" và "Địa chỉ" có ảnh hưởng lớn nhất đến khả năng sinh viên nhập học, chiếm tỷ trọng quan trọng trong mô hình dự đoán. Điều này phản ánh xu hướng sinh viên ưu tiên học tại các trường gần nơi cư trú.

  2. Số lượng sinh viên đăng ký và nhập học qua các năm: Từ năm 2017 đến 2021, số lượng sinh viên đăng ký dao động từ 3.317 đến 6.053, trong khi số lượng nhập học thực tế từ 1.367 đến 2.000 sinh viên mỗi năm. Tỷ lệ nhập học so với đăng ký trung bình khoảng 33-40%.

  3. Dự đoán số lượng sinh viên nhập học các năm tiếp theo: Mô hình dự báo năm 2022 có khoảng 1.671 sinh viên nhập học, năm 2023 và 2024 dự kiến duy trì ở mức 2.000 sinh viên, năm 2025 giảm nhẹ còn khoảng 1.873 sinh viên. Xu hướng này phù hợp với dữ liệu lịch sử nhưng có thể chưa phản ánh đầy đủ do giới hạn dữ liệu 5 năm.

  4. Luật kết hợp trong lựa chọn ngành học: Thuật toán Apriori phát hiện các luật liên quan đến đặc điểm sinh viên và ngành học, ví dụ sinh viên nam có xu hướng chọn Khoa Công nghệ, sinh viên nữ có thể ưu tiên Khoa Ngoại ngữ hoặc Khoa Kế toán – Tài chính. Độ hỗ trợ và độ tin cậy của các luật này đảm bảo tính chính xác và khả năng ứng dụng trong tư vấn tuyển sinh.

Thảo luận kết quả

Nguyên nhân chính của các phát hiện là do yếu tố địa lý và đặc điểm cá nhân ảnh hưởng mạnh đến quyết định nhập học và lựa chọn ngành. So với các nghiên cứu trong nước và quốc tế, kết quả tương đồng với xu hướng sinh viên ưu tiên học gần nhà và lựa chọn ngành phù hợp với năng lực và sở thích cá nhân. Việc sử dụng cây hồi quy tăng cường giúp cải thiện độ chính xác dự đoán so với các mô hình truyền thống như mạng nơ-ron hay cây quyết định đơn lẻ, đồng thời giảm thời gian huấn luyện khi cập nhật dữ liệu mới.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện số lượng sinh viên đăng ký và nhập học qua các năm, biểu đồ tròn phân bố tỷ lệ lựa chọn ngành theo giới tính, và bảng tóm tắt các luật kết hợp quan trọng với độ hỗ trợ và độ tin cậy. Những kết quả này có ý nghĩa thực tiễn lớn trong việc hoạch định chiến lược tuyển sinh, phân bổ nguồn lực đào tạo và tư vấn ngành học cho sinh viên.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống dự đoán tuyển sinh tự động: Áp dụng mô hình cây hồi quy tăng cường và luật kết hợp Apriori vào phần mềm quản lý tuyển sinh của trường, giúp dự báo chính xác số lượng sinh viên nhập học và lựa chọn ngành. Thời gian thực hiện trong 6 tháng, chủ thể là phòng đào tạo và công nghệ thông tin.

  2. Tăng cường thu thập và cập nhật dữ liệu tuyển sinh: Mở rộng phạm vi dữ liệu thu thập thêm các năm tiếp theo và các trường lân cận để nâng cao độ chính xác mô hình. Thời gian liên tục hàng năm, do bộ phận quản lý dữ liệu thực hiện.

  3. Tổ chức đào tạo và hướng dẫn sử dụng công cụ dự đoán: Đào tạo cán bộ tuyển sinh và tư vấn viên về cách sử dụng phần mềm dự đoán và phân tích luật kết hợp để hỗ trợ sinh viên chọn ngành phù hợp. Thời gian 3 tháng, do phòng đào tạo phối hợp với khoa CNTT.

  4. Phát triển các mô hình dự đoán bổ sung: Nghiên cứu áp dụng thêm các thuật toán máy học khác như mạng nơ-ron nhân tạo, học sâu để so sánh và nâng cao hiệu quả dự đoán, đặc biệt trong dự báo hành vi đăng ký học phần của sinh viên. Thời gian 1 năm, do nhóm nghiên cứu khoa CNTT thực hiện.

Đối tượng nên tham khảo luận văn

  1. Ban giám hiệu và phòng đào tạo các trường đại học: Giúp hoạch định chiến lược tuyển sinh, phân bổ nguồn lực đào tạo dựa trên dự báo chính xác số lượng sinh viên nhập học và lựa chọn ngành.

  2. Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Khoa học dữ liệu: Cung cấp phương pháp ứng dụng máy học trong lĩnh vực giáo dục, đặc biệt là khai phá dữ liệu tuyển sinh.

  3. Chuyên viên công tác tuyển sinh và tư vấn hướng nghiệp: Hỗ trợ tư vấn sinh viên lựa chọn ngành học phù hợp dựa trên các luật kết hợp được khai phá từ dữ liệu thực tế.

  4. Các tổ chức quản lý giáo dục và hoạch định chính sách: Tham khảo mô hình dự báo để xây dựng các chính sách tuyển sinh, đào tạo phù hợp với xu hướng và nhu cầu thực tế.

Câu hỏi thường gặp

  1. Mô hình cây hồi quy tăng cường có ưu điểm gì so với các mô hình khác?
    Mô hình này kết hợp nhiều cây quyết định nhỏ để khớp phần dư của mô hình trước đó, giúp cải thiện độ chính xác và giảm hiện tượng quá khớp. Ví dụ, trong nghiên cứu, BRT cho kết quả dự đoán số lượng sinh viên nhập học chính xác hơn so với mạng nơ-ron truyền thống.

  2. Thuật toán Apriori được sử dụng như thế nào trong dự đoán ngành học?
    Apriori khai phá các luật kết hợp giữa đặc điểm sinh viên và ngành học dựa trên độ hỗ trợ và độ tin cậy. Ví dụ, luật cho thấy sinh viên nam thường chọn Khoa Công nghệ với độ tin cậy cao, giúp tư vấn viên đưa ra lời khuyên phù hợp.

  3. Dữ liệu tuyển sinh được chuẩn bị và xử lý ra sao?
    Dữ liệu thu thập từ năm 2017-2021, được chuẩn hóa, loại bỏ dữ liệu thiếu hoặc trùng lặp, chuyển đổi các biến dạng chuỗi sang dạng số để phù hợp với mô hình máy học. Điều này đảm bảo tính chính xác và hiệu quả của mô hình.

  4. Mô hình dự đoán có thể áp dụng cho các trường khác không?
    Có thể, với điều kiện dữ liệu tuyển sinh tương tự và được chuẩn hóa đúng cách. Mô hình có tính tổng quát cao và có thể điều chỉnh tham số để phù hợp với từng trường.

  5. Làm thế nào để cập nhật mô hình khi có dữ liệu mới?
    Mô hình cây hồi quy tăng cường cho phép cập nhật nhanh mà không cần học lại toàn bộ từ đầu, tiết kiệm thời gian và tài nguyên. Nhà trường chỉ cần bổ sung dữ liệu mới và huấn luyện tiếp tục mô hình hiện có.

Kết luận

  • Luận văn đã xây dựng thành công mô hình dự đoán kết quả tuyển sinh dựa trên cây hồi quy tăng cường và luật kết hợp Apriori, sử dụng dữ liệu thực tế từ năm 2017 đến 2021.
  • Mô hình giúp dự báo chính xác số lượng sinh viên nhập học và lựa chọn ngành, hỗ trợ nhà trường trong công tác chuẩn bị nguồn lực đào tạo.
  • Kết quả nghiên cứu khẳng định vai trò quan trọng của các biến như khu vực và địa chỉ trong quyết định nhập học của sinh viên.
  • Đề xuất triển khai hệ thống dự đoán tự động và mở rộng nghiên cứu với các thuật toán máy học khác để nâng cao hiệu quả ứng dụng.
  • Các bước tiếp theo bao gồm cập nhật dữ liệu liên tục, đào tạo cán bộ sử dụng công cụ và phát triển mô hình dự đoán hành vi sinh viên trong học tập.

Hãy áp dụng các giải pháp này để nâng cao hiệu quả công tác tuyển sinh và đào tạo tại trường đại học của bạn ngay hôm nay!