Tổng quan nghiên cứu
Trong giai đoạn từ năm 2019 đến 2022, Trường Đại học Sư phạm Kỹ thuật TP.HCM đã tiến hành khảo sát hoạt động giảng dạy của giảng viên với sự tham gia của 27.369 sinh viên, 1.119 giảng viên và tổng cộng 27.760 lớp học phần. Dữ liệu khảo sát thu thập được lên đến 12.320 mẫu tin, phản ánh mức độ hài lòng của sinh viên đối với các môn học và giảng viên. Đồng thời, dữ liệu điểm học tập của 28.060 sinh viên với 2.112 môn học thuộc 45 ngành đào tạo cũng được thu thập để phục vụ cho việc dự đoán kết quả học tập.
Vấn đề nghiên cứu tập trung vào việc xây dựng và phân tích hệ thống khảo sát hoạt động giảng dạy trên nền tảng MongoDB nhằm cải thiện hiệu suất xử lý dữ liệu so với hệ thống hiện tại sử dụng SQL Server 2014. Mục tiêu cụ thể gồm: (1) phát triển hệ thống web khảo sát hoạt động giảng dạy giảng viên với khả năng lưu trữ và truy xuất dữ liệu nhanh, hiệu quả; (2) ứng dụng phân tích dữ liệu khảo sát kết hợp với kết quả học tập để hỗ trợ sinh viên lựa chọn môn học phù hợp, giảm thiểu cảnh báo học vụ và nâng cao kết quả học tập.
Phạm vi nghiên cứu bao gồm dữ liệu khảo sát và điểm học tập của sinh viên từ năm 2019 đến 2022 tại Trường Đại học Sư phạm Kỹ thuật TP.HCM. Ý nghĩa nghiên cứu thể hiện qua việc tối ưu hóa hệ thống quản lý dữ liệu khảo sát, nâng cao chất lượng giảng dạy và hỗ trợ sinh viên trong quá trình học tập, góp phần cải thiện các chỉ số KPI về đào tạo và học tập của nhà trường.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:
- Hệ thống gợi ý (Recommender System - RS): Là hệ thống lọc thông tin nhằm cung cấp đề xuất cá nhân hóa dựa trên dữ liệu đầu vào về người dùng và sản phẩm. Các thuật toán chính bao gồm lọc dựa trên nội dung (Content-Based Filtering), lọc cộng tác (Collaborative Filtering) và phân rã ma trận (Matrix Factorization).
- Thuật toán lọc cộng tác (Collaborative Filtering): Bao gồm hai dạng chính là dựa trên người dùng (user-based) và dựa trên sản phẩm (item-based), giúp dự đoán sở thích của người dùng dựa trên hành vi của cộng đồng.
- Phân rã ma trận có thiên vị (Biased Matrix Factorization - BMF): Thuật toán nâng cao của phân rã ma trận, được sử dụng để dự đoán điểm học tập của sinh viên dựa trên mối tương tác giữa sinh viên và môn học.
- Khái niệm về dữ liệu NoSQL và MongoDB: MongoDB cho phép lưu trữ dữ liệu dạng document với cấu trúc linh hoạt, hỗ trợ lưu trữ dữ liệu lồng nhau, tối ưu hóa truy vấn và thao tác dữ liệu lớn, phù hợp với hệ thống khảo sát có lượng dữ liệu lớn và đa dạng.
Phương pháp nghiên cứu
- Nguồn dữ liệu: Dữ liệu khảo sát hoạt động giảng dạy của giảng viên và điểm học tập của sinh viên từ năm 2019 đến 2022 tại Trường Đại học Sư phạm Kỹ thuật TP.HCM. Tổng số sinh viên khảo sát khoảng 28.000, với hơn 200.000 lớp học phần và hơn 4 triệu dòng dữ liệu khảo sát mỗi học kỳ.
- Phương pháp thu thập: Thu thập dữ liệu khảo sát qua hệ thống webapp xây dựng trên nền tảng Flask Python và MongoDB, đồng thời thu thập dữ liệu điểm học tập từ hệ thống quản lý đào tạo của nhà trường.
- Phương pháp phân tích: So sánh hiệu suất xử lý dữ liệu giữa MongoDB và SQL Server 2014 qua các thao tác truy xuất, chèn, xóa dữ liệu; áp dụng thuật toán lọc cộng tác và phân rã ma trận có thiên vị để dự đoán kết quả học tập; sử dụng Power BI để thống kê, tổng hợp và trực quan hóa dữ liệu khảo sát.
- Timeline nghiên cứu: Nghiên cứu và thu thập dữ liệu trong vòng 4 năm (2019-2022), xây dựng hệ thống và thực nghiệm so sánh hiệu suất trong năm 2023, triển khai mô hình dự đoán và phân tích dữ liệu trong cùng năm.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
-
Hiệu suất xử lý dữ liệu trên MongoDB vượt trội so với SQL Server:
- Thời gian truy xuất dữ liệu trên MongoDB chỉ khoảng 0,0099 giây, trong khi trên SQL Server mất đến 5,273 giây, nhanh hơn gần 530 lần.
- Thời gian xóa dữ liệu trên MongoDB khoảng 0,00096 giây, so với 4,280 giây trên SQL Server, cải thiện đáng kể hiệu suất thao tác.
- Dung lượng lưu trữ dữ liệu trên MongoDB giảm còn khoảng 34,35% so với SQL Server, giúp tiết kiệm không gian lưu trữ và tăng tốc độ sao lưu.
-
Giảm thiểu số lượng bảng và documents trong MongoDB:
- Việc lưu trữ dữ liệu khảo sát trên một Collection duy nhất (SurveyResult) với khoảng 972.000 documents thay vì 2 bảng VoteResult và VoteResultDetail với hơn 18 triệu dòng dữ liệu giúp giảm 20 lần số lượng bản ghi, tối ưu hóa truy vấn và thao tác dữ liệu.
-
Mức độ hài lòng của sinh viên theo khảo sát tăng dần qua các năm:
- Mức độ hài lòng trung bình dao động quanh mức 3, với sự cải thiện rõ rệt sau năm 2019 khi giảng viên và sinh viên thích nghi với hình thức dạy học trực tuyến do ảnh hưởng của dịch COVID-19.
- Giảng viên chuyên gia và tập sự có mức độ hài lòng thấp hơn so với các giảng viên chính thức, cho thấy cần có các biện pháp hỗ trợ nâng cao chất lượng giảng dạy.
-
Ứng dụng thuật toán gợi ý và dự đoán kết quả học tập:
- Thuật toán lọc cộng tác dựa trên item base đạt RMSE thấp hơn (khoảng 0,58) so với user base, cho thấy hiệu quả trong việc dự đoán mức độ hài lòng của sinh viên với môn học.
- Thuật toán phân rã ma trận có thiên vị (BMF) được áp dụng thành công để dự đoán điểm học tập của sinh viên, hỗ trợ sinh viên lựa chọn môn học phù hợp, giảm tỷ lệ cảnh báo học vụ (khoảng 4% sinh viên bị cảnh báo mỗi học kỳ).
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện hiệu suất trên MongoDB là do cấu trúc dữ liệu dạng document cho phép lưu trữ dữ liệu lồng nhau, giảm thiểu số lượng bảng và quan hệ phức tạp như trong SQL Server. Việc tạo index hiệu quả trên các trường truy vấn cũng giúp giảm thời gian tìm kiếm và thao tác dữ liệu. Kết quả này phù hợp với các nghiên cứu gần đây về ưu điểm của NoSQL trong xử lý dữ liệu lớn và đa dạng.
Mức độ hài lòng của sinh viên tăng qua các năm phản ánh sự thích nghi và cải tiến trong phương pháp giảng dạy, đặc biệt sau giai đoạn chuyển đổi sang dạy học trực tuyến. Tuy nhiên, sự khác biệt về mức độ hài lòng giữa các nhóm giảng viên cho thấy cần có chính sách đào tạo và hỗ trợ phù hợp.
Việc ứng dụng thuật toán gợi ý và dự đoán kết quả học tập không chỉ giúp sinh viên có định hướng đăng ký môn học hiệu quả mà còn hỗ trợ nhà trường trong công tác quản lý đào tạo, giảm thiểu tình trạng học vụ và nâng cao chất lượng đào tạo. Dữ liệu có thể được trình bày qua biểu đồ so sánh RMSE giữa các thuật toán, biểu đồ mức độ hài lòng theo năm học và bảng thống kê hiệu suất thao tác dữ liệu.
Đề xuất và khuyến nghị
-
Triển khai chính thức hệ thống khảo sát trên nền tảng MongoDB:
- Động từ hành động: Triển khai, vận hành
- Target metric: Giảm thời gian truy xuất dữ liệu xuống dưới 0,01 giây, giảm tải CPU và Memory trên server khảo sát
- Timeline: Trong vòng 6 tháng tới
- Chủ thể thực hiện: Ban công nghệ thông tin và phòng Đảm bảo chất lượng đào tạo
-
Phát triển ứng dụng dự đoán kết quả học tập tích hợp vào hệ thống đăng ký môn học:
- Động từ hành động: Phát triển, tích hợp
- Target metric: Giảm tỷ lệ sinh viên bị cảnh báo học vụ từ 4% xuống còn dưới 3% trong 1 năm
- Timeline: 12 tháng
- Chủ thể thực hiện: Phòng Đào tạo phối hợp với khoa Khoa học Máy tính
-
Tổ chức đào tạo nâng cao năng lực giảng viên, đặc biệt nhóm giảng viên chuyên gia và tập sự:
- Động từ hành động: Đào tạo, hỗ trợ
- Target metric: Nâng mức độ hài lòng của sinh viên với nhóm giảng viên này lên trên 3,5 trong 2 học kỳ
- Timeline: 1 năm
- Chủ thể thực hiện: Ban Giám hiệu và phòng Đào tạo
-
Xây dựng hệ thống báo cáo và trực quan hóa dữ liệu khảo sát tự động:
- Động từ hành động: Xây dựng, tự động hóa
- Target metric: Tăng hiệu quả phân tích dữ liệu, giảm thời gian tổng hợp báo cáo xuống dưới 1 ngày sau mỗi đợt khảo sát
- Timeline: 6 tháng
- Chủ thể thực hiện: Phòng Đảm bảo chất lượng và Ban công nghệ thông tin
Đối tượng nên tham khảo luận văn
-
Ban lãnh đạo và quản lý đào tạo các trường đại học:
- Lợi ích: Áp dụng mô hình quản lý khảo sát và dự đoán kết quả học tập để nâng cao chất lượng đào tạo và quản lý sinh viên.
- Use case: Xây dựng hệ thống khảo sát giảng viên và hỗ trợ đăng ký môn học dựa trên dữ liệu thực tế.
-
Giảng viên và cán bộ đảm bảo chất lượng giáo dục:
- Lợi ích: Hiểu rõ mức độ hài lòng của sinh viên, nhận diện điểm mạnh và điểm yếu trong giảng dạy để cải tiến phương pháp.
- Use case: Sử dụng báo cáo thống kê và phân tích dữ liệu khảo sát để điều chỉnh nội dung và phương pháp giảng dạy.
-
Nhà phát triển phần mềm và chuyên gia dữ liệu trong giáo dục:
- Lợi ích: Tham khảo kiến trúc hệ thống, phương pháp lưu trữ và xử lý dữ liệu lớn trên MongoDB, ứng dụng thuật toán gợi ý và phân rã ma trận.
- Use case: Phát triển các hệ thống quản lý đào tạo thông minh, tích hợp phân tích dữ liệu và dự đoán kết quả học tập.
-
Sinh viên và tư vấn viên học tập:
- Lợi ích: Nhận được các gợi ý môn học phù hợp dựa trên dữ liệu khảo sát và dự đoán kết quả học tập cá nhân.
- Use case: Hỗ trợ sinh viên lựa chọn môn học, giảng viên phù hợp để nâng cao hiệu quả học tập và giảm thiểu rủi ro học vụ.
Câu hỏi thường gặp
-
Tại sao chọn MongoDB thay vì SQL Server cho hệ thống khảo sát?
MongoDB cho phép lưu trữ dữ liệu dạng document linh hoạt, giảm số lượng bảng và quan hệ phức tạp, giúp tăng tốc độ truy xuất và thao tác dữ liệu lớn. Thực nghiệm cho thấy thời gian truy xuất dữ liệu trên MongoDB nhanh hơn SQL Server hàng trăm lần. -
Hệ thống dự đoán kết quả học tập hoạt động như thế nào?
Hệ thống sử dụng thuật toán phân rã ma trận có thiên vị (BMF) để dự đoán điểm học tập dựa trên mối tương tác giữa sinh viên và môn học, từ đó hỗ trợ sinh viên lựa chọn môn học phù hợp và giảm nguy cơ cảnh báo học vụ. -
Làm thế nào để đảm bảo dữ liệu khảo sát được bảo mật và chính xác?
Dữ liệu khảo sát được lưu trữ trên hệ thống độc lập, không yêu cầu bảo mật cao như dữ liệu điểm học tập. Các biện pháp kiểm soát truy cập và xác thực người dùng được áp dụng để đảm bảo tính chính xác và minh bạch. -
Hệ thống có thể áp dụng cho các trường đại học khác không?
Có, kiến trúc hệ thống và phương pháp phân tích dữ liệu có thể được tùy chỉnh và áp dụng cho các trường đại học khác có quy mô và yêu cầu tương tự, giúp nâng cao hiệu quả quản lý đào tạo. -
Làm thế nào để sinh viên sử dụng hệ thống gợi ý môn học?
Sinh viên đăng nhập vào hệ thống webapp, hệ thống sẽ dựa trên kết quả khảo sát và dữ liệu học tập để gợi ý các môn học tự chọn phù hợp, giúp sinh viên lựa chọn môn học tối ưu cho quá trình học tập.
Kết luận
- Hệ thống khảo sát hoạt động giảng dạy trên MongoDB cải thiện đáng kể hiệu suất xử lý dữ liệu so với SQL Server, giảm thời gian truy xuất và dung lượng lưu trữ.
- Mức độ hài lòng của sinh viên với giảng viên tăng dần qua các năm, phản ánh sự cải tiến trong phương pháp giảng dạy và thích nghi với hình thức học trực tuyến.
- Thuật toán gợi ý và dự đoán kết quả học tập giúp sinh viên lựa chọn môn học phù hợp, giảm tỷ lệ cảnh báo học vụ và nâng cao kết quả học tập.
- Hệ thống cung cấp công cụ phân tích, thống kê và trực quan hóa dữ liệu hỗ trợ công tác quản lý đào tạo và đánh giá giảng viên hiệu quả.
- Đề xuất triển khai hệ thống chính thức, phát triển ứng dụng dự đoán kết quả học tập và tổ chức đào tạo nâng cao năng lực giảng viên trong thời gian tới.
Next steps: Triển khai hệ thống trên quy mô toàn trường, mở rộng ứng dụng dự đoán kết quả học tập, đồng thời tiếp tục nghiên cứu nâng cao thuật toán gợi ý và phân tích dữ liệu.
Các đơn vị quản lý đào tạo và công nghệ thông tin tại các trường đại học nên cân nhắc áp dụng mô hình và giải pháp này để nâng cao hiệu quả quản lý và chất lượng đào tạo.