Tổng quan nghiên cứu

Việc đánh giá kết quả học tập và phân loại sinh viên là một trong những vấn đề trọng yếu trong quản lý đào tạo giáo dục hiện nay. Theo quy định của Bộ Lao động Thương binh – Xã hội, việc xếp loại học lực và rèn luyện sinh viên dựa trên thang điểm cứng, tuy nhiên, kết quả học tập giữa các sinh viên trong cùng một trường thường có sự khác biệt do yếu tố chủ quan trong đánh giá từng học phần. Nghiên cứu này nhằm mục tiêu phát triển một công cụ phân loại mềm dẻo hơn, sử dụng thuật toán phân cụm mờ để đánh giá kết quả học tập sinh viên một cách khách quan và đa chiều hơn. Phạm vi nghiên cứu tập trung vào dữ liệu kết quả học tập của sinh viên các hệ Cao đẳng chính quy, Cao đẳng liên thông và Trung cấp chính quy quốc tế tại Trường Cao đẳng Y tế Đồng Tháp trong giai đoạn từ năm 2017 đến 2021.

Nghiên cứu đã áp dụng ba thuật toán phân cụm mờ gồm K-Means, Fuzzy C-Means (FCM) và ε-Insensitive Fuzzy C-Means (εFCM) để phân loại sinh viên dựa trên dữ liệu điểm số theo thang điểm 4. Qua đó, so sánh kết quả phân loại với quy chế cứng hiện hành của Bộ nhằm nâng cao chất lượng đánh giá, hỗ trợ nhà trường trong việc giới thiệu sinh viên phù hợp với yêu cầu tuyển dụng của các đơn vị sử dụng lao động. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc số hóa quy trình đào tạo, kiểm định chất lượng và nâng cao hiệu quả quản lý đào tạo tại các cơ sở giáo dục nghề nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên lý thuyết khai phá dữ liệu (Data Mining) và phân cụm dữ liệu (Clustering), trong đó phân cụm mờ (Fuzzy Clustering) được sử dụng để xử lý các trường hợp dữ liệu có ranh giới không rõ ràng giữa các nhóm.

  • Khai phá dữ liệu (Data Mining): Là quá trình tìm kiếm các mẫu, mô hình ẩn trong tập dữ liệu lớn nhằm hỗ trợ ra quyết định. Quá trình này bao gồm các bước trích chọn, tiền xử lý, chuyển đổi dữ liệu, khai phá và đánh giá mô hình.
  • Phân cụm dữ liệu (Clustering): Là kỹ thuật nhóm các đối tượng dữ liệu tương tự vào cùng một cụm sao cho các đối tượng trong cùng cụm có tính đồng nhất cao, khác biệt với các cụm khác.
  • Phân cụm mờ (Fuzzy Clustering): Cho phép một điểm dữ liệu thuộc về nhiều cụm với các mức độ thành viên khác nhau, phù hợp với các dữ liệu có ranh giới mờ, chồng lấn giữa các nhóm.
  • Thuật toán K-Means: Phân cụm rõ, phân chia dữ liệu thành k cụm dựa trên khoảng cách Euclide đến tâm cụm.
  • Thuật toán Fuzzy C-Means (FCM): Phân cụm mờ, tối thiểu hóa hàm mục tiêu với trọng số mờ hóa, cho phép điểm dữ liệu thuộc nhiều cụm.
  • Thuật toán ε-Insensitive Fuzzy C-Means (εFCM): Mở rộng FCM nhằm giảm ảnh hưởng của nhiễu và ngoại lai bằng cách sử dụng hàm mục tiêu phi nhạy cảm ε.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu điểm học tập của sinh viên các ngành Dược học, Điều dưỡng, Kỹ thuật xét nghiệm, Phục hồi chức năng, Hộ sinh và Y sỹ đa khoa quốc tế tại Trường Cao đẳng Y tế Đồng Tháp, được trích xuất từ hệ thống phần mềm quản lý đào tạo trên nền tảng SQL Server 2014.
  • Cỡ mẫu: Tổng cộng 15 tập dữ liệu với số lượng sinh viên dao động từ 14 đến 289 sinh viên, mỗi tập có từ 15 đến 48 đặc trưng (features).
  • Phương pháp chọn mẫu: Loại trừ sinh viên bảo lưu, thôi học, bị đình chỉ hoặc không đủ dữ liệu học phần; chỉ chọn sinh viên đã hoàn thành khóa học.
  • Phương pháp phân tích: Cài đặt và thực nghiệm ba thuật toán phân cụm K-Means, FCM và εFCM trên ngôn ngữ Python sử dụng thư viện sklearn và fuzzy-c-means. Các thuật toán được đánh giá bằng ma trận nhầm lẫn (Confusion Matrix) và trực quan hóa dữ liệu qua các kỹ thuật PCA, t-SNE, ISOMAP.
  • Timeline nghiên cứu: Thu thập và xử lý dữ liệu từ tháng 12/2020 đến tháng 10/2021, thực hiện cài đặt và đánh giá thuật toán trong cùng khoảng thời gian.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phân loại sinh viên theo thuật toán K-Means: Với dữ liệu Cao đẳng chính quy ngành Dược học khóa 6 (289 sinh viên, 38 features), K-Means phân chia thành 4 nhóm với số lượng sinh viên lần lượt là 131, 127, 19 và 12. Tương tự, với ngành Điều dưỡng khóa 6 (73 sinh viên, 48 features), K-Means phân nhóm 36, 33, 2 và 2 sinh viên.
  2. Phân loại theo thuật toán FCM: Cùng dữ liệu ngành Dược học khóa 6, FCM phân chia số sinh viên vào 4 nhóm gần bằng nhau: 67, 72, 78 và 67 sinh viên. Với ngành Điều dưỡng khóa 6, số sinh viên phân vào 4 nhóm là 18, 16, 20 và 19.
  3. Phân loại theo thuật toán εFCM: Thuật toán này cho kết quả phân bố tương tự FCM, với ngành Dược học khóa 6 là 66, 73, 75 và 75 sinh viên; ngành Điều dưỡng khóa 6 là 19, 18, 2 và 19 sinh viên.
  4. Đánh giá hiệu quả phân loại: Qua ma trận nhầm lẫn, các thuật toán phân cụm mờ (FCM và εFCM) cho kết quả phân loại mềm dẻo hơn, phù hợp với dữ liệu có ranh giới mờ giữa các nhóm sinh viên, trong khi K-Means có xu hướng phân nhóm rõ ràng nhưng ít linh hoạt hơn.

Thảo luận kết quả

Kết quả cho thấy thuật toán phân cụm mờ FCM và εFCM có khả năng phân loại sinh viên dựa trên nhiều tiêu chí điểm số một cách linh hoạt hơn so với phương pháp phân cụm rõ K-Means. Điều này phù hợp với thực tế đánh giá kết quả học tập, khi mà ranh giới giữa các nhóm sinh viên không hoàn toàn rõ ràng do sự đa dạng về năng lực và kết quả học tập từng học phần. Việc sử dụng εFCM giúp giảm thiểu ảnh hưởng của dữ liệu nhiễu và ngoại lai, nâng cao độ chính xác phân loại. So sánh với quy chế cứng của Bộ Lao động Thương binh – Xã hội, các thuật toán phân cụm mờ cung cấp một công cụ đánh giá mềm dẻo, đa chiều, giúp nhà trường có cái nhìn toàn diện hơn về năng lực sinh viên, từ đó hỗ trợ hiệu quả trong việc giới thiệu sinh viên phù hợp với yêu cầu tuyển dụng. Dữ liệu trực quan hóa qua PCA, t-SNE và ISOMAP minh họa rõ sự phân bố các cụm, giúp nhà quản lý dễ dàng nhận diện nhóm sinh viên ưu tú và nhóm cần hỗ trợ thêm.

Đề xuất và khuyến nghị

  1. Áp dụng thuật toán phân cụm mờ trong hệ thống quản lý đào tạo: Nhà trường nên tích hợp các thuật toán FCM và εFCM vào phần mềm quản lý đào tạo để phân loại sinh viên theo nhiều tiêu chí, nâng cao tính khách quan và chính xác trong đánh giá kết quả học tập.
  2. Đào tạo và nâng cao năng lực cho cán bộ quản lý: Tổ chức các khóa đào tạo về khai phá dữ liệu và phân tích thuật toán phân cụm cho cán bộ quản lý đào tạo nhằm nâng cao khả năng vận dụng công nghệ trong quản lý giáo dục.
  3. Cập nhật và làm sạch dữ liệu thường xuyên: Đảm bảo dữ liệu đầu vào được làm sạch, loại bỏ sinh viên bảo lưu, thôi học hoặc dữ liệu thiếu để nâng cao chất lượng phân tích và kết quả phân loại.
  4. Phát triển hệ thống báo cáo trực quan: Xây dựng các báo cáo và biểu đồ trực quan hóa kết quả phân loại sinh viên để hỗ trợ nhà trường và các đơn vị tuyển dụng trong việc ra quyết định tuyển chọn nhân sự phù hợp.
  5. Thời gian thực hiện: Các giải pháp trên nên được triển khai trong vòng 12 tháng, bắt đầu từ việc tích hợp thuật toán vào hệ thống phần mềm quản lý đào tạo, tiếp theo là đào tạo cán bộ và hoàn thiện hệ thống báo cáo.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý giáo dục và cán bộ đào tạo: Giúp nâng cao hiệu quả quản lý, đánh giá kết quả học tập sinh viên một cách khách quan và đa chiều.
  2. Giảng viên và chuyên gia công nghệ thông tin trong giáo dục: Áp dụng các thuật toán phân cụm mờ để nghiên cứu và phát triển các công cụ hỗ trợ đánh giá và phân loại sinh viên.
  3. Các cơ sở đào tạo nghề và đại học: Tham khảo mô hình phân loại mềm dẻo để cải tiến quy trình đánh giá sinh viên, phù hợp với yêu cầu tuyển dụng và kiểm định chất lượng đào tạo.
  4. Nhà tuyển dụng và doanh nghiệp: Sử dụng kết quả phân loại sinh viên dựa trên thuật toán phân cụm mờ để lựa chọn ứng viên phù hợp với tiêu chí năng lực và kỹ năng thực tế.

Câu hỏi thường gặp

  1. Phân cụm mờ khác gì so với phân cụm rõ?
    Phân cụm mờ cho phép một điểm dữ liệu thuộc về nhiều cụm với các mức độ thành viên khác nhau, trong khi phân cụm rõ chỉ cho phép điểm dữ liệu thuộc duy nhất một cụm. Điều này giúp xử lý dữ liệu có ranh giới mờ và chồng lấn hiệu quả hơn.

  2. Tại sao chọn thuật toán εFCM thay vì FCM thông thường?
    εFCM cải tiến FCM bằng cách giảm ảnh hưởng của nhiễu và các điểm ngoại lai nhờ hàm mục tiêu phi nhạy cảm ε, giúp phân cụm chính xác hơn trong các tập dữ liệu thực tế có nhiều nhiễu.

  3. Làm thế nào để đánh giá hiệu quả phân loại của các thuật toán?
    Hiệu quả được đánh giá bằng ma trận nhầm lẫn (Confusion Matrix) và trực quan hóa dữ liệu qua các kỹ thuật như PCA, t-SNE, ISOMAP để quan sát sự phân bố và tính đồng nhất của các cụm.

  4. Có thể áp dụng mô hình này cho các ngành học khác không?
    Có, mô hình phân cụm mờ có thể áp dụng cho nhiều ngành học khác nhau, đặc biệt là những ngành có dữ liệu học tập đa chiều và ranh giới phân loại không rõ ràng.

  5. Làm sao để tích hợp thuật toán phân cụm vào hệ thống quản lý đào tạo hiện tại?
    Có thể sử dụng các ngôn ngữ lập trình như Python cùng các thư viện hỗ trợ (sklearn, fuzzy-c-means) để phát triển module phân cụm, sau đó tích hợp vào phần mềm quản lý đào tạo qua API hoặc các công cụ hỗ trợ tích hợp.

Kết luận

  • Nghiên cứu đã thành công trong việc cài đặt và áp dụng ba thuật toán phân cụm mờ K-Means, FCM và εFCM trên dữ liệu kết quả học tập sinh viên tại Trường Cao đẳng Y tế Đồng Tháp.
  • Thuật toán phân cụm mờ FCM và εFCM cho kết quả phân loại mềm dẻo, phù hợp với thực tế đánh giá năng lực sinh viên hơn so với phương pháp phân cụm rõ K-Means.
  • Kết quả phân loại hỗ trợ nhà trường trong việc đánh giá chất lượng đào tạo, kiểm định và giới thiệu sinh viên phù hợp với yêu cầu tuyển dụng.
  • Đề xuất tích hợp các thuật toán phân cụm mờ vào hệ thống quản lý đào tạo, đồng thời nâng cao năng lực cán bộ quản lý và phát triển hệ thống báo cáo trực quan.
  • Các bước tiếp theo bao gồm triển khai thực tế các giải pháp đề xuất trong vòng 12 tháng và mở rộng nghiên cứu áp dụng cho các ngành học khác nhằm nâng cao hiệu quả quản lý đào tạo và chất lượng nguồn nhân lực.

Hành động tiếp theo: Nhà trường và các cơ sở đào tạo nên phối hợp với chuyên gia công nghệ thông tin để triển khai tích hợp thuật toán phân cụm mờ vào hệ thống quản lý đào tạo, đồng thời tổ chức đào tạo nâng cao nhận thức và kỹ năng cho cán bộ quản lý giáo dục.