Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của khoa học và công nghệ, kỹ thuật khai phá dữ liệu (Data Mining) đã được ứng dụng rộng rãi trong nhiều lĩnh vực, trong đó có giáo dục. Theo ước tính, việc khai thác dữ liệu giáo dục (Educational Data Mining - EDM) giúp cải thiện chất lượng giảng dạy và hỗ trợ quản lý hiệu quả hơn. Tuy nhiên, các mô hình phân lớp truyền thống thường yêu cầu dữ liệu chất lượng cao và không tận dụng được mô hình từ các ngành học khác, dẫn đến chi phí xây dựng lại mô hình khi chuyển đổi ngành học hoặc thay đổi chương trình đào tạo.

Luận văn tập trung nghiên cứu áp dụng kỹ thuật học chuyển đổi (Transfer Learning) cho bài toán dự báo sớm tình trạng học tập của sinh viên, cụ thể là xây dựng mô hình phân lớp sinh viên ngành Kỹ Thuật Máy Tính dựa trên dữ liệu và mô hình phân lớp của ngành Khoa Học Máy Tính tại Trường Đại học Bách Khoa, ĐHQG TP. Hồ Chí Minh. Nghiên cứu sử dụng dữ liệu điểm học tập của 1334 sinh viên ngành Khoa Học Máy Tính giai đoạn 2005-2008 và 187 sinh viên ngành Kỹ Thuật Máy Tính giai đoạn 2008-2009 với 43 thuộc tính. Mục tiêu là phát triển mô hình phân lớp có độ chính xác cao, giảm chi phí xây dựng mô hình mới khi chuyển đổi ngành học, đồng thời hỗ trợ hiệu quả cho công tác quản lý và ra quyết định trong giáo dục đại học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Kỹ thuật học chuyển đổi là một lĩnh vực mới trong học máy, cho phép chuyển giao kiến thức từ một tác vụ nguồn sang tác vụ đích có liên quan nhằm cải thiện hiệu suất học tập. Khác với học máy truyền thống, học chuyển đổi không yêu cầu dữ liệu huấn luyện và kiểm tra phải cùng phân phối. Có ba dạng học chuyển đổi chính: học chuyển đổi quy nạp, truyền dẫn và không giám sát.

Trong luận văn, hai giải thuật học chuyển đổi dựa trên đặc tính được áp dụng là:

  • Spectral Feature Alignment (SFA): Xây dựng không gian đặc trưng chung bằng cách lựa chọn các đặc trưng pivot (đặc trưng chung giữa hai lĩnh vực) và xây dựng đồ thị phân đôi để gom nhóm các đặc trưng riêng biệt, từ đó giảm thiểu sự khác biệt giữa hai lĩnh vực.
  • Structural Correspondence Learning (SCL): Xác định mối tương quan giữa các đặc trưng không phải pivot dựa trên các đặc trưng pivot, sử dụng các bộ phân lớp nhị phân để học ánh xạ không gian đặc trưng chung, giúp mô hình học được từ dữ liệu nguồn áp dụng hiệu quả cho dữ liệu đích.

Ngoài ra, kỹ thuật xử lý dữ liệu ngắn và thưa (short & sparse data) được áp dụng để cải thiện hiệu suất mô hình phân lớp trên dữ liệu giáo dục có số chiều ít và lượng dữ liệu gán nhãn hạn chế. Kỹ thuật này xây dựng đồ thị lân cận dựa trên mối quan hệ giữa các đối tượng, bổ sung thông tin cho dữ liệu dạng vector truyền thống.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm điểm học tập của sinh viên ngành Khoa Học Máy Tính (1334 sinh viên, 43 thuộc tính, giai đoạn 2005-2008) và ngành Kỹ Thuật Máy Tính (187 sinh viên, 43 thuộc tính, giai đoạn 2008-2009). Phương pháp chọn mẫu là sử dụng toàn bộ dữ liệu có sẵn của hai ngành học này.

Quy trình nghiên cứu gồm các bước:

  1. Chuẩn bị và tiền xử lý dữ liệu nguồn và đích, giữ nguyên các thuộc tính thiếu để phản ánh đúng đặc điểm dữ liệu.
  2. Xây dựng không gian đặc trưng chung bằng giải thuật SFA và SCL dựa trên các thuộc tính pivot là các môn học đại cương chung.
  3. Ánh xạ dữ liệu nguồn và đích vào không gian chung, tạo tập dữ liệu huấn luyện mới.
  4. Áp dụng kỹ thuật xử lý dữ liệu ngắn và thưa để bổ sung thông tin cho dữ liệu, sử dụng giải thuật phân lớp đa quan điểm (Multi-view Classifier) để loại bỏ mẫu gây nhiễu và tăng độ tin cậy dữ liệu.
  5. Xây dựng và huấn luyện các mô hình phân lớp trên tập dữ liệu đã chuyển đổi, sử dụng các thuật toán phân lớp phổ biến như Random Forest, Multilayer Perceptron.
  6. Đánh giá mô hình bằng các chỉ số TP-Rate, F-Measure, ROC-Area, sử dụng k-fold cross-validation để đảm bảo tính khách quan và toàn diện.

Thời gian nghiên cứu kéo dài từ tháng 1 đến tháng 12 năm 2015, thực hiện tại Trường Đại học Bách Khoa, ĐHQG TP. Hồ Chí Minh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của học chuyển đổi: Mô hình phân lớp sinh viên ngành Kỹ Thuật Máy Tính được xây dựng dựa trên dữ liệu và mô hình ngành Khoa Học Máy Tính với kỹ thuật học chuyển đổi đạt độ chính xác cao, vượt trội so với mô hình truyền thống không áp dụng học chuyển đổi. Ví dụ, với giải thuật SFA, độ chính xác mô hình năm 2 đạt khoảng 85%, tăng 10% so với mô hình không chuyển đổi.

  2. So sánh hai giải thuật SFA và SCL: Kết quả thực nghiệm cho thấy giải thuật SFA có hiệu suất phân lớp nhỉnh hơn SCL khoảng 3-5% trên các năm học 2, 3 và 4. Độ đo TP-Rate của SFA đạt trung bình 87%, trong khi SCL đạt khoảng 83%.

  3. Tác động của xử lý dữ liệu ngắn và thưa: Áp dụng kỹ thuật xử lý dữ liệu ngắn và thưa giúp cải thiện độ chính xác mô hình thêm khoảng 4-6%, đặc biệt hiệu quả với dữ liệu có số lượng mẫu nhỏ và thuộc tính thưa thớt.

  4. Độ tin cậy của mô hình phân lớp: Việc loại bỏ các mẫu gây nhiễu dựa trên so sánh nhãn giữa hai mô hình phân lớp đa quan điểm giúp tăng độ ổn định và tin cậy của mô hình, giảm sai số phân lớp xuống dưới 5%.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu suất là do kỹ thuật học chuyển đổi giúp giảm thiểu sự khác biệt về phân phối dữ liệu giữa hai ngành học, tận dụng được kiến thức đã học từ ngành Khoa Học Máy Tính để áp dụng cho ngành Kỹ Thuật Máy Tính. Việc lựa chọn các môn học đại cương làm đặc trưng pivot là hợp lý vì đây là các môn học có tính chất chung, tạo cầu nối cho việc chuyển đổi.

So với các nghiên cứu trước đây chỉ áp dụng giải thuật SCL đơn lẻ, nghiên cứu này mở rộng áp dụng thêm giải thuật SFA và kỹ thuật xử lý dữ liệu ngắn và thưa, từ đó nâng cao hiệu quả mô hình phân lớp. Kết quả cũng phù hợp với các nghiên cứu trong lĩnh vực học chuyển đổi trên dữ liệu văn bản và hình ảnh, cho thấy tính khả thi khi áp dụng cho dữ liệu giáo dục.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa các mô hình (SFA, SCL, mô hình truyền thống) theo từng năm học, cũng như bảng tổng hợp các chỉ số đánh giá mô hình để minh họa rõ ràng sự khác biệt.

Đề xuất và khuyến nghị

  1. Triển khai áp dụng kỹ thuật học chuyển đổi trong hệ thống quản lý đào tạo: Các trường đại học nên tích hợp mô hình học chuyển đổi để dự báo sớm tình trạng học tập sinh viên, giúp giảm chi phí xây dựng mô hình mới khi thay đổi ngành học hoặc chương trình đào tạo. Thời gian triển khai dự kiến trong 1-2 năm, do phòng công nghệ thông tin và khoa quản lý đào tạo chịu trách nhiệm.

  2. Phát triển hệ thống hỗ trợ ra quyết định dựa trên mô hình phân lớp: Xây dựng hệ thống hỗ trợ nhà quản lý giáo dục trong việc cảnh báo sinh viên có nguy cơ bị cảnh cáo học vụ, từ đó có biện pháp can thiệp kịp thời. Mục tiêu nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn, giảm tỷ lệ bỏ học. Thời gian thực hiện 6-12 tháng.

  3. Nâng cao chất lượng dữ liệu và mở rộng thu thập dữ liệu: Tăng cường thu thập dữ liệu điểm học tập, hoạt động ngoại khóa, thái độ học tập để bổ sung cho mô hình, giúp cải thiện độ chính xác dự báo. Chủ thể thực hiện là các khoa và phòng đào tạo, phối hợp với bộ phận CNTT.

  4. Đào tạo và nâng cao năng lực cho cán bộ nghiên cứu và quản lý: Tổ chức các khóa đào tạo về kỹ thuật học chuyển đổi và khai phá dữ liệu giáo dục cho giảng viên, cán bộ quản lý nhằm nâng cao năng lực ứng dụng công nghệ trong giáo dục. Thời gian đào tạo định kỳ hàng năm.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý giáo dục đại học: Có thể sử dụng kết quả nghiên cứu để xây dựng hệ thống cảnh báo sớm sinh viên có nguy cơ học tập kém, từ đó đưa ra các chính sách hỗ trợ phù hợp.

  2. Giảng viên và cán bộ khoa học công nghệ thông tin: Áp dụng kỹ thuật học chuyển đổi và khai phá dữ liệu giáo dục để phát triển các mô hình phân lớp, dự báo phục vụ nghiên cứu và giảng dạy.

  3. Sinh viên ngành Khoa học máy tính và Kỹ thuật máy tính: Tham khảo để hiểu rõ hơn về ứng dụng học máy và học chuyển đổi trong thực tế, từ đó phát triển kỹ năng nghiên cứu và ứng dụng.

  4. Các nhà nghiên cứu trong lĩnh vực học máy và khai phá dữ liệu: Nghiên cứu mở rộng kỹ thuật học chuyển đổi cho các bài toán phân lớp dữ liệu giáo dục, đặc biệt với dữ liệu ngắn và thưa.

Câu hỏi thường gặp

  1. Học chuyển đổi là gì và khác gì so với học máy truyền thống?
    Học chuyển đổi cho phép sử dụng kiến thức học được từ một tác vụ hoặc lĩnh vực nguồn để cải thiện việc học trong tác vụ hoặc lĩnh vực đích có liên quan, trong khi học máy truyền thống thường xây dựng mô hình riêng biệt cho từng tác vụ mà không tận dụng kiến thức trước đó.

  2. Tại sao cần áp dụng học chuyển đổi cho dữ liệu giáo dục?
    Dữ liệu giáo dục thường có đặc điểm ngắn, thưa và thay đổi theo ngành học hoặc chương trình đào tạo. Học chuyển đổi giúp tận dụng mô hình đã học từ ngành này để áp dụng cho ngành khác, giảm chi phí xây dựng lại mô hình và nâng cao hiệu quả dự báo.

  3. Giải thuật SFA và SCL khác nhau như thế nào?
    SFA tập trung xây dựng không gian đặc trưng chung bằng cách gom nhóm các đặc trưng riêng biệt dựa trên các đặc trưng pivot, còn SCL học mối tương quan giữa các đặc trưng không phải pivot thông qua các bộ phân lớp nhị phân dựa trên pivot để ánh xạ không gian đặc trưng chung.

  4. Kỹ thuật xử lý dữ liệu ngắn và thưa giúp gì cho mô hình?
    Kỹ thuật này xây dựng đồ thị lân cận để bổ sung thông tin về mối quan hệ giữa các đối tượng, giúp mô hình phân lớp có thêm dữ liệu tham khảo, từ đó cải thiện độ chính xác và độ ổn định khi dữ liệu gán nhãn hạn chế.

  5. Làm thế nào để đánh giá hiệu quả của mô hình học chuyển đổi?
    Hiệu quả được đánh giá qua các chỉ số như TP-Rate, F-Measure, ROC-Area trên tập dữ liệu kiểm tra, so sánh với mô hình không áp dụng học chuyển đổi. Ngoài ra, thời gian học và khả năng khái quát của mô hình cũng là tiêu chí quan trọng.

Kết luận

  • Luận văn đã phát triển thành công kỹ thuật học chuyển đổi áp dụng cho bài toán dự báo sớm tình trạng học tập của sinh viên ngành Kỹ Thuật Máy Tính dựa trên dữ liệu ngành Khoa Học Máy Tính.
  • Giải thuật SFA và SCL được triển khai và so sánh, trong đó SFA cho kết quả phân lớp tốt hơn với độ chính xác trung bình đạt 87%.
  • Kỹ thuật xử lý dữ liệu ngắn và thưa giúp cải thiện đáng kể hiệu suất mô hình trên dữ liệu giáo dục đặc thù.
  • Nghiên cứu mở ra hướng đi mới cho khai phá dữ liệu giáo dục, hỗ trợ hiệu quả cho công tác quản lý và ra quyết định trong giáo dục đại học.
  • Các bước tiếp theo bao gồm triển khai thực tế mô hình trong hệ thống quản lý đào tạo, mở rộng nghiên cứu với dữ liệu đa ngành và đào tạo cán bộ ứng dụng kỹ thuật học chuyển đổi.

Hành động tiếp theo: Các nhà quản lý và nghiên cứu nên phối hợp triển khai áp dụng mô hình học chuyển đổi trong thực tế, đồng thời tiếp tục nghiên cứu mở rộng để nâng cao hiệu quả và tính ứng dụng của kỹ thuật này trong giáo dục.