Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và dữ liệu lớn, việc khai phá dữ liệu (Data Mining) và phát hiện tri thức (Knowledge Discovery) trở thành lĩnh vực nghiên cứu trọng điểm, đặc biệt trong giáo dục đại học. Tại Việt Nam, hình thức đào tạo theo tín chỉ đang được áp dụng rộng rãi, đòi hỏi sinh viên phải chủ động trong việc lựa chọn và sắp xếp kế hoạch học tập phù hợp. Tuy nhiên, thực tế cho thấy nhiều sinh viên gặp khó khăn trong việc đăng ký học phần tự chọn, dẫn đến tình trạng học chậm tiến độ hoặc ra trường muộn, ảnh hưởng đến chất lượng đào tạo và hiệu quả quản lý của nhà trường.
Luận văn tập trung nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học tại Trường Đại học Kinh tế Quốc dân nhằm hỗ trợ công tác cố vấn học tập. Mục tiêu cụ thể là khai thác các luật kết hợp giữa các học phần tự chọn để tư vấn đăng ký môn học phù hợp, đồng thời xây dựng mô hình phân lớp dự báo khả năng sinh viên ra trường đúng hạn hay không. Nghiên cứu thực hiện trên bộ dữ liệu sinh viên chính quy của một khóa đã ra trường, với phạm vi thời gian từ năm 2006 đến 2017, tại Trường Đại học Kinh tế Quốc dân, Hà Nội.
Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp công cụ hỗ trợ đắc lực cho cán bộ cố vấn học tập, giúp nâng cao hiệu quả tư vấn, giảm tỷ lệ sinh viên ra trường muộn (hiện khoảng 10-15%), đồng thời góp phần tối ưu hóa công tác quản lý đào tạo theo hình thức tín chỉ. Kết quả nghiên cứu cũng mở ra hướng ứng dụng khai phá dữ liệu trong các trường đại học khác, nâng cao chất lượng giáo dục đại học tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai kỹ thuật khai phá dữ liệu chủ đạo: khai phá luật kết hợp (Association Rule Mining) và cây quyết định (Decision Tree).
Khai phá luật kết hợp: Là phương pháp tìm kiếm các mối quan hệ phổ biến giữa các tập mục trong cơ sở dữ liệu. Luật kết hợp có dạng $X \Rightarrow Y$ với $X, Y$ là các tập mục không giao nhau, được đánh giá bằng các chỉ số độ hỗ trợ (support) và độ tin cậy (confidence). Luật có độ hỗ trợ và độ tin cậy vượt ngưỡng tối thiểu do người dùng xác định được xem là luật phổ biến và có ý nghĩa ứng dụng. Thuật toán Apriori và các biến thể được sử dụng để khai thác các luật này.
Cây quyết định: Là mô hình phân loại dựa trên cấu trúc cây, trong đó mỗi nút nội biểu thị phép thử trên một thuộc tính, các nhánh là các giá trị thuộc tính, và các nút lá biểu thị lớp phân loại. Thuật toán ID3 và C4.5 được áp dụng để xây dựng cây quyết định dựa trên các tiêu chí như Entropy, Information Gain nhằm phân chia dữ liệu sao cho các nhóm con có tính đồng nhất cao nhất.
Ba khái niệm chính được sử dụng trong nghiên cứu gồm: dữ liệu (data), mẫu/mô hình (pattern/model), và tri thức (knowledge). Quá trình phát hiện tri thức và khai phá dữ liệu (KDD) gồm 5 bước: tìm hiểu lĩnh vực và xác định bài toán, thu thập và tiền xử lý dữ liệu, khai phá dữ liệu, thể hiện tri thức, và sử dụng tri thức phát hiện được.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu sinh viên đại học chính quy của Trường Đại học Kinh tế Quốc dân, bao gồm thông tin cá nhân, kết quả học tập, đăng ký học phần, điểm số và tín chỉ tích lũy của một khóa sinh viên đã ra trường. Cỡ mẫu khoảng vài nghìn sinh viên, được chọn lọc từ hệ thống quản lý đào tạo của trường.
Phương pháp chọn mẫu là sử dụng toàn bộ dữ liệu sinh viên khóa nghiên cứu để đảm bảo tính đại diện và độ tin cậy của kết quả. Dữ liệu được tiền xử lý bao gồm làm sạch, loại bỏ dữ liệu trùng lặp, xử lý dữ liệu thiếu và biến đổi dữ liệu phù hợp với yêu cầu của các thuật toán khai phá.
Phân tích dữ liệu được thực hiện trên công cụ Business Intelligence Development Studio (BIDS) của Microsoft SQL Server 2008, kết hợp với các thuật toán khai phá luật kết hợp và cây quyết định. Quy trình nghiên cứu gồm các bước: thu thập dữ liệu, tiền xử lý, khai phá luật kết hợp để tìm các mối quan hệ giữa học phần tự chọn, xây dựng cây quyết định để phân lớp dự báo sinh viên ra trường đúng hạn, đánh giá kết quả bằng phương pháp kiểm tra chéo 10-fold cross validation.
Thời gian nghiên cứu kéo dài từ năm 2016 đến 2017, bao gồm giai đoạn thu thập và xử lý dữ liệu, thực nghiệm khai phá dữ liệu, phân tích kết quả và đề xuất giải pháp.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Khai phá luật kết hợp giữa các học phần tự chọn: Qua phân tích bộ dữ liệu sinh viên, đã phát hiện được hơn 50 luật kết hợp phổ biến với độ hỗ trợ tối thiểu 20% và độ tin cậy trên 70%. Ví dụ, sinh viên đăng ký học phần "Quản trị Marketing" thường kết hợp với học phần "Quản trị Bán hàng" với độ hỗ trợ 25% và độ tin cậy 80%. Tỷ lệ các luật có độ tin cậy trên 75% chiếm khoảng 60%, cho thấy các mối quan hệ giữa học phần có tính ổn định và có thể ứng dụng trong tư vấn học tập.
Mô hình cây quyết định phân lớp dự báo sinh viên ra trường đúng hạn: Mô hình xây dựng trên các biến số như số tín chỉ tích lũy, điểm trung bình chung tích lũy, số học phần nợ và điểm học kỳ gần nhất đạt độ chính xác phân lớp 85%, với tỷ lệ sinh viên dự báo ra trường đúng hạn là 87% và ra trường muộn là 13%. So với tỷ lệ thực tế 10-15% sinh viên ra trường muộn, mô hình có khả năng cảnh báo sớm hiệu quả.
Tác động của việc lựa chọn học phần tự chọn đến tiến độ học tập: Phân tích cho thấy sinh viên lựa chọn các học phần tự chọn có mối liên hệ chặt chẽ với khả năng hoàn thành tín chỉ đúng hạn. Những tổ hợp học phần có luật kết hợp mạnh thường giúp sinh viên xây dựng kế hoạch học tập hợp lý, giảm tỷ lệ nợ môn và tăng điểm trung bình chung.
Hiệu quả công cụ khai phá dữ liệu BIDS: Việc sử dụng công cụ BIDS giúp xử lý và khai phá dữ liệu nhanh chóng, hỗ trợ trực quan hóa kết quả qua các bảng và biểu đồ cây quyết định, thuận tiện cho việc đánh giá và áp dụng thực tế.
Thảo luận kết quả
Kết quả khai phá luật kết hợp phản ánh xu hướng lựa chọn học phần tự chọn của sinh viên, giúp cán bộ cố vấn học tập có cơ sở khoa học để tư vấn chính xác hơn, tránh tình trạng đăng ký học phần không phù hợp gây ảnh hưởng tiến độ học tập. Mức độ hỗ trợ và tin cậy cao của các luật cho thấy tính ổn định của các mối quan hệ này trong bộ dữ liệu.
Mô hình cây quyết định phân lớp sinh viên dự báo khả năng ra trường đúng hạn có độ chính xác cao, phù hợp với các nghiên cứu tương tự trong lĩnh vực giáo dục. Việc sử dụng các biến số như tín chỉ tích lũy và điểm trung bình chung là hợp lý, bởi đây là các chỉ số phản ánh trực tiếp năng lực và tiến độ học tập của sinh viên.
So sánh với các nghiên cứu trong nước và quốc tế, kết quả này khẳng định tính khả thi và hiệu quả của việc ứng dụng kỹ thuật khai phá dữ liệu trong công tác cố vấn học tập đại học. Việc trình bày kết quả qua biểu đồ cây quyết định và bảng luật kết hợp giúp người dùng dễ dàng tiếp cận và áp dụng.
Tuy nhiên, nghiên cứu cũng gặp một số hạn chế như dữ liệu chưa bao gồm các yếu tố xã hội, tâm lý ảnh hưởng đến học tập, và mô hình chưa xử lý được dữ liệu bị thiếu hoặc nhiễu phức tạp. Đây là hướng nghiên cứu tiếp theo cần được quan tâm.
Đề xuất và khuyến nghị
Xây dựng hệ thống hỗ trợ cố vấn học tập dựa trên khai phá dữ liệu: Triển khai phần mềm tích hợp các luật kết hợp và mô hình cây quyết định để cán bộ cố vấn học tập có thể tra cứu, tư vấn nhanh chóng và chính xác. Mục tiêu giảm tỷ lệ sinh viên ra trường muộn xuống dưới 5% trong vòng 3 năm tới. Chủ thể thực hiện là phòng Công nghệ Thông tin phối hợp với phòng Đào tạo.
Tổ chức đào tạo, tập huấn cho cán bộ cố vấn học tập về kỹ thuật khai phá dữ liệu: Nâng cao năng lực sử dụng công cụ khai phá dữ liệu và hiểu biết về các mô hình phân tích để áp dụng hiệu quả trong công tác cố vấn. Thời gian thực hiện trong 6 tháng đầu năm học tiếp theo, do phòng Đào tạo và Viện Công nghệ Thông tin chủ trì.
Cập nhật và mở rộng bộ dữ liệu sinh viên: Thu thập thêm các thông tin về hoạt động ngoại khóa, tâm lý, hoàn cảnh gia đình để xây dựng mô hình dự báo toàn diện hơn, nâng cao độ chính xác. Thời gian thực hiện trong 1 năm, do phòng Quản lý sinh viên phối hợp với các khoa chuyên môn.
Xây dựng quy trình chuẩn hóa dữ liệu và khai phá dữ liệu định kỳ: Thiết lập quy trình thu thập, làm sạch và khai phá dữ liệu sinh viên hàng kỳ để cập nhật các mô hình và luật mới, đảm bảo tính kịp thời và chính xác trong công tác cố vấn. Chủ thể thực hiện là phòng Công nghệ Thông tin và phòng Đào tạo, thực hiện liên tục hàng năm.
Đối tượng nên tham khảo luận văn
Cán bộ cố vấn học tập tại các trường đại học: Nghiên cứu cung cấp công cụ và phương pháp hỗ trợ tư vấn học tập hiệu quả, giúp nâng cao chất lượng công tác cố vấn và giảm tỷ lệ sinh viên ra trường muộn.
Nhà quản lý giáo dục đại học: Tham khảo để xây dựng chính sách đào tạo, quản lý sinh viên theo hình thức tín chỉ, đồng thời áp dụng khai phá dữ liệu trong quản lý đào tạo và ra quyết định.
Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Dữ liệu: Tài liệu tham khảo về ứng dụng thực tiễn các kỹ thuật khai phá dữ liệu, luật kết hợp và cây quyết định trong lĩnh vực giáo dục.
Phòng Công nghệ Thông tin và Phòng Đào tạo các trường đại học: Áp dụng quy trình và công cụ khai phá dữ liệu để cải tiến hệ thống quản lý đào tạo, nâng cao hiệu quả khai thác dữ liệu sinh viên.
Câu hỏi thường gặp
Khai phá dữ liệu là gì và tại sao nó quan trọng trong giáo dục đại học?
Khai phá dữ liệu là quá trình tự động trích xuất các mẫu, luật hoặc mô hình có ý nghĩa từ khối lượng lớn dữ liệu. Trong giáo dục đại học, nó giúp phát hiện các mối quan hệ giữa các yếu tố học tập, dự báo tiến độ sinh viên, từ đó hỗ trợ công tác cố vấn học tập và quản lý đào tạo hiệu quả hơn.Luật kết hợp được áp dụng như thế nào trong việc tư vấn học phần tự chọn?
Luật kết hợp tìm ra các mối quan hệ phổ biến giữa các học phần mà sinh viên thường đăng ký cùng nhau. Cán bộ cố vấn học tập dựa vào các luật này để tư vấn sinh viên lựa chọn học phần phù hợp, tránh đăng ký trùng lặp hoặc không hợp lý, giúp sinh viên xây dựng kế hoạch học tập hiệu quả.Mô hình cây quyết định giúp dự báo gì trong công tác cố vấn học tập?
Mô hình cây quyết định phân lớp sinh viên dựa trên các chỉ số như tín chỉ tích lũy, điểm trung bình để dự báo khả năng ra trường đúng hạn hay muộn. Từ đó, cán bộ cố vấn có thể cảnh báo kịp thời và đề xuất giải pháp hỗ trợ sinh viên điều chỉnh kế hoạch học tập.Cỡ mẫu và nguồn dữ liệu trong nghiên cứu này như thế nào?
Nghiên cứu sử dụng bộ dữ liệu thực tế của một khóa sinh viên chính quy đã ra trường tại Trường Đại học Kinh tế Quốc dân, với cỡ mẫu khoảng vài nghìn sinh viên. Dữ liệu bao gồm thông tin cá nhân, kết quả học tập, đăng ký học phần và điểm số.Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế tại các trường đại học khác?
Các trường có thể thu thập dữ liệu sinh viên tương tự, áp dụng quy trình tiền xử lý và khai phá dữ liệu theo hướng dẫn, sử dụng các công cụ như BIDS hoặc Weka để xây dựng mô hình luật kết hợp và cây quyết định phù hợp với đặc thù từng trường, từ đó hỗ trợ công tác cố vấn học tập hiệu quả.
Kết luận
- Luận văn đã nghiên cứu và áp dụng thành công kỹ thuật khai phá luật kết hợp và cây quyết định trên bộ dữ liệu sinh viên đại học, phục vụ công tác cố vấn học tập tại Trường Đại học Kinh tế Quốc dân.
- Phát hiện hơn 50 luật kết hợp phổ biến giữa các học phần tự chọn với độ hỗ trợ và tin cậy cao, giúp tư vấn lựa chọn học phần hiệu quả.
- Mô hình cây quyết định phân lớp sinh viên dự báo khả năng ra trường đúng hạn đạt độ chính xác 85%, hỗ trợ cảnh báo kịp thời cho cán bộ cố vấn.
- Đề xuất xây dựng hệ thống hỗ trợ cố vấn học tập dựa trên khai phá dữ liệu, tổ chức đào tạo cán bộ và mở rộng bộ dữ liệu để nâng cao hiệu quả công tác cố vấn.
- Hướng nghiên cứu tiếp theo là tích hợp thêm các yếu tố xã hội, tâm lý và phát triển mô hình khai phá dữ liệu đa chiều, nâng cao độ chính xác và tính ứng dụng trong giáo dục đại học.
Mời quý độc giả và các nhà quản lý giáo dục quan tâm áp dụng các kết quả nghiên cứu để nâng cao hiệu quả công tác cố vấn học tập và quản lý đào tạo theo hình thức tín chỉ.