Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi mạnh mẽ của hệ thống giáo dục Việt Nam từ đào tạo theo niên chế sang đào tạo theo tín chỉ, việc quản lý và tư vấn học tập cho sinh viên trở nên cấp thiết hơn bao giờ hết. Theo ước tính, số lượng sinh viên theo học tại các trường cao đẳng kỹ thuật ngày càng tăng, đồng nghĩa với việc cần có các công cụ hỗ trợ hiệu quả để nâng cao chất lượng đào tạo và kết quả học tập. Luận văn tập trung nghiên cứu kỹ thuật khai phá dữ liệu, đặc biệt là khai phá luật kết hợp, nhằm phân tích dữ liệu học tập của sinh viên trường Cao đẳng Kỹ nghệ II. Mục tiêu chính là tìm ra mối liên hệ giữa kết quả học tập các môn chuyên ngành với kết quả tốt nghiệp, từ đó xây dựng hệ thống tư vấn học tập giúp sinh viên lựa chọn môn học phù hợp, nâng cao hiệu quả học tập.

Phạm vi nghiên cứu tập trung vào dữ liệu học tập của khoảng 152 sinh viên với 16 học phần tại trường Cao đẳng Kỹ nghệ II, trong giai đoạn gần đây. Ý nghĩa của nghiên cứu được thể hiện qua việc ứng dụng các thuật toán khai phá dữ liệu như Apriori và FP-Growth để phát hiện các luật kết hợp mạnh, hỗ trợ việc tư vấn học tập cá nhân hóa. Qua đó, giúp nhà trường và sinh viên có cơ sở khoa học để đưa ra các quyết định học tập chính xác, góp phần nâng cao chất lượng đào tạo và tỷ lệ tốt nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết khai phá dữ liệu (Data Mining) với trọng tâm là khai phá luật kết hợp (Association Rules Mining). Khai phá dữ liệu là quá trình phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu lớn, nhằm mô tả và dự đoán các mẫu dữ liệu có ý nghĩa. Luật kết hợp được định nghĩa là các mối quan hệ dạng "Nếu... thì..." giữa các tập mục trong dữ liệu, với hai chỉ số quan trọng là độ hỗ trợ (support) và độ tin cậy (confidence).

Hai thuật toán chính được nghiên cứu và áp dụng là:

  • Apriori: Thuật toán dựa trên chiến lược sinh ứng cử và kiểm tra, tìm các tập mục phổ biến theo chiều rộng, sử dụng tính chất con của tập mục phổ biến để giảm không gian tìm kiếm.
  • FP-Growth: Thuật toán không sinh ứng cử, sử dụng cấu trúc cây FP-Tree để nén dữ liệu và khai phá các tập mục phổ biến hiệu quả hơn, đặc biệt với dữ liệu lớn và mẫu dài.

Các khái niệm chính bao gồm: tập mục (itemset), tập mục phổ biến (frequent itemset), luật kết hợp mạnh (strong association rule), độ hỗ trợ, độ tin cậy, và các độ đo hữu ích như Lift và Cosine để đánh giá tính quan trọng của luật.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu học tập của 152 sinh viên trường Cao đẳng Kỹ nghệ II, với 16 học phần được thu thập và xử lý. Dữ liệu được chuẩn hóa và chuyển đổi sang định dạng phù hợp cho khai phá dữ liệu, sử dụng phần mềm WEKA để thực hiện các thuật toán.

Phương pháp phân tích gồm hai bước chính:

  1. Khai phá tập mục phổ biến: Sử dụng thuật toán Apriori và FP-Growth để tìm các tập mục có độ hỗ trợ tối thiểu (minsup) được thiết lập, nhằm phát hiện các nhóm môn học có mối liên hệ chặt chẽ trong kết quả học tập.
  2. Sinh luật kết hợp mạnh: Từ các tập mục phổ biến, sinh các luật kết hợp thỏa mãn ngưỡng độ tin cậy tối thiểu (minconf), đánh giá tính hữu ích bằng các độ đo Lift và Cosine.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2016 đến 2017, với các bước thu thập, tiền xử lý dữ liệu, phân tích và đánh giá kết quả. Cỡ mẫu 152 sinh viên được chọn theo phương pháp chọn mẫu ngẫu nhiên có chủ đích nhằm đảm bảo tính đại diện cho nhóm sinh viên ngành Công nghệ Thông tin tại trường.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phát hiện các tập mục phổ biến liên quan đến kết quả học tập: Qua phân tích dữ liệu, các tập mục gồm các môn học như Mạng máy tính (I2), Thuật toán (I3), và Thiết bị di động (I5) xuất hiện phổ biến với độ hỗ trợ trên 30%, cho thấy mối liên hệ mật thiết giữa các môn này với kết quả tốt nghiệp của sinh viên.

  2. Luật kết hợp mạnh giữa các môn học và kết quả tốt nghiệp: Một số luật kết hợp mạnh được tìm thấy với độ tin cậy trên 60%, ví dụ: "Nếu sinh viên học khá môn Mạng máy tính và Thuật toán thì có 80% khả năng đạt kết quả tốt nghiệp cao". Luật này có độ hỗ trợ khoảng 25%, phản ánh tính phổ biến trong dữ liệu.

  3. So sánh hiệu quả thuật toán Apriori và FP-Growth: Thuật toán FP-Growth cho kết quả nhanh hơn khoảng 40% so với Apriori trong việc khai phá tập mục phổ biến, đặc biệt khi ngưỡng hỗ trợ giảm xuống mức thấp (minsup = 0.2). FP-Growth cũng giảm số lần quét cơ sở dữ liệu từ 16 lần xuống còn 2 lần, tiết kiệm đáng kể thời gian xử lý.

  4. Độ đo Lift và Cosine giúp lọc luật hữu ích: Các luật có Lift > 1.2 và Cosine > 0.5 được đánh giá là có ý nghĩa thực tiễn cao, giúp nhà trường tập trung vào những mối quan hệ có ảnh hưởng lớn đến kết quả học tập sinh viên.

Thảo luận kết quả

Nguyên nhân các môn học như Mạng máy tính, Thuật toán và Thiết bị di động có mối liên hệ chặt chẽ với kết quả tốt nghiệp có thể do tính chất chuyên ngành Công nghệ Thông tin, trong đó các môn này là nền tảng quan trọng. Kết quả này phù hợp với các nghiên cứu trong ngành giáo dục đại học, cho thấy việc tập trung hỗ trợ sinh viên ở các môn trọng điểm sẽ nâng cao tỷ lệ tốt nghiệp.

So với các nghiên cứu trước đây, việc áp dụng thuật toán FP-Growth cho thấy ưu thế vượt trội về hiệu suất và khả năng xử lý dữ liệu lớn, phù hợp với thực tế dữ liệu học tập đa dạng và phức tạp. Việc sử dụng các độ đo như Lift và Cosine giúp giảm thiểu số lượng luật không cần thiết, tập trung vào các luật có giá trị thực tiễn cao, từ đó nâng cao hiệu quả tư vấn học tập.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện độ hỗ trợ và độ tin cậy của các luật kết hợp chính, hoặc bảng so sánh thời gian xử lý giữa hai thuật toán Apriori và FP-Growth, giúp minh họa rõ ràng hiệu quả nghiên cứu.

Đề xuất và khuyến nghị

  1. Xây dựng hệ thống tư vấn học tập dựa trên luật kết hợp: Áp dụng các luật kết hợp mạnh đã khai phá để phát triển phần mềm tư vấn giúp sinh viên lựa chọn môn học phù hợp, nâng cao tỷ lệ hoàn thành và kết quả học tập. Thời gian triển khai dự kiến trong 12 tháng, do phòng Công nghệ Thông tin trường Cao đẳng Kỹ nghệ II chủ trì.

  2. Tăng cường đào tạo và hỗ trợ các môn học trọng điểm: Tập trung nguồn lực giảng dạy và hỗ trợ sinh viên ở các môn như Mạng máy tính, Thuật toán và Thiết bị di động nhằm cải thiện kết quả học tập chung. Kế hoạch thực hiện trong 2 học kỳ tiếp theo, do khoa Công nghệ Thông tin phối hợp với phòng Đào tạo thực hiện.

  3. Áp dụng thuật toán FP-Growth trong phân tích dữ liệu học tập định kỳ: Sử dụng FP-Growth để khai thác dữ liệu học tập hàng năm, giúp nhà trường cập nhật kịp thời các mối quan hệ mới và điều chỉnh chính sách đào tạo. Thời gian áp dụng bắt đầu từ năm học tiếp theo, do bộ phận phân tích dữ liệu đảm nhiệm.

  4. Đào tạo cán bộ quản lý và giảng viên về khai phá dữ liệu: Tổ chức các khóa đào tạo về kỹ thuật khai phá dữ liệu và ứng dụng trong giáo dục nhằm nâng cao năng lực phân tích và sử dụng dữ liệu trong quản lý đào tạo. Dự kiến tổ chức trong 6 tháng tới, do phòng Đào tạo và phòng Công nghệ Thông tin phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý giáo dục tại các trường cao đẳng, đại học: Giúp hiểu rõ về ứng dụng khai phá dữ liệu trong quản lý đào tạo, từ đó xây dựng các chính sách hỗ trợ sinh viên hiệu quả hơn.

  2. Giảng viên và cán bộ tư vấn học tập: Cung cấp công cụ và phương pháp khoa học để tư vấn môn học dựa trên dữ liệu thực tế, nâng cao chất lượng giảng dạy và hỗ trợ sinh viên.

  3. Sinh viên ngành Công nghệ Thông tin và các ngành liên quan: Học hỏi về ứng dụng thực tế của kỹ thuật khai phá dữ liệu và luật kết hợp trong lĩnh vực giáo dục, phục vụ nghiên cứu và phát triển nghề nghiệp.

  4. Nhà nghiên cứu và phát triển phần mềm giáo dục: Tham khảo các thuật toán và mô hình khai phá dữ liệu để phát triển các hệ thống tư vấn học tập thông minh, đáp ứng nhu cầu cá nhân hóa trong giáo dục hiện đại.

Câu hỏi thường gặp

  1. Khai phá luật kết hợp là gì và tại sao quan trọng trong giáo dục?
    Khai phá luật kết hợp là kỹ thuật tìm ra các mối quan hệ dạng "Nếu... thì..." giữa các tập mục trong dữ liệu. Trong giáo dục, nó giúp phát hiện mối liên hệ giữa các môn học và kết quả học tập, từ đó hỗ trợ tư vấn học tập hiệu quả.

  2. Thuật toán Apriori và FP-Growth khác nhau như thế nào?
    Apriori sinh ra nhiều tập ứng cử và quét dữ liệu nhiều lần, phù hợp với dữ liệu nhỏ và thưa. FP-Growth sử dụng cấu trúc cây FP-Tree để nén dữ liệu và khai phá nhanh hơn, đặc biệt hiệu quả với dữ liệu lớn và mẫu dài.

  3. Làm thế nào để đánh giá tính hữu ích của một luật kết hợp?
    Ngoài độ hỗ trợ và độ tin cậy, các độ đo như Lift và Cosine được sử dụng để đánh giá mức độ phụ thuộc và tương quan giữa các tập mục, giúp lọc ra các luật có ý nghĩa thực tiễn cao.

  4. Ứng dụng của khai phá dữ liệu trong tư vấn học tập là gì?
    Khai phá dữ liệu giúp phát hiện các mẫu học tập thành công, từ đó xây dựng hệ thống tư vấn môn học cá nhân hóa, giúp sinh viên lựa chọn môn học phù hợp với năng lực và mục tiêu, nâng cao hiệu quả học tập.

  5. Làm sao để áp dụng kết quả nghiên cứu vào thực tế tại trường?
    Trường có thể triển khai phần mềm tư vấn học tập dựa trên các luật kết hợp đã khai phá, đồng thời đào tạo cán bộ và giảng viên sử dụng công cụ này để hỗ trợ sinh viên trong quá trình học tập.

Kết luận

  • Nghiên cứu đã thành công trong việc áp dụng kỹ thuật khai phá luật kết hợp để phân tích dữ liệu học tập của sinh viên trường Cao đẳng Kỹ nghệ II, phát hiện các mối liên hệ quan trọng giữa các môn học và kết quả tốt nghiệp.
  • Thuật toán FP-Growth được chứng minh hiệu quả hơn Apriori trong xử lý dữ liệu lớn và mẫu dài, giảm đáng kể thời gian và tài nguyên tính toán.
  • Các độ đo Lift và Cosine giúp lọc ra các luật kết hợp có giá trị thực tiễn cao, hỗ trợ xây dựng hệ thống tư vấn học tập chính xác và hiệu quả.
  • Đề xuất xây dựng hệ thống tư vấn học tập dựa trên kết quả khai phá dữ liệu, đồng thời tăng cường đào tạo và hỗ trợ các môn học trọng điểm nhằm nâng cao chất lượng đào tạo.
  • Các bước tiếp theo bao gồm triển khai phần mềm tư vấn, đào tạo cán bộ quản lý và giảng viên, cũng như áp dụng khai phá dữ liệu định kỳ để cập nhật và cải tiến chính sách đào tạo.

Hành động tiếp theo là phối hợp giữa các phòng ban trong trường để triển khai các giải pháp đề xuất, đồng thời mở rộng nghiên cứu ứng dụng khai phá dữ liệu trong các lĩnh vực giáo dục khác nhằm nâng cao hiệu quả quản lý và đào tạo.