Tổng quan nghiên cứu

Trong bối cảnh ngành Công nghệ Thông tin (CNTT) ngày càng phát triển mạnh mẽ, nhu cầu học tập và đào tạo nhân lực trong lĩnh vực này tăng lên đáng kể. Theo ước tính, số lượng học viên đăng ký học CNTT tại các cơ sở đào tạo, đặc biệt là các học viện ngoài công lập như NIIT-ICT Hà Nội, đã tăng lên khoảng 5000 bản ghi trong 5 năm gần nhất (2018-2022). Tuy nhiên, việc lựa chọn ngành học phù hợp trong CNTT vẫn là một thách thức lớn do sự đa dạng của các chuyên ngành như lập trình, kiểm thử phần mềm, quản trị mạng, v.v. Nhiều học viên chưa chọn đúng ngành học dẫn đến hiệu quả học tập thấp, không phát huy được năng lực và gây lãng phí nguồn lực xã hội.

Luận văn tập trung vào việc ứng dụng các phương pháp học máy, cụ thể là giải thuật cây quyết định C4.5 và giải thuật Random Forest, để phân lớp dữ liệu học viên tại Học viện CNTT NIIT-ICT Hà Nội. Mục tiêu chính là xây dựng mô hình phân lớp dựa trên 5 đặc trưng quan trọng gồm thiên hướng, độ tuổi, giới tính, trình độ và vùng miền nhằm tư vấn chọn ngành học phù hợp, nâng cao hiệu quả đào tạo và giảm thiểu sai lệch trong lựa chọn ngành học. Phạm vi nghiên cứu bao gồm dữ liệu tuyển sinh hệ dài hạn của học viện trong giai đoạn 2018-2022 với 217 bản ghi đã được làm sạch và chọn lọc.

Nghiên cứu có ý nghĩa thiết thực trong việc hỗ trợ công tác tư vấn tuyển sinh, giúp học viên lựa chọn ngành học phù hợp với năng lực và sở thích, từ đó nâng cao tỷ lệ học viên tốt nghiệp đúng ngành và khả năng làm việc hiệu quả sau đào tạo. Đồng thời, kết quả nghiên cứu cũng góp phần phát triển ứng dụng học máy trong lĩnh vực giáo dục và đào tạo CNTT tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính trong học máy:

  1. Giải thuật cây quyết định C4.5: Đây là một giải thuật học máy dựa trên cây quyết định, được phát triển bởi Ross Quinlan, cho phép xử lý dữ liệu có thuộc tính rời rạc và liên tục, xử lý giá trị thiếu và hỗ trợ kỹ thuật cắt tỉa cây (pruning) để tránh hiện tượng overfitting. C4.5 sử dụng các chỉ số như Entropy, Information Gain và Gain Ratio để chọn thuộc tính phân loại tốt nhất tại mỗi nút cây.

  2. Giải thuật Random Forest: Là một phương pháp ensemble learning kết hợp nhiều cây quyết định được xây dựng trên các mẫu dữ liệu bootstrap khác nhau. Random Forest sử dụng kỹ thuật Bagging để giảm thiểu overfitting và tăng độ chính xác dự đoán. Giải thuật này có khả năng xử lý dữ liệu lớn, dữ liệu thiếu và đa dạng các biến đầu vào.

Các khái niệm chính được sử dụng trong nghiên cứu bao gồm: Entropy, Gain Ratio, Overfitting, Bagging, Ma trận nhầm lẫn (Confusion Matrix), các chỉ số đánh giá mô hình như độ chính xác (Accuracy), độ nhạy (Recall), độ đặc hiệu (Specificity), và điểm F1.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là cơ sở dữ liệu tuyển sinh học viên hệ dài hạn của Học viện CNTT NIIT-ICT Hà Nội trong giai đoạn 2018-2022, gồm gần 5000 bản ghi thô với 15 đặc trưng. Qua quá trình làm sạch và trích chọn, tập dữ liệu cuối cùng gồm 217 bản ghi với 5 đặc trưng quan trọng: thiên hướng (KHTN, KHXH), độ tuổi (Trẻ, Thanh niên, Trung niên), giới tính (Nam, Nữ), trình độ (PTTH, CDDH, CH), vùng miền (Thành phố, Nông thôn).

Phương pháp phân tích bao gồm:

  • Tiền xử lý dữ liệu: Làm sạch dữ liệu, loại bỏ các bản ghi không phù hợp, xử lý giá trị thiếu, chuyển đổi dữ liệu sang dạng phù hợp cho phân lớp.
  • Phân lớp dữ liệu: Áp dụng giải thuật C4.5 và Random Forest để xây dựng mô hình phân lớp dựa trên tập dữ liệu huấn luyện gồm 35 bản ghi mẫu được chọn lọc kỹ lưỡng.
  • Đánh giá mô hình: Sử dụng ma trận nhầm lẫn và các chỉ số như Accuracy, Precision, Recall, F1-score để so sánh hiệu quả của hai giải thuật.
  • Timeline nghiên cứu: Thu thập và xử lý dữ liệu trong 3 tháng đầu, xây dựng và huấn luyện mô hình trong 2 tháng tiếp theo, đánh giá và hoàn thiện luận văn trong 3 tháng cuối năm 2023.

Phương pháp chọn mẫu là chọn ngẫu nhiên các bản ghi đại diện cho các nhóm đặc trưng khác nhau nhằm đảm bảo tính đa dạng và đại diện cho toàn bộ dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Thuộc tính thiên hướng (TH) có ảnh hưởng lớn nhất đến việc chọn ngành học: Qua tính toán Gain Ratio, thuộc tính TH đạt giá trị 0.21, cao nhất trong số 5 đặc trưng, cho thấy học viên có thiên hướng khoa học tự nhiên (KHTN) có xu hướng chọn ngành Lập trình, trong khi thiên hướng khoa học xã hội (KHXH) có xu hướng chọn ngành Kiểm thử.

  2. Giới tính (GT) và trình độ (TĐ) là các yếu tố phân loại quan trọng tiếp theo: Trong nhánh TH = KHTN, thuộc tính GT có Gain Ratio 0.37 và TĐ có Gain Ratio 0.47, cho thấy học viên nam và có trình độ cao đẳng - đại học hoặc cao học có xu hướng chọn ngành Lập trình cao hơn học viên nữ.

  3. Độ tuổi (ĐT) và vùng miền (VM) cũng ảnh hưởng đến lựa chọn ngành học: Độ tuổi thanh niên và trung niên có xu hướng chọn ngành Lập trình với tỷ lệ Entropy = 0, tức là phân lớp rõ ràng, trong khi học viên trẻ tuổi có sự phân bố ngành học đa dạng hơn tùy theo vùng miền.

  4. Hiệu quả mô hình phân lớp: Giải thuật Random Forest cho độ chính xác cao hơn so với C4.5, với độ chính xác khoảng 85% so với 78% của C4.5 trên tập dữ liệu kiểm tra. Ma trận nhầm lẫn cho thấy Random Forest giảm tỷ lệ sai phân lớp (false positive và false negative) đáng kể, giúp tư vấn chọn ngành chính xác hơn.

Thảo luận kết quả

Kết quả cho thấy việc sử dụng các giải thuật học máy trong phân lớp dữ liệu học viên là khả thi và hiệu quả trong việc hỗ trợ tư vấn chọn ngành học. Thuộc tính thiên hướng được xác định là yếu tố quyết định hàng đầu, phù hợp với thực tế rằng sở thích và năng lực cá nhân ảnh hưởng lớn đến lựa chọn ngành nghề.

So sánh với các nghiên cứu trong lĩnh vực giáo dục và học máy, kết quả tương đồng với báo cáo của ngành khi nhấn mạnh vai trò của các đặc trưng cá nhân trong dự báo lựa chọn ngành học. Việc Random Forest vượt trội hơn C4.5 về độ chính xác cũng phù hợp với đặc điểm kỹ thuật của giải thuật này trong việc giảm overfitting và xử lý dữ liệu phức tạp.

Dữ liệu có thể được trình bày qua biểu đồ Gain Ratio so sánh các đặc trưng, biểu đồ cây quyết định minh họa các nút phân tách, và bảng ma trận nhầm lẫn thể hiện hiệu quả phân lớp của từng giải thuật. Những biểu đồ này giúp trực quan hóa quá trình phân lớp và hỗ trợ việc giải thích kết quả cho các bên liên quan.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống tư vấn chọn ngành học dựa trên mô hình Random Forest: Xây dựng phần mềm ứng dụng tại Học viện NIIT-ICT Hà Nội để hỗ trợ tư vấn viên và học viên trong việc lựa chọn ngành học phù hợp, nhằm nâng cao tỷ lệ học viên học đúng ngành và phát huy năng lực cá nhân. Thời gian thực hiện dự kiến 6 tháng.

  2. Mở rộng thu thập dữ liệu và bổ sung đặc trưng: Tăng cường thu thập dữ liệu tuyển sinh với nhiều đặc trưng hơn như năng lực học tập, sở thích cá nhân, điều kiện kinh tế để nâng cao độ chính xác mô hình. Chủ thể thực hiện là phòng tuyển sinh và bộ phận CNTT của học viện trong vòng 1 năm.

  3. Đào tạo và nâng cao năng lực cho đội ngũ tư vấn viên: Tổ chức các khóa đào tạo về ứng dụng học máy và phân tích dữ liệu cho cán bộ tư vấn tuyển sinh nhằm nâng cao chất lượng tư vấn và sử dụng hiệu quả công cụ hỗ trợ. Thời gian đào tạo 3 tháng.

  4. Nghiên cứu mở rộng ứng dụng mô hình sang các lĩnh vực đào tạo khác: Áp dụng mô hình phân lớp dữ liệu học viên cho các ngành học khác trong lĩnh vực CNTT và các ngành nghề khác để đa dạng hóa công cụ tư vấn. Thời gian nghiên cứu mở rộng 1-2 năm.

Đối tượng nên tham khảo luận văn

  1. Cán bộ tư vấn tuyển sinh và quản lý đào tạo tại các học viện, trường đại học CNTT: Giúp nâng cao hiệu quả công tác tư vấn, giảm thiểu sai lệch trong lựa chọn ngành học, từ đó cải thiện chất lượng đào tạo và tỷ lệ sinh viên tốt nghiệp đúng ngành.

  2. Nhà nghiên cứu và chuyên gia trong lĩnh vực học máy và khai phá dữ liệu: Cung cấp một case study thực tiễn về ứng dụng giải thuật C4.5 và Random Forest trong phân lớp dữ liệu giáo dục, làm cơ sở cho các nghiên cứu phát triển thuật toán và ứng dụng mới.

  3. Sinh viên và học viên ngành Công nghệ Thông tin, Khoa học dữ liệu: Tham khảo phương pháp nghiên cứu, quy trình xử lý dữ liệu, xây dựng mô hình phân lớp và đánh giá hiệu quả mô hình trong thực tế.

  4. Các tổ chức đào tạo và doanh nghiệp tuyển dụng nhân lực CNTT: Sử dụng kết quả nghiên cứu để xây dựng hệ thống đánh giá, phân loại ứng viên dựa trên đặc trưng cá nhân, hỗ trợ tuyển dụng và đào tạo phù hợp.

Câu hỏi thường gặp

  1. Tại sao chọn giải thuật C4.5 và Random Forest để phân lớp dữ liệu học viên?
    C4.5 là giải thuật cây quyết định phổ biến, dễ hiểu và xử lý tốt dữ liệu nhỏ, còn Random Forest là phương pháp ensemble giúp tăng độ chính xác và giảm overfitting, phù hợp với dữ liệu phức tạp và lớn. Kết hợp hai giải thuật giúp so sánh và lựa chọn mô hình tối ưu.

  2. Dữ liệu nghiên cứu có đủ đại diện cho toàn bộ học viên không?
    Dữ liệu gồm 217 bản ghi đã được làm sạch từ gần 5000 bản ghi thô, chọn lọc theo 5 đặc trưng quan trọng. Mặc dù số lượng không lớn, nhưng đã đảm bảo tính đa dạng và đại diện cho các nhóm học viên chính tại học viện trong 5 năm.

  3. Làm thế nào để đánh giá độ chính xác của mô hình phân lớp?
    Sử dụng ma trận nhầm lẫn để tính các chỉ số như độ chính xác (Accuracy), độ nhạy (Recall), độ đặc hiệu (Specificity), và điểm F1. Ví dụ, Random Forest đạt độ chính xác khoảng 85%, cao hơn so với 78% của C4.5.

  4. Giải thuật Random Forest có thể áp dụng cho các ngành học khác không?
    Có, Random Forest là giải thuật linh hoạt, có thể áp dụng cho nhiều bài toán phân lớp trong giáo dục và các lĩnh vực khác, miễn là có dữ liệu đầu vào phù hợp và được xử lý đúng cách.

  5. Làm thế nào để tránh hiện tượng overfitting trong mô hình cây quyết định?
    Áp dụng kỹ thuật cắt tỉa cây (pruning) sau khi xây dựng cây, hoặc sử dụng các phương pháp ensemble như Random Forest để giảm thiểu overfitting và tăng tính ổn định của mô hình.

Kết luận

  • Luận văn đã xây dựng thành công mô hình phân lớp dữ liệu học viên tại Học viện CNTT NIIT-ICT Hà Nội dựa trên giải thuật C4.5 và Random Forest với 5 đặc trưng chính.
  • Thuộc tính thiên hướng, trình độ và giới tính là các yếu tố quan trọng ảnh hưởng đến lựa chọn ngành học của học viên.
  • Giải thuật Random Forest cho kết quả phân lớp chính xác hơn, giảm thiểu sai số so với C4.5.
  • Kết quả nghiên cứu có ý nghĩa thực tiễn trong việc hỗ trợ tư vấn chọn ngành học, nâng cao hiệu quả đào tạo và giảm lãng phí nguồn lực.
  • Đề xuất triển khai hệ thống tư vấn dựa trên mô hình Random Forest, mở rộng thu thập dữ liệu và đào tạo đội ngũ tư vấn viên là các bước tiếp theo cần thực hiện.

Học viện và các tổ chức đào tạo nên áp dụng kết quả nghiên cứu để cải thiện công tác tư vấn tuyển sinh, đồng thời tiếp tục nghiên cứu mở rộng ứng dụng học máy trong giáo dục nhằm nâng cao chất lượng đào tạo và đáp ứng nhu cầu phát triển nguồn nhân lực CNTT trong tương lai.