Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số và sự phát triển mạnh mẽ của ngành công nghệ thông tin (CNTT) tại Việt Nam, nhu cầu nhân lực trong lĩnh vực này ngày càng tăng cao. Theo các báo cáo nghiên cứu thị trường lao động gần đây, thiếu hụt lao động CNTT là một vấn đề nổi bật, đặc biệt là kỹ năng lập trình – một kỹ năng then chốt trong ngành. Việc nâng cao chất lượng đào tạo kỹ năng lập trình, đặc biệt là học phần thực hành, trở thành yêu cầu cấp thiết nhằm đáp ứng nhu cầu nhân lực chất lượng cao. Mục tiêu của nghiên cứu là xây dựng một hệ thống gợi ý nội dung học phần thực hành theo hướng cá nhân hóa, giúp sinh viên được đề xuất các bài tập phù hợp với năng lực hiện tại, từ đó nâng cao hiệu quả học tập.

Phạm vi nghiên cứu tập trung vào sinh viên ngành Khoa học và Kỹ thuật Máy tính tại Trường Đại học Bách Khoa – Đại học Quốc gia TP. Hồ Chí Minh, sử dụng dữ liệu thực tế từ hệ thống Auto Grading System (AGS) và dữ liệu mô phỏng hội thoại. Hệ thống được thiết kế hỗ trợ ngôn ngữ tiếng Anh, áp dụng các mô hình xử lý ngôn ngữ tự nhiên hiện đại như BERT và các thuật toán gợi ý dựa trên phân rã ma trận. Ý nghĩa của nghiên cứu được thể hiện qua việc giảm tải công việc cho giảng viên, tăng cường tương tác cá nhân hóa với sinh viên, đồng thời góp phần nâng cao chất lượng đào tạo lập trình theo phương pháp CDIO – lấy sinh viên làm trung tâm và học đi đôi với hành.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên ba nền tảng lý thuyết chính:

  1. Phương pháp luận CDIO (Conceive – Design – Implement – Operate): Đây là mô hình giáo dục kỹ thuật được áp dụng rộng rãi nhằm nâng cao chất lượng đào tạo, nhấn mạnh việc học đi đôi với thực hành và lấy sinh viên làm trung tâm. Mô hình này giúp thiết kế các học phần thực hành phù hợp với năng lực và tiến trình học tập của sinh viên.

  2. Hệ thống gợi ý (Recommender Systems): Hệ thống gợi ý được xây dựng dựa trên mô hình phân rã ma trận (Matrix Factorization) và lọc cộng tác (Collaborative Filtering). Phương pháp phân rã ma trận sử dụng kỹ thuật Alternating Least Squares (ALS) và Singular Value Decomposition (SVD) để khai thác các yếu tố ẩn trong dữ liệu đánh giá của sinh viên đối với các bài tập thực hành, từ đó dự đoán và đề xuất bài tập phù hợp.

  3. Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP): Nghiên cứu áp dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) và Sentence-BERT (SBERT) để xử lý và biểu diễn ngữ nghĩa các câu hỏi, yêu cầu của sinh viên trong chatbot. BERT cho phép mô hình hóa ngữ cảnh hai chiều, nâng cao khả năng hiểu và phản hồi chính xác trong hội thoại.

Các khái niệm chính bao gồm: ma trận đánh giá (ratings matrix), phân rã ma trận (matrix factorization), mô hình học sâu Transformer, chatbot dựa trên AI, và cá nhân hóa trong hệ thống gợi ý.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ hệ thống Auto Grading System (AGS) của sinh viên ngành Khoa học và Kỹ thuật Máy tính – Trường Đại học Bách Khoa TP. Hồ Chí Minh, bao gồm lịch sử làm bài tập thực hành và điểm số đánh giá. Dữ liệu hội thoại mô phỏng được tạo ra để huấn luyện và kiểm thử chatbot.

Phương pháp phân tích bao gồm:

  • Phân tích dữ liệu đánh giá: Sử dụng kỹ thuật phân rã ma trận không ràng buộc và SVD để trích xuất các yếu tố ẩn từ ma trận điểm số, áp dụng thuật toán Alternating Least Squares (ALS) và Stochastic Gradient Descent (SGD) để tối ưu mô hình gợi ý.

  • Xử lý ngôn ngữ tự nhiên: Tiền xử lý dữ liệu văn bản (làm sạch, tách từ, chuẩn hóa), sau đó áp dụng mô hình BERT để biểu diễn ngữ nghĩa câu hỏi và yêu cầu của sinh viên. Mô hình SBERT được sử dụng để tính toán độ tương đồng ngữ nghĩa giữa câu hỏi và nội dung bài tập.

  • Phát triển hệ thống chatbot: Xây dựng chatbot dựa trên pipeline xử lý ngôn ngữ tự nhiên, kết hợp mô hình phân loại intent và slot filling bằng BERT để nhận diện ý định người dùng và phản hồi phù hợp.

  • Thời gian nghiên cứu: Nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2022 đến cuối năm 2022, với các giai đoạn thu thập dữ liệu, phát triển mô hình, hiện thực hệ thống và đánh giá hiệu năng.

Cỡ mẫu dữ liệu gồm khoảng hàng trăm sinh viên với hàng nghìn lượt làm bài tập thực hành, đảm bảo tính đại diện và độ tin cậy cho mô hình gợi ý và chatbot.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của mô hình phân rã ma trận trong gợi ý bài tập: Mô hình ALS với các tham số tối ưu đạt được độ chính xác RMSE khoảng 0.85, cải thiện đáng kể so với các phương pháp lọc cộng tác truyền thống. Hệ thống có khả năng dự đoán chính xác các bài tập phù hợp với năng lực sinh viên dựa trên lịch sử làm bài.

  2. Độ chính xác nhận diện intent của chatbot: Mô hình Joint Intent-Slot Filling sử dụng BERT đạt độ chính xác phân loại intent lên đến 92%, giúp chatbot phản hồi chính xác các yêu cầu của sinh viên trong quá trình tương tác.

  3. Tăng cường tương tác cá nhân hóa: Hệ thống gợi ý kết hợp chatbot tạo ra môi trường học tập thân thiện, sinh viên có thể chủ động đặt câu hỏi và nhận được đề xuất bài tập phù hợp với trình độ, giúp tăng tỷ lệ hoàn thành bài tập thực hành lên khoảng 15% so với trước khi áp dụng hệ thống.

  4. Hiệu năng hệ thống: Kiểm thử ứng dụng web cho thấy thời gian phản hồi trung bình dưới 1 giây, đảm bảo trải nghiệm người dùng mượt mà. Độ phủ của hệ thống gợi ý đạt trên 90% các bài tập trong kho dữ liệu, đáp ứng đa dạng nhu cầu học tập.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả trên là do việc áp dụng mô hình phân rã ma trận giúp khai thác sâu các mối quan hệ ẩn giữa sinh viên và bài tập, từ đó đưa ra gợi ý chính xác hơn. Việc sử dụng BERT trong chatbot nâng cao khả năng hiểu ngữ cảnh và ý định người dùng, khắc phục hạn chế của các chatbot dựa trên quy tắc truyền thống.

So sánh với các nghiên cứu trước đây, hệ thống này có sự kết hợp đồng bộ giữa gợi ý cá nhân hóa và tương tác hội thoại, tạo ra giá trị gia tăng trong môi trường giáo dục đại học. Kết quả cũng cho thấy việc cá nhân hóa nội dung học phần thực hành góp phần nâng cao hiệu quả học tập, giảm tải áp lực cho giảng viên trong việc theo sát từng sinh viên.

Dữ liệu có thể được trình bày qua biểu đồ so sánh RMSE giữa các mô hình gợi ý, bảng thống kê độ chính xác phân loại intent, và biểu đồ thời gian phản hồi hệ thống để minh họa hiệu năng.

Đề xuất và khuyến nghị

  1. Triển khai rộng rãi hệ thống gợi ý cá nhân hóa: Đẩy mạnh áp dụng hệ thống tại các khoa CNTT và các ngành kỹ thuật khác trong trường, nhằm nâng cao hiệu quả đào tạo thực hành. Thời gian thực hiện trong 1-2 năm, chủ thể là Ban giám hiệu và các khoa chuyên môn.

  2. Phát triển thêm các module hỗ trợ đa ngôn ngữ: Mở rộng hỗ trợ ngôn ngữ tiếng Việt và các ngôn ngữ khác để tăng tính tiếp cận cho sinh viên đa dạng. Thời gian 1 năm, do nhóm phát triển phần mềm thực hiện.

  3. Tích hợp hệ thống với các nền tảng học tập trực tuyến hiện có: Kết nối với hệ thống e-learning để đồng bộ dữ liệu và nâng cao trải nghiệm người dùng. Thời gian 6-12 tháng, phối hợp giữa phòng công nghệ thông tin và các đơn vị đào tạo.

  4. Đào tạo giảng viên và sinh viên sử dụng hiệu quả hệ thống: Tổ chức các khóa tập huấn, hướng dẫn sử dụng chatbot và hệ thống gợi ý để tận dụng tối đa lợi ích. Thời gian liên tục hàng năm, do phòng đào tạo và khoa tổ chức.

  5. Nâng cao khả năng phân tích dữ liệu và cá nhân hóa sâu hơn: Áp dụng các kỹ thuật học máy nâng cao để phân tích lịch sử học tập dài hạn, từ đó đề xuất lộ trình học tập cá nhân hóa toàn diện hơn. Thời gian nghiên cứu và phát triển 2-3 năm, do nhóm nghiên cứu và phát triển thực hiện.

Đối tượng nên tham khảo luận văn

  1. Giảng viên và cán bộ đào tạo ngành CNTT: Có thể áp dụng hệ thống để hỗ trợ xây dựng và triển khai học phần thực hành, giảm tải công việc và nâng cao hiệu quả giảng dạy.

  2. Sinh viên ngành Khoa học Máy tính và các ngành kỹ thuật: Sử dụng hệ thống để nhận được các đề xuất bài tập phù hợp, tăng cường kỹ năng lập trình và tự đánh giá năng lực cá nhân.

  3. Nhà nghiên cứu và phát triển công nghệ giáo dục: Tham khảo các mô hình gợi ý và chatbot ứng dụng AI trong giáo dục, làm cơ sở phát triển các giải pháp tương tự hoặc mở rộng.

  4. Quản lý giáo dục và các đơn vị đào tạo: Đánh giá và triển khai các công nghệ hỗ trợ đào tạo hiện đại, nâng cao chất lượng đào tạo và đáp ứng nhu cầu nhân lực ngành CNTT.

Câu hỏi thường gặp

  1. Hệ thống gợi ý cá nhân hóa hoạt động dựa trên nguyên tắc nào?
    Hệ thống sử dụng kỹ thuật phân rã ma trận để khai thác các yếu tố ẩn trong dữ liệu điểm số làm bài của sinh viên, từ đó dự đoán và đề xuất bài tập phù hợp với năng lực hiện tại của từng cá nhân.

  2. Chatbot trong hệ thống có thể xử lý những loại câu hỏi nào?
    Chatbot được huấn luyện để nhận diện các intent phổ biến liên quan đến yêu cầu gợi ý bài tập, hỏi đáp về nội dung thực hành, cũng như các câu hỏi tán gẫu cơ bản nhằm tạo sự thân thiện trong tương tác.

  3. Làm thế nào để đảm bảo tính bảo mật dữ liệu sinh viên?
    Dữ liệu sử dụng trong hệ thống chỉ chứa mã số sinh viên để định danh, không lưu trữ thông tin cá nhân nhạy cảm, đảm bảo tuân thủ các quy định về bảo mật và quyền riêng tư.

  4. Hệ thống có thể áp dụng cho các ngành học khác ngoài CNTT không?
    Về nguyên tắc, mô hình gợi ý và chatbot có thể được điều chỉnh để áp dụng cho các ngành kỹ thuật khác có học phần thực hành tương tự, tuy nhiên cần tùy chỉnh dữ liệu và nội dung phù hợp.

  5. Làm sao để giảng viên và sinh viên tiếp cận và sử dụng hệ thống hiệu quả?
    Cần tổ chức các khóa đào tạo, hướng dẫn sử dụng chi tiết, đồng thời tích hợp hệ thống vào các nền tảng học tập hiện có để sinh viên và giảng viên dễ dàng truy cập và tương tác.

Kết luận

  • Đã xây dựng thành công hệ thống gợi ý nội dung học phần thực hành theo hướng cá nhân hóa, dựa trên dữ liệu thực tế của sinh viên ngành Khoa học và Kỹ thuật Máy tính.
  • Áp dụng mô hình phân rã ma trận và kỹ thuật xử lý ngôn ngữ tự nhiên BERT giúp nâng cao độ chính xác gợi ý và khả năng tương tác chatbot.
  • Hệ thống góp phần giảm tải công việc cho giảng viên, tăng cường sự chủ động và hiệu quả học tập của sinh viên.
  • Kết quả thực nghiệm cho thấy hệ thống có hiệu năng tốt, độ chính xác cao và khả năng mở rộng ứng dụng trong môi trường giáo dục đại học.
  • Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng ngôn ngữ, tích hợp đa nền tảng và nâng cao cá nhân hóa sâu hơn.

Hành động tiếp theo: Khuyến khích các đơn vị đào tạo ngành CNTT triển khai thử nghiệm hệ thống, đồng thời tiếp tục nghiên cứu cải tiến để đáp ứng nhu cầu ngày càng đa dạng của người học trong kỷ nguyên số.