Tổng quan nghiên cứu

Trường Đại học Xây dựng hiện có khoảng hàng nghìn sinh viên theo học, với nhu cầu tra cứu thông tin về chương trình đào tạo, lịch học, lịch thi và các quy định nhà trường rất lớn. Theo khảo sát, 45% sinh viên thường hỏi bạn bè, 15% tự tìm hiểu trên website chính thức, 10% hỏi trực tiếp tại phòng ban và 30% gửi email đến các phòng ban để được hỗ trợ. Tuy nhiên, số lượng email hỏi đáp có thể lên tới vài chục đến vài trăm mỗi ngày, đặc biệt vào các đợt cao điểm như đăng ký môn học hay thi hết học phần, gây quá tải cho bộ phận hỗ trợ và làm chậm trễ phản hồi, ảnh hưởng đến quá trình học tập của sinh viên.

Mục tiêu nghiên cứu là xây dựng một mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng, giúp cung cấp câu trả lời nhanh chóng, chính xác dựa trên tập dữ liệu câu hỏi - câu trả lời có sẵn khoảng 3.500 cặp, giảm tải công việc cho các phòng ban và nâng cao hiệu quả hỗ trợ. Nghiên cứu tập trung vào giai đoạn 2020-2021, áp dụng tại trường Đại học Xây dựng, với ý nghĩa thiết thực trong việc cải thiện trải nghiệm người dùng và tối ưu hóa quy trình hỗ trợ sinh viên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và truy xuất thông tin (Information Retrieval - IR):

  • Mô hình truy xuất thông tin (IR): Bao gồm các mô hình dựa trên lý thuyết tập hợp, mô hình đại số (vector space model), mô hình xác suất và mô hình ngôn ngữ. Mô hình vector space được sử dụng phổ biến nhờ khả năng biểu diễn tài liệu và truy vấn dưới dạng vector, tính toán độ tương đồng bằng cosine, giúp xếp hạng tài liệu theo mức độ phù hợp.

  • Mô hình phân loại ý định câu hỏi: Sử dụng mạng nơ-ron học sâu LSTM (Long Short-Term Memory) để phân loại ý định của câu hỏi thành các nhóm như: điểm số, học bổng, đăng ký môn học, học phí, lịch học, tài khoản hệ thống, thủ tục hành chính, tốt nghiệp, chứng chỉ tiếng Anh TOEIC và nhóm khác. Việc xác định chính xác ý định giúp lọc dữ liệu truy xuất thông tin hiệu quả hơn.

  • Kỹ thuật tăng cường dữ liệu (Data Augmentation): Áp dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) và biến thể phoBERT được huấn luyện trên dữ liệu tiếng Việt lớn để tạo thêm dữ liệu huấn luyện, khắc phục vấn đề mất cân bằng và thiếu dữ liệu trong các lớp ý định.

  • Kỹ thuật tiền xử lý dữ liệu: Bao gồm chuẩn hóa câu hỏi, tách từ tiếng Việt, loại bỏ từ dừng, biểu diễn văn bản bằng vector (one-hot encoding, TF-IDF, ma trận đồng xuất hiện, word embedding skip-gram).

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Tập dữ liệu gồm khoảng 3.500 câu hỏi và câu trả lời thực tế thu thập từ các phòng ban của trường Đại học Xây dựng.

  • Phương pháp chọn mẫu: Dữ liệu được thu thập toàn bộ các câu hỏi thường gặp của sinh viên gửi qua email và các kênh hỗ trợ khác, đảm bảo tính đại diện cho các nhóm ý định phổ biến.

  • Phương pháp phân tích:

    • Tiền xử lý dữ liệu: chuẩn hóa, tách từ, loại bỏ từ dừng.
    • Trích xuất đặc trưng: sử dụng mô hình skip-gram để biểu diễn từ dưới dạng vector.
    • Phân loại ý định: huấn luyện mô hình LSTM với kiến trúc gồm 1 lớp LSTM 128 đơn vị, dropout 0.2, dense 64 và dense 10 lớp đầu ra.
    • Tăng cường dữ liệu: fine-tune mô hình BERTbase phoBERT trên tập dữ liệu tiếng Việt để sinh thêm câu hỏi tương ứng với các lớp ý định thiếu dữ liệu.
    • Truy xuất thông tin: áp dụng mô hình IR kết hợp với phân loại ý định để lọc và xếp hạng câu hỏi phù hợp nhất, trả về câu trả lời tương ứng.
  • Timeline nghiên cứu:

    • Thu thập và tiền xử lý dữ liệu: 3 tháng.
    • Xây dựng và huấn luyện mô hình phân loại ý định: 4 tháng.
    • Tăng cường dữ liệu và fine-tune BERT: 2 tháng.
    • Cài đặt mô hình truy xuất thông tin và tích hợp hệ thống: 2 tháng.
    • Thử nghiệm và đánh giá thực nghiệm tại trường: 1 tháng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Phân loại ý định câu hỏi đạt độ chính xác cao: Mô hình LSTM sau khi tăng cường dữ liệu đạt độ chính xác trên 90% trong việc phân loại 10 nhóm ý định câu hỏi. Trước khi tăng cường, một số lớp như TOEIC chỉ có khoảng 50 câu hỏi, gây mất cân bằng dữ liệu, sau khi tăng cường số lượng câu hỏi tăng lên gấp 3 lần, cải thiện đáng kể độ chính xác.

  2. Kết hợp phân loại ý định và truy xuất thông tin nâng cao hiệu quả trả lời: Việc lọc câu hỏi theo ý định trước khi truy xuất thông tin giúp giảm tập dữ liệu tìm kiếm xuống còn khoảng 30% so với toàn bộ, tăng tốc độ truy vấn và nâng cao độ chính xác câu trả lời lên 85%, so với 70% khi chỉ dùng IR thuần túy.

  3. Giảm tải công việc cho bộ phận hỗ trợ: Thực nghiệm tại trường cho thấy hệ thống tự động trả lời có thể xử lý khoảng 60-70% các câu hỏi lặp lại, giảm đáng kể số lượng email cần phản hồi thủ công, đặc biệt trong các đợt cao điểm.

  4. Phản hồi nhanh chóng, nâng cao trải nghiệm sinh viên: Thời gian phản hồi trung bình giảm từ vài giờ xuống dưới 1 phút đối với các câu hỏi phổ biến, giúp sinh viên tiếp cận thông tin kịp thời, hỗ trợ quá trình học tập hiệu quả hơn.

Thảo luận kết quả

Nguyên nhân chính của thành công là việc kết hợp hiệu quả giữa phân loại ý định và truy xuất thông tin, tận dụng đặc trưng ngôn ngữ tiếng Việt qua mô hình skip-gram và phoBERT. So với các nghiên cứu trước đây chỉ sử dụng IR hoặc NLP đơn lẻ, mô hình lai này cho kết quả vượt trội về độ chính xác và tốc độ.

Việc tăng cường dữ liệu bằng BERT giúp khắc phục vấn đề mất cân bằng và thiếu dữ liệu, một thách thức phổ biến trong các bài toán phân loại văn bản tiếng Việt. Kết quả này phù hợp với các báo cáo ngành về hiệu quả của kỹ thuật data augmentation trong học sâu.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác phân loại ý định trước và sau tăng cường dữ liệu, biểu đồ thời gian phản hồi trung bình của hệ thống tự động so với phương pháp thủ công, và bảng thống kê tỷ lệ câu hỏi được trả lời tự động theo từng nhóm ý định.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống hỏi đáp tự động chính thức tại trường: Áp dụng mô hình đã xây dựng vào website và các kênh hỗ trợ sinh viên, nhằm giảm tải cho bộ phận hỗ trợ và nâng cao trải nghiệm người dùng. Thời gian thực hiện dự kiến 6 tháng, do phòng Công nghệ Thông tin chủ trì phối hợp với các phòng ban liên quan.

  2. Cập nhật và mở rộng dữ liệu huấn luyện định kỳ: Thu thập thêm câu hỏi mới phát sinh hàng quý để bổ sung vào tập dữ liệu, đồng thời sử dụng kỹ thuật tăng cường dữ liệu để duy trì độ chính xác của mô hình. Phòng Đào tạo và bộ phận hỗ trợ sinh viên chịu trách nhiệm thu thập dữ liệu.

  3. Đào tạo nhân viên và sinh viên sử dụng hệ thống: Tổ chức các buổi hướng dẫn, tạo tài liệu hướng dẫn sử dụng hệ thống hỏi đáp tự động, giúp người dùng khai thác hiệu quả công cụ mới. Thời gian triển khai trong 3 tháng đầu sau khi hệ thống đi vào hoạt động.

  4. Nâng cấp và tích hợp thêm các công nghệ mới: Nghiên cứu áp dụng các mô hình ngôn ngữ tiên tiến hơn như transformer đa ngữ, kết hợp chatbot để tương tác tự nhiên hơn, mở rộng phạm vi hỗ trợ sang các lĩnh vực khác như tư vấn học tập, hỗ trợ thủ tục hành chính. Kế hoạch dài hạn 1-2 năm, do phòng Nghiên cứu và Phát triển đảm nhiệm.

Đối tượng nên tham khảo luận văn

  1. Ban lãnh đạo và phòng Công nghệ Thông tin các trường đại học: Có thể áp dụng mô hình và phương pháp nghiên cứu để xây dựng hệ thống hỗ trợ sinh viên, giảm tải công việc hành chính và nâng cao chất lượng dịch vụ.

  2. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý Ngôn ngữ Tự nhiên: Tham khảo các kỹ thuật tiền xử lý dữ liệu tiếng Việt, mô hình phân loại ý định, và ứng dụng BERT trong tăng cường dữ liệu.

  3. Phòng Đào tạo và bộ phận hỗ trợ sinh viên: Áp dụng kết quả nghiên cứu để cải tiến quy trình trả lời thắc mắc, nâng cao hiệu quả giao tiếp với sinh viên.

  4. Các tổ chức phát triển phần mềm giáo dục và công nghệ giáo dục (EdTech): Tham khảo kiến trúc hệ thống hỏi đáp tự động, tích hợp mô hình học sâu và truy xuất thông tin để phát triển sản phẩm hỗ trợ giáo dục.

Câu hỏi thường gặp

  1. Hệ thống hỏi đáp tự động có thể xử lý những loại câu hỏi nào?
    Hệ thống tập trung vào các câu hỏi thường gặp liên quan đến điểm số, học bổng, đăng ký môn học, học phí, lịch học, tài khoản hệ thống, thủ tục hành chính, tốt nghiệp, chứng chỉ tiếng Anh và các câu hỏi khác. Ví dụ, câu hỏi về điều kiện nhận đồ án tốt nghiệp được trả lời tự động dựa trên dữ liệu có sẵn.

  2. Mô hình phân loại ý định câu hỏi hoạt động như thế nào?
    Mô hình sử dụng mạng LSTM học sâu để phân loại câu hỏi thành các nhóm ý định dựa trên đặc trưng ngôn ngữ được trích xuất. Việc xác định chính xác ý định giúp hệ thống lọc dữ liệu truy xuất thông tin hiệu quả hơn, nâng cao độ chính xác câu trả lời.

  3. Tăng cường dữ liệu bằng BERT có tác dụng gì?
    Kỹ thuật này tạo thêm dữ liệu huấn luyện bằng cách sinh câu hỏi mới tương ứng với các lớp ý định thiếu dữ liệu, giúp mô hình phân loại tránh bị mất cân bằng và cải thiện khả năng khái quát, từ đó nâng cao độ chính xác tổng thể.

  4. Hệ thống có thể áp dụng cho các trường đại học khác không?
    Có thể, với điều kiện dữ liệu câu hỏi - câu trả lời phù hợp được thu thập và tiền xử lý đúng cách. Mô hình và phương pháp có tính mở rộng cao, có thể điều chỉnh để phù hợp với đặc thù từng trường.

  5. Làm thế nào để cập nhật hệ thống khi có câu hỏi mới?
    Cần thu thập dữ liệu câu hỏi mới định kỳ, bổ sung vào tập huấn luyện và tiến hành fine-tune lại mô hình phân loại ý định cũng như cập nhật bộ dữ liệu truy xuất thông tin để hệ thống luôn phản hồi chính xác và kịp thời.

Kết luận

  • Đã xây dựng thành công mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng dựa trên kết hợp phân loại ý định và truy xuất thông tin.
  • Mô hình phân loại ý định sử dụng mạng LSTM và kỹ thuật tăng cường dữ liệu BERT giúp đạt độ chính xác trên 90%.
  • Hệ thống giảm tải đáng kể công việc cho bộ phận hỗ trợ, rút ngắn thời gian phản hồi câu hỏi của sinh viên.
  • Nghiên cứu mở ra hướng phát triển các hệ thống hỗ trợ tự động trong giáo dục đại học, nâng cao trải nghiệm người dùng.
  • Đề xuất triển khai chính thức, cập nhật dữ liệu định kỳ và mở rộng ứng dụng trong các lĩnh vực hỗ trợ khác.

Next steps: Triển khai thử nghiệm hệ thống tại trường, thu thập phản hồi người dùng, hoàn thiện và mở rộng phạm vi ứng dụng.

Call-to-action: Các đơn vị giáo dục và nhà nghiên cứu được khuyến khích áp dụng và phát triển mô hình để nâng cao hiệu quả hỗ trợ sinh viên trong kỷ nguyên số.