Tổng quan nghiên cứu
Trường Đại học Xây dựng hiện có khoảng hàng nghìn sinh viên và học viên theo học, với nhu cầu tra cứu thông tin về chương trình đào tạo, lịch học, lịch thi và các quy định nhà trường rất lớn. Theo khảo sát, 45% sinh viên thường hỏi bạn bè trong trường, 15% tự tìm hiểu trên website chính thức, 10% hỏi trực tiếp tại phòng ban, và 30% còn lại gửi câu hỏi qua email. Vào các đợt cao điểm như đăng ký môn học hay thi hết học phần, số lượng email hỏi đáp có thể lên tới vài trăm câu mỗi ngày, gây quá tải cho bộ phận hỗ trợ sinh viên và làm chậm trễ phản hồi, ảnh hưởng đến quá trình học tập.
Mục tiêu nghiên cứu là xây dựng một mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng, giúp cung cấp câu trả lời nhanh chóng, chính xác dựa trên tập dữ liệu câu hỏi – câu trả lời có sẵn khoảng 3.500 cặp, giảm tải công việc cho các phòng ban và nâng cao hiệu quả hỗ trợ. Nghiên cứu tập trung vào giai đoạn 2020-2021, tại trường Đại học Xây dựng, với ý nghĩa thiết thực trong việc ứng dụng công nghệ thông tin, đặc biệt là kỹ thuật truy xuất thông tin (Information Retrieval - IR) và học sâu (Deep Learning) để phát triển hệ thống hỏi đáp tự động.
Việc xây dựng mô hình không chỉ giúp sinh viên tiếp cận thông tin nhanh hơn mà còn góp phần nâng cao chất lượng dịch vụ đào tạo, giảm thiểu sai sót trong truyền đạt thông tin và tăng cường tương tác giữa sinh viên và nhà trường.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình chính sau:
Mô hình truy xuất thông tin (Information Retrieval - IR): Là kỹ thuật tìm kiếm và trích xuất các tài liệu liên quan đến truy vấn người dùng. Các mô hình IR được phân loại thành mô hình dựa trên lý thuyết tập hợp, mô hình đại số (vector space model), mô hình xác suất và mô hình ngôn ngữ. Trong đó, mô hình vector space và mô hình xác suất (như BM25) được sử dụng phổ biến để đánh giá mức độ liên quan giữa câu hỏi và tài liệu.
Mô hình phân loại ý định câu hỏi (Intent Classification): Sử dụng mạng nơ-ron học sâu LSTM (Long Short-Term Memory) để phân loại câu hỏi theo các nhóm ý định khác nhau như điểm số, học bổng, đăng ký môn học, học phí, lịch học, thủ tục hành chính, tốt nghiệp, chứng chỉ tiếng Anh TOEIC, và các câu hỏi khác. Việc xác định chính xác ý định giúp lọc dữ liệu và nâng cao hiệu quả truy xuất thông tin.
Kỹ thuật tăng cường dữ liệu (Data Augmentation): Áp dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) và biến thể PhoBERT được huấn luyện trên dữ liệu tiếng Việt để tạo thêm dữ liệu huấn luyện, khắc phục tình trạng mất cân bằng dữ liệu giữa các lớp ý định, từ đó cải thiện độ chính xác của mô hình phân loại.
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Bao gồm các bước tiền xử lý như chuẩn hóa văn bản, tách từ tiếng Việt, loại bỏ từ dừng, trích xuất đặc trưng bằng mô hình Skip-gram để biểu diễn từ dưới dạng vector, giúp mô hình học sâu hiểu được ngữ cảnh và ý nghĩa của câu hỏi.
Phương pháp nghiên cứu
Nguồn dữ liệu: Tập dữ liệu gồm khoảng 3.500 cặp câu hỏi – câu trả lời thực tế thu thập từ các phòng ban hỗ trợ sinh viên tại trường Đại học Xây dựng.
Phương pháp chọn mẫu: Dữ liệu được thu thập toàn bộ các câu hỏi gửi qua email và các kênh hỗ trợ khác trong năm học 2020-2021, đảm bảo tính đại diện cho các nhóm ý định phổ biến.
Phương pháp phân tích:
- Tiền xử lý dữ liệu: Chuẩn hóa, tách từ, loại bỏ từ dừng.
- Trích xuất đặc trưng: Sử dụng mô hình Skip-gram để biểu diễn từ.
- Phân loại ý định: Huấn luyện mô hình LSTM với kiến trúc gồm 1 lớp LSTM 128 đơn vị, dropout 0.2, dense 64 và dense 10 lớp đầu ra tương ứng với 10 nhóm ý định.
- Tăng cường dữ liệu: Fine-tune mô hình PhoBERT trên tập dữ liệu tiếng Việt để sinh thêm câu hỏi mới cho các lớp ít dữ liệu.
- Truy xuất thông tin: Áp dụng thuật toán BM25 để xếp hạng các câu hỏi trong tập dữ liệu theo mức độ tương đồng với câu hỏi đầu vào, kết hợp với kết quả phân loại ý định để lọc dữ liệu con phù hợp.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu: 3 tháng
- Xây dựng và huấn luyện mô hình phân loại ý định: 4 tháng
- Tăng cường dữ liệu và fine-tune mô hình BERT: 2 tháng
- Cài đặt mô hình truy xuất thông tin và tích hợp hệ thống: 3 tháng
- Thử nghiệm và đánh giá thực nghiệm tại trường: 2 tháng
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả phân loại ý định câu hỏi:
Mô hình LSTM đạt độ chính xác trung bình khoảng 85% trên tập kiểm tra, tăng lên 90% sau khi áp dụng kỹ thuật tăng cường dữ liệu với PhoBERT. Các lớp ý định có số lượng câu hỏi ít như TOEIC được cải thiện đáng kể về độ chính xác (tăng từ 60% lên 82%).Tăng cường dữ liệu giúp cân bằng tập huấn luyện:
Trước khi tăng cường, lớp ý định đăng ký môn học chiếm gần 14% tổng số câu hỏi, trong khi lớp TOEIC chỉ chiếm khoảng 1.5%. Sau khi bổ sung dữ liệu, tỷ lệ các lớp được cân bằng hơn, giúp mô hình tránh hiện tượng overfitting và cải thiện khả năng khái quát.Kết hợp phân loại ý định và truy xuất thông tin nâng cao độ chính xác trả lời:
Khi chỉ sử dụng mô hình IR (BM25), độ chính xác trả lời đúng câu hỏi đạt khoảng 75%. Khi kết hợp với phân loại ý định để lọc dữ liệu con, độ chính xác tăng lên 88%, giảm thiểu trả lời sai do nhầm lẫn ý định.Giảm tải công việc cho bộ phận hỗ trợ:
Hệ thống tự động có thể trả lời khoảng 70% các câu hỏi lặp lại mà không cần can thiệp thủ công, giúp giảm đáng kể số lượng email cần xử lý trực tiếp, đặc biệt trong các đợt cao điểm.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện là do việc xác định chính xác ý định câu hỏi giúp hệ thống truy xuất thông tin tập trung vào tập con dữ liệu phù hợp, tránh nhầm lẫn do các câu hỏi có từ khóa tương tự nhưng ý nghĩa khác nhau. Kết quả này phù hợp với các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và hệ thống hỏi đáp tự động, cho thấy sự cần thiết của việc kết hợp kỹ thuật phân loại ý định và truy xuất thông tin.
Việc áp dụng kỹ thuật tăng cường dữ liệu với mô hình BERT tiếng Việt (PhoBERT) đã giải quyết hiệu quả vấn đề mất cân bằng dữ liệu, một thách thức phổ biến trong các bài toán phân loại văn bản. Kết quả thực nghiệm tại trường Đại học Xây dựng cho thấy hệ thống có thể áp dụng thực tế, giúp sinh viên tiếp cận thông tin nhanh chóng, giảm thời gian chờ đợi và nâng cao trải nghiệm người dùng.
Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác phân loại ý định trước và sau tăng cường dữ liệu, biểu đồ tỷ lệ câu hỏi theo nhóm ý định, và bảng so sánh độ chính xác trả lời của hệ thống IR đơn thuần và hệ thống kết hợp phân loại ý định.
Đề xuất và khuyến nghị
Triển khai hệ thống hỏi đáp tự động trên nền tảng website và fanpage của trường:
- Mục tiêu: Giảm 50% số lượng email hỏi đáp trực tiếp trong 6 tháng đầu triển khai.
- Chủ thể thực hiện: Phòng Công nghệ Thông tin phối hợp Phòng Hỗ trợ sinh viên.
Cập nhật và mở rộng bộ dữ liệu câu hỏi – câu trả lời định kỳ:
- Mục tiêu: Bổ sung ít nhất 1.000 câu hỏi mới mỗi năm để nâng cao độ phủ của hệ thống.
- Chủ thể thực hiện: Bộ phận hỗ trợ sinh viên và nhóm phát triển hệ thống.
Đào tạo nhân viên và sinh viên sử dụng hệ thống hiệu quả:
- Mục tiêu: Tổ chức ít nhất 2 buổi tập huấn mỗi năm, nâng cao tỷ lệ sử dụng hệ thống lên 80% sinh viên.
- Chủ thể thực hiện: Phòng Đào tạo và Phòng Công nghệ Thông tin.
Nâng cấp mô hình phân loại ý định và truy xuất thông tin:
- Mục tiêu: Áp dụng các mô hình học sâu mới, cải thiện độ chính xác trả lời lên trên 92% trong vòng 12 tháng.
- Chủ thể thực hiện: Nhóm nghiên cứu và phát triển công nghệ của trường.
Phát triển giao diện tương tác thân thiện, hỗ trợ đa nền tảng:
- Mục tiêu: Phát triển ứng dụng di động và chatbot trên các nền tảng mạng xã hội trong 1 năm tới.
- Chủ thể thực hiện: Phòng Công nghệ Thông tin và đối tác công nghệ.
Đối tượng nên tham khảo luận văn
Nhà quản lý giáo dục và cán bộ hỗ trợ sinh viên:
- Lợi ích: Hiểu rõ về giải pháp công nghệ hỗ trợ sinh viên, từ đó áp dụng để nâng cao hiệu quả công tác tư vấn và hỗ trợ.
Nhà nghiên cứu và phát triển công nghệ thông tin trong giáo dục:
- Lợi ích: Tham khảo mô hình kết hợp kỹ thuật truy xuất thông tin và học sâu trong xây dựng hệ thống hỏi đáp tự động, áp dụng cho các trường đại học khác.
Sinh viên và giảng viên ngành Khoa học Máy tính, Công nghệ Thông tin:
- Lợi ích: Nắm bắt quy trình xây dựng mô hình học máy, xử lý ngôn ngữ tự nhiên và ứng dụng thực tế trong môi trường giáo dục.
Các tổ chức phát triển phần mềm giáo dục và chatbot:
- Lợi ích: Tham khảo kiến trúc hệ thống, phương pháp tăng cường dữ liệu và kỹ thuật phân loại ý định để phát triển sản phẩm phù hợp với thị trường giáo dục Việt Nam.
Câu hỏi thường gặp
Hệ thống hỏi đáp tự động có thể trả lời chính xác bao nhiêu phần trăm câu hỏi?
Hệ thống đạt độ chính xác khoảng 88% khi kết hợp phân loại ý định và truy xuất thông tin, cao hơn so với 75% khi chỉ dùng truy xuất thông tin. Ví dụ, các câu hỏi về điều kiện tốt nghiệp được trả lời chính xác nhờ phân loại ý định.Phương pháp tăng cường dữ liệu được áp dụng như thế nào?
Sử dụng mô hình PhoBERT fine-tune trên dữ liệu tiếng Việt để sinh thêm câu hỏi mới cho các nhóm ý định ít dữ liệu, giúp cân bằng tập huấn luyện và cải thiện độ chính xác mô hình phân loại.Làm thế nào để hệ thống xử lý các câu hỏi có ý định tương tự nhưng từ ngữ khác nhau?
Mô hình phân loại ý định dựa trên mạng LSTM và biểu diễn từ bằng Skip-gram giúp nhận diện ngữ cảnh và ý nghĩa câu hỏi, từ đó phân loại chính xác dù câu hỏi có cách diễn đạt khác nhau.Hệ thống có thể áp dụng cho các trường đại học khác không?
Có thể, với điều kiện có bộ dữ liệu câu hỏi – câu trả lời phù hợp và điều chỉnh mô hình theo đặc thù từng trường, hệ thống có thể mở rộng ứng dụng.Sinh viên có thể truy cập hệ thống hỏi đáp tự động qua những kênh nào?
Hệ thống được đề xuất triển khai trên website chính thức, trang quản lý đào tạo và các kênh mạng xã hội như fanpage Facebook, giúp sinh viên dễ dàng tiếp cận và sử dụng.
Kết luận
- Luận văn đã xây dựng thành công mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng dựa trên kỹ thuật truy xuất thông tin và phân loại ý định câu hỏi bằng mạng LSTM.
- Áp dụng kỹ thuật tăng cường dữ liệu với mô hình PhoBERT giúp cải thiện đáng kể độ chính xác phân loại và cân bằng dữ liệu.
- Hệ thống giảm tải công việc cho bộ phận hỗ trợ sinh viên, đặc biệt trong các đợt cao điểm, đồng thời nâng cao trải nghiệm người dùng.
- Kết quả thực nghiệm tại trường cho thấy tính khả thi và hiệu quả ứng dụng trong môi trường giáo dục đại học.
- Đề xuất triển khai hệ thống trên đa nền tảng, cập nhật dữ liệu thường xuyên và nâng cấp mô hình để đáp ứng nhu cầu ngày càng cao.
Next steps: Triển khai thử nghiệm hệ thống trên quy mô rộng, thu thập phản hồi người dùng để hoàn thiện, đồng thời nghiên cứu mở rộng ứng dụng cho các trường đại học khác.
Call-to-action: Các đơn vị quản lý giáo dục và phát triển công nghệ thông tin trong lĩnh vực giáo dục nên cân nhắc áp dụng mô hình này để nâng cao hiệu quả hỗ trợ sinh viên và tối ưu hóa quy trình quản lý thông tin.