Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của khoa học công nghệ, đặc biệt là trí tuệ nhân tạo (AI) và học máy (Machine Learning), Chatbot đã trở thành một công cụ quan trọng trong nhiều lĩnh vực như chăm sóc khách hàng, giáo dục, y tế, và thương mại điện tử. Theo báo cáo của ngành, thị trường Chatbot toàn cầu dự kiến đạt khoảng 1,25 tỷ đô la vào năm 2025 với tốc độ tăng trưởng gộp hàng năm trên 24%. Ở Việt Nam, Chatbot đã được ứng dụng trong nhiều lĩnh vực nhưng vẫn còn hạn chế trong giáo dục, đặc biệt là tư vấn tuyển sinh đại học.
Đại dịch Covid-19 đã làm gián đoạn công tác tư vấn tuyển sinh truyền thống, gây khó khăn cho học sinh trong việc lựa chọn phương thức xét tuyển phù hợp. Việc tư vấn trực tiếp bị hạn chế do dịch bệnh, dẫn đến nhu cầu cấp thiết về một giải pháp tự động, hoạt động 24/7 để hỗ trợ học sinh và phụ huynh. Trước thực trạng này, luận văn tập trung nghiên cứu xây dựng Chatbot trả lời tự động áp dụng kỹ thuật học máy, nhằm hỗ trợ tư vấn tuyển sinh tại Trường Đại học Nội vụ Hà Nội.
Mục tiêu cụ thể của nghiên cứu là phát triển một hệ thống Chatbot miền đóng, sử dụng mô hình học sâu Transformer và DIET, tích hợp trên nền tảng mã nguồn mở Rasa, có khả năng hiểu và trả lời chính xác các câu hỏi liên quan đến tuyển sinh đại học. Phạm vi nghiên cứu bao gồm thu thập dữ liệu thực tế từ phòng tuyển sinh, xây dựng bộ dữ liệu huấn luyện, thiết kế và triển khai Chatbot trên nền tảng Messenger của Fanpage trường. Nghiên cứu có ý nghĩa thiết thực trong việc nâng cao hiệu quả tư vấn tuyển sinh, giảm tải công việc cho nhân viên và cung cấp thông tin kịp thời, chính xác cho người dùng.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình học máy hiện đại trong xử lý ngôn ngữ tự nhiên (NLP) và học sâu (Deep Learning). Hai mô hình chính được áp dụng là:
Mô hình Transformer: Được giới thiệu năm 2017, Transformer sử dụng cơ chế tự chú ý đa đầu (Multi-Head Attention) và mã hóa vị trí (Positional Encoding) để xử lý dữ liệu tuần tự song song, khắc phục nhược điểm vanishing gradient của mạng nơ-ron hồi quy (RNN). Mô hình này cho phép xử lý câu có độ dài lớn với tốc độ nhanh và độ chính xác cao, được chứng minh qua các bộ dữ liệu dịch máy tiêu chuẩn với điểm BLEU đạt 28.4 và 41.0 trên các tập EN-DE và EN-FR.
Mô hình DIET (Dual Intent and Entity Transformer): Là mô hình đa tác vụ, đồng thời thực hiện phân loại ý định (intent classification) và trích xuất thực thể (entity extraction) dựa trên kiến trúc Transformer. DIET sử dụng lớp CRF để gán nhãn chuỗi và tối ưu hóa tổn thất entropy chéo sigmoid nhằm tăng khả năng tổng quát hóa. Các siêu tham số như số lớp Transformer, kích thước embedding, số epoch được điều chỉnh phù hợp với dữ liệu huấn luyện.
Ngoài ra, luận văn sử dụng nền tảng Rasa Framework – một mã nguồn mở hỗ trợ xây dựng Chatbot với các thành phần chính: NLU (Natural Language Understanding), Dialogue Management (quản lý hội thoại) và NLG (Natural Language Generation). Rasa cho phép tùy chỉnh pipeline xử lý ngôn ngữ, tích hợp API, học tương tác và triển khai đa nền tảng.
Các khái niệm chính bao gồm: ý định người dùng (intent), thực thể (entity), chính sách hội thoại (policy), slot (bộ nhớ lưu trữ thông tin), và stories (kịch bản hội thoại).
Phương pháp nghiên cứu
Nghiên cứu sử dụng phương pháp thu thập và xử lý dữ liệu thực tế từ phòng tuyển sinh Trường Đại học Nội vụ Hà Nội, bao gồm hơn 1.570 câu hỏi mẫu thuộc 31 intent khác nhau, được gán nhãn và chuẩn hóa. Dữ liệu được xây dựng dựa trên các cuộc hội thoại thực tế và các tài liệu tuyển sinh chính thức của nhà trường.
Phương pháp phân tích chính là huấn luyện mô hình học sâu trên nền tảng Rasa với pipeline bao gồm tokenization, featurization (sử dụng supervised embeddings phù hợp với tiếng Việt), DIETClassifier và ResponseSelector. Cỡ mẫu huấn luyện là toàn bộ bộ dữ liệu 1.570 câu hỏi, được chia thành tập huấn luyện và kiểm thử theo tỷ lệ phù hợp.
Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2022 đến tháng 9/2022, với các bước chính: tổng hợp dữ liệu, thiết kế mô hình, huấn luyện và đánh giá hiệu suất, triển khai Chatbot trên nền tảng Messenger. Phương pháp đánh giá bao gồm đo độ chính xác phân loại intent, ma trận nhầm lẫn (confusion matrix) và mức độ tin cậy dự đoán (confidence score).
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả phân loại ý định người dùng: Mô hình DIETClassifier trên Rasa đạt độ chính xác trên 95% trong việc phân loại 31 intent với 1.570 câu hỏi mẫu. Mức độ tin cậy dự đoán ý định trung bình đạt 98%, thể hiện qua biểu đồ confidence score.
Khả năng trích xuất thực thể chính xác: Chatbot có thể nhận diện và trích xuất chính xác các thực thể như tên ngành học, phương thức xét tuyển, thời gian đăng ký với tỷ lệ thành công trên 90%, giúp trả lời câu hỏi chi tiết và phù hợp.
Độ tin cậy trong quản lý hội thoại: Sử dụng chính sách kết hợp Rule-based, Memorization và TED policy, Chatbot xử lý linh hoạt các kịch bản hội thoại phức tạp, giảm thiểu lỗi dự đoán hành động sai xuống dưới 5%, được thể hiện qua ma trận nhầm lẫn.
Tính ứng dụng thực tiễn cao: Chatbot được tích hợp thành công trên nền tảng Messenger của Fanpage Trường Đại học Nội vụ Hà Nội, hoạt động ổn định 24/7, hỗ trợ tư vấn tuyển sinh với hơn 500 lượt tương tác trong tháng đầu tiên triển khai.
Thảo luận kết quả
Kết quả cho thấy mô hình Transformer và DIET phù hợp với bài toán Chatbot miền đóng trong lĩnh vực tư vấn tuyển sinh, nhờ khả năng xử lý ngôn ngữ tự nhiên tiếng Việt đa dạng và phức tạp. Việc sử dụng Rasa framework giúp tối ưu hóa quá trình phát triển, dễ dàng tùy chỉnh và tích hợp với hệ thống hiện có.
So với các nghiên cứu trước đây sử dụng RNN hoặc Rule-based Chatbot, mô hình này vượt trội về độ chính xác và khả năng mở rộng. Các biểu đồ ma trận nhầm lẫn và confidence score minh họa rõ ràng hiệu quả phân loại và trích xuất thực thể, đồng thời giảm thiểu các trường hợp Chatbot không hiểu ý người dùng.
Tuy nhiên, một số hạn chế còn tồn tại như khả năng xử lý các câu hỏi phức tạp chưa cao, cần bổ sung thêm dữ liệu huấn luyện và cải tiến thuật toán học tương tác để nâng cao trải nghiệm người dùng. Ngoài ra, việc mở rộng phạm vi miền mở vẫn là thách thức lớn trong tương lai.
Đề xuất và khuyến nghị
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm các câu hỏi thực tế từ người dùng, đặc biệt các câu hỏi phức tạp và đa dạng hơn, nhằm nâng cao độ chính xác và khả năng hiểu ngôn ngữ tự nhiên của Chatbot. Thời gian thực hiện: 6 tháng; Chủ thể: Phòng CNTT và phòng tuyển sinh.
Tăng cường học tương tác (Interactive Learning): Áp dụng chế độ học tương tác của Rasa để người quản trị có thể trực tiếp chỉnh sửa, bổ sung câu trả lời khi Chatbot mắc lỗi, giúp cải thiện liên tục hiệu suất. Thời gian: 3 tháng; Chủ thể: Đội ngũ phát triển Chatbot.
Tích hợp thêm các kênh giao tiếp: Mở rộng tích hợp Chatbot trên các nền tảng khác như Zalo, Telegram để tăng khả năng tiếp cận người dùng, đặc biệt là học sinh vùng sâu vùng xa. Thời gian: 4 tháng; Chủ thể: Phòng CNTT.
Phát triển tính năng phân tích dữ liệu người dùng: Xây dựng hệ thống báo cáo, phân tích hành vi người dùng để hỗ trợ phòng tuyển sinh điều chỉnh chiến lược tư vấn, nâng cao hiệu quả tuyển sinh. Thời gian: 6 tháng; Chủ thể: Phòng phân tích dữ liệu và phòng tuyển sinh.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học máy tính, AI và NLP: Luận văn cung cấp kiến thức chuyên sâu về mô hình Transformer, DIET và ứng dụng thực tiễn trong xây dựng Chatbot, giúp mở rộng hiểu biết và phát triển các đề tài nghiên cứu liên quan.
Các doanh nghiệp và tổ chức giáo dục: Đặc biệt các phòng tuyển sinh đại học, cao đẳng có nhu cầu tự động hóa tư vấn, giảm tải nhân lực và nâng cao chất lượng dịch vụ khách hàng.
Nhà phát triển phần mềm và kỹ sư AI: Tài liệu chi tiết về Rasa framework, pipeline xử lý ngôn ngữ tự nhiên và kỹ thuật huấn luyện mô hình giúp họ dễ dàng áp dụng và tùy chỉnh Chatbot cho các ứng dụng thực tế.
Các nhà quản lý công nghệ thông tin trong lĩnh vực giáo dục: Có thể tham khảo để xây dựng chiến lược ứng dụng AI trong tư vấn tuyển sinh, nâng cao hiệu quả vận hành và cải thiện trải nghiệm người dùng.
Câu hỏi thường gặp
Chatbot miền đóng là gì và tại sao chọn loại này?
Chatbot miền đóng tập trung trả lời các câu hỏi trong phạm vi lĩnh vực cụ thể, giúp tăng độ chính xác và hiệu quả. Trong nghiên cứu, loại này phù hợp với bài toán tư vấn tuyển sinh vì dữ liệu và câu hỏi có phạm vi rõ ràng, dễ huấn luyện.Tại sao không sử dụng RNN mà chọn Transformer?
Transformer khắc phục nhược điểm vanishing gradient của RNN, xử lý song song dữ liệu, tăng tốc độ huấn luyện và cải thiện độ chính xác, đặc biệt với câu hỏi dài và phức tạp trong ngôn ngữ tự nhiên.Rasa framework có ưu điểm gì so với các nền tảng khác?
Rasa là mã nguồn mở, dễ tùy chỉnh, hỗ trợ học tương tác, tích hợp API linh hoạt và có cộng đồng lớn. Điều này giúp phát triển Chatbot phù hợp với ngôn ngữ và yêu cầu riêng của từng tổ chức.Làm thế nào để Chatbot xử lý các câu hỏi chưa được huấn luyện?
Rasa hỗ trợ học tương tác, cho phép người quản trị bổ sung câu trả lời khi Chatbot không hiểu, đồng thời sử dụng chính sách TED để dự đoán hành động dựa trên ngữ cảnh hội thoại.Chatbot có thể áp dụng cho các lĩnh vực khác ngoài giáo dục không?
Có, Chatbot có thể ứng dụng trong chăm sóc khách hàng, y tế, bán lẻ, du lịch, tài chính… với các mô hình và dữ liệu huấn luyện phù hợp từng lĩnh vực.
Kết luận
- Luận văn đã nghiên cứu và xây dựng thành công Chatbot trả lời tự động áp dụng kỹ thuật học máy, sử dụng mô hình Transformer và DIET trên nền tảng Rasa, phục vụ tư vấn tuyển sinh tại Trường Đại học Nội vụ Hà Nội.
- Mô hình đạt độ chính xác phân loại intent trên 95%, trích xuất thực thể trên 90%, hoạt động ổn định trên nền tảng Messenger với hơn 500 lượt tương tác trong tháng đầu.
- Giải pháp giúp giảm tải công việc cho nhân viên tuyển sinh, cung cấp thông tin nhanh chóng, chính xác và hỗ trợ người dùng 24/7 trong bối cảnh dịch bệnh.
- Đề xuất mở rộng dữ liệu, tăng cường học tương tác và tích hợp đa kênh nhằm nâng cao hiệu quả và phạm vi ứng dụng trong tương lai.
- Khuyến khích các nhà nghiên cứu, doanh nghiệp và tổ chức giáo dục tham khảo và phát triển thêm các ứng dụng Chatbot dựa trên nền tảng mã nguồn mở và mô hình học sâu hiện đại.
Hành động tiếp theo: Triển khai mở rộng Chatbot tại các trường đại học khác, đồng thời phát triển thêm các tính năng nâng cao dựa trên phản hồi người dùng và dữ liệu thực tế. Để biết thêm chi tiết và hỗ trợ triển khai, vui lòng liên hệ phòng CNTT của Trường Đại học Nội vụ Hà Nội.