I. Giới thiệu Mô hình Chatbot HCMUTE
Đồ án tốt nghiệp Chatbot HCMUTE tập trung vào việc xây dựng một mô hình chatbot hiệu quả, ứng dụng trí tuệ nhân tạo (AI) và học máy (machine learning). Đề tài này giải quyết vấn đề hỗ trợ người dùng trong thủ tục cấp hộ chiếu lần đầu. Nó sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để hiểu và xử lý ngôn ngữ của người dùng. Mô hình chatbot HCMUTE được thiết kế như một hệ thống chatbot hội thoại trong phạm vi hẹp (closed domain), tập trung vào lĩnh vực hành chính công cụ thể này. Phát triển chatbot này đòi hỏi việc thu thập và tiền xử lý dữ liệu, thiết kế kiến trúc chatbot, huấn luyện mô hình máy học, và tích hợp với nền tảng Messenger. Đồ án chatbot này đánh giá hiệu quả dựa trên độ chính xác của việc nhận dạng ý định người dùng và chất lượng phản hồi. Các công nghệ cốt lõi bao gồm NLP, machine learning, và mạng nơ-ron (Neural Network), cụ thể là Bi-LSTM được sử dụng trong mô hình nhận dạng định danh (Intent Classification).
1.1 Thu thập và Tiền xử lý Dữ liệu
Giai đoạn này tập trung vào việc thu thập dữ liệu từ các nguồn khác nhau, bao gồm các trang web tư vấn về thủ tục hộ chiếu. Dữ liệu chatbot bao gồm 650 mẫu câu hỏi, được phân loại thành 13 nhãn. Tiền xử lý dữ liệu là bước quan trọng để chuẩn bị dữ liệu cho quá trình huấn luyện mô hình máy học. Các bước tiền xử lý bao gồm làm sạch dữ liệu, chuẩn hóa văn bản, và tạo bối cảnh dữ liệu (Word Embedding). Việc sử dụng Word Embedding giúp chuyển đổi văn bản thành dạng vector, dễ dàng cho mô hình học máy xử lý. Tập dữ liệu được chia thành tập huấn luyện và tập kiểm tra để đánh giá hiệu quả của mô hình chatbot. Chất lượng tập dữ liệu ảnh hưởng trực tiếp đến hiệu quả của chatbot, việc thu thập dữ liệu từ nhiều nguồn và đảm bảo tính khách quan là yếu tố then chốt. Bối cảnh dữ liệu (Word Embedding) sử dụng trong đồ án này đóng vai trò quan trọng trong việc tăng cường hiệu quả nhận dạng. Nhóm nghiên cứu cũng đã thực hiện xử lý ngôn ngữ tự nhiên (NLP) để chuẩn hóa và làm sạch dữ liệu thô.
1.2 Thiết kế và Huấn luyện Mô hình
Mô hình sử dụng mạng nơ-ron tái diễn (RNN), cụ thể là Bi-LSTM, để thực hiện nhận dạng định danh (Intent Classification). Bi-LSTM hiệu quả trong xử lý chuỗi thời gian, phù hợp với việc hiểu ý định của người dùng từ các câu hỏi. Việc xây dựng mô hình bao gồm việc chọn lựa kiến trúc mạng, thiết lập các siêu tham số, và huấn luyện mô hình trên tập dữ liệu đã được xử lý. Huấn luyện chatbot được thực hiện thông qua việc tối ưu hóa hàm mất mát, nhằm đạt được độ chính xác cao nhất. Mô hình chatbot được đánh giá dựa trên độ chính xác trên tập kiểm tra. Độ chính xác đạt được từ 88% đến 94%, cho thấy hiệu quả của mô hình học máy trong việc nhận dạng ý định người dùng. Thiết kế chatbot chú trọng đến khả năng xử lý câu hỏi phức tạp và đa dạng của người dùng. Việc đào tạo chatbot cần được thực hiện cẩn thận, lựa chọn siêu tham số phù hợp để đảm bảo hiệu quả.
1.3 Tích hợp và Đánh giá Hệ thống
Sau khi hoàn thành việc xây dựng chatbot, hệ thống được tích hợp với nền tảng Facebook Messenger. Việc tích hợp này cho phép người dùng tương tác với chatbot một cách trực tiếp và thuận tiện. Ứng dụng chatbot trên Facebook Messenger cho phép tiếp cận đông đảo người dùng. Kiểm tra chatbot được thực hiện trên cả máy tính và ứng dụng Facebook Messenger, đảm bảo tính tương thích và khả năng hoạt động ổn định. Đánh giá chatbot dựa trên các chỉ số về độ chính xác, thời gian phản hồi và chất lượng tương tác. Ứng dụng chatbot trong giáo dục, kinh doanh và chăm sóc khách hàng được đề cập trong nghiên cứu, mở ra tiềm năng ứng dụng rộng rãi. An ninh chatbot và bảo mật chatbot là vấn đề cần quan tâm để đảm bảo an toàn thông tin. Thử nghiệm chatbot được tiến hành để đánh giá hiệu quả thực tế. Việc tối ưu chatbot vẫn cần tiếp tục được thực hiện để cải thiện hiệu suất và trải nghiệm người dùng.