Tổng quan nghiên cứu

Theo báo cáo của ngành công nghệ, thị trường chatbot toàn cầu dự kiến đạt khoảng 1,25 tỷ đô la vào năm 2025 với tốc độ tăng trưởng gộp hàng năm trên 24%. Chatbot ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực như thương mại điện tử, tài chính, y tế, và đặc biệt là du lịch, khách sạn. Tuy nhiên, tại Việt Nam, việc áp dụng chatbot trong lĩnh vực khách sạn còn hạn chế, mặc dù đây là lĩnh vực rất phù hợp để triển khai các giải pháp tự động hóa trả lời thông tin khách hàng.

Luận văn thạc sĩ này tập trung nghiên cứu và xây dựng một chatbot hỏi đáp thông tin khách sạn sử dụng Rasa Framework, nhằm mục tiêu nâng cao khả năng hiểu và xử lý ngôn ngữ tự nhiên (NLP) trong môi trường tiếng Việt, đồng thời phát triển một công cụ hỗ trợ khách hàng 24/7, giảm tải công việc cho nhân viên và nâng cao trải nghiệm người dùng. Phạm vi nghiên cứu tập trung vào việc phát triển chatbot trả lời các câu hỏi thường gặp về khách sạn như loại phòng, dịch vụ, thời gian check-in/check-out, chính sách khách sạn, và đặt phòng.

Nghiên cứu có ý nghĩa quan trọng trong việc thúc đẩy ứng dụng trí tuệ nhân tạo trong ngành khách sạn tại Việt Nam, góp phần nâng cao hiệu quả chăm sóc khách hàng và tối ưu hóa quy trình kinh doanh. Các chỉ số đánh giá hiệu quả chatbot được đo lường qua độ chính xác nhận diện ý định người dùng, khả năng trích xuất thực thể và mức độ hài lòng của khách hàng trong quá trình tương tác.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo, bao gồm:

  • Xác định ý định người dùng (Intent Recognition): Đây là quá trình phân loại mục đích của người dùng dựa trên câu hỏi hoặc yêu cầu nhập vào. Việc xác định chính xác ý định giúp chatbot phản hồi phù hợp và hiệu quả. Các kỹ thuật sử dụng bao gồm học máy truyền thống như SVM, mạng nơ-ron LSTM, và mô hình đa tác vụ DIET (Dual Intent and Entity Transformer).

  • Trích xuất thực thể (Named Entity Recognition - NER): Tác vụ nhận dạng và phân loại các thực thể quan trọng trong câu hỏi như địa điểm, thời gian, loại phòng, số lượng. Phương pháp phổ biến là sử dụng mô hình Conditional Random Fields (CRF) kết hợp với các kỹ thuật học sâu.

  • Quản lý hội thoại (Dialog Management): Quản lý trạng thái và ngữ cảnh của cuộc hội thoại để duy trì sự liên tục và logic trong tương tác. Các mô hình được áp dụng gồm máy trạng thái hữu hạn (Finite-State Machines) và mô hình Frame-based (Slot Filling).

  • Sinh ngôn ngữ tự nhiên (Natural Language Generation - NLG): Tạo câu trả lời tự nhiên dựa trên chính sách hội thoại và thông tin ngữ cảnh, có thể dựa trên quy tắc hoặc mô hình học máy.

Rasa Framework được lựa chọn làm nền tảng phát triển do tính mã nguồn mở, khả năng tùy biến cao, hỗ trợ đa ngôn ngữ và tích hợp các thành phần NLU, quản lý hội thoại và NLG hiệu quả.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ các câu hỏi thường gặp của một số khách sạn tại Việt Nam, kết hợp với dữ liệu từ các chatbot trên Facebook fanpage và các tài liệu tham khảo chuyên ngành. Tập dữ liệu huấn luyện được xây dựng với ít nhất 10 câu hỏi cho mỗi ý định chính và tối thiểu 5 câu cho các ý định phụ, đảm bảo đa dạng cách diễn đạt.

Phương pháp phân tích bao gồm:

  • Tiền xử lý dữ liệu: Chuẩn hóa ngôn ngữ, xử lý lỗi chính tả, tách từ bằng WhitespaceTokenizer và custom tokenization cho tiếng Việt.

  • Trích xuất đặc trưng: Sử dụng CountVectorsFeaturizer (bag-of-words), RegexFeaturizer và LexicalSyntacticFeaturizer để biểu diễn dữ liệu đầu vào.

  • Huấn luyện mô hình: Áp dụng mô hình DIETClassifier cho phân loại ý định và nhận dạng thực thể, kết hợp ResponseSelector để lựa chọn phản hồi phù hợp.

  • Đánh giá mô hình: Sử dụng các chỉ số Accuracy, Precision, Recall, F1-score và Confusion Matrix để đánh giá hiệu quả nhận diện ý định và trích xuất thực thể.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2019 đến 2020 tại Học viện Công nghệ Bưu chính Viễn thông, với các bước từ thu thập dữ liệu, xây dựng mô hình, huấn luyện, kiểm thử đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả nhận diện ý định: Mô hình DIETClassifier đạt độ chính xác trung bình trên 90% trong việc phân loại các ý định người dùng, với F1-score cho các ý định phổ biến như chào hỏi, đặt phòng, hỏi về loại phòng đạt trên 0.92. Confusion matrix cho thấy tỷ lệ nhầm lẫn giữa các ý định chính được giảm thiểu đáng kể.

  2. Trích xuất thực thể chính xác: Mô hình CRF kết hợp với DIETClassifier cho khả năng nhận dạng thực thể như loại phòng, thời gian check-in, địa điểm đạt độ chính xác trên 88%, giúp chatbot hiểu rõ hơn các thông tin chi tiết trong câu hỏi.

  3. Khả năng xử lý đa ý định: Chatbot có thể nhận diện và xử lý các câu hỏi chứa nhiều ý định cùng lúc, ví dụ như "Xin chào, tôi muốn đặt phòng", với tỷ lệ nhận diện đa ý định thành công khoảng 85%, nâng cao tính tự nhiên trong giao tiếp.

  4. Phản hồi tự nhiên và phù hợp: Các câu trả lời được xây dựng dựa trên kịch bản và chính sách hội thoại của Rasa giúp chatbot phản hồi nhanh chóng, chính xác và thân thiện, góp phần tăng trải nghiệm người dùng.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao trong nhận diện ý định và trích xuất thực thể là do việc lựa chọn kỹ thuật học máy hiện đại, kết hợp với tiền xử lý dữ liệu kỹ lưỡng và xây dựng tập dữ liệu huấn luyện đa dạng, phong phú. So với các nghiên cứu trước đây, việc áp dụng DIETClassifier và ResponseSelector trong môi trường tiếng Việt cho bài toán khách sạn là bước tiến đáng kể, giúp cải thiện độ chính xác và khả năng mở rộng của chatbot.

Kết quả cũng cho thấy việc sử dụng Rasa Framework giúp kiểm soát dữ liệu người dùng và tùy biến chatbot linh hoạt hơn so với các nền tảng chatbot thương mại khác. Biểu đồ Confusion Matrix và các bảng đánh giá Precision, Recall minh họa rõ ràng sự phân bố chính xác của các lớp ý định, đồng thời chỉ ra các điểm cần cải thiện trong tương lai.

Tuy nhiên, chatbot vẫn còn hạn chế trong việc xử lý các câu hỏi phức tạp hoặc ngữ cảnh dài, do đó cần tiếp tục phát triển các mô hình học sâu và mở rộng dữ liệu huấn luyện để nâng cao khả năng hiểu ngôn ngữ tự nhiên.

Đề xuất và khuyến nghị

  1. Tăng cường thu thập và làm giàu dữ liệu huấn luyện: Chủ động thu thập thêm các câu hỏi thực tế từ khách hàng tại các khách sạn để mở rộng tập dữ liệu, giúp chatbot học hỏi và cải thiện độ chính xác nhận diện ý định và thực thể. Thời gian thực hiện: 6-12 tháng, chủ thể: bộ phận phát triển sản phẩm và marketing.

  2. Phát triển mô hình học sâu nâng cao: Áp dụng các mô hình deep learning như Transformer hoặc BERT tùy chỉnh cho tiếng Việt để cải thiện khả năng xử lý ngôn ngữ tự nhiên, đặc biệt là các câu hỏi phức tạp và đa ý định. Thời gian: 12 tháng, chủ thể: nhóm nghiên cứu AI.

  3. Tích hợp chatbot vào hệ thống quản lý khách sạn: Kết nối chatbot với các hệ thống đặt phòng, CRM để tự động hóa quy trình đặt phòng và chăm sóc khách hàng, nâng cao hiệu quả vận hành. Thời gian: 6 tháng, chủ thể: phòng công nghệ thông tin và đối tác phát triển.

  4. Đào tạo và nâng cao nhận thức cho nhân viên: Tổ chức các khóa đào tạo về chatbot và AI cho nhân viên khách sạn để họ hiểu và phối hợp hiệu quả với chatbot trong công việc hàng ngày. Thời gian: 3-6 tháng, chủ thể: phòng nhân sự và đào tạo.

  5. Theo dõi và cải tiến liên tục: Sử dụng công cụ Rasa X để thu thập phản hồi người dùng, phân tích các cuộc hội thoại và cập nhật kịch bản, mô hình nhằm nâng cao trải nghiệm khách hàng. Thời gian: liên tục, chủ thể: nhóm phát triển và chăm sóc khách hàng.

Đối tượng nên tham khảo luận văn

  1. Các nhà phát triển phần mềm và kỹ sư AI: Luận văn cung cấp kiến thức chuyên sâu về xây dựng chatbot sử dụng Rasa Framework, kỹ thuật NLP và quản lý hội thoại, giúp họ áp dụng vào các dự án thực tế.

  2. Doanh nghiệp trong ngành khách sạn và du lịch: Các nhà quản lý và chuyên viên marketing có thể tham khảo để hiểu cách ứng dụng chatbot nâng cao dịch vụ khách hàng, tối ưu hóa chi phí và tăng doanh thu.

  3. Sinh viên và nghiên cứu sinh ngành khoa học máy tính, trí tuệ nhân tạo: Tài liệu là nguồn tham khảo quý giá về các kỹ thuật hiện đại trong xử lý ngôn ngữ tự nhiên và phát triển chatbot trong môi trường tiếng Việt.

  4. Các nhà hoạch định chính sách và chuyên gia công nghệ: Giúp họ đánh giá tiềm năng ứng dụng AI trong ngành dịch vụ, từ đó xây dựng các chiến lược phát triển công nghệ phù hợp.

Câu hỏi thường gặp

  1. Chatbot có thể xử lý được những loại câu hỏi nào trong lĩnh vực khách sạn?
    Chatbot được thiết kế để trả lời các câu hỏi về loại phòng, dịch vụ khách sạn, thời gian check-in/check-out, chính sách về vật nuôi, bữa ăn sáng, đặt phòng và các câu hỏi FAQ khác liên quan đến khách sạn.

  2. Rasa Framework có ưu điểm gì so với các nền tảng chatbot khác?
    Rasa là mã nguồn mở, cho phép kiểm soát dữ liệu người dùng, tùy biến cao, hỗ trợ đa ngôn ngữ và tích hợp các thành phần NLU, quản lý hội thoại và NLG hiệu quả, phù hợp với các dự án yêu cầu bảo mật và tùy chỉnh sâu.

  3. Làm thế nào để chatbot nhận diện chính xác ý định người dùng?
    Chatbot sử dụng mô hình học máy DIETClassifier kết hợp tiền xử lý dữ liệu kỹ lưỡng và tập dữ liệu huấn luyện đa dạng, giúp phân loại ý định với độ chính xác trên 90%.

  4. Chatbot có thể xử lý các câu hỏi phức tạp hoặc đa ý định không?
    Chatbot có khả năng nhận diện đa ý định với tỷ lệ thành công khoảng 85%, tuy nhiên các câu hỏi quá phức tạp hoặc ngữ cảnh dài vẫn là thách thức cần cải tiến thêm.

  5. Làm sao để cải thiện hiệu quả chatbot sau khi triển khai?
    Sử dụng công cụ Rasa X để thu thập và phân tích các cuộc hội thoại thực tế, từ đó cập nhật dữ liệu huấn luyện, điều chỉnh kịch bản và mô hình nhằm nâng cao độ chính xác và trải nghiệm người dùng.

Kết luận

  • Luận văn đã nghiên cứu và xây dựng thành công chatbot hỏi đáp thông tin khách sạn sử dụng Rasa Framework, đạt độ chính xác nhận diện ý định trên 90% và trích xuất thực thể trên 88%.
  • Việc áp dụng kỹ thuật học máy hiện đại như DIETClassifier và ResponseSelector giúp chatbot xử lý đa dạng câu hỏi và đa ý định hiệu quả.
  • Rasa Framework cho phép kiểm soát dữ liệu và tùy biến cao, phù hợp với môi trường phát triển chatbot tại Việt Nam.
  • Các đề xuất phát triển bao gồm mở rộng dữ liệu, áp dụng mô hình học sâu, tích hợp hệ thống và đào tạo nhân viên nhằm nâng cao hiệu quả ứng dụng.
  • Nghiên cứu mở ra hướng đi mới cho việc ứng dụng AI trong ngành khách sạn, góp phần nâng cao chất lượng dịch vụ và trải nghiệm khách hàng.

Hành động tiếp theo: Các doanh nghiệp và nhà phát triển nên bắt đầu thử nghiệm và triển khai chatbot dựa trên Rasa, đồng thời tiếp tục thu thập dữ liệu và cải tiến mô hình để đáp ứng nhu cầu ngày càng cao của khách hàng.