Tổng quan nghiên cứu

Ngành du lịch Việt Nam đã ghi nhận sự phát triển vượt bậc trong những năm gần đây, với hơn 18 triệu lượt khách quốc tế và 85 triệu lượt khách nội địa trong năm 2019, tăng lần lượt 16,2% và 6% so với năm trước. Tổng thu từ du lịch đạt khoảng 755 nghìn tỷ đồng, chiếm 9,2% GDP quốc gia, tăng 2,9 điểm phần trăm so với năm 2015. Song song với sự phát triển này, số lượng cơ sở lưu trú du lịch (CSLTDL) cũng tăng mạnh, đạt khoảng 30.000 buồng, tăng 18% so với năm 2018. Trong bối cảnh Cách mạng công nghiệp 4.0, việc ứng dụng công nghệ thông tin trong ngành du lịch trở thành yêu cầu cấp thiết nhằm nâng cao năng lực cạnh tranh và thu hút khách du lịch.

Một trong những thách thức lớn là khai thác hiệu quả dữ liệu từ các lời bình luận, nhận xét của du khách trên các nền tảng du lịch trực tuyến như Tripadvisor. Các bình luận này chứa đựng thông tin quý giá về mức độ hài lòng của khách hàng, giúp các nhà quản lý khách sạn cải thiện chất lượng dịch vụ. Tuy nhiên, việc xử lý khối lượng lớn dữ liệu phi cấu trúc này đòi hỏi các giải pháp công nghệ tiên tiến như học máy (Machine Learning) và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Nghiên cứu này tập trung vào việc ứng dụng các kỹ thuật học máy và NLP để nhận diện mức độ hài lòng của du khách tại các khách sạn ở Việt Nam thông qua hơn 100.000 lời bình luận tiếng Anh thu thập từ Tripadvisor. Mục tiêu cụ thể là xây dựng và đánh giá mô hình phân loại cảm xúc nhằm phân loại các bình luận thành các mức độ hài lòng khác nhau, từ đó hỗ trợ các nhà quản lý khách sạn trong việc nâng cao chất lượng dịch vụ và tăng cường năng lực cạnh tranh. Thời gian nghiên cứu kéo dài từ tháng 3 đến tháng 9 năm 2023, với phạm vi dữ liệu tập trung vào khách sạn tại Việt Nam trên nền tảng Tripadvisor.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: học máy có giám sát và xử lý ngôn ngữ tự nhiên. Học máy có giám sát cho phép mô hình học từ dữ liệu đã được gán nhãn để phân loại cảm xúc trong văn bản. Trong đó, mô hình Bidirectional Long Short-Term Memory (BiLSTM) được sử dụng để khai thác thông tin tuần tự hai chiều trong chuỗi văn bản, giúp hiểu ngữ cảnh trước và sau của từng từ. Mô hình Random Forest (RF) được áp dụng như một phương pháp phân loại dựa trên tập hợp các cây quyết định, nổi bật với khả năng xử lý dữ liệu đa chiều và hiệu quả trên các bộ dữ liệu không cân bằng.

Về xử lý ngôn ngữ tự nhiên, nghiên cứu sử dụng các kỹ thuật tiền xử lý văn bản như loại bỏ ký tự đặc biệt, từ dừng, chuẩn hóa chữ viết và từ gốc (stemming và lemmatization). Đặc trưng văn bản được trích xuất bằng ba phương pháp chính: Embedding (nhúng từ), GloVe (Global Vectors for Word Representation) và TF-IDF (Term Frequency-Inverse Document Frequency). GloVe là kỹ thuật mạnh mẽ nhất trong việc biểu diễn ngữ nghĩa từ, trong khi TF-IDF giúp đánh giá tầm quan trọng của từ trong văn bản.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hơn 100.000 lời bình luận tiếng Anh của du khách về các khách sạn tại Việt Nam trên nền tảng Tripadvisor, được thu thập tự động bằng công cụ web crawler phát triển trên môi trường NodeJs và lưu trữ trong cơ sở dữ liệu SQLite. Dữ liệu bao gồm nội dung bình luận và điểm đánh giá từ 1 đến 5 sao.

Quá trình nghiên cứu gồm các bước: thu thập và gán nhãn dữ liệu dựa trên điểm đánh giá, tiền xử lý dữ liệu văn bản, trích xuất đặc trưng văn bản, huấn luyện và kiểm thử mô hình phân loại cảm xúc. Cỡ mẫu huấn luyện và kiểm thử được lấy mẫu đại diện nhằm đảm bảo cân bằng giữa các lớp cảm xúc tích cực, tiêu cực và trung lập. Phương pháp phân tích sử dụng k-Fold Cross Validation (k-CV) để đánh giá hiệu quả mô hình, với các thước đo chính gồm độ chính xác (Accuracy), điểm F1 trung bình vĩ mô (Macro F1-score) và điểm F1 trung bình có trọng số (Weighted F1-score).

Thời gian nghiên cứu kéo dài từ tháng 3 đến tháng 9 năm 2023, trong đó thu thập dữ liệu hoàn thành vào cuối tháng 8 năm 2023. Các phần mềm và thư viện Python như Pandas, NumPy, NLTK, Scikit-learn, TensorFlow và Keras được sử dụng để triển khai các bước xử lý và huấn luyện mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả mô hình BiLSTM với Embedding: Mô hình BiLSTM kết hợp với kỹ thuật nhúng từ Embedding đạt độ chính xác lên đến 77%, điểm F1 trung bình vĩ mô đạt khoảng 75%, vượt trội so với các mô hình khác. Điều này cho thấy khả năng khai thác ngữ cảnh hai chiều giúp cải thiện đáng kể hiệu quả phân loại cảm xúc.

  2. So sánh các phương pháp trích xuất đặc trưng: GloVe và TF-IDF cũng được thử nghiệm kết hợp với BiLSTM và Random Forest. Kết quả cho thấy GloVe kết hợp BiLSTM đạt độ chính xác khoảng 74%, trong khi TF-IDF kết hợp Random Forest đạt khoảng 70%. Mô hình BiLSTM với Embedding thể hiện ưu thế về khả năng học ngữ cảnh sâu hơn.

  3. Phân bố dữ liệu cân bằng: Qua kỹ thuật lấy mẫu, tập dữ liệu huấn luyện được cân bằng giữa các lớp cảm xúc tích cực, tiêu cực và trung lập, giúp mô hình tránh bị lệch về một lớp nhất định, nâng cao độ tin cậy của kết quả phân loại.

  4. Khả năng xử lý dữ liệu lớn: Việc ứng dụng học máy và NLP giúp xử lý hiệu quả hơn khối lượng lớn dữ liệu hơn 100.000 lời bình luận, điều mà con người khó có thể thực hiện thủ công. Kết quả thí nghiệm cho thấy mô hình có thể áp dụng thực tế với độ chính xác trên 75%, đủ để hỗ trợ các nhà quản lý khách sạn trong việc đánh giá mức độ hài lòng của khách hàng.

Thảo luận kết quả

Kết quả nghiên cứu phù hợp với các nghiên cứu quốc tế và trong nước về phân tích cảm xúc văn bản, trong đó mô hình BiLSTM thường cho hiệu quả cao nhờ khả năng xử lý chuỗi dữ liệu theo cả hai chiều. So với các mô hình truyền thống như Random Forest, BiLSTM thể hiện ưu thế trong việc nắm bắt ngữ cảnh phức tạp của ngôn ngữ tự nhiên.

Việc sử dụng GloVe giúp mô hình hiểu sâu sắc hơn về mối quan hệ ngữ nghĩa giữa các từ, tuy nhiên chi phí tính toán cao hơn so với TF-IDF. Embedding được học trực tiếp trong quá trình huấn luyện mô hình BiLSTM mang lại sự linh hoạt và hiệu quả cao trong việc biểu diễn từ ngữ.

Dữ liệu thu thập từ Tripadvisor là nguồn thông tin phong phú và đa dạng, phản ánh chân thực trải nghiệm của du khách quốc tế tại Việt Nam. Việc áp dụng mô hình phân tích cảm xúc trên nền tảng này giúp các khách sạn có thể nhanh chóng nhận diện các điểm mạnh, điểm yếu trong dịch vụ, từ đó đưa ra các biện pháp cải tiến phù hợp.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ so sánh độ chính xác, điểm F1 của các mô hình, cũng như bảng phân bố số lượng bình luận theo từng lớp cảm xúc, giúp minh họa rõ ràng hiệu quả của từng phương pháp.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống phân tích cảm xúc tự động: Các khách sạn nên áp dụng hệ thống học máy và NLP để tự động phân tích các lời bình luận trên các nền tảng trực tuyến nhằm nhận diện nhanh mức độ hài lòng của khách hàng. Mục tiêu nâng cao độ chính xác phân loại trên 75% trong vòng 6 tháng.

  2. Tăng cường thu thập và làm sạch dữ liệu: Đề xuất xây dựng quy trình thu thập dữ liệu liên tục và làm sạch dữ liệu định kỳ để đảm bảo chất lượng dữ liệu đầu vào cho mô hình, giúp cải thiện hiệu suất dự đoán. Thời gian thực hiện trong 3 tháng đầu tiên.

  3. Phát triển mô hình đa ngôn ngữ: Mở rộng nghiên cứu để áp dụng cho các bình luận bằng tiếng Việt và các ngôn ngữ khác nhằm phục vụ đa dạng khách hàng quốc tế và nội địa. Mục tiêu hoàn thành mô hình đa ngôn ngữ trong vòng 12 tháng.

  4. Tích hợp phản hồi khách hàng vào quản lý dịch vụ: Khuyến nghị các nhà quản lý khách sạn sử dụng kết quả phân tích cảm xúc để điều chỉnh chính sách dịch vụ, đào tạo nhân viên và cải tiến sản phẩm nhằm tăng mức độ hài lòng và giữ chân khách hàng. Thời gian áp dụng liên tục và đánh giá hiệu quả hàng quý.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý khách sạn và cơ sở lưu trú: Giúp họ hiểu và ứng dụng công nghệ phân tích cảm xúc để nâng cao chất lượng dịch vụ, tăng cường sự hài lòng và trung thành của khách hàng.

  2. Chuyên gia công nghệ thông tin và khoa học dữ liệu: Cung cấp kiến thức về ứng dụng học máy và NLP trong lĩnh vực du lịch, từ thu thập dữ liệu đến xây dựng và đánh giá mô hình phân loại cảm xúc.

  3. Nhà nghiên cứu và sinh viên ngành du lịch, công nghệ thông tin: Là tài liệu tham khảo quý giá cho các đề tài nghiên cứu liên quan đến chuyển đổi số trong du lịch và ứng dụng trí tuệ nhân tạo.

  4. Các doanh nghiệp phát triển phần mềm du lịch: Hỗ trợ phát triển các giải pháp công nghệ mới nhằm khai thác dữ liệu khách hàng, nâng cao trải nghiệm người dùng và cạnh tranh trên thị trường.

Câu hỏi thường gặp

  1. Tại sao chọn nền tảng Tripadvisor để thu thập dữ liệu?
    Tripadvisor là nền tảng đánh giá du lịch hàng đầu với hơn 100 triệu lượt truy cập hàng tháng và hơn 1 tỷ lời bình luận, cung cấp nguồn dữ liệu phong phú, đa dạng và khách quan hơn so với các nền tảng khác như Booking hay Agoda.

  2. Mô hình BiLSTM có ưu điểm gì trong phân tích cảm xúc?
    BiLSTM xử lý chuỗi dữ liệu theo cả hai chiều tiến và lùi, giúp nắm bắt ngữ cảnh đầy đủ hơn, từ đó cải thiện độ chính xác phân loại cảm xúc so với các mô hình chỉ xử lý theo một chiều.

  3. Làm thế nào để xử lý dữ liệu văn bản trước khi huấn luyện mô hình?
    Dữ liệu được tiền xử lý qua các bước như chuẩn hóa chữ viết, loại bỏ ký tự đặc biệt, từ dừng, chuẩn hóa từ gốc (stemming, lemmatization) và trích xuất đặc trưng bằng các kỹ thuật như Embedding, GloVe hoặc TF-IDF.

  4. Độ chính xác của mô hình có thể đạt được là bao nhiêu?
    Mô hình BiLSTM kết hợp Embedding trong nghiên cứu đạt độ chính xác lên đến 77%, đủ để ứng dụng thực tế trong việc nhận diện mức độ hài lòng của du khách.

  5. Làm thế nào để mở rộng mô hình cho các ngôn ngữ khác?
    Cần thu thập dữ liệu bình luận bằng các ngôn ngữ mục tiêu, xây dựng bộ từ điển và mô hình nhúng từ phù hợp, đồng thời điều chỉnh mô hình học máy để xử lý đặc thù ngôn ngữ đó.

Kết luận

  • Nghiên cứu đã xây dựng thành công mô hình ứng dụng học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách qua hơn 100.000 lời bình luận trên Tripadvisor với độ chính xác lên đến 77%.
  • Mô hình BiLSTM kết hợp kỹ thuật nhúng từ Embedding cho hiệu quả phân loại cảm xúc vượt trội so với các phương pháp truyền thống.
  • Kết quả nghiên cứu cung cấp công cụ hữu ích cho các nhà quản lý khách sạn trong việc khai thác dữ liệu khách hàng để nâng cao chất lượng dịch vụ và tăng cường năng lực cạnh tranh.
  • Đề xuất phát triển mô hình đa ngôn ngữ và tích hợp hệ thống phân tích cảm xúc tự động vào quản lý khách sạn trong thời gian tới.
  • Khuyến khích các doanh nghiệp và nhà nghiên cứu tiếp tục ứng dụng và mở rộng các kỹ thuật học máy, NLP trong lĩnh vực du lịch nhằm thúc đẩy chuyển đổi số và phát triển bền vững ngành du lịch Việt Nam.

Hãy bắt đầu áp dụng các giải pháp công nghệ này để nâng cao trải nghiệm khách hàng và phát triển bền vững trong ngành du lịch!