Luận văn thạc sĩ khoa học dữ liệu ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét

Luận văn thạc sĩ nghiên cứu ứng dụng học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách qua bình luận khách sạn.

Trường đại học

Đại học Huế

Chuyên ngành

Kỹ thuật và Công nghệ

Người đăng

Ẩn danh

Thể loại

luận văn

2023

108

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

I. PHẦN I MỞ ĐẦU

1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI

2. MỤC TIÊU NGHIÊN CỨU

2.1. MỤC TIÊU CHUNG

2.2. MỤC TIÊU CỤ THỂ

3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

3.1. ĐỐI TƯỢNG NGHIÊN CỨU

3.2. PHẠM VI NGHIÊN CỨU

4. PHƯƠNG PHÁP NGHIÊN CỨU

5. KẾT CẤU LUẬN VĂN

II. PHẦN II NỘI DUNG NGHIÊN CỨU

1. CHƯƠNG 1. THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT

1.1. Tổng quan tình hình nghiên cứu trên thế giới và trong nước

1.1.1. Tình hình nghiên cứu trên thế giới

1.1.2. Tình hình nghiên cứu tại Việt Nam

1.2. THỰC TRẠNG VỀ NGÀNH DU LỊCH Ở VIỆT NAM

1.2.1. Hệ thống khách sạn tại Việt Nam

1.2.2. Đặc điểm khách du lịch quốc tế

1.2.3. Đặc điểm khách du lịch nội địa

1.3. TÍNH CẤP THIẾT CỦA VIỆC NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN

1.4. TỔNG QUAN VỀ TRIPADVISOR

1.5. TỔNG QUAN VỀ CÁC KỸ THUẬT ĐƯỢC SỬ DỤNG TRONG NGHIÊN CỨU

1.5.1. Công cụ, phần mềm

1.5.2. Tổng quan về kỹ thuật thu thập dữ liệu website

1.5.3. Tổng quan về các kỹ thuật xử lý ngôn ngữ tự nhiên

1.5.4. Tổng quan về các mô hình học máy

2. ỨNG DỤNG XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ MÔ HÌNH HỌC MÁY TRONG NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH

3. ĐỀ XUẤT MÔ HÌNH NHẬN DIỆN MỨC ĐỘ HÀI LÒNG CỦA DU KHÁCH ĐỐI VỚI CÁC KHÁCH SẠN THÔNG QUA CÁC LỜI BÌNH LUẬN TRÊN TRIPADVISOR

3.1. ĐỀ XUẤT MÔ HÌNH NGHIÊN CỨU

3.2. GIAI ĐOẠN 1: THU THẬP DỮ LIỆU VÀ GÁN NHÃN

3.2.1. Quá trình thu thập dữ liệu

3.2.2. Gắn nhãn dữ liệu

3.3. GIAI ĐOẠN 2: TIỀN XỬ LÝ DỮ LIỆU

3.3.1. Phân tích và lấy mẫu dữ liệu

3.3.2. Làm sạch dữ liệu

3.3.3. Trích chọn tập con đặc trưng

3.3.4. Biến đổi thuộc tính dữ liệu

3.4. GIAI ĐOẠN 3: TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN

3.4.1. Trích xuất đặc trưng bằng Embedding

3.4.2. Trích xuất đặc trưng bằng GloVe

3.4.3. Trích xuất đặc trưng bằng TF-IDF

3.5. GIAI ĐOẠN 3: HUẤN LUYỆN VÀ KIỂM THỬ MÔ HÌNH DỰ ĐOÁN PHÂN LOẠI CẢM XÚC

3.5.1. Mô hình BiLSTM

3.5.2. Mô hình RandomForest

3.5.3. Ước lượng hiệu quả của các mô hình bằng phương pháp xác thực chéo k-Fold Cross Validation (k-CV)

3.6. GIAI ĐOẠN 4: ĐÁNH GIÁ MÔ HÌNH

3.6.1. Thước đo điểm F1 trung bình vĩ mô

3.6.2. Thước đo điểm F1 trung bình có trọng số

3.6.3. Thước đo độ chính xác

4. THỰC NGHIỆM MÔ HÌNH ĐỀ XUẤT VÀ PHÂN TÍCH KẾT QUẢ

4.1. THU THẬP DỮ LIỆU VÀ GÁN NHÃN DỮ LIỆU

4.1.1. Thu thập dữ liệu

4.2. TIỀN XỬ LÝ DỮ LIỆU

4.2.1. Lấy mẫu dữ liệu

4.2.2. Làm sạch dữ liệu

4.2.3. Trích xuất tập con đặc trưng

4.2.4. Vector hóa các tập dữ liệu

4.3. TRÍCH XUẤT ĐẶC TRƯNG VĂN BẢN

4.3.1. Trích xuất đặc trưng văn bản với Embedding

4.3.2. Trích xuất đặc trưng văn bản với GloVe

4.3.3. Trích xuất đặc trưng văn bản với TF-IDF

4.4. HUẤN LUYỆN VÀ KIỂM THỬ

4.4.1. Thí nghiệm 1: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình phân loại BiLSTM

4.4.2. Thí nghiệm 2: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình phân loại BiLSTM

4.4.3. Thí nghiệm 3: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình phân loại BiLSTM

4.4.4. Thí nghiệm 4: Trích xuất đặc trưng văn bản bằng nhúng từ kết hợp mô hình RF

4.4.5. Thí nghiệm 5: Trích xuất đặc trưng văn bản bằng GloVe kết hợp mô hình RF

4.4.6. Thí nghiệm 6: Trích xuất đặc trưng văn bản bằng TF-IDF kết hợp mô hình RF

4.5. KẾT QUẢ THÍ NGHIỆM

III. PHẦN III KẾT LUẬN VÀ KIẾN NGHỊ

MÃ NGUỒN CHƯƠNG TRÌNH THU THẬP DỮ LIỆU

MÃ NGUỒN GIAI ĐOẠN TIỀN XỬ LÝ DỮ LIỆU

MÃ NGUỒN MÔ HÌNH THÍ NGHIỆM

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về nghiên cứu

Nghiên cứu này tập trung vào việc phân tích mức độ hài lòng của du khách tại các khách sạn thông qua việc áp dụng các công nghệ học máy và xử lý ngôn ngữ tự nhiên. Mục tiêu chính là khai thác dữ liệu từ các bài bình luận và nhận xét của du khách trên nền tảng Tripadvisor để đánh giá cảm xúc và mức độ hài lòng của họ. Các phương pháp hiện đại như phân tích sentiment và phân tích hành vi sẽ được áp dụng để tạo ra một mô hình có khả năng nhận diện cảm xúc của khách hàng, từ đó cung cấp thông tin hữu ích cho các nhà quản lý khách sạn. Theo báo cáo của ngành du lịch, việc nâng cao chất lượng dịch vụ và cải thiện trải nghiệm khách hàng là rất quan trọng trong bối cảnh cạnh tranh ngày càng gay gắt.

1.1. Tính cấp thiết của nghiên cứu

Trong bối cảnh ngành du lịch đang phát triển mạnh mẽ, việc hiểu rõ về mức độ hài lòng của du khách là rất cần thiết. Nghiên cứu này không chỉ giúp các khách sạn cải thiện dịch vụ mà còn tạo ra một nền tảng dữ liệu lớn để các nhà quản lý có thể đưa ra quyết định chính xác hơn. Hơn nữa, việc áp dụng công nghệ AI trong phân tích dữ liệu từ bình luận sẽ giúp tiết kiệm thời gian và nguồn lực, đồng thời tăng cường khả năng dự đoán và phân tích hành vi của khách hàng.

II. Phương pháp nghiên cứu

Nghiên cứu sử dụng các phương pháp xử lý ngôn ngữ tự nhiên để thu thập và phân tích dữ liệu từ các bài bình luận trên Tripadvisor. Quá trình này bao gồm việc làm sạch dữ liệu, trích xuất đặc trưng và xây dựng mô hình học máy. Các phương pháp như TF-IDF, GloVe và nhúng từ sẽ được áp dụng để cải thiện độ chính xác của mô hình. Đặc biệt, mô hình BiLSTM và Random Forest sẽ được sử dụng để phân loại cảm xúc của các bình luận thành các nhóm tích cực, tiêu cực và trung lập. Kết quả của mô hình sẽ được đánh giá thông qua các chỉ số như độ chính xác và điểm F1, nhằm đảm bảo tính hiệu quả và khả năng áp dụng thực tế.

2.1. Thu thập và xử lý dữ liệu

Dữ liệu sẽ được thu thập từ các bài bình luận trên nền tảng Tripadvisor, nơi có lượng thông tin phong phú về du khách và khách sạn. Quá trình thu thập dữ liệu sẽ sử dụng kỹ thuật web scraping để lấy thông tin cần thiết. Sau đó, dữ liệu sẽ được xử lý để loại bỏ các ký tự đặc biệt, từ dừng và chuẩn hóa văn bản. Việc trích xuất đặc trưng sẽ giúp mô hình học máy hiểu rõ hơn về ngữ nghĩa của các bình luận, từ đó nâng cao khả năng phân loại cảm xúc của du khách.

III. Kết quả và thảo luận

Kết quả nghiên cứu cho thấy mô hình học máy có khả năng phân loại cảm xúc của bình luận với độ chính xác lên đến 77%. Điều này chứng tỏ rằng việc áp dụng xử lý ngôn ngữ tự nhiên trong việc phân tích mức độ hài lòng của du khách là rất hiệu quả. Những thông tin thu được từ nghiên cứu này sẽ cung cấp cho các nhà quản lý khách sạn những hiểu biết sâu sắc về cảm xúc của khách hàng, từ đó giúp họ cải thiện chất lượng dịch vụ và tạo ra trải nghiệm tốt hơn cho du khách.

3.1. Ứng dụng thực tiễn

Nghiên cứu này có thể được áp dụng rộng rãi trong ngành du lịch, đặc biệt là trong việc phát triển các chiến lược marketing và cải tiến dịch vụ khách hàng. Các nhà quản lý có thể sử dụng dữ liệu phân tích để điều chỉnh các dịch vụ của mình, nhằm đáp ứng tốt hơn nhu cầu và mong đợi của du khách. Hơn nữa, việc hiểu rõ về cảm xúc của khách hàng sẽ giúp các khách sạn xây dựng được thương hiệu mạnh mẽ hơn và thu hút được nhiều du khách hơn trong tương lai.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học dữ liệu ứng dụng học máy và xử lý ngôn ngữ tự nhiên trong việc nhận diện mức độ hài lòng của du khách tại các khách sạn thông qua các lời bình luận và nhận xét

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Ngành du lịch Việt Nam đã ghi nhận sự phát triển vượt bậc trong những năm gần đây, với hơn 18 triệu lượt khách quốc tế và 85 triệu lượt khách nội địa trong năm 2019, tăng lần lượt 16,2% và 6% so với năm trước. Tổng thu từ du lịch đạt khoảng 755 nghìn tỷ đồng, chiếm 9,2% GDP quốc gia, tăng 2,9 điểm phần trăm so với năm 2015. Song song với sự phát triển này, số lượng cơ sở lưu trú du lịch (CSLTDL) cũng tăng mạnh, đạt khoảng 30.000 buồng, tăng 18% so với năm 2018. Trong bối cảnh Cách mạng công nghiệp 4.0, việc ứng dụng công nghệ thông tin trong ngành du lịch trở thành yêu cầu cấp thiết nhằm nâng cao năng lực cạnh tranh và thu hút khách du lịch.

Một trong những thách thức lớn là khai thác hiệu quả dữ liệu từ các lời bình luận, nhận xét của du khách trên các nền tảng du lịch trực tuyến như Tripadvisor. Các bình luận này chứa đựng thông tin quý giá về mức độ hài lòng của khách hàng, giúp các nhà quản lý khách sạn cải thiện chất lượng dịch vụ. Tuy nhiên, việc xử lý khối lượng lớn dữ liệu phi cấu trúc này đòi hỏi các giải pháp công nghệ tiên tiến như học máy (Machine Learning) và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Nghiên cứu này tập trung vào việc ứng dụng các kỹ thuật học máy và NLP để nhận diện mức độ hài lòng của du khách tại các khách sạn ở Việt Nam thông qua hơn 100.000 lời bình luận tiếng Anh thu thập từ Tripadvisor. Mục tiêu cụ thể là xây dựng và đánh giá mô hình phân loại cảm xúc nhằm phân loại các bình luận thành các mức độ hài lòng khác nhau, từ đó hỗ trợ các nhà quản lý khách sạn trong việc nâng cao chất lượng dịch vụ và tăng cường năng lực cạnh tranh. Thời gian nghiên cứu kéo dài từ tháng 3 đến tháng 9 năm 2023, với phạm vi dữ liệu tập trung vào khách sạn tại Việt Nam trên nền tảng Tripadvisor.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: học máy có giám sát và xử lý ngôn ngữ tự nhiên. Học máy có giám sát cho phép mô hình học từ dữ liệu đã được gán nhãn để phân loại cảm xúc trong văn bản. Trong đó, mô hình Bidirectional Long Short-Term Memory (BiLSTM) được sử dụng để khai thác thông tin tuần tự hai chiều trong chuỗi văn bản, giúp hiểu ngữ cảnh trước và sau của từng từ. Mô hình Random Forest (RF) được áp dụng như một phương pháp phân loại dựa trên tập hợp các cây quyết định, nổi bật với khả năng xử lý dữ liệu đa chiều và hiệu quả trên các bộ dữ liệu không cân bằng.

Về xử lý ngôn ngữ tự nhiên, nghiên cứu sử dụng các kỹ thuật tiền xử lý văn bản như loại bỏ ký tự đặc biệt, từ dừng, chuẩn hóa chữ viết và từ gốc (stemming và lemmatization). Đặc trưng văn bản được trích xuất bằng ba phương pháp chính: Embedding (nhúng từ), GloVe (Global Vectors for Word Representation) và TF-IDF (Term Frequency-Inverse Document Frequency). GloVe là kỹ thuật mạnh mẽ nhất trong việc biểu diễn ngữ nghĩa từ, trong khi TF-IDF giúp đánh giá tầm quan trọng của từ trong văn bản.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hơn 100.000 lời bình luận tiếng Anh của du khách về các khách sạn tại Việt Nam trên nền tảng Tripadvisor, được thu thập tự động bằng công cụ web crawler phát triển trên môi trường NodeJs và lưu trữ trong cơ sở dữ liệu SQLite. Dữ liệu bao gồm nội dung bình luận và điểm đánh giá từ 1 đến 5 sao.

Quá trình nghiên cứu gồm các bước: thu thập và gán nhãn dữ liệu dựa trên điểm đánh giá, tiền xử lý dữ liệu văn bản, trích xuất đặc trưng văn bản, huấn luyện và kiểm thử mô hình phân loại cảm xúc. Cỡ mẫu huấn luyện và kiểm thử được lấy mẫu đại diện nhằm đảm bảo cân bằng giữa các lớp cảm xúc tích cực, tiêu cực và trung lập. Phương pháp phân tích sử dụng k-Fold Cross Validation (k-CV) để đánh giá hiệu quả mô hình, với các thước đo chính gồm độ chính xác (Accuracy), điểm F1 trung bình vĩ mô (Macro F1-score) và điểm F1 trung bình có trọng số (Weighted F1-score).

Thời gian nghiên cứu kéo dài từ tháng 3 đến tháng 9 năm 2023, trong đó thu thập dữ liệu hoàn thành vào cuối tháng 8 năm 2023. Các phần mềm và thư viện Python như Pandas, NumPy, NLTK, Scikit-learn, TensorFlow và Keras được sử dụng để triển khai các bước xử lý và huấn luyện mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình BiLSTM với Embedding: Mô hình BiLSTM kết hợp với kỹ thuật nhúng từ Embedding đạt độ chính xác lên đến 77%, điểm F1 trung bình vĩ mô đạt khoảng 75%, vượt trội so với các mô hình khác. Điều này cho thấy khả năng khai thác ngữ cảnh hai chiều giúp cải thiện đáng kể hiệu quả phân loại cảm xúc.
So sánh các phương pháp trích xuất đặc trưng: GloVe và TF-IDF cũng được thử nghiệm kết hợp với BiLSTM và Random Forest. Kết quả cho thấy GloVe kết hợp BiLSTM đạt độ chính xác khoảng 74%, trong khi TF-IDF kết hợp Random Forest đạt khoảng 70%. Mô hình BiLSTM với Embedding thể hiện ưu thế về khả năng học ngữ cảnh sâu hơn.
Phân bố dữ liệu cân bằng: Qua kỹ thuật lấy mẫu, tập dữ liệu huấn luyện được cân bằng giữa các lớp cảm xúc tích cực, tiêu cực và trung lập, giúp mô hình tránh bị lệch về một lớp nhất định, nâng cao độ tin cậy của kết quả phân loại.
Khả năng xử lý dữ liệu lớn: Việc ứng dụng học máy và NLP giúp xử lý hiệu quả hơn khối lượng lớn dữ liệu hơn 100.000 lời bình luận, điều mà con người khó có thể thực hiện thủ công. Kết quả thí nghiệm cho thấy mô hình có thể áp dụng thực tế với độ chính xác trên 75%, đủ để hỗ trợ các nhà quản lý khách sạn trong việc đánh giá mức độ hài lòng của khách hàng.

Thảo luận kết quả

Kết quả nghiên cứu phù hợp với các nghiên cứu quốc tế và trong nước về phân tích cảm xúc văn bản, trong đó mô hình BiLSTM thường cho hiệu quả cao nhờ khả năng xử lý chuỗi dữ liệu theo cả hai chiều. So với các mô hình truyền thống như Random Forest, BiLSTM thể hiện ưu thế trong việc nắm bắt ngữ cảnh phức tạp của ngôn ngữ tự nhiên.

Việc sử dụng GloVe giúp mô hình hiểu sâu sắc hơn về mối quan hệ ngữ nghĩa giữa các từ, tuy nhiên chi phí tính toán cao hơn so với TF-IDF. Embedding được học trực tiếp trong quá trình huấn luyện mô hình BiLSTM mang lại sự linh hoạt và hiệu quả cao trong việc biểu diễn từ ngữ.

Dữ liệu thu thập từ Tripadvisor là nguồn thông tin phong phú và đa dạng, phản ánh chân thực trải nghiệm của du khách quốc tế tại Việt Nam. Việc áp dụng mô hình phân tích cảm xúc trên nền tảng này giúp các khách sạn có thể nhanh chóng nhận diện các điểm mạnh, điểm yếu trong dịch vụ, từ đó đưa ra các biện pháp cải tiến phù hợp.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ so sánh độ chính xác, điểm F1 của các mô hình, cũng như bảng phân bố số lượng bình luận theo từng lớp cảm xúc, giúp minh họa rõ ràng hiệu quả của từng phương pháp.

Đề xuất và khuyến nghị

Triển khai hệ thống phân tích cảm xúc tự động: Các khách sạn nên áp dụng hệ thống học máy và NLP để tự động phân tích các lời bình luận trên các nền tảng trực tuyến nhằm nhận diện nhanh mức độ hài lòng của khách hàng. Mục tiêu nâng cao độ chính xác phân loại trên 75% trong vòng 6 tháng.
Tăng cường thu thập và làm sạch dữ liệu: Đề xuất xây dựng quy trình thu thập dữ liệu liên tục và làm sạch dữ liệu định kỳ để đảm bảo chất lượng dữ liệu đầu vào cho mô hình, giúp cải thiện hiệu suất dự đoán. Thời gian thực hiện trong 3 tháng đầu tiên.
Phát triển mô hình đa ngôn ngữ: Mở rộng nghiên cứu để áp dụng cho các bình luận bằng tiếng Việt và các ngôn ngữ khác nhằm phục vụ đa dạng khách hàng quốc tế và nội địa. Mục tiêu hoàn thành mô hình đa ngôn ngữ trong vòng 12 tháng.
Tích hợp phản hồi khách hàng vào quản lý dịch vụ: Khuyến nghị các nhà quản lý khách sạn sử dụng kết quả phân tích cảm xúc để điều chỉnh chính sách dịch vụ, đào tạo nhân viên và cải tiến sản phẩm nhằm tăng mức độ hài lòng và giữ chân khách hàng. Thời gian áp dụng liên tục và đánh giá hiệu quả hàng quý.

Đối tượng nên tham khảo luận văn

Các nhà quản lý khách sạn và cơ sở lưu trú: Giúp họ hiểu và ứng dụng công nghệ phân tích cảm xúc để nâng cao chất lượng dịch vụ, tăng cường sự hài lòng và trung thành của khách hàng.
Chuyên gia công nghệ thông tin và khoa học dữ liệu: Cung cấp kiến thức về ứng dụng học máy và NLP trong lĩnh vực du lịch, từ thu thập dữ liệu đến xây dựng và đánh giá mô hình phân loại cảm xúc.
Nhà nghiên cứu và sinh viên ngành du lịch, công nghệ thông tin: Là tài liệu tham khảo quý giá cho các đề tài nghiên cứu liên quan đến chuyển đổi số trong du lịch và ứng dụng trí tuệ nhân tạo.
Các doanh nghiệp phát triển phần mềm du lịch: Hỗ trợ phát triển các giải pháp công nghệ mới nhằm khai thác dữ liệu khách hàng, nâng cao trải nghiệm người dùng và cạnh tranh trên thị trường.

Câu hỏi thường gặp

Tại sao chọn nền tảng Tripadvisor để thu thập dữ liệu?
Tripadvisor là nền tảng đánh giá du lịch hàng đầu với hơn 100 triệu lượt truy cập hàng tháng và hơn 1 tỷ lời bình luận, cung cấp nguồn dữ liệu phong phú, đa dạng và khách quan hơn so với các nền tảng khác như Booking hay Agoda.
Mô hình BiLSTM có ưu điểm gì trong phân tích cảm xúc?
BiLSTM xử lý chuỗi dữ liệu theo cả hai chiều tiến và lùi, giúp nắm bắt ngữ cảnh đầy đủ hơn, từ đó cải thiện độ chính xác phân loại cảm xúc so với các mô hình chỉ xử lý theo một chiều.
Làm thế nào để xử lý dữ liệu văn bản trước khi huấn luyện mô hình?
Dữ liệu được tiền xử lý qua các bước như chuẩn hóa chữ viết, loại bỏ ký tự đặc biệt, từ dừng, chuẩn hóa từ gốc (stemming, lemmatization) và trích xuất đặc trưng bằng các kỹ thuật như Embedding, GloVe hoặc TF-IDF.
Độ chính xác của mô hình có thể đạt được là bao nhiêu?
Mô hình BiLSTM kết hợp Embedding trong nghiên cứu đạt độ chính xác lên đến 77%, đủ để ứng dụng thực tế trong việc nhận diện mức độ hài lòng của du khách.
Làm thế nào để mở rộng mô hình cho các ngôn ngữ khác?
Cần thu thập dữ liệu bình luận bằng các ngôn ngữ mục tiêu, xây dựng bộ từ điển và mô hình nhúng từ phù hợp, đồng thời điều chỉnh mô hình học máy để xử lý đặc thù ngôn ngữ đó.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình ứng dụng học máy và xử lý ngôn ngữ tự nhiên để nhận diện mức độ hài lòng của du khách qua hơn 100.000 lời bình luận trên Tripadvisor với độ chính xác lên đến 77%.
Mô hình BiLSTM kết hợp kỹ thuật nhúng từ Embedding cho hiệu quả phân loại cảm xúc vượt trội so với các phương pháp truyền thống.
Kết quả nghiên cứu cung cấp công cụ hữu ích cho các nhà quản lý khách sạn trong việc khai thác dữ liệu khách hàng để nâng cao chất lượng dịch vụ và tăng cường năng lực cạnh tranh.
Đề xuất phát triển mô hình đa ngôn ngữ và tích hợp hệ thống phân tích cảm xúc tự động vào quản lý khách sạn trong thời gian tới.
Khuyến khích các doanh nghiệp và nhà nghiên cứu tiếp tục ứng dụng và mở rộng các kỹ thuật học máy, NLP trong lĩnh vực du lịch nhằm thúc đẩy chuyển đổi số và phát triển bền vững ngành du lịch Việt Nam.

Hãy bắt đầu áp dụng các giải pháp công nghệ này để nâng cao trải nghiệm khách hàng và phát triển bền vững trong ngành du lịch!

Trích đoạn nội dung tài liệu

CHƯƠNG 1. THỰC TRẠNG VÀ CƠ SỞ LÝ THUYẾT 1. Tổng quan tình hình nghiên cứu trên thế giới và trong nước 1. Tình hình nghiên cứu trên thế giới Một nghiên cứu của Abdulaziz M.

Alayba và cộng sự (2018) [2] đã nghiên cứu về một mô hình kết hợp mạng thần kinh tích chập (Convolutional Neural Network - CNN) và mạng bộ nhớ dài ngắn hạn (Long Short-Term Memory - LSTM) cùng với các tác vụ Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) để phân loại cảm xúc cho văn bản. Nghiên cứu sử dụng bô bộ dữ liệu văn bản bằng tiếng Ả Rập, được gán nhãn với hai lớp cảm xúc bao gồm Tích cực và Tiêu cực. Bộ dữ liệu được tạo ra bởi bốn tập dữ liệu bao gồm: Tập dữ liệu dịch vụ y tế Ả Rập, tập dữ liệu các tweet trên Twitter (Ar-Twitter) chứ 2000 tweet với 1000 tweet cho mỗi lớp cảm xúc, một tập dữ liệu khác về cảm xúc bằng Tiếng Ả Rập chưa 54.000 tweets bao gồm bốn lớp cảm xúc, trong đó chỉ xử dụng 1684 tweet có với cảm xúc tiêu cực và 795 tweet có cảm xúc tích cực. Các tác giả mở rộng số lượng tính năng trong tập dữ liệu thông qua phương pháp phân tách văn bản theo ba cấp độ bao gồm: cấp độ ký tự, cấp độ chuỗi ký tự và cấp độ từ.

Thí nghiệm cho thấy đối với phương pháp phân tách văn bản theo cấp độ từ hoặc chuỗi ký tự có kết quả phân loại tình cảm tốt hơn đối với cấp độ ký tự. Mô hình đã cho ra kết quả phân loại cảm xúc dối với tập dữ liệu Dịch vụ Y tế Ả Rập (AHS) đạt 94,24%. Một nghiên cứu khác của Rehman và cộng sự (2019) [3]cũng đã đề xuất mô hình có tên là Hybird CNN-LSTM để giải quyết vấn đề phân tích tình cảm. Đầu tiên, nghiên cứu này sử dụng phương pháp Word to Vector (Word2Vc) để huấn luyện các biểu diễn từ ban đầu còn được gọi là nhúng từ.

Word2Vc chuyển đổi các chuỗi văn bản thành một vector các giá trị số, tính toán khoảng cách giữa các từ và tạo các nhóm các từ tương tự dựa trên ý nghĩa của chúng. Sau khi thực hiện nhúng từ, mô hình đề xuất kết hợp tập hợp các đặc trưng được trích xuất bởi các lớp tích chập và lớp tổng hợp tối đa toàn cầu với các phụ thuộc dài hạn. Mô hình đề xuất cũng sử dụng kỷ thuật bỏ học, chuẩn hóa và một đơn vị tuyến tính chỉnh lưu để cải thiện độ chính xác. Kết quả của nghiên cứu cho thấy rằng Mô hình Hybird CNN-LSTM được đề xuất vượt trội hơn các kỹ thuật học sâu và học máy truyền thống về các điểm đánh giá như precision, 5 recall, f-measure, và accuracy.

Mô hình được đào tạo trên tập dữ liệu đánh giá phim IMDB với 40.000 bài đánh giá và tập dữ liệu đánh giá phim Amazon với 2000 bài đánh giá. Tất cả các bài đánh giá đều được gán nhãn từ hai phân loại cảm xúc tích cực và tiêu cực. Kết quả thí nghiệm đã đạt được những điểm nổi bật là mô hình được đề xuất cải thiện điểm số f-measure lên tới 4-8% so với các mô hình CNN hay LSTM riêng lẻ. Độ chính xác của mô hình cũng đạt được hơn 90%.

Kết quả này vẫn thấp hơn với mô hình kết hợp Naïve Bayes và Support Vector Machine tuy sự chênh lệch về độ chính xác là không nhiều. Một nghiên cứu của Ali Ahani và cộng sự (2019) [4]đã nghiên cứu về việc áp dụng các phương pháp học máy vào phân tích các đánh giá và xếp hạng trực tuyến đối với khách sạn. Mục tiêu của nghiên cứu này là phát triển phương pháp phân khúc khách sạn spa và dự đoán lựa chọn du lịch của khách hàng bằng cách áp dụng các phương pháp học máy. Phương pháp đánh giá được thực hiện thông qua tập hợp các tập dữ liệu từ xếp hạng của khách du lịch và đánh giá bằng văn bản về các khách sạn spa trên TripAdvisor.

Nghiên cứu đã đề xuất một phương pháp phân khúc khách sạn qua các bước: Chuẩn bị dữ liệu, phân cụm dữ liệu bằng phương pháp phân cụm không giám sát (Self-Organizing Map - SOM), tính toán độ tương đồng giữa các cụm bằng phương pháp phân tích dữ liệu đa chiều Phân tích (Hierarchical Orthogonal Singular Value Decomposition – HOSVM), dự đoán mối quan tâm của khách hàng trong từng cụm bằng phương pháp phân loại và hồi quy dựa trên cây quyết định (Classification and Regression Trees – CART), phương pháp khai phá văn bản (Text mining). Kết quả nghiên cứu đã phát hiện được chín phân khúc thị trường khách sạn khác nhau. Một nghiên cứu của Said Gadri và cộng sự (2021) [5] nghiên cứu được một hệ thống có thể dự đoán được sự hài lòng của khách hàng đối với các dịch vụ du lịch với độ chính xác lên đến 85%. Hệ thống sử dụng các phương pháp học máy và học sâu như Linear Discriminant Analysis, k-nearest neighbors, Classification and Regression Trees, Naive Bayes, Deep Neural Networks và Support Vector Machines.

Tập dữ liệu được thu thập gồm các khoảng 100.000 lời bình luận trên Tripadvisor cho nhiều loại dịch vụ du lịch. Dữ liệu đã được gán nhãn bởi mộ nhóm chuyên gia dựa trên các tiêu chí về nội dung, từ ngữ, giọng điệu và một số yếu tố khác theo thang điểm của mức độ hài lòng từ 1 đến 5 sao với sự cân bằng về tỉ lệ cho khoảng 20% lời bình luận ở mỗi mức độ. Nghiên cứu này có một số hạn chế về tập dữ liệu có thể kể đến đầu tiên về quy mô tập dữ liệu, dữ liệu được chia nhỏ thành nhiều mảng cho nhiều dịch vụ với khoảng 10.000 lời bình luận cho mỗi dịch vụ. Điều này có thể khiến cho kết 6 quả dự đoán không chính xác theo từng ngữ cảnh cụ thể của từng dịch vụ.

Thứ hai việc gắn nhãn được xử lý thủ công bởi một nhóm chuyên gia và dựa trên một số tiêu chí, tuy điều này giúp tập dữ liệu chính xác hơn nhưng cũng dẫn đến sai lệch do sự chủ quan trong phân tích, gây tốn kém về sức người và thời gian xử lý và sẽ rất khó khăn nếu cần xử lý trên tập dữ liệu kích thước lớn hơn. Một nghiên cứu của Mingyang Li và cộng sự (2022) [6] đã đề xuất một phương pháp dựa trên lý thuyết bằng chứng (Evidence Theory - là một mô hình toán học để xử lý thông tin không chắc chắn) để khám phá sự hài lòng ẩn chứa bên trong các bài đánh giá của khách hàng với khách sạn thông qua các bài đánh giá trực tuyến đa website. Phương pháp này đầu tiên xác định các thuộc tính khách sạn quan trọng nhất từ các bài đánh giá, sau đó sử dụng lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng với từng thuộc tính. Phương pháp này được đánh giá trên một tập dữ liệu gồm 1000 bài đánh giá trực tuyến cho 10 khách sạn.

Kết quả cho thấy phương pháp này có thể tính toán mức độ hài lòng của khách hàng với độ chính xác cao. Nghiên cứu này có một số hạn chế. Đầu tiên, nghiên cứu chỉ sử dụng một tập dữ liệu với kích thước nhỏ. này có thể dẫn đến sự thiên vị trong kết quả nghiên cứu.

Thứ hai, nghiên cứu chỉ tập trung vào một số thuộc tính khách sạn nhất định, chẳng hạn như vị trí, giá cả, tiện nghi và dịch vụ khách hàng. Điều này có thể dẫn đến việc bỏ qua các thuộc tính khách sạn quan trọng khác. Cuối cùng, nghiên cứu chỉ sử dụng phương pháp dựa trên lý thuyết bằng chứng để tính toán mức độ hài lòng của khách hàng. Điều này có thể dẫn đến việc bỏ qua các phương pháp khác có thể chính xác hơn.

Tình hình nghiên cứu tại Việt Nam Tại Việt Nam, các nghiên cứu về ứng dụng học máy và xử lý ngôn ngữ tự nhiên cũng được triển khai từ rất sớm. Trong đó có thể kể đến nghiên cứu của Nguyễn Tấn Phát và cộng sự (2014) [7] đưa ra một hệ thống phân tích quan điểm các nhận xét của tiếng Việt trên các website thương mại điện tử dựa trên xử lý ngôn ngữ tự nhiên. Hệ thống này có khả năng xác định xác định các chủ đề được đề cập đến trong lời bình luận và đưa ra nhận định về ý nghĩa của nhận xét mang tính tích cực, tiêu cực hoặc trung tính. Tập dữ liệu sử dụng trong nghiên cứu này bao gồm ba loại: Tập dữ liệu bình luận một thực thể chứa các bình luận nói về một thực thể duy nhất, tập dữ liệu bình luận nhiều thực thể chứa các bình luận nói về nhiều hơn một thực thể, tập dữ liệu hỗn hợp chứa cả các lời bình luận về chỉ một thực thể hoặc nhiều hơn một thực thể.

Kết quả của nghiên cứu này có độ chính xác trên tập bình luận một thực thể là 90,37%, trên tập bình luận nhiều thực thể là 67,44% và trên tập bình luận về một hoặc nhiều 7 thực thể là 84,5%. Kết quả này cho thấy mô hình hệ thống có nhược điểm đối với việc xác định các thực thể của tập dữ liệu bình luận. Tập dữ liệu cần được xác định chủ đề về các thực thể được đề cập đến, hiệu suất mô hình cũng ảnh hưởng nhiều đối với số lượng thực thể được đề cập đến trong bình luận. Võ Hoàng Quân và cộng sự (2017) [8] cũng đã nghiên cứu một mô hình Đa kênh LSTM-CNN để phân tích cảm xúc đối với ngôn ngữ Việt Nam.

Nghiên cứu được triển khai trên hai tập dữ liệu gồm một tập dữ liệu do nhóm tác giả tự tạo đó là Vietnamese sentiment (VS) chứa 17.500 bài đánh giá bằng tiếng Việt trên các sàn thương mại điện tử và được gán nhãn bằng tay cho ba phân loại cảm xúc tích cực, tiêu cực và trung lập, một tập dữ liệu khác là tập dữ liệu Vietnamese Language and Speech Processing (VLSP) năm 2016 chứa 5.100 bài đánh giá đã được gán nhãn cho ba phân loại cảm xúc. Kết quả mô hình đạt tốt nhất trên tập dữ liệu VS với điểm số Precision lần lượt trên ba phân loại tích cực, trung lập và tiêu cực là 0,92, 0,81 và 0,9 , với điểm số F1 lần lượt là 0,91, 0,85, 0,864, kết quả này tốt hơn nhiều so với kết quả trên tập dữ liệu VSLP với điểm số Precision cho ba phân loại lần lượt là 0,622, 0,534 và 0,632, với điểm số F1 lần lượt là 0,676, 0,5 và 0,598. Một nghiên cứu khác gần đây của Nguyễn Thành Thuỷ và cộng sự (2019) [9] đề xuất một mô hình học máy trong phân tích ý kiến khách hàng dựa trên văn bản tiếng Việt đối với bài toán dịch vụ khách sạn, phân lớp sắc thái một lời bình luận là tích cực hay tiêu cực.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn với tiêu đề "Nghiên cứu nhận diện mức độ hài lòng của du khách tại khách sạn thông qua học máy và xử lý ngôn ngữ tự nhiên" được thực hiện bởi TS. Lê Thị Quỳnh Liên tại Đại học Huế, tập trung vào việc phân tích mức độ hài lòng của du khách thông qua các phương pháp học máy và xử lý ngôn ngữ tự nhiên. Nghiên cứu này không chỉ giúp các nhà quản lý khách sạn hiểu rõ hơn về nhu cầu và mong muốn của khách hàng mà còn cung cấp những thông tin quý báu để cải thiện chất lượng dịch vụ, từ đó nâng cao trải nghiệm của du khách.

Để mở rộng thêm kiến thức, bạn có thể tham khảo các bài viết liên quan như "Luận văn về sự hài lòng của du khách đối với dịch vụ lưu trú tại khách sạn 3 sao", nơi phân tích chi tiết về sự hài lòng của du khách trong bối cảnh dịch vụ lưu trú. Bên cạnh đó, bài viết "Chất lượng dịch vụ tại khách sạn Hàm Rồng: Phân tích và cải thiện" cũng sẽ cung cấp thêm góc nhìn về việc cải thiện chất lượng dịch vụ khách sạn. Cuối cùng, bài "Nghiên cứu chất lượng dịch vụ lưu trú tại khách sạn Hải Phòng" sẽ giúp bạn hiểu thêm về các yếu tố ảnh hưởng đến sự hài lòng của du khách trong một bối cảnh khác. Những tài liệu này không chỉ bổ sung cho kiến thức của bạn mà còn mở ra nhiều hướng nghiên cứu thú vị trong lĩnh vực du lịch và khách sạn.

#trải nghiệm khách hàng