Tổng quan nghiên cứu
Ngành du lịch Việt Nam đang trong giai đoạn phục hồi mạnh mẽ sau đại dịch Covid-19, với nhu cầu nâng cao chất lượng dịch vụ và trải nghiệm khách hàng ngày càng tăng. Theo ước tính, việc phân tích cảm xúc người dùng trên các nền tảng mạng xã hội như Facebook có thể giúp các doanh nghiệp du lịch hiểu rõ hơn về phản hồi của khách hàng, từ đó cải thiện dịch vụ và tăng sự hài lòng. Đề tài “Kết hợp phân tích từ với học sâu xây dựng mô hình phân tích cảm xúc người dùng sản phẩm du lịch” tập trung vào việc phát triển một mô hình học sâu ứng dụng trong phân tích cảm xúc bình luận tiếng Việt về các sản phẩm du lịch tại địa phương, đặc biệt là khu vực Quy Nhơn. Phạm vi nghiên cứu bao gồm thu thập và xử lý dữ liệu bình luận tiếng Việt trên Facebook trong năm 2023, với mục tiêu xây dựng mô hình phân tích cảm xúc chính xác, hỗ trợ trợ lý ảo phục vụ khách du lịch 24/7. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả quản lý chất lượng dịch vụ du lịch, đồng thời góp phần thúc đẩy phát triển ngành du lịch thông minh tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết chính: phân tích từ (tokenization) và phân tích cảm xúc (sentiment analysis) trong xử lý ngôn ngữ tự nhiên (NLP). Phân tích từ giúp tách văn bản thành các đơn vị từ ngữ, là bước tiền xử lý quan trọng để chuẩn bị dữ liệu cho các thuật toán NLP. Phân tích cảm xúc được thực hiện ở ba mức độ: mức văn bản, mức câu và mức thực thể, nhằm xác định cảm xúc tích cực, tiêu cực hoặc trung lập trong bình luận. Ngoài ra, mô hình học sâu BERT (Bidirectional Encoder Representations from Transformers) được áp dụng để nâng cao khả năng hiểu ngữ cảnh và phân loại cảm xúc. BERT sử dụng kiến trúc Transformer với cơ chế chú ý đa đầu, cho phép mô hình học được bối cảnh hai chiều của từ trong câu, giúp cải thiện độ chính xác phân tích cảm xúc. Các khái niệm chính bao gồm: từ điển cảm xúc SO-CAL tiếng Việt, kỹ thuật tăng cường dữ liệu (data augmentation) như EDA và Mixup, cùng các mô hình học sâu như Bert-Base-Uncase, DistilBert-Base-Uncase và Bert-Base-Multilingual-Uncased.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là 15.176 câu bình luận tiếng Việt thu thập từ các nhóm, diễn đàn du lịch trên Facebook tại Quy Nhơn trong năm 2023. Dữ liệu được gán nhãn thủ công thành ba lớp cảm xúc: tích cực, tiêu cực và không cảm xúc. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện cho các loại cảm xúc. Dữ liệu sau đó được tiền xử lý bao gồm chuẩn hóa, loại bỏ ký tự đặc biệt và biểu tượng cảm xúc. Kỹ thuật tăng cường dữ liệu được áp dụng để mở rộng tập huấn luyện, bao gồm thay thế từ đồng nghĩa, tiêm nhiễu ngẫu nhiên, hoán đổi từ và xóa từ. Mô hình học sâu BERT được huấn luyện và tinh chỉnh trên tập dữ liệu này, sử dụng hàm mất mát kết hợp giữa dự đoán từ bị che và dự đoán câu tiếp theo. Quá trình huấn luyện kéo dài trong nhiều epoch với việc đánh giá hiệu suất qua các chỉ số F1-score và độ chính xác. Timeline nghiên cứu kéo dài từ đầu năm đến cuối năm 2023, bao gồm các giai đoạn thu thập dữ liệu, xây dựng bộ từ điển cảm xúc, tăng cường dữ liệu, huấn luyện mô hình và triển khai ứng dụng thực nghiệm.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả mô hình BERT trong phân tích cảm xúc: Mô hình Bert-Base-Uncase đạt F1-score 0.9163 và độ chính xác cao trong phân loại ba nhãn cảm xúc. Mô hình phân loại chính xác 723/843 mẫu tích cực và 928/1007 mẫu tiêu cực, đồng thời dự đoán chính xác 427/427 mẫu không cảm xúc.
Phân bố cảm xúc trong dữ liệu: Trong tổng số 15.176 câu, cảm xúc tiêu cực chiếm tỷ lệ cao nhất, phản ánh sự đa dạng và phức tạp trong phản hồi của du khách. Từ khóa xuất hiện nhiều nhất là “biển” với tần suất lớn, phù hợp với chủ đề du lịch biển tại Quy Nhơn.
Tăng cường dữ liệu cải thiện độ chính xác: Việc áp dụng kỹ thuật tăng cường dữ liệu như EDA và Mixup giúp mở rộng tập huấn luyện, giảm thiểu hiện tượng overfitting và nâng cao khả năng tổng quát của mô hình trên dữ liệu thực tế.
Khó khăn trong phân loại cảm xúc chủ quan: Một số câu chứa từ ngữ cảm xúc nhưng không mang cảm xúc thực sự (ví dụ câu nghi vấn, câu điều kiện) gây ra sai lệch trong phân loại, đòi hỏi mô hình cần được tinh chỉnh thêm để nhận diện các trường hợp ngoại lệ này.
Thảo luận kết quả
Kết quả cho thấy mô hình BERT, đặc biệt phiên bản Bert-Base-Uncase, phù hợp và hiệu quả trong việc phân tích cảm xúc bình luận tiếng Việt về sản phẩm du lịch. Việc sử dụng bộ từ điển SO-CAL tiếng Việt giúp mô hình hiểu sâu sắc hơn về ngữ nghĩa và giá trị cảm xúc của từ ngữ đặc trưng trong tiếng Việt. So với các nghiên cứu trước đây trong nước và quốc tế, mô hình này đạt hiệu suất cao hơn nhờ kết hợp kỹ thuật tăng cường dữ liệu và tinh chỉnh mô hình phù hợp với đặc thù ngôn ngữ. Biểu đồ ma trận nhầm lẫn minh họa rõ ràng khả năng phân biệt giữa các nhãn cảm xúc, tuy nhiên vẫn tồn tại một số nhầm lẫn giữa nhãn tích cực và tiêu cực, phản ánh tính phức tạp của ngôn ngữ tự nhiên. Việc áp dụng mô hình trong trợ lý ảo du lịch sẽ giúp tự động hóa quá trình phân tích phản hồi khách hàng, từ đó nâng cao chất lượng dịch vụ và trải nghiệm người dùng.
Đề xuất và khuyến nghị
Triển khai mô hình phân tích cảm xúc trên nền tảng mạng xã hội: Đề xuất các doanh nghiệp du lịch tích hợp mô hình BERT vào hệ thống quản lý phản hồi khách hàng trên Facebook và các kênh mạng xã hội khác nhằm tự động phân loại và xử lý ý kiến khách hàng trong vòng 6 tháng tới.
Phát triển bộ từ điển cảm xúc tiếng Việt chuyên sâu: Khuyến nghị đầu tư xây dựng bộ từ điển cảm xúc mở rộng, cập nhật thường xuyên với sự hợp tác của chuyên gia ngôn ngữ học để nâng cao độ chính xác phân tích cảm xúc, thực hiện trong vòng 12 tháng.
Tăng cường đào tạo và tinh chỉnh mô hình: Đề xuất nghiên cứu thêm các kỹ thuật xử lý ngoại lệ trong câu chứa cảm xúc như câu nghi vấn, câu điều kiện để giảm sai số phân loại, đồng thời mở rộng tập dữ liệu huấn luyện, tiến hành trong 9 tháng.
Phát triển ứng dụng trợ lý ảo du lịch thông minh: Khuyến nghị xây dựng ứng dụng trợ lý ảo tích hợp mô hình phân tích cảm xúc, hỗ trợ khách du lịch đặt lịch, đánh giá dịch vụ và gợi ý điểm đến dựa trên phản hồi thực tế, triển khai thử nghiệm trong 1 năm.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học dữ liệu, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong phân tích cảm xúc tiếng Việt, giúp phát triển các đề tài nghiên cứu liên quan.
Doanh nghiệp và tổ chức hoạt động trong lĩnh vực du lịch: Các đơn vị có thể áp dụng mô hình để nâng cao chất lượng dịch vụ, quản lý phản hồi khách hàng hiệu quả và cải thiện trải nghiệm du lịch.
Nhà phát triển phần mềm và kỹ sư NLP: Tài liệu chi tiết về kỹ thuật xây dựng bộ từ điển cảm xúc, tăng cường dữ liệu và huấn luyện mô hình BERT giúp phát triển các ứng dụng xử lý ngôn ngữ tự nhiên.
Cơ quan quản lý nhà nước và các tổ chức xúc tiến du lịch: Tham khảo để xây dựng các chính sách, chương trình hỗ trợ phát triển du lịch thông minh dựa trên phân tích dữ liệu người dùng thực tế.
Câu hỏi thường gặp
Mô hình BERT có ưu điểm gì trong phân tích cảm xúc tiếng Việt?
BERT có khả năng học bối cảnh hai chiều của từ trong câu, giúp hiểu ngữ nghĩa sâu sắc hơn so với các mô hình truyền thống, từ đó nâng cao độ chính xác phân loại cảm xúc.Tại sao cần tăng cường dữ liệu trong huấn luyện mô hình?
Tăng cường dữ liệu giúp mở rộng tập huấn luyện, giảm hiện tượng overfitting và cải thiện khả năng tổng quát của mô hình khi áp dụng trên dữ liệu thực tế đa dạng.Bộ từ điển SO-CAL tiếng Việt được xây dựng như thế nào?
Bộ từ điển được dịch tự động từ SO-CAL tiếng Anh sang tiếng Việt bằng Google Translate, sau đó được hiệu chỉnh và phân loại thành các nhóm từ danh từ, động từ, tính từ, trạng từ và từ tăng cường.Làm thế nào để xử lý các câu chứa từ cảm xúc nhưng không mang cảm xúc thực sự?
Cần áp dụng các quy tắc ngôn ngữ học để nhận diện câu nghi vấn, câu điều kiện và loại trừ hoặc xử lý riêng biệt nhằm tránh sai lệch trong phân loại cảm xúc.Mô hình có thể áp dụng cho các lĩnh vực khác ngoài du lịch không?
Có, mô hình và phương pháp nghiên cứu có thể được điều chỉnh và áp dụng cho các lĩnh vực khác như thương mại điện tử, y tế, dịch vụ khách hàng để phân tích phản hồi người dùng.
Kết luận
- Đề tài đã xây dựng thành công mô hình phân tích cảm xúc người dùng sản phẩm du lịch dựa trên kết hợp phân tích từ và học sâu BERT, đạt F1-score 0.9163.
- Bộ từ điển cảm xúc SO-CAL tiếng Việt được phát triển, hỗ trợ hiệu quả cho việc phân loại cảm xúc trong tiếng Việt.
- Kỹ thuật tăng cường dữ liệu như EDA và Mixup giúp cải thiện độ chính xác và khả năng tổng quát của mô hình trên dữ liệu thực tế.
- Mô hình có thể ứng dụng trong trợ lý ảo du lịch, hỗ trợ tự động phân tích phản hồi khách hàng và nâng cao chất lượng dịch vụ.
- Các bước tiếp theo bao gồm mở rộng bộ từ điển, tinh chỉnh mô hình xử lý các trường hợp ngoại lệ và triển khai ứng dụng thực tế trong ngành du lịch.
Khuyến khích các nhà nghiên cứu và doanh nghiệp du lịch áp dụng kết quả nghiên cứu để phát triển các giải pháp thông minh, nâng cao trải nghiệm khách hàng và thúc đẩy sự phát triển bền vững của ngành du lịch Việt Nam.