Tổng quan nghiên cứu

Phân tích quan điểm (sentiment analysis) là lĩnh vực nghiên cứu nhằm đánh giá cảm nhận của người dùng về một đối tượng cụ thể, như sản phẩm hay dịch vụ, thông qua các văn bản đánh giá. Theo báo cáo của ngành, việc phân tích các nhận xét trực tuyến ngày càng trở nên quan trọng khi Internet phát triển mạnh mẽ, với khoảng 44% dân số Việt Nam sử dụng Internet tính đến năm 2015. Trong lĩnh vực du lịch, đặc biệt là khách sạn, việc hiểu rõ sở thích của du khách qua các đánh giá giúp doanh nghiệp nâng cao chất lượng dịch vụ và tăng cường hình ảnh thương hiệu.

Luận văn tập trung vào phân tích quan điểm theo khía cạnh, một phương pháp chi tiết hơn so với phân tích quan điểm tổng thể, nhằm xác định sở thích của du khách về các khía cạnh cụ thể của sản phẩm du lịch như giá phòng, vị trí, phòng, dịch vụ và nhân viên. Phạm vi nghiên cứu giới hạn trong các đánh giá về khách sạn AVANI tại Quy Nhơn, thu thập từ trang Tripadvisor với khoảng 800 nhận xét. Mục tiêu chính là phát triển quy trình phân tích quan điểm theo khía cạnh, từ đó dự đoán và xếp hạng sở thích của du khách theo từng khía cạnh, góp phần hỗ trợ các doanh nghiệp du lịch trong việc cải tiến sản phẩm và dịch vụ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Phân tích quan điểm (Sentiment Analysis): Phân biệt giữa quan điểm tích cực, tiêu cực và trung lập trong văn bản, với sự phân tích ở mức độ tổng thể và theo khía cạnh.
  • Phân tích quan điểm theo khía cạnh (Aspect-based Sentiment Analysis): Tập trung vào việc rút trích các khía cạnh cụ thể của sản phẩm và phân loại quan điểm tương ứng cho từng khía cạnh.
  • Học máy (Machine Learning): Sử dụng thuật toán Support Vector Machine (SVM) để phân lớp quan điểm dựa trên các vector đặc trưng được trích xuất từ văn bản.
  • Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Áp dụng các kỹ thuật tiền xử lý như tách từ, loại bỏ từ dừng, chuẩn hóa văn bản để chuẩn bị dữ liệu cho phân tích.

Các khái niệm chính bao gồm: đối tượng (object), khía cạnh (aspect), quan điểm hiện/ẩn (explicit/implicit opinion), và người đánh giá (opinion holder).

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Tập dữ liệu gồm 800 nhận xét về khách sạn AVANI tại Quy Nhơn, thu thập từ trang Tripadvisor.
  • Tiền xử lý dữ liệu: Chuẩn hóa văn bản, loại bỏ từ dừng, tách từ bằng công cụ vnTokenizer với độ chính xác khoảng 96-98%.
  • Rút trích khía cạnh: Xác định 5 khía cạnh chính của khách sạn gồm giá phòng, vị trí, phòng, dịch vụ và nhân viên dựa trên tập từ lõi và từ chủ đề.
  • Phân lớp quan điểm: Sử dụng thuật toán SVM để phân loại các câu nhận xét thành quan điểm tích cực hoặc tiêu cực theo từng khía cạnh. Dữ liệu được chia thành tập huấn luyện và kiểm tra theo tỷ lệ 7:3.
  • Xếp hạng khía cạnh: Tính điểm xếp hạng tích cực và tiêu cực cho từng khía cạnh dựa trên tỷ lệ câu được phân loại.
  • Đánh giá mô hình: Sử dụng các chỉ số độ chính xác (precision), độ bao phủ (recall) và độ đo F1 để đánh giá hiệu quả phân lớp.

Quy trình nghiên cứu được thực hiện trong năm 2020, tập trung trên miền dữ liệu du lịch tại Bình Định.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Rút trích khía cạnh thành công: Từ 800 nhận xét, các câu được phân bổ theo khía cạnh gồm: phòng (648 câu), dịch vụ (573 câu), nhân viên (426 câu), vị trí (357 câu), và giá phòng (188 câu).
  2. Phân lớp quan điểm hiệu quả: Bộ phân lớp SVM đạt độ chính xác từ 91,6% đến 96,3% trên các khía cạnh, với độ đo F1 dao động từ 90,5% đến 93,5%, cho thấy mô hình ổn định và chính xác.
  3. Xếp hạng sở thích theo khía cạnh: Khía cạnh phòng được du khách yêu thích nhất với tỷ lệ quan điểm tích cực dự đoán là 86%, tiếp theo là nhân viên (76%), vị trí (74%), giá phòng (77%) và dịch vụ (66%). Mức độ yêu thích thấp nhất thuộc về dịch vụ.
  4. So sánh điểm xếp hạng dự đoán và dữ liệu thực tế: Chênh lệch giữa điểm xếp hạng dự đoán và điểm thực tế dao động từ 2% đến 7%, trong đó khía cạnh giá phòng có sự chênh lệch cao nhất.

Thảo luận kết quả

Kết quả cho thấy phân tích quan điểm theo khía cạnh giúp hiểu rõ hơn về sở thích của du khách so với phân tích tổng thể. Việc sử dụng SVM với vector hóa dựa trên từ chủ đề và từ phủ định đã mang lại hiệu quả cao trong phân lớp quan điểm. Sự khác biệt nhỏ giữa điểm dự đoán và dữ liệu thực tế có thể do tính đa dạng trong cách diễn đạt của người dùng và những quan điểm ẩn chưa được khai thác triệt để.

So với các nghiên cứu trước đây, luận văn đã áp dụng thành công kỹ thuật học máy kết hợp với xử lý ngôn ngữ tự nhiên cho tiếng Việt trong lĩnh vực du lịch, một lĩnh vực còn hạn chế nghiên cứu. Biểu đồ so sánh mức độ yêu thích theo khía cạnh minh họa rõ sự ưu tiên của du khách đối với các yếu tố như phòng và nhân viên, đồng thời chỉ ra các điểm cần cải thiện như dịch vụ.

Đề xuất và khuyến nghị

  1. Phát triển hệ thống phân tích quan điểm tự động: Xây dựng ứng dụng phân tích quan điểm theo khía cạnh cho các doanh nghiệp du lịch nhằm tự động thu thập và phân tích đánh giá khách hàng, nâng cao hiệu quả quản lý chất lượng dịch vụ. Thời gian triển khai dự kiến trong 12 tháng, do phòng công nghệ thông tin chủ trì.
  2. Mở rộng phạm vi nghiên cứu: Áp dụng phương pháp phân tích quan điểm theo khía cạnh cho các sản phẩm du lịch khác như nhà hàng, điểm tham quan để đa dạng hóa dữ liệu và nâng cao độ chính xác dự đoán sở thích. Thực hiện trong 18 tháng, phối hợp giữa các viện nghiên cứu và doanh nghiệp.
  3. So sánh và lựa chọn thuật toán học máy: Thử nghiệm thêm các thuật toán như k-NN, Naive Bayes để so sánh hiệu quả phân lớp, từ đó lựa chọn mô hình tối ưu cho từng loại dữ liệu. Thời gian nghiên cứu 6 tháng, do nhóm nghiên cứu khoa học máy tính đảm nhiệm.
  4. Tăng cường thu thập dữ liệu: Mở rộng bộ dữ liệu đánh giá khách sạn và các sản phẩm du lịch khác, cập nhật liên tục để theo dõi sự thay đổi quan điểm theo thời gian, giúp doanh nghiệp điều chỉnh chiến lược kịp thời. Thực hiện liên tục, phối hợp với các trang đánh giá trực tuyến.

Đối tượng nên tham khảo luận văn

  1. Doanh nghiệp du lịch và khách sạn: Giúp hiểu rõ sở thích và nhu cầu của khách hàng theo từng khía cạnh, từ đó cải tiến dịch vụ và nâng cao trải nghiệm khách hàng.
  2. Nhà nghiên cứu và sinh viên ngành khoa học máy tính, xử lý ngôn ngữ tự nhiên: Cung cấp cơ sở lý thuyết và phương pháp thực nghiệm về phân tích quan điểm theo khía cạnh, đặc biệt trong ngữ cảnh tiếng Việt.
  3. Chuyên gia marketing và quản lý sản phẩm: Hỗ trợ phân tích dữ liệu đánh giá khách hàng để xây dựng chiến lược quảng bá và phát triển sản phẩm phù hợp với thị trường.
  4. Các tổ chức phát triển ứng dụng trí tuệ nhân tạo: Là tài liệu tham khảo để phát triển các hệ thống phân tích quan điểm tự động, ứng dụng trong nhiều lĩnh vực khác nhau.

Câu hỏi thường gặp

  1. Phân tích quan điểm theo khía cạnh khác gì so với phân tích tổng thể?
    Phân tích theo khía cạnh tập trung vào từng đặc điểm cụ thể của sản phẩm (ví dụ: giá phòng, dịch vụ), trong khi phân tích tổng thể chỉ đánh giá chung chung toàn bộ sản phẩm. Điều này giúp hiểu rõ hơn về sở thích và điểm cần cải thiện.

  2. Tại sao chọn thuật toán SVM cho phân lớp quan điểm?
    SVM có khả năng phân tách dữ liệu hiệu quả trong không gian nhiều chiều, phù hợp với dữ liệu văn bản được vector hóa. Kết quả thực nghiệm cho thấy SVM đạt độ chính xác trên 90% cho các khía cạnh.

  3. Làm thế nào để xử lý các câu có quan điểm pha trộn tích cực và tiêu cực?
    Luận văn tập trung phân tích ở mức câu, mỗi câu được gán nhãn tích cực hoặc tiêu cực dựa trên từ khóa và ngữ cảnh. Các câu pha trộn có thể được tách nhỏ hoặc xử lý bằng các kỹ thuật nâng cao trong nghiên cứu tiếp theo.

  4. Có thể áp dụng phương pháp này cho các lĩnh vực khác ngoài du lịch không?
    Có thể. Phương pháp phân tích quan điểm theo khía cạnh và sử dụng học máy có thể áp dụng cho nhiều lĩnh vực như thương mại điện tử, dịch vụ khách hàng, chính trị, với việc điều chỉnh tập khía cạnh phù hợp.

  5. Làm sao để cập nhật mô hình khi quan điểm người dùng thay đổi theo thời gian?
    Cần thu thập dữ liệu mới liên tục và huấn luyện lại mô hình định kỳ để phản ánh sự thay đổi trong sở thích và đánh giá của khách hàng, đảm bảo mô hình luôn chính xác và kịp thời.

Kết luận

  • Luận văn đã trình bày tổng quan và ứng dụng phân tích quan điểm theo khía cạnh trong lĩnh vực du lịch, tập trung vào sản phẩm khách sạn.
  • Phương pháp sử dụng học máy với thuật toán SVM và kỹ thuật xử lý ngôn ngữ tự nhiên cho tiếng Việt đạt độ chính xác trên 90% trong phân lớp quan điểm.
  • Kết quả thực nghiệm trên dữ liệu khách sạn AVANI tại Quy Nhơn cho thấy khả năng xác định và xếp hạng sở thích của du khách theo từng khía cạnh một cách hiệu quả.
  • Luận văn đề xuất các hướng phát triển mở rộng dữ liệu, áp dụng thuật toán khác và xây dựng ứng dụng thực tế nhằm nâng cao giá trị nghiên cứu.
  • Các bước tiếp theo bao gồm mở rộng phạm vi nghiên cứu, phát triển hệ thống ứng dụng và cập nhật mô hình theo thời gian để đáp ứng nhu cầu thực tế.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các phương pháp phân tích quan điểm theo khía cạnh nhằm nâng cao chất lượng dịch vụ và trải nghiệm khách hàng trong ngành du lịch và các lĩnh vực liên quan.