BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN NGỌC THẠCH PHÂN TÍCH QUAN ĐIỂM DỰA THEO KHÍA CẠNH VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH CỦA DU KHÁCH VỀ SẢN PHẨM DU LỊCH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Bình Định - Năm 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUY NHƠN NGUYỄN NGỌC THẠCH PHÂN TÍCH QUAN ĐIỂM DỰA THEO KHÍA CẠNH VÀ ỨNG DỤNG XÁC ĐỊNH SỞ THÍCH CỦA DU KHÁCH VỀ SẢN PHẨM DU LỊCH Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 08. 01 Người hướng dẫn : TS. LÊ QUANG HÙNG Lời cam đoan Tôi xin cam đoan luận văn này là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Lê Quang Hùng. Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác mà tôi trình bày trong luận văn này đã được ghi rõ nguồn trong phần tài liệu tham khảo. i Lời cảm ơn Trong quá trình nghiên cứu và hoàn thành Luận văn, học viên đã nhận được sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viên của các thầy cô giáo, đồng nghiệp và gia đình. Trước hết, tôi xin chân thành bày tỏ lời cảm ơn tới thầy TS. Lê Quang Hùng, cô Lê Thị Xinh đã tận tình hướng dẫn và giúp đỡ trong quá trình nghiên cứu. Tôi xin chân thành cảm ơn Phòng sau đại học, quý thầy cô giáo Khoa Công nghệ thông tin đã tạo kiện thuận lợi để tôi hoàn thành nhiệm vụ nghiên cứu. Cuối cùng, tôi xin bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình, bạn bè đã luôn động viên, chia sẻ, ủng hộ và giúp đỡ để tôi có thể vượt qua khó khăn để đạt được những kết quả nghiên cứu trong Luận văn này. ii Tóm tắt Phân tích quan điểm (sentiment analysis) là quá trình phân tích, đánh giá quan điểm của một (hoặc một số) người về một đối tượng nào đó (quan điểm mang tính tích cực, tiêu cực hay trung lập). Bài toán phân tích quan điểm được ứng dụng nhiều thực tế, đặc biệt là trong hoạt động quảng bá kinh doanh. Việc phân tích các đánh giá của người dùng về một sản phẩm xem họ đánh giá tiêu cực, tích cực hoặc đánh giá các mặt hạn chế của sản phẩm sẽ giúp công ty nâng cao chất lượng sản phẩm/dịch vụ và tăng cường hình ảnh của công ty, đặc biệt là các sản phẩm trong lĩnh vực du lịch cụ thể là nhà hàng, khách sạn. Các cách tiếp cận để giải quyết bài toán này có thể chia làm ba loại: (i) sử dụng các tập luật (rule-based), (ii) sử dụng học máy (machine learning) và (iii) kết hợp (i) với (ii). Phân tích quan điểm cho toàn bộ văn bản là bài toán cơ bản nhất trong phân tích quan điểm. Việc phân tích quan điểm theo loại bài toán này thường ở mức tài liệu và không quan tâm tới vấn đề chi tiết hơn như người đánh giá sản phẩm thích hay không thích khía cạnh nào của sản phẩm. Như vậy, đánh giá một quan điểm cho toàn bộ văn bản là không đủ chi tiết cho các ứng dụng thực tế. Tức là, một văn bản đánh giá tích cực về một đối tượng cụ thể không có nghĩa là người dùng có ý kiến tích cực về mọi khía cạnh của đối tượng đó. Tương tự, một văn bản đánh giá tiêu cực cho một đối tượng không có nghĩa là người dùng không thích tất cả mọi khía cạnh của đối tượng đó. Để có thể phân tích quan điểm phù hợp với nhu cầu sử dụng trong thực tế, chúng ta cần phải nghiên cứu sâu về quan điểm ở mức khía cạnh (aspect-based sentiment analysis). Phân tích quan điểm theo khía cạnh bao gồm ba bài toán điển hình như sau: 1. Rút trích khía cạnh; 2. Phân loại quan điểm theo khía cạnh; 3. Xếp hạng khía cạnh. Trong luận văn này, chúng tôi tập trung giải quyết ba bài toán và ứng dụng xác định sở thích của du khách về sản phẩm du lịch, cụ thể như sau: Thứ nhất, đối với bài toán rút trích khía cạnh, chúng tôi xác định các từ thể hiện khía cạnh trong văn bản. Từ tập khía cạnh, đối với một câu văn bản đánh giá chưa được gán nhãn, chúng ta cần dự đoán nhãn khía cạnh thích hợp cho nó. Thứ hai, với bài toán phân loại quan điểm theo khía cạnh, chúng tôi sử dụng kỹ thuật học máy có giám sát để phân lớp quan điểm cho văn bản. Thứ ba, đối với bài toán xếp hạng khía cạnh, từ tập văn bản đánh giá của người dùng, chúng tôi xếp hạng (hay tính điểm) theo mức độ đánh giá quan điểm theo từng khía cạnh đã được người dùng thảo luận trong mỗi văn bản. Thực nghiệm được cài đặt trên miền dữ liệu du lịch (từ các nhận xét về khách sạn AVANI (https://www.com) cho thấy kết quả khả quan. Từ khóa: phân tích quan điểm, phân tích quan điểm theo khía cạnh, khai phá quan điểm iv Mục lục Lời cam đoan i Lời cảm ơn ii Tóm tắt iii Danh mục các chữ viết tắt vii Danh mục các hình vẽ viii Danh mục các bảng ix Mở đầu 1 1 Tổng quan 3 1.1 Phân tích quan điểm .2 Một số khái niệm .3 Một số bài toán trong phân tích quan điểm .1 Tổng quan một hệ thống phân tích quan điểm .2 Phân lớp quan điểm .3 Phân tích và tổng hợp quan điểm dựa trên đặc trưng 8 1.4 Phân tích quan điểm so sánh .4 Ứng dụng của phân tích quan điểm .5 Những khó khăn trong lĩnh vực phân tích quan điểm .6 Hướng tiếp cận phân tích quan điểm .2 Phân tích quan điểm theo khía cạnh .1 Bài toán phân tích quan điểm theo khía cạnh .2 Cách tiếp cận giải quyết bài toán .3 Nghiên cứu liên quan .3 Tổng kết chương 1 . 17 2 Xác định sở thích của du khách về sản phẩm du lịch dựa trên phân tích quan điểm theo khía cạnh 18 2.1 Phát biểu bài toán .2 Xác định sở thích của du khách về sản phẩm du lịch .1 Tiền xử lí dữ liệu .2 Rút trích khía cạnh .3 Phân lớp quan điểm dựa trên khía cạnh .4 Dự đoán xếp hạng theo khía cạnh .3 Tổng kết chương 2 .1 Cài đặt thực nghiệm .1 Dữ liệu thực nghiệm .2 Công cụ thực nghiệm .3 Các bước tiến hành .2 Kết quả thực nghiệm . 33 Kết luận 35 vi Danh mục các chữ viết tắt NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS Part Of Speech (Nhãn từ loại) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) TF-IDF Term Frequency Inverse Document Frequency (Tần số nghịch đảo từ) PMI Pointwise Mutual Information (Độ đo thông tin tương hỗ) SO Semantic Orientation (Hướng ngữ nghĩa) vii Danh sách hình vẽ 1.1 Minh họa nhận xét của người dùng .2 Kiến trúc tổng quan hệ thống phân tích quan điểm theo hướng tiếp cận học máy .3 Đánh giá về khách sạn Avani Quy Nhơn trên trang Tripadvisor.4 Các hướng tiếp cận phân tích quan điểm.1 Quy trình phân tích quan điểm theo khía cạnh.2 Quy trình phân lớp quan điểm dựa trên khía cạnh .3 Mô tả thuật toán SVM .1 Định dạng dữ liệu trong công cụ SV M light .2 Biểu đồ so sánh mức độ yêu thích của người dùng theo khía cạnh .3 Biểu đồ so sánh điểm xếp hạng theo dự đoán và điểm xếp hạng theo dữ liệu đánh giá . 33 viii Danh sách bảng 3.1 Tập từ lõi và từ chủ đề theo khía cạnh .2 Kết quả rút trích khía cạnh .3 Kết quả xếp hạng theo khía cạnh .4 Đánh giá bộ phân lớp SVM . 33 ix Mở đầu 1. Lý do chọn đề tài Hiện nay Internet đã mang tới sự phát triển mạnh mẽ trong tất cả các lĩnh vực trong xã hội hiện đại, các hoạt động kinh doanh, thương mại dựa trên nền tảng Internet ngày càng phổ biến. Khách hàng có thể tự do bày tỏ quan điểm, đánh giá hay nhận xét về một mặt hàng, sản phẩm, dịch vụ trên các trang thương mại điện tử, các trang mạng xã hội. Việc phân tích những dòng nhận xét cá nhân này sẽ hữu ích cho những khách hàng khác khi tìm mua một loại sản phẩm hoặc có tính tích cực trong việc giúp cho nhà sản xuất nhận biết được nhu cầu của khách hàng để cải tiến sản phẩm dịch vụ tốt hơn. Ngày nay, đối với mỗi sản phẩm, nhiều trang Web đã tổng hợp các đánh giá tổng thể của người dùng và hiển thị nó trên trang. Tuy nhiên, điều này là chưa đầy đủ vì nó không thể cung cấp một cách chi tiết những đánh giá của người dùng trên từng khía cạnh của sản phẩm, dịch vụ. Phân tích quan điểm cho toàn bộ văn bản là không đủ chi tiết cho các ứng dụng thực tế. Để có thể phân tích quan điểm phù hợp với nhu cầu sử dụng trong thực tế, cần phân tích quan điểm ở mức khía cạnh. Ngoài ra, việc phân tích các đánh giá của người dùng về một sản phẩm xem họ đánh giá tiêu cực, tích cực hoặc đánh giá các mặt hạn chế của sản phẩm sẽ giúp công ty nâng cao chất lượng sản phẩm/dịch vụ và tăng cường hình ảnh của công ty. Những điều này đã thúc đẩy chúng tôi lựa chọn và thực hiện đề tài "Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch". Mục tiêu của luận văn Trong luận văn này, chúng tôi đặt ra hai mục tiêu chính: Thứ nhất, tìm hiểu cơ sở lý thuyết về phân tích quan điểm, phân tích quan điểm theo khía cạnh. Thứ hai, ứng dụng phân tích quan điểm theo khía cạnh vào việc xác định sở thích của du khách về sản phẩm du lịch. Phạm vi nghiên cứu Trong thực nghiệm của luận văn này, chúng tôi giới hạn sản phẩm du lịch là khách sạn. Bố cục của luận văn Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 3 chương, với bố cục như sau: Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận văn, bao gồm: phân tích quan điểm, phân tích quan điểm theo khía cạnh. Trình bày ứng dụng phân tích quan điểm theo khía cạnh vào việc xác định sở thích của du khách về sản phẩm du lịch. Trình bày thực nghiệm, bao gồm: cài đặt thực nghiệm, kết quả thực nghiệm, đánh giá. 2 Chương 1 Tổng quan Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận văn, bao gồm: phân tích quan điểm, phân tích quan điểm theo khía cạnh và các cách tiếp cận để giải quyết bài toán này. Cuối chương, chúng tôi nêu ra vấn đề luận văn sẽ tập trung giải quyết.1 Phân tích quan điểm 1.
Tổng quan nghiên cứu
Phân tích quan điểm (sentiment analysis) là lĩnh vực nghiên cứu nhằm đánh giá cảm nhận của người dùng về một đối tượng cụ thể, như sản phẩm hay dịch vụ, thông qua các văn bản đánh giá. Theo báo cáo của ngành, việc phân tích các nhận xét trực tuyến ngày càng trở nên quan trọng khi Internet phát triển mạnh mẽ, với khoảng 44% dân số Việt Nam sử dụng Internet tính đến năm 2015. Trong lĩnh vực du lịch, đặc biệt là khách sạn, việc hiểu rõ sở thích của du khách qua các đánh giá giúp doanh nghiệp nâng cao chất lượng dịch vụ và tăng cường hình ảnh thương hiệu.
Luận văn tập trung vào phân tích quan điểm theo khía cạnh, một phương pháp chi tiết hơn so với phân tích quan điểm tổng thể, nhằm xác định sở thích của du khách về các khía cạnh cụ thể của sản phẩm du lịch như giá phòng, vị trí, phòng, dịch vụ và nhân viên. Phạm vi nghiên cứu giới hạn trong các đánh giá về khách sạn AVANI tại Quy Nhơn, thu thập từ trang Tripadvisor với khoảng 800 nhận xét. Mục tiêu chính là phát triển quy trình phân tích quan điểm theo khía cạnh, từ đó dự đoán và xếp hạng sở thích của du khách theo từng khía cạnh, góp phần hỗ trợ các doanh nghiệp du lịch trong việc cải tiến sản phẩm và dịch vụ.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- Phân tích quan điểm (Sentiment Analysis): Phân biệt giữa quan điểm tích cực, tiêu cực và trung lập trong văn bản, với sự phân tích ở mức độ tổng thể và theo khía cạnh.
- Phân tích quan điểm theo khía cạnh (Aspect-based Sentiment Analysis): Tập trung vào việc rút trích các khía cạnh cụ thể của sản phẩm và phân loại quan điểm tương ứng cho từng khía cạnh.
- Học máy (Machine Learning): Sử dụng thuật toán Support Vector Machine (SVM) để phân lớp quan điểm dựa trên các vector đặc trưng được trích xuất từ văn bản.
- Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Áp dụng các kỹ thuật tiền xử lý như tách từ, loại bỏ từ dừng, chuẩn hóa văn bản để chuẩn bị dữ liệu cho phân tích.
Các khái niệm chính bao gồm: đối tượng (object), khía cạnh (aspect), quan điểm hiện/ẩn (explicit/implicit opinion), và người đánh giá (opinion holder).
Phương pháp nghiên cứu
- Nguồn dữ liệu: Tập dữ liệu gồm 800 nhận xét về khách sạn AVANI tại Quy Nhơn, thu thập từ trang Tripadvisor.
- Tiền xử lý dữ liệu: Chuẩn hóa văn bản, loại bỏ từ dừng, tách từ bằng công cụ vnTokenizer với độ chính xác khoảng 96-98%.
- Rút trích khía cạnh: Xác định 5 khía cạnh chính của khách sạn gồm giá phòng, vị trí, phòng, dịch vụ và nhân viên dựa trên tập từ lõi và từ chủ đề.
- Phân lớp quan điểm: Sử dụng thuật toán SVM để phân loại các câu nhận xét thành quan điểm tích cực hoặc tiêu cực theo từng khía cạnh. Dữ liệu được chia thành tập huấn luyện và kiểm tra theo tỷ lệ 7:3.
- Xếp hạng khía cạnh: Tính điểm xếp hạng tích cực và tiêu cực cho từng khía cạnh dựa trên tỷ lệ câu được phân loại.
- Đánh giá mô hình: Sử dụng các chỉ số độ chính xác (precision), độ bao phủ (recall) và độ đo F1 để đánh giá hiệu quả phân lớp.
Quy trình nghiên cứu được thực hiện trong năm 2020, tập trung trên miền dữ liệu du lịch tại Bình Định.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Rút trích khía cạnh thành công: Từ 800 nhận xét, các câu được phân bổ theo khía cạnh gồm: phòng (648 câu), dịch vụ (573 câu), nhân viên (426 câu), vị trí (357 câu), và giá phòng (188 câu).
- Phân lớp quan điểm hiệu quả: Bộ phân lớp SVM đạt độ chính xác từ 91,6% đến 96,3% trên các khía cạnh, với độ đo F1 dao động từ 90,5% đến 93,5%, cho thấy mô hình ổn định và chính xác.
- Xếp hạng sở thích theo khía cạnh: Khía cạnh phòng được du khách yêu thích nhất với tỷ lệ quan điểm tích cực dự đoán là 86%, tiếp theo là nhân viên (76%), vị trí (74%), giá phòng (77%) và dịch vụ (66%). Mức độ yêu thích thấp nhất thuộc về dịch vụ.
- So sánh điểm xếp hạng dự đoán và dữ liệu thực tế: Chênh lệch giữa điểm xếp hạng dự đoán và điểm thực tế dao động từ 2% đến 7%, trong đó khía cạnh giá phòng có sự chênh lệch cao nhất.
Thảo luận kết quả
Kết quả cho thấy phân tích quan điểm theo khía cạnh giúp hiểu rõ hơn về sở thích của du khách so với phân tích tổng thể. Việc sử dụng SVM với vector hóa dựa trên từ chủ đề và từ phủ định đã mang lại hiệu quả cao trong phân lớp quan điểm. Sự khác biệt nhỏ giữa điểm dự đoán và dữ liệu thực tế có thể do tính đa dạng trong cách diễn đạt của người dùng và những quan điểm ẩn chưa được khai thác triệt để.
So với các nghiên cứu trước đây, luận văn đã áp dụng thành công kỹ thuật học máy kết hợp với xử lý ngôn ngữ tự nhiên cho tiếng Việt trong lĩnh vực du lịch, một lĩnh vực còn hạn chế nghiên cứu. Biểu đồ so sánh mức độ yêu thích theo khía cạnh minh họa rõ sự ưu tiên của du khách đối với các yếu tố như phòng và nhân viên, đồng thời chỉ ra các điểm cần cải thiện như dịch vụ.
Đề xuất và khuyến nghị
- Phát triển hệ thống phân tích quan điểm tự động: Xây dựng ứng dụng phân tích quan điểm theo khía cạnh cho các doanh nghiệp du lịch nhằm tự động thu thập và phân tích đánh giá khách hàng, nâng cao hiệu quả quản lý chất lượng dịch vụ. Thời gian triển khai dự kiến trong 12 tháng, do phòng công nghệ thông tin chủ trì.
- Mở rộng phạm vi nghiên cứu: Áp dụng phương pháp phân tích quan điểm theo khía cạnh cho các sản phẩm du lịch khác như nhà hàng, điểm tham quan để đa dạng hóa dữ liệu và nâng cao độ chính xác dự đoán sở thích. Thực hiện trong 18 tháng, phối hợp giữa các viện nghiên cứu và doanh nghiệp.
- So sánh và lựa chọn thuật toán học máy: Thử nghiệm thêm các thuật toán như k-NN, Naive Bayes để so sánh hiệu quả phân lớp, từ đó lựa chọn mô hình tối ưu cho từng loại dữ liệu. Thời gian nghiên cứu 6 tháng, do nhóm nghiên cứu khoa học máy tính đảm nhiệm.
- Tăng cường thu thập dữ liệu: Mở rộng bộ dữ liệu đánh giá khách sạn và các sản phẩm du lịch khác, cập nhật liên tục để theo dõi sự thay đổi quan điểm theo thời gian, giúp doanh nghiệp điều chỉnh chiến lược kịp thời. Thực hiện liên tục, phối hợp với các trang đánh giá trực tuyến.
Đối tượng nên tham khảo luận văn
- Doanh nghiệp du lịch và khách sạn: Giúp hiểu rõ sở thích và nhu cầu của khách hàng theo từng khía cạnh, từ đó cải tiến dịch vụ và nâng cao trải nghiệm khách hàng.
- Nhà nghiên cứu và sinh viên ngành khoa học máy tính, xử lý ngôn ngữ tự nhiên: Cung cấp cơ sở lý thuyết và phương pháp thực nghiệm về phân tích quan điểm theo khía cạnh, đặc biệt trong ngữ cảnh tiếng Việt.
- Chuyên gia marketing và quản lý sản phẩm: Hỗ trợ phân tích dữ liệu đánh giá khách hàng để xây dựng chiến lược quảng bá và phát triển sản phẩm phù hợp với thị trường.
- Các tổ chức phát triển ứng dụng trí tuệ nhân tạo: Là tài liệu tham khảo để phát triển các hệ thống phân tích quan điểm tự động, ứng dụng trong nhiều lĩnh vực khác nhau.
Câu hỏi thường gặp
-
Phân tích quan điểm theo khía cạnh khác gì so với phân tích tổng thể?
Phân tích theo khía cạnh tập trung vào từng đặc điểm cụ thể của sản phẩm (ví dụ: giá phòng, dịch vụ), trong khi phân tích tổng thể chỉ đánh giá chung chung toàn bộ sản phẩm. Điều này giúp hiểu rõ hơn về sở thích và điểm cần cải thiện. -
Tại sao chọn thuật toán SVM cho phân lớp quan điểm?
SVM có khả năng phân tách dữ liệu hiệu quả trong không gian nhiều chiều, phù hợp với dữ liệu văn bản được vector hóa. Kết quả thực nghiệm cho thấy SVM đạt độ chính xác trên 90% cho các khía cạnh. -
Làm thế nào để xử lý các câu có quan điểm pha trộn tích cực và tiêu cực?
Luận văn tập trung phân tích ở mức câu, mỗi câu được gán nhãn tích cực hoặc tiêu cực dựa trên từ khóa và ngữ cảnh. Các câu pha trộn có thể được tách nhỏ hoặc xử lý bằng các kỹ thuật nâng cao trong nghiên cứu tiếp theo. -
Có thể áp dụng phương pháp này cho các lĩnh vực khác ngoài du lịch không?
Có thể. Phương pháp phân tích quan điểm theo khía cạnh và sử dụng học máy có thể áp dụng cho nhiều lĩnh vực như thương mại điện tử, dịch vụ khách hàng, chính trị, với việc điều chỉnh tập khía cạnh phù hợp. -
Làm sao để cập nhật mô hình khi quan điểm người dùng thay đổi theo thời gian?
Cần thu thập dữ liệu mới liên tục và huấn luyện lại mô hình định kỳ để phản ánh sự thay đổi trong sở thích và đánh giá của khách hàng, đảm bảo mô hình luôn chính xác và kịp thời.
Kết luận
- Luận văn đã trình bày tổng quan và ứng dụng phân tích quan điểm theo khía cạnh trong lĩnh vực du lịch, tập trung vào sản phẩm khách sạn.
- Phương pháp sử dụng học máy với thuật toán SVM và kỹ thuật xử lý ngôn ngữ tự nhiên cho tiếng Việt đạt độ chính xác trên 90% trong phân lớp quan điểm.
- Kết quả thực nghiệm trên dữ liệu khách sạn AVANI tại Quy Nhơn cho thấy khả năng xác định và xếp hạng sở thích của du khách theo từng khía cạnh một cách hiệu quả.
- Luận văn đề xuất các hướng phát triển mở rộng dữ liệu, áp dụng thuật toán khác và xây dựng ứng dụng thực tế nhằm nâng cao giá trị nghiên cứu.
- Các bước tiếp theo bao gồm mở rộng phạm vi nghiên cứu, phát triển hệ thống ứng dụng và cập nhật mô hình theo thời gian để đáp ứng nhu cầu thực tế.
Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm các phương pháp phân tích quan điểm theo khía cạnh nhằm nâng cao chất lượng dịch vụ và trải nghiệm khách hàng trong ngành du lịch và các lĩnh vực liên quan.