Đặt vấn đề Khách hàng khi chọn mua sản phẩm hay sử dụng dịch vụ trên các trang thương mại điện tử thường đặt ra các câu hỏi nhằm tìm hiểu xem san phẩm hay dịch vụ đó có phù hợp với nhu cầu của mình không. Các câu hỏi này được khách hàng đăng lên và chờ câu trả lời từ nhân viên chăm sóc khách hàng hay từ những khách hàng khác. Tuy nhiên, với số lượng người sử dụng các trang thương mại điện tử ngày càng nhiều, số lượng câu hỏi được đăng lên ngày càng tăng dẫn đến sự quá tải trong việc trả lời chúng. Kết quả là nhiều câu hỏi của khách hàng phải chờ đợi lâu hoặc thậm chí không được trả lời, điều này gây bắt tiện cho khách hàng và có thể làm ảnh hưởng doanh thu của doanh nghiệp.
Các bình luận của các khách hàng khác về sản phâm là một nguồn thông tin có ích trong việc trả lời các câu hỏi trên. Nhưng khách hàng phải dành thời gian và công sức đọc nhiều bình luận khác nhau giữa rất nhiều bình luận để có thé lay được thông tin mình muốn. Đây chính là động lực để chúng ta tìm giải pháp tự động hóa việc trả lời cho khách hàng dựa trên nội dung các bình luận có từ trước đó. Bài toán đọc hiểu tự động đã có từ lâu nhưng bat đầu từ năm 2015 mới được nghiên cứu rộng rãi [1].
Nhiều nghiên cứu về mô hình và các bộ dữ liệu cho nhiều ngôn ngữ cho bài toán đọc hiéu tự động được công bồ trong đó chủ yếu là về tiếng Anh. Đối với tiếng Việt, gần đây có sự xuất hiện của các bộ đữ liệu đọc hiểu tự động như UIT-ViQuAD [2] với miền dữ liệu Wikipedia và UIT-ViNewsQA [3] với miền dữ liệu tin tức về sức khỏe. Hai bộ dữ liệu này có văn phong trang trọng (formal) và có chủ đề về kiến thức tổng quát (UIT-ViQuAD) và về sức khỏe (UIT-ViNewsQA), khác với dữ liệu bình luận trên các trang thương mại điện tử, nơi mà văn phong chủ yếu theo dạng không trang trọng (informal) và chủ đề thiên về mô tả, nhận xét các sản phẩm, dịch vụ. Xuất phát từ thực trạng trên, chúng tôi quyết định chọn đề tài "Nghiên cứu đọc hiểu tự động bình luận khách hàng cho tiếng Việt" làm đề tài khóa luận tốt nghiệp.
Trong dé tài nay, chúng tôi thừa kế các bình luận từ bộ dữ liệu ViSD4SA [4] ( các bình luận về điện thoại thông minh) và bộ dữ liệu của Tran et al. Tiếp theo, bộ dữ liệu được chúng tôi chia ngẫu nhiên thành ba bộ là bộ huấn luyện, bộ phát triển và bộ kiểm thử với tỉ lệ xấp xỉ 8:1:1. Sau đó chúng tôi tiến hành chạy thực nghiệm các mô hình học sâu trên bộ dữ liệu này và phân tích kết quả. Các mô hình chúng tôi thực nghiệm bao gồm R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] va XLM-RoBERTa [10].
Dinh nghia bai toan. Doc hiéu tu động là bài toán yêu cầu máy tính đọc hiểu một văn bản cho trước rồi trả lời câu hỏi dựa trên nội dung của văn bản đó. Bài toán đọc hiểu tự động có thé được phan thành nhiều loại khác nhau, tùy vào dạng của câu hỏi, câu trả lời, các loại dữ liệu đầu vào (ví du dỡ liệu đầu vào không chỉ có văn bản mà còn có hình ảnh, máy tính cần trả lời dua trên nội dung của hình ảnh đó), v. Dạng bài toán đọc hiểu tự động trên bình luận khách hàng trong dé tài của chúng tôi thuộc dạng đọc hiểu tự động trích xuất (tức câu trả là đoạn con của bình luận).
Bài toán có thé được phát biểu như sau (i, k, ø, m đều là số nguyên dương): « Dau vào: o Binh luận C = {ci, c2, ., Cn là các từ trong C. o Câu hỏi Q = (gi, q2, ., dm}, có thé được trả lời dựa vào nội dung của C, với qi, đ›, ., dm là các từ trong Q. « Đầura: o Câu trả lờiA = (ci, Œ¡+¡,., c¡++x} là một đoạn thuộc bình luận C (Ï<=i<= i+k <= n) Vi dụ: e Dau vào: o Bình luậnC: ".nói chung ăn được có món thịt heo rừng xảo xa ớt thôi. Các bạn đừng gọi heo rừng nướng vì sẽ rất rất khô , ăn như nhai khăn giấy vậy đó." o Câu hỏi Q: "Món nao ở quán mà thực khách khuyên không nên ăn?" « Dau ra: o Câu trả lời A: "heo rừng nướng” 1.
Mục đích nghiên cứu Mục đích nghiên cứu gồm hai phần: e_ Thứ nhất, chúng tôi kế thừa và phát triển các bình luận từ các bộ dữ liệu VISD4SA [4] (thuộc chủ đề điện thoại thông minh) và bộ di liệu của Tran et al. [5] (chủ đề nhà hàng, quán ăn), tuân theo quy tắc xây dựng dữ liệu được lấy cảm hứng từ quy tắc xây dựng đữ liệu của bộ dữ liệu UIT-ViQuAD [2], để tạo ra bộ dit liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. e Thứ hai, chúng tôi tiến hành nghiên cứu thực nghiệm các mô hình học sâu trên bộ dữ liệu đã xây dựng được. Cụ thé, chúng tôi thực nghiệm các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] và XLM-RoBERTa [10] và so sánh, phân tích kết quả đạt được.
Đối tượng và phạm vi nghiên cứu 1. Đối tượng nghiên cứu Đối tượng nghiên cứu thứ nhất của đề tài này là phát triển bộ dit liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. Theo tìm hiểu của chúng tôi, hiện nay chưa có công bồ về bộ dữ liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. Các mô hình học sâu cho bài toán đọc hiểu tự động là đối tượng nghiên cứu thứ hai của đề tài.
Chúng tôi nghiên cứu thực nghiệm các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] và XLM-RoBER Ta [10] trên bộ dữ liệu đã phát triển, qua đó đưa ra các phân tích, đánh giá về kết quả của từng mô hình, bên cạnh đó phân tích lỗi dé chỉ ra một số thách thức mà các mô hình tốt nhất gặp phải. Pham vi nghiên cứu Bộ dữ liệu đọc hiéu tự động trên bình luận khách hàng cho tiếng Việt bao gồm các bình luận thuộc một trong hai chủ đề: thứ nhất là chủ đề bình luận điện thoại thông minh, các bình luận này được thu thập từ một trang thương mại điện tử lớn của Việt Nam [4]; thứ hai là chủ đề bình luận nhà hàng, quán ăn, các bình luận này được Tran et al. [5] thu thập từ trang web foody. Các hướng nghiên cứu liên quan 2.
Các nghiên cứu trên thế giới Trong những năm trở lại đây, đặc biệt là từ khoảng năm 2015 trở đi, thống kê của X et al. [1] cho thay số lượng các bộ dữ liệu về đọc hiểu tự động cũng như các nghiên cứu về các phương pháp cho bài toán này có sự gia tăng mạnh mẽ. Sau đây là một số nghiên cứu tiêu biểu: « Vé dit liệu: AmazonQA [11] và ReviewRC [12] là hai trong những bộ dữ liệu tiêu biểu cho bài toán đọc hiểu trên bình luận khách hàng. Tiền đề của bộ đữ liệu AmazonQA là bộ dữ liệu của McAuley et al.
[13], bộ này có các câu hỏi và câu trả lời về sản phâm của khách hàng được thu thập từ một trong những trang thương mại điện tử lớn nhất thế giới là Amazon. Sau này, bộ dữ liệu AmazonQA kế thừa và phát triển bộ dữ liệu của MeAuley et al. [13] băng cách thu thập thêm các bình luận có chứa thông tin được đề cập trong các câu trả lời. Kích thước của bộ dữ liệu AmazonQA lên đến 923 ngan câu hỏi, 3.6 triệu câu tra lời và 14 triệu bình luận sản phẩm.
Về bộ dữ liệu ReviewRC, miền dữ liệu của bình luận không chỉ bao gồm các bình luận sản phẩm từ Amazon.com mà còn từ các bình luận quán ăn, nhà hàng thu thập từ trang Yelp. « _ Về mô hình cho bài toán đọc hiểu trích xuất: Trên thực tế bài toán đọc hiểu tự động thường được chia thành hai dạng là trích xuất (extractive - cau trả lời là đoạn con của đoạn van) va trừu tượng hóa (abstractive - câu trả lời dựa trên nội dung đoạn văn, không nhất thiết phải là đoạn con của đoạn văn), trong đó bộ dữ liệu AmazonQA thuộc dạng trừu tượng hóa và ReviewRC thuộc dạng trích xuất. Khóa luận của chúng tôi tập trung vào dạng trích xuất nên đầu vào và đầu ra mà chúng tôi mong muốn tương tự như ở bộ dir liệu ReviewRC. Tuy nhiên bộ dữ liệu ReviewRC có lượng đữ liệu còn hạn chế nên cũng chưa có nhiều nghiên cứu thực nghiệm trên bộ đữ liệu này (trong công bố của mình, nhóm tác giả của bộ dữ liệu ReviewRC tập trung thử nghiệm các cách huấn luyện khác nhau cho mô hình BERT [8] trên bộ dữ liệu này).
Do đó, chúng tôi khảo sát các mô hình được tập trung nghiên cứu trên các bộ dữ liệu chuyên về đọc hiểu trích xuất tiêu biéu như SQuAD [14] và Natural Questions [15] (miền đữ liệu là các bài đăng trên Wikipedia). Các mô hình BERT [8] và các biến thể, cải tiến của BERT (như RoBERTa [16] và ELECTRA [17]), được sử dụng bởi nhiều đội và cho kết quả cao trên bảng xếp hạng của cả hai tập đữ liệu này. Ngoài ra, trước khi mô hình BERT được công bố vào cuối năm 2018, thì mô hình R-Net [6] và mô hình QANet [7] từng đứng đầu bảng xếp hạng của bộ dữ liệu SQuAD lần lượt vào năm 2017 và đầu năm 2018. Các hướng nghiên cứu trong nước Với tiếng Việt, trong những năm gần đây đọc hiểu tự động đang dần nhận được sự quan tâm của cộng đồng nghiên cứu với sự ra đời của một số bộ dữ liệu đáng chú ý có thé kế đến như: ¢ UIT-ViQuAD [2]: đây là bộ dữ liệu đọc hiéu tự động cho tiếng Việt với miền dữ liệu là các bài viết trên Wikipedia.
Bộ dữ liệu gồm 23 nghìn cặp câu hỏi-đáp được tạo thủ công. Các mô hình khác nhau được nhóm tác giả thử nghiệm và trong số đó mô hình có kết quả cao nhất là XLM- RoBERTa [10] với các điểm F1 và EM trên bộ kiểm thử lần lượt đạt 87. « UIT-ViNewsQA [3]: đây là bộ dữ liệu đọc hiểu tự động trên các bài tin tức sức khỏe tiếng Việt. Về kích thước, bộ dữ liệu gồm 22,077 cặp câu hỏi-đáp.
Qua thử nghiệm một số mô hình, nhóm tác giả công bố mô hình có kết quả cao nhất là 57.90% F1 trên bộ kiểm thử. Vấn đề cần giải quyết Qua tìm hiểu các hướng nghiên cứu ở trên, chúng tôi nhận thấy sự thiếu hụt dữ liệu cho bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt.