Nghiên Cứu Đọc Hiểu Tự Động Bình Luận Khách Hàng Tiếng Việt

Khóa luận tốt nghiệp nghiên cứu tốt nghiệp khoa học máy tính nghiên cứu đọc hiểu tự động trên các bình luận sản phẩm tiếng việt, vận dụng lý thuyết vào thực tế, đề xuất giải pháp

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Cử nhân ngành Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

1. CHƯƠNG 1: ĐỊNH NGHĨA BÀI TOÁN

1.1. Mục đích nghiên cứu

1.2. Đối tượng và phạm vi nghiên cứu

1.2.1. Đối tượng nghiên cứu

1.2.2. Phạm vi nghiên cứu

2. CHƯƠNG 2: CÁC HƯỚNG NGHIÊN CỨU LIÊN QUAN

2.1. Các nghiên cứu trên thế giới

2.2. Các hướng nghiên cứu trong nước

2.3. Vấn đề cần giải quyết

3. CHƯƠNG 3: XÂY DỰNG VÀ PHÂN TÍCH BỘ DỮ LIỆU

3.1. Xây dựng bộ dữ liệu

3.1.1. Chuẩn bị

3.1.2. Quy tắc xây dựng dữ liệu

4. CHƯƠNG 4: MÔ HÌNH CHO BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG

4.1. Tổng quan phương pháp

4.2. Các mô hình đọc hiểu tự động

4.2.1. Mô hình R-Net

4.2.2. Mô hình QANet

4.2.3. Mô hình BERT

4.2.4. Các biến thể, cải tiến của mô hình BERT

5. CHƯƠNG 5: THÍ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

5.1. Tiền xử lý dữ liệu

5.2. Hậu xử lý dữ liệu

5.3. Độ đo đánh giá mô hình

5.4. Cài đặt, kết quả, đánh giá thí nghiệm

5.4.1. Phân tích theo loại câu hỏi

5.4.2. Phân tích lỗi

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Hướng phát triển

LỜI CAM ĐOAN

LỜI MỞ ĐẦU

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Nghiên Cứu Đọc Hiểu Tự Động Bình Luận Khách Hàng Tiếng Việt

Nghiên cứu đọc hiểu tự động bình luận khách hàng tiếng Việt là một lĩnh vực mới mẻ và đầy tiềm năng. Với sự phát triển của thương mại điện tử, số lượng bình luận và câu hỏi từ khách hàng ngày càng tăng. Việc tự động hóa quá trình đọc hiểu và trả lời các câu hỏi này không chỉ giúp tiết kiệm thời gian mà còn nâng cao trải nghiệm của khách hàng. Nghiên cứu này nhằm phát triển một bộ dữ liệu và áp dụng các mô hình học sâu để giải quyết bài toán này.

1.1. Định nghĩa và Ý nghĩa của Đọc Hiểu Tự Động

Đọc hiểu tự động là khả năng của máy tính trong việc hiểu và phân tích văn bản. Điều này có ý nghĩa quan trọng trong việc cải thiện dịch vụ khách hàng, giúp doanh nghiệp nhanh chóng phản hồi các câu hỏi từ khách hàng.

1.2. Tình hình Nghiên Cứu Đọc Hiểu Tự Động tại Việt Nam

Tại Việt Nam, nghiên cứu về đọc hiểu tự động còn hạn chế. Các bộ dữ liệu hiện có chủ yếu tập trung vào văn bản trang trọng, trong khi bình luận khách hàng thường mang tính không trang trọng và đa dạng hơn.

II. Vấn Đề và Thách Thức trong Nghiên Cứu Đọc Hiểu Tự Động

Một trong những thách thức lớn nhất trong nghiên cứu đọc hiểu tự động là thiếu hụt dữ liệu chất lượng cao. Các bộ dữ liệu hiện có không phản ánh đúng đặc điểm của bình luận khách hàng tiếng Việt. Điều này dẫn đến khó khăn trong việc áp dụng các mô hình học sâu hiệu quả.

2.1. Thiếu hụt Dữ liệu Chất lượng

Hiện tại, không có bộ dữ liệu nào được công bố cho bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt. Điều này gây khó khăn cho việc phát triển và thử nghiệm các mô hình.

2.2. Đặc điểm Ngôn ngữ và Văn phong

Bình luận khách hàng thường có văn phong không trang trọng, chứa nhiều lỗi chính tả và ngữ pháp. Điều này làm cho việc áp dụng các mô hình học sâu trở nên phức tạp hơn.

III. Phương Pháp Nghiên Cứu và Giải Pháp Đọc Hiểu Tự Động

Để giải quyết các vấn đề nêu trên, nghiên cứu này đã phát triển một bộ dữ liệu đọc hiểu tự động từ các bình luận khách hàng. Các mô hình học sâu như R-Net, QANet, và BERT đã được áp dụng để đánh giá hiệu quả.

3.1. Xây dựng Bộ Dữ liệu Đọc Hiểu

Bộ dữ liệu được xây dựng từ các bình luận trên các trang thương mại điện tử lớn. Quy trình xây dựng dữ liệu bao gồm việc lọc và phân loại các bình luận để tạo ra các cặp câu hỏi-đáp.

3.2. Ứng dụng Mô hình Học Sâu

Các mô hình như R-Net và QANet đã được thử nghiệm trên bộ dữ liệu mới. Kết quả cho thấy khả năng đọc hiểu và trả lời câu hỏi từ bình luận khách hàng được cải thiện đáng kể.

IV. Kết Quả Nghiên Cứu và Ứng Dụng Thực Tiễn

Kết quả nghiên cứu cho thấy các mô hình học sâu có thể đạt được độ chính xác cao trong việc trả lời câu hỏi từ bình luận khách hàng. Điều này mở ra cơ hội cho việc tự động hóa dịch vụ khách hàng trong tương lai.

4.1. Đánh giá Hiệu quả của Các Mô hình

Các mô hình đã được đánh giá dựa trên độ chính xác và khả năng trả lời đúng câu hỏi. Kết quả cho thấy mô hình BERT đạt hiệu suất tốt nhất trong việc đọc hiểu bình luận.

4.2. Ứng dụng trong Doanh Nghiệp

Việc áp dụng các mô hình đọc hiểu tự động trong doanh nghiệp có thể giúp cải thiện trải nghiệm khách hàng, giảm thiểu thời gian chờ đợi và tăng cường sự hài lòng của khách hàng.

V. Kết Luận và Hướng Phát Triển Tương Lai

Nghiên cứu đọc hiểu tự động bình luận khách hàng tiếng Việt là một lĩnh vực đầy tiềm năng. Việc phát triển bộ dữ liệu và áp dụng các mô hình học sâu sẽ mở ra nhiều cơ hội mới cho nghiên cứu và ứng dụng trong thực tiễn.

5.1. Tóm tắt Kết quả Nghiên cứu

Nghiên cứu đã phát triển thành công bộ dữ liệu và áp dụng các mô hình học sâu, đạt được kết quả khả quan trong việc đọc hiểu bình luận khách hàng.

5.2. Hướng phát triển trong Tương lai

Trong tương lai, cần tiếp tục nghiên cứu và cải tiến các mô hình, đồng thời mở rộng bộ dữ liệu để bao quát nhiều lĩnh vực khác nhau trong thương mại điện tử.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính nghiên cứu đọc hiểu tự động trên các bình luận sản phẩm tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Khách hàng khi chọn mua sản phẩm hay sử dụng dịch vụ trên các trang thương mại điện tử thường đặt ra các câu hỏi nhằm tìm hiểu xem san phẩm hay dịch vụ đó có phù hợp với nhu cầu của mình không. Các câu hỏi này được khách hàng đăng lên và chờ câu trả lời từ nhân viên chăm sóc khách hàng hay từ những khách hàng khác. Tuy nhiên, với số lượng người sử dụng các trang thương mại điện tử ngày càng nhiều, số lượng câu hỏi được đăng lên ngày càng tăng dẫn đến sự quá tải trong việc trả lời chúng. Kết quả là nhiều câu hỏi của khách hàng phải chờ đợi lâu hoặc thậm chí không được trả lời, điều này gây bắt tiện cho khách hàng và có thể làm ảnh hưởng doanh thu của doanh nghiệp.

Các bình luận của các khách hàng khác về sản phâm là một nguồn thông tin có ích trong việc trả lời các câu hỏi trên. Nhưng khách hàng phải dành thời gian và công sức đọc nhiều bình luận khác nhau giữa rất nhiều bình luận để có thé lay được thông tin mình muốn. Đây chính là động lực để chúng ta tìm giải pháp tự động hóa việc trả lời cho khách hàng dựa trên nội dung các bình luận có từ trước đó. Bài toán đọc hiểu tự động đã có từ lâu nhưng bat đầu từ năm 2015 mới được nghiên cứu rộng rãi [1].

Nhiều nghiên cứu về mô hình và các bộ dữ liệu cho nhiều ngôn ngữ cho bài toán đọc hiéu tự động được công bồ trong đó chủ yếu là về tiếng Anh. Đối với tiếng Việt, gần đây có sự xuất hiện của các bộ đữ liệu đọc hiểu tự động như UIT-ViQuAD [2] với miền dữ liệu Wikipedia và UIT-ViNewsQA [3] với miền dữ liệu tin tức về sức khỏe. Hai bộ dữ liệu này có văn phong trang trọng (formal) và có chủ đề về kiến thức tổng quát (UIT-ViQuAD) và về sức khỏe (UIT-ViNewsQA), khác với dữ liệu bình luận trên các trang thương mại điện tử, nơi mà văn phong chủ yếu theo dạng không trang trọng (informal) và chủ đề thiên về mô tả, nhận xét các sản phẩm, dịch vụ. Xuất phát từ thực trạng trên, chúng tôi quyết định chọn đề tài "Nghiên cứu đọc hiểu tự động bình luận khách hàng cho tiếng Việt" làm đề tài khóa luận tốt nghiệp.

Trong dé tài nay, chúng tôi thừa kế các bình luận từ bộ dữ liệu ViSD4SA [4] ( các bình luận về điện thoại thông minh) và bộ dữ liệu của Tran et al. Tiếp theo, bộ dữ liệu được chúng tôi chia ngẫu nhiên thành ba bộ là bộ huấn luyện, bộ phát triển và bộ kiểm thử với tỉ lệ xấp xỉ 8:1:1. Sau đó chúng tôi tiến hành chạy thực nghiệm các mô hình học sâu trên bộ dữ liệu này và phân tích kết quả. Các mô hình chúng tôi thực nghiệm bao gồm R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] va XLM-RoBERTa [10].

Dinh nghia bai toan. Doc hiéu tu động là bài toán yêu cầu máy tính đọc hiểu một văn bản cho trước rồi trả lời câu hỏi dựa trên nội dung của văn bản đó. Bài toán đọc hiểu tự động có thé được phan thành nhiều loại khác nhau, tùy vào dạng của câu hỏi, câu trả lời, các loại dữ liệu đầu vào (ví du dỡ liệu đầu vào không chỉ có văn bản mà còn có hình ảnh, máy tính cần trả lời dua trên nội dung của hình ảnh đó), v. Dạng bài toán đọc hiểu tự động trên bình luận khách hàng trong dé tài của chúng tôi thuộc dạng đọc hiểu tự động trích xuất (tức câu trả là đoạn con của bình luận).

Bài toán có thé được phát biểu như sau (i, k, ø, m đều là số nguyên dương): « Dau vào: o Binh luận C = {ci, c2, ., Cn là các từ trong C. o Câu hỏi Q = (gi, q2, ., dm}, có thé được trả lời dựa vào nội dung của C, với qi, đ›, ., dm là các từ trong Q. « Đầura: o Câu trả lờiA = (ci, Œ¡+¡,., c¡++x} là một đoạn thuộc bình luận C (Ï<=i<= i+k <= n) Vi dụ: e Dau vào: o Bình luậnC: ".nói chung ăn được có món thịt heo rừng xảo xa ớt thôi. Các bạn đừng gọi heo rừng nướng vì sẽ rất rất khô , ăn như nhai khăn giấy vậy đó." o Câu hỏi Q: "Món nao ở quán mà thực khách khuyên không nên ăn?" « Dau ra: o Câu trả lời A: "heo rừng nướng” 1.

Mục đích nghiên cứu Mục đích nghiên cứu gồm hai phần: e_ Thứ nhất, chúng tôi kế thừa và phát triển các bình luận từ các bộ dữ liệu VISD4SA [4] (thuộc chủ đề điện thoại thông minh) và bộ di liệu của Tran et al. [5] (chủ đề nhà hàng, quán ăn), tuân theo quy tắc xây dựng dữ liệu được lấy cảm hứng từ quy tắc xây dựng đữ liệu của bộ dữ liệu UIT-ViQuAD [2], để tạo ra bộ dit liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. e Thứ hai, chúng tôi tiến hành nghiên cứu thực nghiệm các mô hình học sâu trên bộ dữ liệu đã xây dựng được. Cụ thé, chúng tôi thực nghiệm các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] và XLM-RoBERTa [10] và so sánh, phân tích kết quả đạt được.

Đối tượng và phạm vi nghiên cứu 1. Đối tượng nghiên cứu Đối tượng nghiên cứu thứ nhất của đề tài này là phát triển bộ dit liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. Theo tìm hiểu của chúng tôi, hiện nay chưa có công bồ về bộ dữ liệu đọc hiểu trên bình luận khách hàng cho tiếng Việt. Các mô hình học sâu cho bài toán đọc hiểu tự động là đối tượng nghiên cứu thứ hai của đề tài.

Chúng tôi nghiên cứu thực nghiệm các mô hình R-Net [6], QANet [7], multilingual BERT [8], PhoBERT [9] và XLM-RoBER Ta [10] trên bộ dữ liệu đã phát triển, qua đó đưa ra các phân tích, đánh giá về kết quả của từng mô hình, bên cạnh đó phân tích lỗi dé chỉ ra một số thách thức mà các mô hình tốt nhất gặp phải. Pham vi nghiên cứu Bộ dữ liệu đọc hiéu tự động trên bình luận khách hàng cho tiếng Việt bao gồm các bình luận thuộc một trong hai chủ đề: thứ nhất là chủ đề bình luận điện thoại thông minh, các bình luận này được thu thập từ một trang thương mại điện tử lớn của Việt Nam [4]; thứ hai là chủ đề bình luận nhà hàng, quán ăn, các bình luận này được Tran et al. [5] thu thập từ trang web foody. Các hướng nghiên cứu liên quan 2.

Các nghiên cứu trên thế giới Trong những năm trở lại đây, đặc biệt là từ khoảng năm 2015 trở đi, thống kê của X et al. [1] cho thay số lượng các bộ dữ liệu về đọc hiểu tự động cũng như các nghiên cứu về các phương pháp cho bài toán này có sự gia tăng mạnh mẽ. Sau đây là một số nghiên cứu tiêu biểu: « Vé dit liệu: AmazonQA [11] và ReviewRC [12] là hai trong những bộ dữ liệu tiêu biểu cho bài toán đọc hiểu trên bình luận khách hàng. Tiền đề của bộ đữ liệu AmazonQA là bộ dữ liệu của McAuley et al.

[13], bộ này có các câu hỏi và câu trả lời về sản phâm của khách hàng được thu thập từ một trong những trang thương mại điện tử lớn nhất thế giới là Amazon. Sau này, bộ dữ liệu AmazonQA kế thừa và phát triển bộ dữ liệu của MeAuley et al. [13] băng cách thu thập thêm các bình luận có chứa thông tin được đề cập trong các câu trả lời. Kích thước của bộ dữ liệu AmazonQA lên đến 923 ngan câu hỏi, 3.6 triệu câu tra lời và 14 triệu bình luận sản phẩm.

Về bộ dữ liệu ReviewRC, miền dữ liệu của bình luận không chỉ bao gồm các bình luận sản phẩm từ Amazon.com mà còn từ các bình luận quán ăn, nhà hàng thu thập từ trang Yelp. « _ Về mô hình cho bài toán đọc hiểu trích xuất: Trên thực tế bài toán đọc hiểu tự động thường được chia thành hai dạng là trích xuất (extractive - cau trả lời là đoạn con của đoạn van) va trừu tượng hóa (abstractive - câu trả lời dựa trên nội dung đoạn văn, không nhất thiết phải là đoạn con của đoạn văn), trong đó bộ dữ liệu AmazonQA thuộc dạng trừu tượng hóa và ReviewRC thuộc dạng trích xuất. Khóa luận của chúng tôi tập trung vào dạng trích xuất nên đầu vào và đầu ra mà chúng tôi mong muốn tương tự như ở bộ dir liệu ReviewRC. Tuy nhiên bộ dữ liệu ReviewRC có lượng đữ liệu còn hạn chế nên cũng chưa có nhiều nghiên cứu thực nghiệm trên bộ đữ liệu này (trong công bố của mình, nhóm tác giả của bộ dữ liệu ReviewRC tập trung thử nghiệm các cách huấn luyện khác nhau cho mô hình BERT [8] trên bộ dữ liệu này).

Do đó, chúng tôi khảo sát các mô hình được tập trung nghiên cứu trên các bộ dữ liệu chuyên về đọc hiểu trích xuất tiêu biéu như SQuAD [14] và Natural Questions [15] (miền đữ liệu là các bài đăng trên Wikipedia). Các mô hình BERT [8] và các biến thể, cải tiến của BERT (như RoBERTa [16] và ELECTRA [17]), được sử dụng bởi nhiều đội và cho kết quả cao trên bảng xếp hạng của cả hai tập đữ liệu này. Ngoài ra, trước khi mô hình BERT được công bố vào cuối năm 2018, thì mô hình R-Net [6] và mô hình QANet [7] từng đứng đầu bảng xếp hạng của bộ dữ liệu SQuAD lần lượt vào năm 2017 và đầu năm 2018. Các hướng nghiên cứu trong nước Với tiếng Việt, trong những năm gần đây đọc hiểu tự động đang dần nhận được sự quan tâm của cộng đồng nghiên cứu với sự ra đời của một số bộ dữ liệu đáng chú ý có thé kế đến như: ¢ UIT-ViQuAD [2]: đây là bộ dữ liệu đọc hiéu tự động cho tiếng Việt với miền dữ liệu là các bài viết trên Wikipedia.

Bộ dữ liệu gồm 23 nghìn cặp câu hỏi-đáp được tạo thủ công. Các mô hình khác nhau được nhóm tác giả thử nghiệm và trong số đó mô hình có kết quả cao nhất là XLM- RoBERTa [10] với các điểm F1 và EM trên bộ kiểm thử lần lượt đạt 87. « UIT-ViNewsQA [3]: đây là bộ dữ liệu đọc hiểu tự động trên các bài tin tức sức khỏe tiếng Việt. Về kích thước, bộ dữ liệu gồm 22,077 cặp câu hỏi-đáp.

Qua thử nghiệm một số mô hình, nhóm tác giả công bố mô hình có kết quả cao nhất là 57.90% F1 trên bộ kiểm thử. Vấn đề cần giải quyết Qua tìm hiểu các hướng nghiên cứu ở trên, chúng tôi nhận thấy sự thiếu hụt dữ liệu cho bài toán đọc hiểu tự động trên bình luận khách hàng tiếng Việt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Đọc Hiểu Tự Động Bình Luận Khách Hàng Tiếng Việt" cung cấp cái nhìn sâu sắc về việc áp dụng công nghệ đọc hiểu tự động trong việc phân tích và đánh giá bình luận của khách hàng bằng tiếng Việt. Nghiên cứu này không chỉ giúp cải thiện khả năng hiểu biết về cảm xúc và ý kiến của khách hàng mà còn mở ra cơ hội cho các doanh nghiệp trong việc tối ưu hóa dịch vụ và sản phẩm của họ dựa trên phản hồi thực tế từ người tiêu dùng.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Phân loại bình luận của khách hàng trên mạng xã hội dựa trên kỹ thuật máy học, nơi trình bày các kỹ thuật máy học trong việc phân loại bình luận. Ngoài ra, tài liệu Cải tiến phương pháp trích xuất bộ ba khía cạnh trong phân tích ý kiến bình luận của khách hàng sẽ giúp bạn hiểu rõ hơn về cách phân tích cảm xúc trong bình luận. Những tài liệu này sẽ cung cấp cho bạn những góc nhìn đa dạng và sâu sắc hơn về việc ứng dụng công nghệ trong thương mại điện tử.

#thương mại điện tử Việt Nam

#mô hình học sâu

#Đọc hiểu tự động tiếng Việt

#Bình luận khách hàng

#Dữ liệu đọc hiểu

#Phân tích mô hình BERT

Chủ đề

Ứng dụng AI trong thương mại điện tử

Nghiên cứu về đọc hiểu tự động

Phát triển dữ liệu cho tiếng Việt

Mô hình học máy cho ngôn ngữ tự nhiên