Xây Dựng Bộ Dữ Liệu và Phương Pháp Phân Tích Cảm Xúc Tiếng Việt

Khóa luận trình bày xây dựng bộ dữ liệu và phương pháp phân tích cảm xúc tiếng Việt theo các khía cạnh mục tiêu trong công nghệ thông tin.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

103

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ƠN

1. CHƯƠNG 1: ĐẶT VẤN ĐỀ

1.1. Giới thiệu bài toán, Mục tiêu và đóng góp

1.2. Đối tượng và phạm vi nghiên cứu

1.3. Cấu trúc khóa luận

2. CHƯƠNG 2: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Công trình nghiên cứu trên thế giới

2.2. Công trình nghiên cứu trong nước

2.3. Những vấn đề còn tồn tại

3. CHƯƠNG 3: XÂY DỰNG BỘ DỮ LIỆU

3.1. Mô tả chung về bộ dữ liệu

3.2. Thống kê về dữ liệu

3.3. Đặc điểm của dữ liệu

3.4. Quy trình xây dựng bộ dữ liệu

3.4.1. Thu thập và xem xét dữ liệu

3.4.2. Xây dựng hướng dẫn gán nhãn

3.4.3. Phương pháp đánh giá độ đồng thuận

3.4.4. Quá trình gán nhãn

3.4.5. Phân tích bộ dữ liệu

4. CHƯƠNG 4: CƠ SỞ LÍ THUYẾT VÀ THỰC NGHIỆM

4.1. Bài toán phân lớp

4.2. Mô hình phân lớp truyền thống

4.2.1. Biểu diễn từ (Word Embedding)

4.2.2. RoBERTa và PhOBERT

4.2.3. Mô hình liên hợp

5. CHƯƠNG 5: CÀI ĐẶT, THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Phương pháp đánh giá

5.2. Kết quả thực nghiệm và đánh giá

5.2.1. Ma trận nhầm lẫn

5.2.2. Lỗi theo từng khía cạnh

5.2.3. Đánh giá với bộ dữ liệu con của UIT-VOE

6. CHƯƠNG 6: KẾT LUẬN CHUNG VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Xây Dựng Bộ Dữ Liệu Phân Tích Cảm Xúc Tiếng Việt

Phân tích cảm xúc là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Việc xây dựng bộ dữ liệu cho bài toán này là cần thiết để cải thiện độ chính xác của các mô hình học máy. Bộ dữ liệu tiếng Việt sẽ giúp các nhà nghiên cứu và phát triển ứng dụng có thể hiểu rõ hơn về cảm xúc của người dùng thông qua các phản hồi và đánh giá. Nghiên cứu này tập trung vào việc xây dựng bộ dữ liệu DS@UIT-Tabsa, bao gồm 6000 điểm dữ liệu từ các miền khác nhau như nhà hàng, khách sạn và điện thoại.

1.1. Tổng quan về Phân Tích Cảm Xúc

Phân tích cảm xúc giúp xác định thái độ của người dùng đối với sản phẩm và dịch vụ. Các phương pháp hiện tại thường dựa vào các mô hình học máy và học sâu để phân tích văn bản. Việc xây dựng bộ dữ liệu chất lượng là yếu tố quyết định cho sự thành công của các mô hình này.

1.2. Tầm quan trọng của Bộ Dữ Liệu Tiếng Việt

Bộ dữ liệu tiếng Việt giúp cải thiện khả năng nhận diện cảm xúc trong ngữ cảnh văn hóa và ngôn ngữ đặc thù. Điều này không chỉ hỗ trợ nghiên cứu mà còn mang lại giá trị thực tiễn cho các doanh nghiệp trong việc quản lý thương hiệu và cải thiện dịch vụ.

II. Vấn Đề và Thách Thức Trong Phân Tích Cảm Xúc Tiếng Việt

Mặc dù có nhiều tiến bộ trong lĩnh vực phân tích cảm xúc, nhưng vẫn tồn tại nhiều thách thức. Một trong những vấn đề lớn nhất là sự đa dạng trong cách diễn đạt cảm xúc của người dùng. Các ngôn ngữ tự nhiên thường chứa nhiều sắc thái và ngữ nghĩa phức tạp, điều này làm cho việc phân loại cảm xúc trở nên khó khăn hơn.

2.1. Đặc Điểm Ngôn Ngữ Tiếng Việt

Tiếng Việt có cấu trúc ngữ pháp và từ vựng phong phú, điều này tạo ra nhiều cách diễn đạt khác nhau cho cùng một cảm xúc. Việc nhận diện và phân loại cảm xúc trong văn bản tiếng Việt đòi hỏi các mô hình phải được đào tạo trên bộ dữ liệu phong phú và đa dạng.

2.2. Thiếu Hụt Bộ Dữ Liệu Chất Lượng

Hiện tại, bộ dữ liệu cho phân tích cảm xúc tiếng Việt còn hạn chế. Nhiều bộ dữ liệu không được gán nhãn chính xác hoặc không đủ lớn để đào tạo các mô hình học sâu. Điều này dẫn đến việc các mô hình không đạt được độ chính xác cao trong việc phân tích cảm xúc.

III. Phương Pháp Xây Dựng Bộ Dữ Liệu Phân Tích Cảm Xúc

Quá trình xây dựng bộ dữ liệu DS@UIT-Tabsa bao gồm nhiều bước quan trọng. Đầu tiên, dữ liệu được thu thập từ các nguồn khác nhau như đánh giá sản phẩm và dịch vụ trên mạng. Sau đó, dữ liệu sẽ được gán nhãn để xác định các khía cạnh cảm xúc cụ thể.

3.1. Quy Trình Thu Thập Dữ Liệu

Dữ liệu được thu thập từ các trang web đánh giá và phản hồi của người dùng. Các đánh giá này sẽ được lọc và chọn lọc để đảm bảo tính chính xác và độ tin cậy của thông tin.

3.2. Gán Nhãn và Xử Lý Dữ Liệu

Sau khi thu thập, dữ liệu sẽ được gán nhãn theo các khía cạnh cảm xúc như chất lượng, dịch vụ, và giá cả. Việc gán nhãn này sẽ được thực hiện bởi nhiều người để đảm bảo tính đồng thuận và chính xác.

IV. Ứng Dụng Thực Tiễn của Phân Tích Cảm Xúc Tiếng Việt

Phân tích cảm xúc có nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau. Doanh nghiệp có thể sử dụng kết quả phân tích để cải thiện sản phẩm và dịch vụ, từ đó nâng cao trải nghiệm khách hàng. Ngoài ra, các nghiên cứu cũng có thể giúp phát hiện xu hướng thị trường và nhu cầu của người tiêu dùng.

4.1. Cải Thiện Dịch Vụ Khách Hàng

Thông qua việc phân tích cảm xúc, doanh nghiệp có thể nhận diện được những vấn đề mà khách hàng gặp phải và từ đó đưa ra các giải pháp kịp thời. Điều này giúp nâng cao sự hài lòng của khách hàng và giữ chân họ lâu dài.

4.2. Phát Hiện Xu Hướng Thị Trường

Phân tích cảm xúc cũng giúp doanh nghiệp nhận diện được các xu hướng mới trong thị trường. Bằng cách theo dõi các phản hồi của khách hàng, doanh nghiệp có thể điều chỉnh chiến lược marketing và phát triển sản phẩm phù hợp.

V. Kết Luận và Tương Lai của Phân Tích Cảm Xúc Tiếng Việt

Phân tích cảm xúc tiếng Việt đang trên đà phát triển mạnh mẽ. Việc xây dựng bộ dữ liệu chất lượng và áp dụng các phương pháp hiện đại sẽ giúp nâng cao độ chính xác của các mô hình phân tích. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều giá trị cho cả nghiên cứu và ứng dụng thực tiễn.

5.1. Hướng Phát Triển Nghiên Cứu

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện các mô hình học máy và học sâu để nâng cao độ chính xác trong phân tích cảm xúc. Việc phát triển các bộ dữ liệu mới và phong phú cũng là một yếu tố quan trọng.

5.2. Ứng Dụng Công Nghệ Mới

Sự phát triển của công nghệ AI và machine learning sẽ mở ra nhiều cơ hội mới cho phân tích cảm xúc. Các mô hình mới có thể giúp cải thiện khả năng nhận diện cảm xúc trong văn bản tiếng Việt, từ đó mang lại giá trị cao hơn cho người dùng.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin xây dựng bộ dữ liệu và các phương pháp cho bài toán phân tích cảm xúc tiếng việt dựa trên các khía cạnh mục tiêu

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Trong thời dai phát triển của công nghệ thông tin và Internet, các website ra đời như là một giải pháp quảng bá và tiếp thị từ xa của các doanh nghiệp đến với khách hàng. Chi với vài từ khóa đơn giản về sản phẩm hay dịch vụ mà chúng ta quan tâm, sẽ có hàng triệu kết quả tìm kiếm được hiển thị dé người dùng có thể tham khảo va lựa chọn. Không chỉ dừng lại ở đó, các trang web còn đóng vai trò cung cấp thông tin theo chiều ngược lại từ khách hàng đến với doanh nghiệp. Đó không gì khác chính là những phản hồi và bình luận của khách hàng nhằm bày tỏ thái độ và đánh giá của bản thân đối với sản phẩm và dịch vụ mà họ đã sử dụng.

Thông qua đó, không chỉ doanh nghiệp có thé tiếp nhận thông tin dé cải thiện chất lượng cho sản phẩm và dịch vụ của mình mà nó còn là nguồn thông tin tham khảo cho những khách hàng khác có ý định sử dụng những sản phẩm và dịch vụ này. Chính vì điều này, việc có thê thấu hiểu hành vi khách hàng thông qua ý kiến tích cực hay tiêu cực về sản phẩm và dịch vụ được trải nghiệm là một trong những van dé quan trọng cho sự phát trién bền vững của doanh nghiệp. Việc phân tích cảm xúc trong văn bản, cụ thé là các phản hồi và bình luận được ứng dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp, thương hiệu, chất lượng sản phẩm; quản trị quan hệ khách hàng; phân tích nam bat xu hướng thị trường; tham khảo chất lượng sản pham trước khi quyết định thanh toán. Tuy nhiên trong bối cảnh công nghệ số, vấn đề được đặt ra là số lượng phản hồi của người dùng là một con số không lồ và không ngừng tăng lên theo thời gian, chưa kể đến việc danh mục các sản phẩm và dịch vụ lại vô cùng đa dạng.

Một ví dụ cụ thé có thé kế đến trang thương mại điện tử Amazon. Tại đây mỗi ngày có khoảng 1,6 triệu kiện hàng được gửi đi, với tỉ lệ phản hồi của người dùng đạt khoảng 2% thi đã có đến 32.000 phản hồi cần được xem xét!. Công việc này nếu được tiến hành thủ công bởi con người thì sẽ tiêu tốn một lượng công lao động không hề nhỏ. Chính vì thế, một hệ thống có khả năng tự động nhận diện chính xác cảm xúc trên bình luận là vô cùng cân thiệt đê tăng hiệu suat và giảm thiêu chi phí.

Nắm bắt nhu cầu thực tế đó, nhiều bài toán về phân loại cảm xúc đã được đặt ra có thé ké đến như: Phân loại cảm xúc cho văn bản, phân loại cảm xúc cho văn bản dựa trên khía cạnh cụ thé và phân loại cảm xúc cho đối tượng cụ thể trong văn bản dựa trên từng khía cạnh. Song song với đó là các bộ dữ liệu thực nghiệm và các phương pháp, mô hình từ học máy cơ bản cho đến học sâu để giải các bài toán trên đã được công bố với kết quả ngày càng được cải tiến. Tuy nhiên, hầu hết những nghiên cứu nổi bật trong SỐ ay đều được thực hiện trên tiếng Anh, đặc biệt đối với bài toán Phân tích cảm xúc cua doi tượng dựa trên khía cạnh. Do đó, chúng tôi quyết định lựa chọn bài toán này đề thực hiện các nghiên cứu về dữ liệu va hiệu quả của các phương pháp giải quyết đối với tiếng Việt.

Đây có thê được xem là một trong những nghiên cứu đầu tiên về bài toán TABSA trên tiếng Việt. Giới thiệu bài toán Bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh được đề cập lần đầu tiên bởi Marzieh Saeidi và các cộng sự [1]. Day là bài toán được phát triển lên từ ba bài toán Phân tích cảm xúc cho văn bản, Phân tích cảm xúc dựa trên khía cạnh và Phân tích cảm xúc của doi tượng. e Đôi với bài toán Phán tích cảm xúc cho văn ban, dt liệu đầu vào là một đoạn van ban trơn, dau ra chỉ đơn giản là nhãn cảm xúc chung cho toàn bộ nội dung ! Số liệu từ trang Market.

Chưa tính đến việc nhiều đơn đặt hàng được vận chuyển cùng nhau hoặc được giao bởi người bán không thông qua sàn giao dich. Mỗi đơn cũng có thé có nhiều hon 1 sản phẩm. Nhãn cảm xúc có thé là {Tích cực; Tiêu cực} hoặc {Tích cực; Trung tính; Tiêu cực} hay chỉ tiết hơn có thé là thang đo mức độ cảm xúc chăng hạn như {-3; -2; -1; 0; 1; 2; 3}. ® O bài toán Phân tích cảm xúc dựa trên khía cạnh (Aspect based Sentiment Analysyis - ABSA), với đầu vào là một đoạn văn ban, bài toán có thé được chia thành hai tác vụ chính bao gồm nhận diện tập khía cạnh mà văn bản đề cập và phân loại cảm xúc cho từng khía cạnh đã nhận diện được.

Việc này nhằm trích xuất được thông tin về cảm xúc một cách cụ thể hơn cho từng khía cạnh được đề cập đến trong văn bản thay vì chỉ một cảm xúc chung cho toàn bộ văn bản. e Ở bài toán Phân tích cảm xúc của đối tượng (Targeted Sentiment Analysis - TSA), đầu vào là một đoạn văn ban cùng với một đối tượng cụ thể trong văn bản đó. Đầu ra của bài toán là cảm xúc cho đối tượng được nhắm đến, nhãn cảm xúc có thê tương tự các bài toán trên. Với bài toán Phân tích cảm xúc của đối tượng dựa trên khía cạnh, nó là sự kết hợp giữa Phân tích cảm xúc dựa trên khía cạnh và Phân tích cam xúc cua đối tượng và có thê được chia thành hai tác vụ (Hình 1.

Thứ nhất là xác định xem từng khía cạnh cụ thể của đối tượng có mang cảm xúc hay không. Thứ hai là phân loại cảm xúc cho các cặp đối tượng — khía cạnh đã được xác định là có mang cảm xúc ở phần trước. Thông qua hai tác vụ này có thê đưa ra được thông tin cảm xúc cho các khía cạnh của từng đối tượng cụ thé được nhắm đến trong văn bản. Tập khía cạnh = {Chất lượng thức ăn, Giá thức ăn, Vệ sinh, Dịch vụ} Văn bản: * ngon, BAG dở nhưng giá rẻ hon may quán khác.

Quán cũng do quá làm tôi thất vọng thật sự.” Cơm Tích cực == ^ * Phở J8. T Đối tượng | Khíacanh | Cảmxúc — Quán Tiêu cực Cơm Chất lượng thức ăn Tích cực (a) Dau ra của bài toán TSA AS Chat lượng thức ăn Tiêu cực ` Giá thức ăn Tích cực Quán Vệ sinh "Tiêu cực Kinh Các cặp đối tượng - khía cạnh còn lại Không Chất lượng thức ăn Trung tính (c) Dau ra của bài toán TABSA Giá thức ăn Tích cực ca Vệ sinh "Tiêu cực (b) Dau ra của bài toán ABSA Hình 1.2: Ví dụ phân biệt giữa TSA, ABSA và TABSA. Thông qua Hình 1.2 có thé thay rang bài toán Phân tích cảm xúc của đối tượng dựa trên khia cạnh mang lại thông tin về cảm xúc một cách chỉ tiết và cụ thê nhất trong số các bài toán ké trên. Nó rất phù hợp dé áp dụng vào phân tích cảm xúc cho các phản hồi về sản phẩm và dịch vụ khi một phản hồi có thé nhắc đến nhiều đối tượng và ta cân biệt chính xác khía cạnh nao của đôi tượng đang được nhac đên với một thái độ như thế nảo.

Mục tiêu và đóng góp 1. Mục tiêu Trong nghiên cứu này, chúng tôi đặt ra 3 mục tiêu chính cần thực hiện và hoàn thành như sau: - Thứ nhất: nghiên cứu va hoàn thành việc xây dựng bộ dữ liệu cho bai toán phân tích cảm xúc của đối tượng dựa trên khía cạnh (TABSA). ¢ Thứ hai: thực nghiệm các mô hình SOTA trên bộ dữ liệu đã xây dựng, so sánh và phân tích hiệu quả giữa các mô hình. » Thứ ba: phân tích và chỉ ra những khó khăn và thách thức còn tồn tại ở bộ dit liệu đôi với bài toán TABSA nói riêng lẫn tác vụ phân tích cảm xúc nói chung.

Đóng góp Đóng góp chính của chúng tôi thông qua nghiên cứu này là một bộ dữ liệu tiếng Việt miền mở được xây dựng từ 6.000 bình luận cho bài toán phân tích cảm xúc của đối tượng dựa trên khía cạnh (TABSA). Hon thé nữa, những kinh nghiệm được rút ra từ quá trình xây dựng dữ liệu cũng như đánh giá và phân tích kết quả trong nghiên cứu của chúng tôi có thé được sử dụng làm tư liệu tham khảo dé nâng cao hiệu suất và chất lượng của những nghiên cứu có liên quan trong thời gian tiếp theo. Đối tượng và phạm vỉ nghiên cứu 1. Đối tượng Đôi tượng chính trong nghiên cứu của chúng tôi là các câu bình luận và phản hôi của người dùng tại Việt Nam.

Những bình luận và phản hồi này được thu thập từ nguồn dữ liệu thực tế trên các trang mạng về các thiết bị di động, nhà hàng và khách sạn. Đây là nguồn dữ liệu chứa đựng thông tin về thái độ và cảm xúc của những khách hang đã sử dụng sản phẩm và dich vụ. Đó cũng chính là phan thông tin được ca những nhà quản lí lẫn những người có ý định sử dụng sản phẩm va dich vụ quan tâm đến vì nó phản ánh một cách khách quan và đa chiều về chất lượng của sản phẩm và dịch vụ. Phạm vi Đối voi dữ liệu, chúng tôi tập trung vào nghiên cứu và xây dựng đối với đữ liệu thuộc 3 lĩnh vực là điện thoại thông minh (Di Động), Nhà Hàng và Khách Sạn.

Phạm vi thông tin được quan tâm là thái độ hay cảm xúc của người dùng đối với từng khía cạnh của các đối tượng cụ thé được dé cap dén trong cac điểm dữ liệu. Đối với các phương pháp và mô hình dùng đề đánh giá bộ đữ liệu, chúng tôi nghiên cứu và sử dụng những phương pháp và mô hình SOTA cho bài toán TABSA đã được công bồ trên các tạp chí khoa học uy tín về lĩnh vực Xử lí ngôn ngữ tự nhiên. Câu trúc khóa luận Phân còn lai của khóa luận này gôm 5 chương với các nội dung chính như sau: o Chương 2: Tông quan Trong chương nay, chúng tôi giới thiệu vê các hướng nghiên cứu đã có của các tác gia trong và ngoai nước liên quan đên đê tài; nêu những van dé còn tôn tại; chỉ ra những vân đê mà đê tải cân tập trung, nghiên cứu giải quyết. o Chương 3: Xây dựng bộ dit liệu Chương nay trình bày quá trình thu thập dir liệu, tiền xử lý va gan nhãn dit liệu.

Bên cạnh đó là các số liệu thống kê và nhận xét chỉ tiết về bộ đữ liệu do chúng tôi thực hiện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xây dựng bộ dữ liệu cho phân tích cảm xúc

Ứng dụng phân tích cảm xúc trong thương mại

Phương pháp và mô hình trong NLP

Đánh giá hiệu suất mô hình phân tích cảm xúc