PHÂN TÍCH CẢM XÚC CHO TIẾNG VIỆT SỬ DỤNG MÔ HÌNH KIẾN TRÚC TRANSFORMER

Luận văn thạc sĩ CNTT: Nghiên cứu phân tích cảm xúc tiếng Việt bằng mô hình Transformer. Ứng dụng kiến trúc Transformer hiện đại trong xử lý ngôn ngữ tự nhiên.

Trường đại học

Đại học Quốc Gia TP HCM - Trường Đại học Công Nghệ Thông Tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ON

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BẢNG

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về bài toán phân tích cảm xúc

1.2. Các công trình nghiên cứu liên quan

1.2.1. Các công trình nghiên cứu ngoài nước

1.2.2. Các công trình nghiên cứu trong nước

1.3. Mục tiêu đề tài

1.4. Nội dung đề tài

1.5. Đối tượng và phạm vi nghiên cứu

1.6. Phương pháp nghiên cứu

1.6.1. Các phương pháp trích xuất đặc trưng từ văn bản

1.6.2. Phương pháp Bag-of-Words (BoW) và TF-IDF

1.6.3. Bộ dữ liệu Vietnamese SentiWordNet

1.6.4. Máy học và học sâu trong xử lý ngôn ngữ tự nhiên

1.6.4.1. Mạng nơ ron nhân tạo

1.6.4.2. Mạng nơ ron tích chập

1.6.4.3. Mạng nơ ron hồi quy

1.6.5. Mô hình biểu diễn từ BERT và biến thể của nó

1.6.5.1. Mô hình ngôn ngữ

1.6.5.2. Mô hình biểu diễn từ BERT

1.6.5.3. Biến thể của BERT

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

3. CHƯƠNG 3: PHÂN TÍCH SỰ ẢNH HƯỞNG CÁC LỚP KHÁC NHAU CỦA MÔ HÌNH PHOBERT

3.1. Mô hình đề xuất

3.2. Đề xuất hiệu chỉnh các lớp trong mô hình PhoBERT

3.3. Tiền xử lý dữ liệu

3.4. Kiến trúc mô hình đề xuất

3.5. Lắp ghép thêm đặc trưng PhoBERT + TF-IDF + SentiWordNet

4. CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

4.1. Mô hình thử nghiệm

4.2. Kết quả thử nghiệm và đánh giá

4.2.1. Kết quả thử nghiệm trên bộ dữ liệu UIT-VSFC

4.2.2. Cải tiến bộ dữ liệu UIT-VSFC

4.2.3. Kết quả thử nghiệm trên bộ dữ liệu VS

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Phân tích Cảm xúc Tiếng Việt ứng dụng

Trong xã hội hiện đại, sự phát triển mạnh mẽ của công nghệ và Internet đã tạo nên một làn sóng lớn, ảnh hưởng đến nhiều lĩnh vực của cuộc sống. Đặc biệt, các ứng dụng và nền tảng dịch vụ trực tuyến phải chuyển mình để đáp ứng nhu cầu ngày càng tăng của người dùng. Việc thu thập dữ liệu khách hàng để cải thiện dịch vụ đã là một chiến lược phát triển quan trọng của các doanh nghiệp. Tuy nhiên, những hạn chế trong công nghệ trước đây đã phần nào hạn chế lợi thế này. Nhờ sự phát triển của công nghệ, xu hướng dựa trên dữ liệu (data-driven) ngày càng bùng nổ và chứng minh được tính hiệu quả khi được áp dụng bởi hầu hết các doanh nghiệp lớn và vừa, ví dụ như Google, Meta, Twitter. Việc thu thập và phân tích ý kiến, phản hồi của người dùng hay khách hàng là vô cùng cần thiết. Những ý kiến này giúp người dùng thấy được tình trạng hàng hóa, dịch vụ trước khi mua, đồng thời giúp doanh nghiệp đưa ra chiến lược phát triển sản phẩm phù hợp và hiệu quả. Theo tài liệu, “Việc phân tích các bình luận của khách hàng một cách thủ công là vô cùng hạn chế. Do đó, nhu cầu về một hệ thống có thể tự động xử lý và phân tích được các phản hồi, ý kiến của khách hàng là việc cần thiết mà các doanh nghiệp nên làm.”

1.1. Bài toán Phân tích Cảm xúc và tầm quan trọng hiện nay

Bài toán Phân tích Cảm xúc hay Sentiment Analysis (SA) ngày càng thu hút sự quan tâm của nhiều nhóm nghiên cứu bởi tính quan trọng và thiết yếu của nó. Bài toán này giúp xác định và phân loại một đoạn văn bản thành nhiều cảm xúc khác nhau (ví dụ như tiêu cực, trung tính hay tích cực) để qua đó xác định được cảm xúc của người bình luận đối với chủ thể nào đó. Trong nghiên cứu này, chủ thể hướng tới chính là món hàng, dịch vụ trên các trang thương mại điện tử và chất lượng của cơ sở vật chất giảng dạy, chất lượng giảng dạy của giảng viên cũng như chương trình học tập của sinh viên. Hiện nay được chia thành bốn cấp độ chính: cấp độ khía cạnh (aspect-level), cụm từ (phrase-level), câu (sentence-level) và văn bản (document-level).

1.2. Ứng dụng Phân tích Cảm xúc Tiếng Việt trong thực tế

Không chỉ trong lĩnh vực thương mại điện tử, bài toán phân tích phản hồi, ý kiến của khách hàng được quan tâm sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ giáo dục, y tế, cho đến dịch vụ công, hành chính của nhà nước. Do đó, bài toán về phân tích bình luận của người dùng được nhiều nhóm nghiên cứu cũng như giảng viên, sinh viên trong và ngoài nước quan tâm. Mặc dù vậy, so với các ngôn ngữ khác như tiếng Anh, tiếng Trung, bài toán phân tích cảm xúc tiếng Việt vẫn còn nhiều hạn chế cả về số lượng bộ dữ liệu và số lượng công trình nghiên cứu. Luận văn tập trung tìm hiểu bài toán phân tích bình luận của sinh viên cũng như người dùng trên hai bộ dữ liệu tiếng Việt khác nhau.

II. Thách thức hạn chế phân tích cảm xúc Tiếng Việt hiện nay

Mặc dù có nhiều ứng dụng tiềm năng, phân tích cảm xúc tiếng Việt vẫn đối mặt với nhiều thách thức. Tiếng Việt là một ngôn ngữ giàu sắc thái biểu cảm và ngữ cảnh, khiến việc tự động xác định sắc thái và cảm xúc trở nên phức tạp hơn. Xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt còn gặp nhiều khó khăn do thiếu tài nguyên và công cụ so với các ngôn ngữ phổ biến khác. Các vấn đề như xử lý tiếng lóng, teencode, và ngôn ngữ địa phương cũng gây khó khăn cho các mô hình phân tích cảm xúc. Khả năng thu thập và xây dựng các bộ dữ liệu đủ lớn và chất lượng để huấn luyện các mô hình học sâu cũng là một thách thức lớn. “Khi so sánh với các ngôn ngữ khác như tiếng Anh, tiếng Trung.v, bài toán phân tích cảm xúc tiếng Việt vẫn còn nhiều hạn chế cả về số lượng bộ dữ liệu hay số lượng công trình nghiên cứu.”

2.1. NLP Tiếng Việt Rào cản về tài nguyên và công cụ

So với các ngôn ngữ phổ biến như tiếng Anh, tiếng Trung, xử lý ngôn ngữ tự nhiên (NLP) cho tiếng Việt vẫn còn nhiều hạn chế về tài nguyên và công cụ. Việc thiếu các bộ dữ liệu lớn được gán nhãn chất lượng cao và các thư viện NLP chuyên dụng gây khó khăn cho việc phát triển các mô hình phân tích cảm xúc hiệu quả. Điều này đòi hỏi các nhà nghiên cứu phải dành nhiều thời gian và công sức để xây dựng và chuẩn hóa dữ liệu trước khi có thể bắt đầu huấn luyện mô hình.

2.2. Xử lý tiếng lóng và teencode trong phân tích cảm xúc

Một trong những thách thức lớn nhất trong phân tích cảm xúc tiếng Việt là khả năng xử lý tiếng lóng, teencode và các biến thể ngôn ngữ không chính thức khác. Người dùng thường sử dụng các từ ngữ này để thể hiện cảm xúc một cách tự nhiên và sáng tạo, nhưng chúng lại gây khó khăn cho các mô hình NLP được huấn luyện trên dữ liệu chính thức. Việc xây dựng các bộ từ điển và quy tắc xử lý tiếng lóng và teencode là rất quan trọng để cải thiện độ chính xác của phân tích cảm xúc.

2.3. Tính đa dạng và biến đổi của ngôn ngữ Tiếng Việt

Ngôn ngữ tiếng Việt có nhiều phương ngữ, vùng miền khác nhau, và sắc thái biểu cảm đa dạng. Phân tích cảm xúc cần phải xử lý được sự khác biệt này để đảm bảo tính chính xác. Cùng một từ ngữ có thể mang ý nghĩa khác nhau tùy thuộc vào ngữ cảnh và vùng miền. Bên cạnh đó, sự biến đổi liên tục của ngôn ngữ, với sự xuất hiện của các từ ngữ mới và cách diễn đạt mới, cũng đòi hỏi các mô hình phân tích cảm xúc phải được cập nhật liên tục.

III. Phương pháp PhoBERT cho phân tích cảm xúc Tiếng Việt

Trong bối cảnh đó, mô hình Transformer PhoBERT nổi lên như một giải pháp tiềm năng cho bài toán phân tích cảm xúc tiếng Việt. PhoBERT là một mô hình ngôn ngữ pre-trained được phát triển đặc biệt cho tiếng Việt, dựa trên kiến trúc Transformer mạnh mẽ. PhoBERT được huấn luyện trên một lượng lớn dữ liệu văn bản tiếng Việt, cho phép nó nắm bắt được các đặc trưng ngôn ngữ và ngữ nghĩa phức tạp của tiếng Việt. Việc sử dụng PhoBERT giúp cải thiện đáng kể độ chính xác của phân tích cảm xúc so với các phương pháp truyền thống. “Trong nghiên cứu này, luận văn tập trung tìm hiểu bài toán phân tích bình luận của sinh viên cũng như người dùng trên hai bộ dữ liệu tiếng Việt khác nhau. Qua quá trình nghiên cứu và thực nghiệm luận văn đã đề xuất sự thay đổi các lớp trong mô hình PhoBERT.”

3.1. Giới thiệu mô hình Transformer PhoBERT và ưu điểm vượt trội

PhoBERT là một mô hình ngôn ngữ pre-trained cho tiếng Việt, dựa trên kiến trúc Transformer. Mô hình được huấn luyện trên một lượng lớn dữ liệu văn bản tiếng Việt, cho phép nó nắm bắt được các đặc trưng ngôn ngữ và ngữ nghĩa phức tạp của tiếng Việt. PhoBERT có khả năng hiểu ngữ cảnh và mối quan hệ giữa các từ trong câu, giúp cải thiện đáng kể độ chính xác của phân tích cảm xúc so với các phương pháp truyền thống. Sức mạnh của PhoBERT trong phân tích cảm xúc đến từ khả năng học được các biểu diễn từ ngữ cảnh (contextualized word embeddings).

3.2. Fine tuning PhoBERT cho bài toán phân tích cảm xúc cụ thể

Để áp dụng PhoBERT cho một bài toán phân tích cảm xúc cụ thể, cần thực hiện quá trình fine-tuning. Quá trình này bao gồm việc huấn luyện lại PhoBERT trên một bộ dữ liệu nhỏ hơn, được gán nhãn cho bài toán cụ thể. Fine-tuning cho phép PhoBERT điều chỉnh các tham số của mình để phù hợp với đặc điểm của bài toán, từ đó cải thiện độ chính xác của phân tích cảm xúc. Các bước fine-tuning bao gồm chuẩn bị dữ liệu, chọn siêu tham số và đánh giá mô hình.

IV. Hướng dẫn xây dựng hệ thống phân tích cảm xúc với PhoBERT

Để xây dựng một hệ thống phân tích cảm xúc tiếng Việt sử dụng PhoBERT, cần thực hiện một số bước cơ bản. Đầu tiên, cần chuẩn bị dữ liệu văn bản tiếng Việt được gán nhãn cảm xúc. Tiếp theo, cần tải và fine-tuning mô hình PhoBERT trên dữ liệu đã chuẩn bị. Cuối cùng, cần xây dựng một ứng dụng hoặc API để sử dụng mô hình PhoBERT đã fine-tuning để phân tích cảm xúc các đoạn văn bản mới. Việc tích hợp các thư viện NLP và công cụ hỗ trợ giúp đơn giản hóa quá trình xây dựng hệ thống. Hệ thống này có thể được sử dụng để phân tích bình luận tiếng Việt trên mạng xã hội, đánh giá sản phẩm, và nhiều ứng dụng khác. “Trong nghiên cứu này, luận văn tập trung tìm hiểu bài toán phân tích bình luận của sinh viên cũng như người dùng trên hai bộ dữ liệu tiếng Việt khác nhau… Bên cạnh sự thay đổi các lớp trong mô hình và đánh giá kết quả thử nghiệm, tôi cũng đã quan sát và nhận thấy một số hạn chế trong bộ dữ liệu UIT-VSFC và đề xuất chỉnh sửa nhãn cho phù hợp hơn.”

4.1. Chuẩn bị dữ liệu và tiền xử lý cho Huấn luyện PhoBERT

Việc chuẩn bị dữ liệu là một bước quan trọng trong quá trình xây dựng hệ thống phân tích cảm xúc. Dữ liệu cần được thu thập, làm sạch và gán nhãn cảm xúc. Các bước tiền xử lý như loại bỏ ký tự đặc biệt, chuyển đổi chữ hoa thành chữ thường và tách từ cũng cần được thực hiện. Dữ liệu sau khi tiền xử lý sẽ được chia thành các tập huấn luyện, kiểm tra và đánh giá. Chất lượng của dữ liệu có ảnh hưởng lớn đến hiệu năng của mô hình.

4.2. Triển khai và tích hợp PhoBERT vào ứng dụng thực tế

Sau khi mô hình PhoBERT đã được huấn luyện và đánh giá, cần triển khai và tích hợp nó vào ứng dụng thực tế. Có nhiều cách để triển khai PhoBERT, bao gồm sử dụng API, thư viện NLP hoặc xây dựng một dịch vụ web. Việc tích hợp PhoBERT vào ứng dụng thực tế cho phép phân tích cảm xúc tự động các đoạn văn bản mới. Ứng dụng có thể được sử dụng để phân tích đánh giá sản phẩm tiếng Việt, phân tích tin tức tiếng Việt hoặc theo dõi dư luận trên mạng xã hội.

4.3. Đo lường và cải thiện Độ chính xác phân tích cảm xúc

Việc đo lường và cải thiện độ chính xác phân tích cảm xúc là một quá trình liên tục. Các chỉ số như độ chính xác, độ bao phủ và F1-score được sử dụng để đánh giá hiệu năng của mô hình. Nếu hiệu năng chưa đạt yêu cầu, cần thực hiện các biện pháp cải thiện, bao gồm tăng cường dữ liệu huấn luyện, điều chỉnh siêu tham số hoặc thay đổi kiến trúc mô hình. Việc theo dõi và đánh giá hiệu năng thường xuyên giúp đảm bảo hệ thống phân tích cảm xúc hoạt động hiệu quả.

V. Ứng dụng Phân tích Cảm xúc bằng PhoBERT Nghiên cứu Kết quả

Luận văn đã đề xuất sự thay đổi các lớp trong mô hình PhoBERT với một số hiệu chỉnh kiến trúc, đồng thời trích xuất, kết hợp thêm một số đặc trưng từ các phương pháp truyền thống như TF-IDF và đặc trưng tích cực hoặc tiêu cực mức từ của bộ SentiWordNet. Bên cạnh sự thay đổi các lớp trong mô hình và đánh giá kết quả thử nghiệm, luận văn cũng đã quan sát và nhận thấy một số hạn chế trong bộ dữ liệu UIT-VSFC và đề xuất chỉnh sửa nhãn cho phù hợp hơn. Mô hình luận văn đề xuất đạt được kết quả state-of-the-art trên bộ dữ liệu UIT- 'VSFC chưa chỉnh sửa với độ đo F1 là 94.28% và độ đo Accuracy là 94. Còn với dữ liệu đã được chỉnh sửa, mô hình đề xuất đạt được 95.22% với độ đo FI và 95.42% với độ đo Accuracy.

5.1. Cải tiến bộ dữ liệu UIT VSFC và hiệu quả của PhoBERT

Nhận thấy một số hạn chế trong bộ dữ liệu UIT-VSFC, nghiên cứu đã đề xuất chỉnh sửa nhãn cho phù hợp hơn. Mô hình đề xuất đạt được kết quả state-of-the-art trên bộ dữ liệu UIT- 'VSFC chưa chỉnh sửa với độ đo F1 là 94.28% và độ đo Accuracy là 94. Còn với dữ liệu đã được chỉnh sửa, mô hình đề xuất đạt được 95.22% với độ đo FI và 95.42% với độ đo Accuracy. Kết quả cho thấy PhoBERT hoạt động hiệu quả trên cả hai bộ dữ liệu.

5.2. So sánh với các mô hình khác Sức mạnh của PhoBERT

So sánh hiệu quả của PhoBERT với các mô hình khác như SVM, LSTM, BERT cho thấy PhoBERT vượt trội hơn. Việc sử dụng PhoBERT giúp cải thiện đáng kể độ chính xác của phân tích cảm xúc. Sức mạnh của PhoBERT trong phân tích cảm xúc đến từ khả năng học được các biểu diễn từ ngữ cảnh (contextualized word embeddings).

VI. Tiềm năng Hướng phát triển Phân tích cảm xúc với PhoBERT

Nghiên cứu này đã chứng minh tiềm năng to lớn của PhoBERT trong bài toán phân tích cảm xúc tiếng Việt. Tuy nhiên, vẫn còn nhiều hướng phát triển tiềm năng. Cần tiếp tục nghiên cứu để cải thiện độ chính xác của mô hình, đặc biệt trong việc xử lý tiếng lóng, teencode và các sắc thái biểu cảm phức tạp. Ngoài ra, cần mở rộng ứng dụng của phân tích cảm xúc trong nhiều lĩnh vực khác nhau, như y tế, giáo dục và dịch vụ công. Việc phát triển các công cụ và tài nguyên NLP cho tiếng Việt cũng là một hướng đi quan trọng. “Luận văn bao gồm 5 Chương và có cấu trúc như sau: Phần mở đầu: Giới thiệu bài toán. Chương 1: Tổng quan. Giới thiệu đề tài phân tích tích cảm xúc của người dùng và các công trình nghiên cứu liên quan trong và ngoài nước, trình bày mục tiêu, đối tượng, phạm vi, nội dung và phương pháp nghiên cứu.”

6.1. Mở rộng Ứng dụng phân tích cảm xúc trong các lĩnh vực mới

Việc mở rộng ứng dụng phân tích cảm xúc trong các lĩnh vực mới là một hướng đi đầy hứa hẹn. Ví dụ, trong lĩnh vực y tế, phân tích cảm xúc có thể được sử dụng để đánh giá tâm trạng của bệnh nhân và cung cấp hỗ trợ tâm lý. Trong lĩnh vực giáo dục, phân tích cảm xúc có thể được sử dụng để đánh giá phản hồi của học sinh về các bài giảng và cải thiện chất lượng giảng dạy. Trong lĩnh vực dịch vụ công, phân tích cảm xúc có thể được sử dụng để đánh giá phản hồi của người dân về các chính sách và dịch vụ công.

6.2. Nghiên cứu và phát triển các mô hình học sâu tiên tiến hơn

Nghiên cứu và phát triển các mô hình học sâu tiên tiến hơn cho phân tích cảm xúc tiếng Việt là một hướng đi quan trọng. Các mô hình mới có thể được thiết kế để xử lý tiếng lóng, teencode và các sắc thái biểu cảm phức tạp một cách hiệu quả hơn. Việc kết hợp PhoBERT với các kiến trúc học sâu khác cũng có thể mang lại những kết quả ấn tượng.

6.3. Xây dựng cộng đồng và chia sẻ tài nguyên NLP Tiếng Việt

Việc xây dựng cộng đồng và chia sẻ tài nguyên NLP Tiếng Việt là rất quan trọng để thúc đẩy sự phát triển của lĩnh vực này. Cộng đồng có thể chia sẻ dữ liệu, mã nguồn, công cụ và kiến thức. Việc hợp tác giữa các nhà nghiên cứu, doanh nghiệp và tổ chức chính phủ có thể giúp tạo ra một hệ sinh thái NLP Tiếng Việt mạnh mẽ.

25/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân tích cảm xúc cho tiếng việt sử dụng mô hình kiến trúc transformer

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân tích cảm xúc (Sentiment Analysis) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), giúp xác định và phân loại cảm xúc trong văn bản thành các trạng thái tiêu cực, trung tính và tích cực. Với sự phát triển mạnh mẽ của Internet và các nền tảng thương mại điện tử, lượng dữ liệu phản hồi của người dùng ngày càng tăng, đòi hỏi các hệ thống tự động phân tích cảm xúc hiệu quả. Tuy nhiên, đối với tiếng Việt, bài toán này vẫn còn nhiều hạn chế về số lượng bộ dữ liệu và công trình nghiên cứu so với các ngôn ngữ như tiếng Anh hay tiếng Trung.

Luận văn tập trung nghiên cứu phân tích cảm xúc cho tiếng Việt ở cấp độ câu (sentence-level) trên hai bộ dữ liệu lớn: Vietnamese Students’ Feedback Corpus (UIT-VSFC) với 16,000 câu phản hồi của sinh viên từ năm 2014 đến 2017, và Vietnamese Sentiment Analysis (VS) gồm 17,500 câu phản hồi sản phẩm từ các trang thương mại điện tử. Bộ dữ liệu UIT-VSFC có tỷ lệ nhãn tiêu cực, trung tính và tích cực lần lượt là 45.99%, 4.32% và 49.69%, trong khi bộ VS có sự phân bố cân bằng hơn với khoảng 5,939 nhãn tiêu cực, 5,573 trung tính và 5,988 tích cực.

Mục tiêu nghiên cứu là đánh giá sự ảnh hưởng của các biến thể mô hình PhoBERT – một mô hình ngôn ngữ dựa trên kiến trúc Transformer được huấn luyện riêng cho tiếng Việt – đồng thời đề xuất hiệu chỉnh kiến trúc và kết hợp các đặc trưng truyền thống như TF-IDF và Vietnamese SentiWordNet để nâng cao hiệu quả phân tích cảm xúc. Nghiên cứu có ý nghĩa thiết thực trong việc phát triển các hệ thống phân tích cảm xúc tự động, hỗ trợ doanh nghiệp và tổ chức trong việc khai thác dữ liệu phản hồi khách hàng, cải thiện chất lượng dịch vụ và sản phẩm.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

Mô hình Transformer: Được giới thiệu năm 2017, Transformer sử dụng cơ chế self-attention để xử lý dữ liệu chuỗi song song, khắc phục hạn chế của RNN về tốc độ và khả năng ghi nhớ dài hạn. Kiến trúc gồm khối encoder và decoder, trong đó encoder trích xuất đặc trưng ngữ cảnh của câu đầu vào.
Mô hình PhoBERT: Là biến thể của RoBERTa, được huấn luyện trên 20GB dữ liệu tiếng Việt (Wikipedia và news corpus), gồm hai phiên bản base và large. PhoBERT biểu diễn từ theo ngữ cảnh hai chiều, tối ưu hóa cho tiếng Việt, vượt trội hơn các mô hình đa ngôn ngữ như XLM-R.
Phương pháp trích xuất đặc trưng truyền thống:
- TF-IDF (Term Frequency - Inverse Document Frequency) giúp giảm trọng số các từ phổ biến không mang nhiều thông tin, tăng trọng số các từ quan trọng trong văn bản.
- Vietnamese SentiWordNet (VSWN) cung cấp điểm số tích cực và tiêu cực cho từng từ dựa trên mạng ngữ nghĩa tiếng Việt, hỗ trợ trích xuất đặc trưng cảm xúc ở mức từ.
Mạng nơ-ron nhân tạo và học sâu:
- Mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN), đặc biệt là LSTM và BiLSTM, được sử dụng để trích xuất đặc trưng chuỗi và ngữ cảnh.
- Mô hình MLP (Multilayer Perceptron) với hàm Softmax được dùng làm lớp phân loại cuối cùng.

Phương pháp nghiên cứu

Nguồn dữ liệu:
- Bộ dữ liệu UIT-VSFC gồm 16,000 câu phản hồi sinh viên, phân bố nhãn cảm xúc rõ ràng.
- Bộ dữ liệu VS gồm 17,500 câu phản hồi sản phẩm từ các trang thương mại điện tử, có sự cân bằng giữa các nhãn.
Tiền xử lý dữ liệu:
- Sử dụng RDRSegmenter của VNCoreNLP để tách token tiếng Việt.
- Chuyển đổi câu thành subwords phù hợp với định dạng đầu vào của PhoBERT, thêm token đặc biệt và , chuẩn hóa độ dài câu.
Phương pháp phân tích:
- Huấn luyện mô hình PhoBERT với các biến thể khác nhau về số lớp lấy đặc trưng (ví dụ lớp 6, 9, 10, 11 thay vì chỉ các lớp cuối).
- Kết hợp đặc trưng PhoBERT với TF-IDF và Vietnamese SentiWordNet bằng phép ghép nối (concatenate) trước khi đưa vào lớp MLP phân loại.
- Sử dụng thuật toán tối ưu AdamW với kỹ thuật Linear warm-up để ổn định quá trình huấn luyện.
- Hàm mất mát Cross Entropy được áp dụng cho bài toán phân lớp đa nhãn.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu trong giai đoạn đầu.
- Thử nghiệm và hiệu chỉnh mô hình PhoBERT với các siêu tham số khác nhau.
- Đánh giá mô hình trên tập validation và test của hai bộ dữ liệu.
- Đề xuất chỉnh sửa nhãn dữ liệu và cải tiến mô hình dựa trên kết quả thử nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình PhoBERT biến thể:
Mô hình PhoBERT lấy đặc trưng từ bốn lớp 6, 9, 10 và 11 đạt độ đo F1 cao nhất là 94.28% và độ chính xác (Accuracy) 94% trên bộ dữ liệu UIT-VSFC chưa chỉnh sửa. So với mô hình gốc chỉ lấy đặc trưng từ các lớp cuối, kết quả này cải thiện khoảng 0.3-0.7% điểm F1.
Tác động của việc chỉnh sửa nhãn dữ liệu:
Sau khi chỉnh sửa nhãn trên bộ UIT-VSFC, mô hình đề xuất đạt F1 là 95.22% và Accuracy 95.42%, tăng khoảng 1% so với dữ liệu gốc, cho thấy việc làm sạch và hiệu chỉnh nhãn có ảnh hưởng tích cực đến hiệu suất mô hình.
Kết hợp đặc trưng TF-IDF và Vietnamese SentiWordNet:
Việc ghép nối đặc trưng truyền thống TF-IDF và điểm số cảm xúc từ VSWN với đặc trưng PhoBERT giúp tăng khả năng phân biệt các trạng thái cảm xúc, đặc biệt cải thiện độ chính xác trong phân loại nhãn trung tính vốn chiếm tỷ lệ thấp (4.32% trong UIT-VSFC).
So sánh với các mô hình khác:
Mô hình đề xuất vượt trội hơn các mô hình học máy truyền thống như Naive Bayes, SVM, cũng như các mô hình học sâu như LSTM, BiLSTM, CNN-LSTM và các biến thể BERT khác trên cùng bộ dữ liệu, với mức tăng từ 2-5% điểm F1.

Thảo luận kết quả

Kết quả cho thấy việc lấy đặc trưng từ nhiều lớp trong PhoBERT giúp mô hình thu thập thông tin ngữ cảnh đa dạng hơn, từ các đặc trưng mức thấp đến mức cao, từ đó cải thiện khả năng phân loại cảm xúc. Việc kết hợp các đặc trưng truyền thống như TF-IDF và Vietnamese SentiWordNet bổ sung thông tin từ mức từ, giúp mô hình nhận diện tốt hơn các từ mang tính cảm xúc đặc trưng.

Sự cải thiện rõ rệt sau khi chỉnh sửa nhãn dữ liệu phản ánh tầm quan trọng của chất lượng dữ liệu trong các bài toán học máy. Các nhãn không chính xác hoặc không đồng nhất có thể làm giảm hiệu quả mô hình, đặc biệt trong các bộ dữ liệu có tỷ lệ nhãn trung tính thấp.

So với các nghiên cứu trước đây, mô hình đề xuất không chỉ đạt hiệu suất cao mà còn chứng minh tính khả thi trong việc áp dụng kiến trúc Transformer đơn ngữ cho tiếng Việt, đồng thời khai thác hiệu quả các đặc trưng truyền thống. Kết quả có thể được minh họa qua biểu đồ so sánh điểm F1 và Accuracy giữa các mô hình trên hai bộ dữ liệu, cũng như bảng phân bố nhãn trước và sau chỉnh sửa.

Đề xuất và khuyến nghị

Triển khai mô hình PhoBERT biến thể trong hệ thống phân tích cảm xúc tự động
- Động từ hành động: Áp dụng
- Target metric: Độ đo F1 trên 95%
- Timeline: 6 tháng
- Chủ thể thực hiện: Các doanh nghiệp thương mại điện tử, tổ chức giáo dục
Cải tiến và làm sạch dữ liệu nhãn cảm xúc
- Động từ hành động: Hiệu chỉnh, làm sạch
- Target metric: Tăng độ đồng thuận nhãn trên 90%
- Timeline: 3 tháng
- Chủ thể thực hiện: Nhóm nghiên cứu, chuyên gia dữ liệu
Kết hợp đặc trưng truyền thống với mô hình học sâu
- Động từ hành động: Kết hợp, tích hợp
- Target metric: Cải thiện độ chính xác phân loại nhãn trung tính ít nhất 2%
- Timeline: 4 tháng
- Chủ thể thực hiện: Nhà phát triển phần mềm, nhóm nghiên cứu AI
Phát triển bộ dữ liệu đa dạng hơn cho tiếng Việt
- Động từ hành động: Thu thập, xây dựng
- Target metric: Tăng số lượng câu phản hồi lên trên 50,000
- Timeline: 1 năm
- Chủ thể thực hiện: Các trường đại học, tổ chức nghiên cứu NLP
Đào tạo và nâng cao nhận thức về ứng dụng phân tích cảm xúc
- Động từ hành động: Tổ chức, đào tạo
- Target metric: Đào tạo ít nhất 100 chuyên gia trong 1 năm
- Timeline: 12 tháng
- Chủ thể thực hiện: Các trung tâm đào tạo, viện nghiên cứu

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Xử lý ngôn ngữ tự nhiên
- Lợi ích: Hiểu sâu về mô hình Transformer, PhoBERT và ứng dụng phân tích cảm xúc tiếng Việt.
- Use case: Phát triển các đề tài nghiên cứu, luận văn thạc sĩ, tiến sĩ.
Doanh nghiệp thương mại điện tử và dịch vụ khách hàng
- Lợi ích: Áp dụng mô hình phân tích cảm xúc để khai thác phản hồi khách hàng, nâng cao chất lượng sản phẩm và dịch vụ.
- Use case: Tự động phân tích đánh giá sản phẩm, cải thiện trải nghiệm người dùng.
Các tổ chức giáo dục và quản lý đào tạo
- Lợi ích: Phân tích phản hồi sinh viên để nâng cao chất lượng giảng dạy và cơ sở vật chất.
- Use case: Đánh giá hiệu quả chương trình học, phản hồi giảng viên.
Nhà phát triển phần mềm và chuyên gia AI
- Lợi ích: Nắm bắt kỹ thuật kết hợp mô hình học sâu và đặc trưng truyền thống, tối ưu hóa mô hình cho tiếng Việt.
- Use case: Xây dựng hệ thống chatbot, trợ lý ảo, công cụ phân tích dữ liệu văn bản.

Câu hỏi thường gặp

Mô hình PhoBERT khác gì so với BERT gốc?
PhoBERT là mô hình được huấn luyện riêng trên dữ liệu tiếng Việt với kiến trúc dựa trên RoBERTa, tối ưu hóa cho ngôn ngữ tiếng Việt, giúp cải thiện hiệu suất so với BERT đa ngôn ngữ. Ví dụ, PhoBERT đạt độ chính xác cao hơn trên các tác vụ NLP tiếng Việt như phân tích cảm xúc.
Tại sao cần kết hợp TF-IDF và Vietnamese SentiWordNet với PhoBERT?
TF-IDF và VSWN cung cấp đặc trưng từ mức từ, bổ sung thông tin cảm xúc chi tiết mà mô hình ngôn ngữ có thể bỏ sót. Kết hợp này giúp mô hình phân biệt tốt hơn các trạng thái cảm xúc, đặc biệt là nhãn trung tính.
Làm thế nào để xử lý dữ liệu tiếng Việt trong phân tích cảm xúc?
Tiền xử lý bao gồm tách token bằng công cụ RDRSegmenter, chuyển đổi thành subwords phù hợp với mô hình, chuẩn hóa độ dài câu và thêm token đặc biệt. Quá trình này giúp mô hình hiểu đúng cấu trúc ngôn ngữ tiếng Việt.
Hiệu quả của việc chỉnh sửa nhãn dữ liệu như thế nào?
Chỉnh sửa nhãn giúp tăng độ đồng thuận và chính xác của dữ liệu, từ đó nâng cao hiệu suất mô hình. Trong nghiên cứu, chỉnh sửa nhãn trên bộ UIT-VSFC đã giúp tăng điểm F1 lên khoảng 1%.
Mô hình có thể áp dụng cho các lĩnh vực khác ngoài thương mại điện tử và giáo dục không?
Có, mô hình có thể áp dụng rộng rãi trong y tế, dịch vụ công, hành chính nhà nước để phân tích phản hồi, ý kiến người dùng, giúp cải thiện chất lượng dịch vụ và ra quyết định chính xác hơn.

Kết luận

Luận văn đã đề xuất mô hình PhoBERT biến thể lấy đặc trưng từ nhiều lớp kết hợp với TF-IDF và Vietnamese SentiWordNet, đạt hiệu suất phân tích cảm xúc tiếng Việt vượt trội với F1 trên 95%.
Việc chỉnh sửa nhãn dữ liệu đóng vai trò quan trọng trong nâng cao chất lượng mô hình.
Nghiên cứu khẳng định tính hiệu quả của kiến trúc Transformer đơn ngữ cho tiếng Việt trong bài toán phân tích cảm xúc.
Kết quả thử nghiệm trên hai bộ dữ liệu lớn UIT-VSFC và VS cho thấy mô hình có tính ứng dụng cao trong thực tế.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, cải tiến mô hình và ứng dụng trong các lĩnh vực đa dạng.

Next steps: Triển khai mô hình trong các hệ thống thực tế, mở rộng dữ liệu huấn luyện, đào tạo chuyên gia và phát triển các công cụ hỗ trợ phân tích cảm xúc tiếng Việt.

Call-to-action: Các nhà nghiên cứu và doanh nghiệp quan tâm có thể áp dụng mô hình và dữ liệu nghiên cứu để nâng cao hiệu quả phân tích cảm xúc, góp phần phát triển công nghệ xử lý ngôn ngữ tự nhiên cho tiếng Việt.

Trích đoạn nội dung tài liệu

Chương 1, bài toán Phân tích cảm xúc hay tên tiếng anh là Sentiment Analysis (SA) đang ngày càng thu hút đông đảo nhóm nghiên cứu bởi tính quan trọng và thiết yếu của mình. Bài toán này giúp xác định và phân loại một đoạn văn bản thành nhiều cảm xúc khác nhau (ví dụ như tiêu cực (negative), trung tinh (neutral) hay tích cực (positive)) dé qua đó xác định được cảm xúc của người bình luận đối với chủ thé nào đó. Trong nghiên cứu này, chủ thé hướng tới chính là món hàng, địch vụ trên các trang thương mại điện tử và chất lượng của cơ sở vật chất giảng dạy, chất lượng giảng dạy của giảng viên cũng như chương trình học tập của sinh viên. Biểu đồ c; ấp độ trong phân tích cảm xúc Nguồn: https://link.1007/s 10462-022-10144-1 Bài toán phân tích cảm xúc hiện nay được chia thành bén cấp độ chính là cấp độ khía cạnh (aspect-level), cụm từ (phrase-level), câu (sentence-level) và văn bản (document-level) được thể hiện ở hình 1.1 Trong nghiên cứu này, luận văn tập trung nghiên cứu bài toán ở cấp độ câu van (sentence-level).

Các công trình nghiên cứu liên quan Phân tích cảm xúc là một vấn đề cần thiết đối người người dùng cũng như trong lĩnh vực xử lý ngôn ngữ tự nhiên. Những năm gan đây, lĩnh vực nghiên cứu về phân tích cảm xúc, đặc biệt là phân tích cảm xúc cho tiếng Việt ngày càng được nhiều nhóm nghiên cứu, giảng viên, sinh viên quan tâm. Sau đây là một số công trình nghiên cứu trong nước và thế giới. Các công trình nghiên cứu ngoài nước Bài toán Phân tích cảm xúc khi mới xuất hiện và gây sự chú ý của công đồng nghiên cứu, các nhà khoa học ngay từ những năm dau của thé ky 21 trong công trình nghiên cứu của Pang và các cộng sự với tên gọi Sentiment Classification [2].

Bên cạnh đó, tên gọi Sentiment analysis được sử dụng lần đầu trong nghiên cứu của Nasukawa va Yi [3]. Ngoài ra, một tên gọi khác của bài toán là Opinion mining cũng được xuất hiện lần đầu trong công trình nghiên cứu của Dave, Lawrence and Pennock [4]. Ké từ đó, rất nhiều công trình nghiên cứu khác về Phân tích cảm xúc được tiến hành va phát triển, có thể ké đến như: - Công trình nghiên cứu của Tripathy và cộng sự [5] sử dụng học máy đề phân loại cảm xúc của hai nghìn câu bình luận phim. Cụ thể mô hình Naive Bayes (NB) và Support Vector Machine (SVM) được sử dụng kết hợp với các phương pháp trích xuất đặc trưng Count Vectorizer và TF-IDF.

- Công trình nghiên cứu của Hassonal va cộng sự [6] đề xuất sử dụng mô hình kết hợp giữa Support Vector Machine (SVM) với hai thuật toán trích chọn đặc trưng (feature selection) là Relief và Multi-Verse Optimizer (MVO). Hiệu năng của mô hình dé xuất đạt vượt trội trên bộ dữ liệu gồm 6900 câu tweet được lấy từ mạng xã hội Twitter. - Công trình nghiên cứu của Uysal va Murphey [7] sử dụng các mô hình như: CNN, LSTM và CNN-LSTM cho tác vụ phân tích cam xúc trên các bộ dữ liệu IMDb, Amazon, Sentiment 140 và Nine public sentiment review. - Công trình nghiên cứu của Basiri và cộng sự [8] dé xuất mô hình Attention- based Bidirectional CNN-RNN Deep Model (ABCDM).

Bằng cách tận dụng mô hình LSTM hai chiều (Bi-LSTM) và GRU, ABCDM học được ngữ cảnh ở cả hai chiều quá khứ và tương lai. Đồng thời sử dụng các lớp Convolution và Pooling để giảm số chiêu của đặc trưng. Theo nghiên cứu của Bo Pang và các cộng sự [9], nghiên cứu về tính hiệu quả của các phương pháp học máy đối với phân tích ý kiến phản hồi của người dùng về phim ảnh với hai trạng thái cảm xúc tiêu cực, tích cực. Tuy nhiên ba phương pháp mà tác giả đề xuất là (Naive bayes, maximum entropy classification và support vector machine) này không mang lại hiệu quả.

- Công trình nghiên cứu của Singh và công sự [10] sử dụng mô hình Bidirectional Encoder Representations from Transformers (BERT) cho tác vụ phân tích cảm xúc từ các câu tweet liên quan đến đại dịch COVID-19 được lấy từ nền tảng mang xã hội Twitter. Mô hình đạt kết quả rat tốt trên tap validation với độ chính xác xấp xi 94%. Cụ thé nghiên cứu này đánh giá bốn phương pháp tiếp cận bao gồm: LSTM, LSTM + ATT, MUTIHEAD ATT, FUSION. Sau khi so sánh các kết quả nghiên cứu, tác giả nhận thay rằng phương pháp FUSION đạt được kết quả tốt nhất so với 3 phương pháp còn lại.

- Công trình nghiên cứu của Alec Yenter và công sự [12] mô tả một cách tiếp cận mới thông qua viêc kết hợp mạng nơ ron (CNN) và mạng hồi quy Long Short Term Memory (LSTM) trong phân tích phản hồi về các bình luận phim trên Internet (IMDb). Khi tác giả kết hợp hai mô hình này tạo một mô hình có độ chính xác cao vượt trội hơn so với các mô hình đã đề xuất trước đó. - Công trình Vaswani và các cộng sự [13], đề xuất mô hình kiến trúc Transformer dựa trên cơ chế tự chú ý (Self attention). Kết quả thực nghiệm trên hai tác vụ dich máy cho thấy mô hình này hoạt động tốt hơn do quá trình xử lý song song và ít tốn thời gian hơn trong quá trình huấn luyện.

Hơn nữa, mô hình của tác giả cho kết quả tốt nhất trên tác vụ dịch từ tiếng Anh sang tiếng Đức. Các công trình nghiên cứu trong nước Ở trong nước, các nghiên cứu về bài toán Phân tích cảm xúc diễn ra rất sôi nồi. Dưới đây là một số công trình nghiên cứu: - Trần Khải Thiện, Phan Thị Tươi [14], nhóm tác giả đề xuất một mô hình đạt được kết quả tốt khi phân tích cảm xúc ở mức khía cạnh. Mô hình này kết hợp ontolog, bộ từ điển cảm xúc, luật rút trích sau đó mô hình xây dựng dựa trên nghĩa của các câu tiếng Việt cho trước.

Với cách tiếp cận này cho thấy mô hình của tác giả có kết quả tốt. Tuy nhiên, phương pháp này cần phải có một tập từ vựng đủ lớn cũng như luật rút trích. - Công trình nghiên cứu của Ngô Xuân Bách cùng cộng sự [15], với các mô hình học máy như Naive Bayes, MEM va SVM với bài toán phân tích cảm xúc tiếng, Việt. Bên cạnh đó, công trình còn cung cấp cho cộng đồng nghiên cứu một bộ dữ liệu về phản hồi của khách hàng trên nền tảng đặt phòng khách sạn trực tuyến Agoda.

Bộ đữ liệu có 3304 câu phản hồi, phản hồi tích cực là 3304 câu, phản hồi tiêu cực là 1980 câu còn lại 547 câu phản hồi trung tính. - Công trình nghiên cứu của Quan-Hoang Vo cùng cộng sự [16] dé xuất mô hình kết hợp giữa LSTM và CNN có tên là Multi-channel LSTM-CNN. Mô hình đề xuất đạt kết quả vượt trội so với nếu chỉ dùng đơn lẻ một mô hình LSTM hay CNN. Bộ dữ liệu về phản hồi của khách hàng trên các trang thương mại điện tử Việt Nam được nhóm tác giả gửi link trong bài báo đã công bố.

Bộ dữ liệu VS xây dựng từ các trang thương mại điện tử như Tiki.v, được nhóm tác giả xây dựng dựa trên 17500 câu phản hồi, đánh giá được gán nhãn thủ công. - Cũng bằng sự kết hợp giữa các mô hình, công trình nghiên cứu của Lac Si Le cùng cộng sự [17] để xuất sử dụng mô hình Multi-filter BiLSTM-CNN. Mô hình này có kết quả thử nghiệm cao với điểm số F1 trên bộ dữ liệu UIT-VSFC là 93.41% trên bộ dữ liệu VS. - Công trình nghiên cứu của Quoc Thai Nguyen và cộng sự [18] tập trung vào.

ứng dụng kiến trúc Transformer, cụ thể là BERT, cho bài toán phân tích cảm xúc các câu phản hồi tiếng Việt. Ngoài ra, nhóm tác giả còn tiền hành thử nghiệm, so sánh và đánh giá với các mô hình như SVM, LSTM, TextCNN, CRNN, FastText và GloVE. 7 - Một công trình khác cũng dựa trên kiến trúc Transformer đó là công trình của Trong-Loc Truong và cộng sự [19] Nghiên cứu đề xuất hiệu chỉnh mô hình PhoBERT cho bài toán phân tích cảm xúc tiếng Việt. Mô hình với sự kế hợp 4 đặc trưng ở lớp cao đã đem lại kết quả tốt trên trên bộ dir liệu UIT-VSFC với điểm số F1 là 93.92% và điểm số accuracy là 94.

Vong Anh Ho và cộng sự [20], với bài báo “Emotion Recognition for Vietnamese Social Media Text”, nghiên cứu trên bộ dữ liệu UIT-VSMEC. Nhóm tác giả đánh giá bốn phương pháp tiếp cận bao gồm: RandomForest, SVM, LSTM và CNN. Trong đó phương pháp CNN +word2Vec đạt được kết quả tốt nhất với chỉ số FI là 59,74%. Công trình nghiên cứu của nhóm TS.

Ngan Luu-Thuy Nguyen [21], nghiên cứu về học sâu so với công cụ phân loại truyền thống trên bộ dữ liệu UIT-VSFC. Cụ thể, nghiên cứu này đánh giá bốn phương pháp tiếp cận bao gồm: Naive Bayes, Maximum Entropy, Long Short-Term Memory and Bi-Directional Long Short-Term Memory. Sau khi so sánh các kết quả nghiên cứu, tác giả nhận thấy rằng phương pháp Bi-Directional Long Short-Term Memory cho hiệu suất cao nhất với với chỉ số F1 là 89,6%. Ngoài ra Dat Quoc Nguyen, Anh Tuan Nguyen [22], đã giới thiệu PhoBERT với hai phiên bản, PhoBERT-base và PhoBERT-large là một mô hình được học sẵn đơn ngôn ngữ đảo tạo ở cấp độ từ (word-level) quy mô lớn đầu tiên cho các tác vụ xử lý ngôn ngữ tự nhiên của tiếng Việt.

Khác với hướng tiếp cận so với phiên bản BERT gốc, PhoBERT tiếp cận theo hướng của mô hình RoBERTa [23] với ý tưởng chính là loại bỏ hàm mục tiêu dự đoán câu tiếp theo trong phần đào tạo sẵn (pretraining). Kết quả thử nghiệm cho thấy PhoBERT luôn vượt trội so với mô hình đa ngôn ngữ XLM- R (Conneau và cộng sự, 2020). Luan Thanh Nguyen và các cộng sự [24], mô tả một tiêu chuẩn đánh giá mới dé phân loại văn bản trên mạng xã hội với bốn nhiệm vụ nhận dạng cảm xúc, phát hiện giọng nói tích cực, phát hiện lời nói căm thù và phát hiện nhận xét khiếu nại. Cụ thể, nghiên cứu này thực hiện các cách tiếp cận khác nhau với các mô hình đơn ngôn ngữ (PhoBERT, viBERT, vELECTRA và viB ERT4news) và đa ngôn ngữ (mBERT, XLM-R và Distilm BERT) dựa trên BERT trên bộ dữ liệu iéng Viét.

Các mô hình đơn ngôn ngữ đạt được hiệu quả tốt nhất trên tất cả các nhiệm vụ phân loại văn bản. Dang Van Thin và các cộng sự [25], trình bày một kiến trúc đa tác vụ hiệu quả dựa trên mạng nơ ron cho các tác vụ phát hiện danh mục khía cạnh và danh mục khía cạnh. Nghiên cứu này, có thể dự đoán toàn bộ danh mục khía cạnh với các miền dữ liệu tương ứng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phân tích cảm xúc trong NLP

Mô hình Transformer trong xử lý ngôn ngữ

Ứng dụng PhoBERT vào bài toán thực tế

Xây dựng hệ thống phân tích cảm xúc tiếng Việt