Luận văn thạc sĩ HCMUTE về phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu

Tổng hợp kiến thức Phân loại cảm xúc trong văn bản tiếng Việt bằng học sâu, tiếp cận khoa học, hỗ trợ học tập và nghiên cứu hiệu quả trong chuyên

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Mục tiêu, đối tượng và phương pháp nghiên cứu

1.2. Đối tượng nghiên cứu

1.3. Phạm vi nghiên cứu

1.4. Nghiên cứu liên quan

1.5. Vấn đề tồn tại

1.6. Kết luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Tổng quan về xử lý ngôn ngữ tự nhiên

2.2. Đặc điểm chính của các kiểu dữ liệu

2.3. Đặc trưng của ngôn ngữ tiếng Việt

3. CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI CẢM XÚC TRONG CÂU BÌNH LUẬN TIẾNG VIỆT

3.1. Phát biểu bài toán

3.2. Mô hình ứng dụng xử lý văn bản tiếng Việt

3.3. Các giai đoạn xử lý dữ liệu

3.3.1. Thu thập dữ liệu

3.3.2. Giai đoạn tách từ sử dụng công cụ word_tokenier. Gán nhãn dữ liệu

3.3.3. Biểu diễn câu bình luận thành các vector đặc trưng

3.3.4. Quá trình huấn luyện sử dụng mô hình LSTM

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Mô hình thực nghiệm

4.2. Phương pháp đánh giá

4.3. Kết quả thực nghiệm

4.4. So sánh với các mô hình huấn luyện khác

4.5. Giao diện người dùng. Nhận xét và đánh giá

4.6. Kết quả đạt được

4.6.1. Về mặt lý thuyết

4.6.2. Về mặt thực tiễn

4.7. Hướng phát triển

DANH MỤC CÁC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh xã hội hiện đại, việc phân loại cảm xúc trong văn bản tiếng Việt trở thành một nhu cầu thiết yếu. Cảm xúc được định nghĩa là phản ứng của con người trước các sự kiện, hiện tượng, và có thể chia thành hai loại chính: cảm xúc tích cực và cảm xúc tiêu cực. Việc phân tích các phản hồi của người tiêu dùng không chỉ giúp doanh nghiệp hiểu rõ hơn về sản phẩm mà còn tạo ra những chiến lược phát triển hiệu quả. Đặc biệt, với sự phát triển của công nghệ học sâu, việc áp dụng các thuật toán như LSTM (Long Short-Term Memory) trong phân loại cảm xúc đã mở ra nhiều cơ hội mới. Mục tiêu của nghiên cứu này là xây dựng một mô hình phân loại cảm xúc cho các bình luận trong lĩnh vực ẩm thực, từ đó giúp doanh nghiệp nắm bắt tâm lý khách hàng một cách nhanh chóng và chính xác.

1.1. Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là phát triển một mô hình phân loại cảm xúc cho các bình luận của người dùng về sản phẩm và dịch vụ trong lĩnh vực ẩm thực. Mô hình này sẽ phân loại các bình luận thành hai nhóm: tích cực và tiêu cực. Việc này không chỉ giúp doanh nghiệp tiết kiệm thời gian và chi phí mà còn nâng cao khả năng phục vụ khách hàng. Để đạt được mục tiêu này, nghiên cứu sẽ sử dụng các phương pháp học sâu và xử lý ngôn ngữ tự nhiên để phân tích và hiểu rõ hơn về ngữ nghĩa của các bình luận. Điều này sẽ giúp cải thiện chất lượng dịch vụ và sản phẩm mà doanh nghiệp cung cấp.

1.2. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là các bình luận của người dùng trên các nền tảng mạng xã hội và trang thương mại điện tử liên quan đến lĩnh vực ẩm thực. Phạm vi nghiên cứu tập trung vào việc phân tích và phân loại cảm xúc trong các bình luận tiếng Việt. Dữ liệu thu thập sẽ được xử lý bằng các công cụ như vnTokenizer và Word2vec để chuyển đổi từ thành vector đặc trưng, từ đó áp dụng các thuật toán học máy như LSTM để phân loại cảm xúc. Nghiên cứu này không chỉ có giá trị lý thuyết mà còn mang lại ứng dụng thực tiễn cao trong việc cải thiện dịch vụ khách hàng.

II. Cơ sở lý thuyết

Chương này trình bày tổng quan về xử lý ngôn ngữ tự nhiên (NLP) và các khái niệm liên quan đến học sâu. Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo, nhằm giúp máy tính hiểu và tương tác với ngôn ngữ của con người. Đặc biệt, ngôn ngữ tiếng Việt có những đặc trưng riêng biệt, như cấu trúc từ và cách diễn đạt cảm xúc. Việc hiểu rõ các đặc điểm này là rất quan trọng trong việc phát triển các mô hình phân loại cảm xúc. Các mô hình như Multi Layer Perceptron (MLP), Convolutional Neural Networks (CNN) và Recurrent Neural Networks (RNN) sẽ được giới thiệu, với trọng tâm là mô hình LSTM, được sử dụng để xử lý dữ liệu văn bản tiếng Việt.

2.1. Tổng quan về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực nghiên cứu quan trọng trong trí tuệ nhân tạo, tập trung vào việc giúp máy tính hiểu và xử lý ngôn ngữ của con người. Mục tiêu của NLP là tạo ra các ứng dụng có thể tương tác với người dùng một cách tự nhiên và hiệu quả. Các ứng dụng của NLP bao gồm dịch thuật, phân tích cảm xúc, và nhận dạng giọng nói. Đặc biệt, trong bối cảnh phát triển mạnh mẽ của mạng xã hội, việc phân tích cảm xúc từ các bình luận trở nên cần thiết hơn bao giờ hết. Việc áp dụng các thuật toán học sâu trong NLP đã giúp cải thiện đáng kể độ chính xác trong việc phân loại cảm xúc.

2.2. Đặc trưng của ngôn ngữ tiếng Việt

Ngôn ngữ tiếng Việt có những đặc trưng riêng biệt, như tính chất không có dấu phân cách giữa các từ và sự phong phú về từ vựng. Điều này tạo ra những thách thức trong việc phân tích và xử lý ngôn ngữ. Các công cụ như vnTokenizer được sử dụng để tách từ và biểu diễn từ thành vector đặc trưng. Việc hiểu rõ cấu trúc ngữ nghĩa của tiếng Việt là rất quan trọng trong việc phát triển các mô hình phân loại cảm xúc. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng các phương pháp học sâu như LSTM có thể cải thiện đáng kể độ chính xác trong việc phân loại cảm xúc từ các bình luận tiếng Việt.

III. Xây dựng ứng dụng phân loại cảm xúc

Chương này mô tả chi tiết quy trình xây dựng ứng dụng phân loại cảm xúc cho các bình luận tiếng Việt. Quy trình bao gồm các bước như thu thập dữ liệu, tách từ, gán nhãn dữ liệu và huấn luyện mô hình. Việc thu thập dữ liệu từ các nền tảng mạng xã hội và trang thương mại điện tử là rất quan trọng để đảm bảo tính đại diện cho mô hình. Sau khi thu thập, dữ liệu sẽ được xử lý bằng công cụ word_tokenizer để tách từ và gán nhãn cảm xúc cho từng bình luận. Cuối cùng, mô hình LSTM sẽ được huấn luyện để phân loại cảm xúc của các bình luận.

3.1. Quy trình thu thập và xử lý dữ liệu

Quy trình thu thập dữ liệu bắt đầu bằng việc xác định các nguồn dữ liệu phù hợp, như các trang thương mại điện tử và mạng xã hội. Dữ liệu sẽ được thu thập tự động thông qua các API hoặc web scraping. Sau khi thu thập, dữ liệu sẽ được làm sạch và chuẩn hóa để loại bỏ các bình luận không liên quan hoặc không có giá trị. Công cụ vnTokenizer sẽ được sử dụng để tách từ và chuyển đổi các từ thành vector đặc trưng bằng Word2vec. Việc này giúp mô hình có thể hiểu và phân tích ngữ nghĩa của các bình luận một cách chính xác hơn.

3.2. Huấn luyện mô hình LSTM

Sau khi dữ liệu đã được xử lý, bước tiếp theo là huấn luyện mô hình LSTM. Mô hình này được lựa chọn vì khả năng xử lý dữ liệu tuần tự và ghi nhớ thông tin trong thời gian dài. Quá trình huấn luyện sẽ sử dụng các bộ dữ liệu đã được gán nhãn để tối ưu hóa các tham số của mô hình. Các chỉ số như độ chính xác và hàm mất mát sẽ được theo dõi trong suốt quá trình huấn luyện để đảm bảo mô hình hoạt động hiệu quả. Kết quả của quá trình huấn luyện sẽ được đánh giá và so sánh với các mô hình khác để xác định tính hiệu quả của mô hình LSTM trong việc phân loại cảm xúc.

IV. Kết quả thực nghiệm

Chương này trình bày kết quả thực nghiệm của mô hình phân loại cảm xúc. Các phương pháp đánh giá sẽ được sử dụng để đo lường độ chính xác và hiệu quả của mô hình. Kết quả cho thấy mô hình LSTM đạt được độ chính xác cao trong việc phân loại cảm xúc từ các bình luận tiếng Việt. So sánh với các mô hình khác như MLP và CNN, mô hình LSTM cho thấy ưu thế vượt trội trong việc xử lý dữ liệu ngữ nghĩa phức tạp.

4.1. Phương pháp đánh giá

Để đánh giá hiệu quả của mô hình, các phương pháp như k-fold cross-validation sẽ được áp dụng. Phương pháp này giúp đảm bảo rằng mô hình được kiểm tra trên nhiều tập dữ liệu khác nhau, từ đó cung cấp cái nhìn tổng quát về khả năng phân loại của mô hình. Các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu sẽ được sử dụng để đo lường hiệu quả của mô hình. Kết quả đánh giá sẽ được so sánh với các mô hình khác để xác định tính ưu việt của mô hình LSTM trong việc phân loại cảm xúc.

4.2. Kết quả đạt được

Kết quả thực nghiệm cho thấy mô hình LSTM đạt được độ chính xác lên đến 85% trong việc phân loại cảm xúc từ các bình luận tiếng Việt. So với các mô hình khác như MLP và CNN, mô hình LSTM cho thấy hiệu quả vượt trội trong việc xử lý các bình luận ngắn và không chính thống. Điều này chứng tỏ rằng việc áp dụng các phương pháp học sâu trong phân loại cảm xúc là một hướng đi đúng đắn, mở ra nhiều cơ hội cho các ứng dụng trong tương lai.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute phân loại cảm xúc trong văn bản tiếng việt sử dụng phương pháp học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh xã hội phát triển mạnh mẽ, mạng xã hội và các nền tảng thương mại điện tử ngày càng trở nên phổ biến, việc thu thập và phân tích phản hồi của người tiêu dùng trở thành một yếu tố quan trọng giúp doanh nghiệp nâng cao chất lượng sản phẩm và dịch vụ. Theo ước tính, hàng triệu bình luận và đánh giá được tạo ra mỗi ngày trên các trang web thương mại điện tử, đặc biệt trong lĩnh vực ăn uống. Tuy nhiên, việc phân loại cảm xúc trong các bình luận này vẫn còn nhiều thách thức do tính đa dạng và phức tạp của ngôn ngữ tự nhiên tiếng Việt.

Luận văn thạc sĩ này tập trung vào bài toán phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu, với mục tiêu cụ thể là phân loại các câu bình luận thành hai nhóm chính: tích cực và tiêu cực. Phạm vi nghiên cứu được giới hạn trong các bình luận tiếng Việt liên quan đến lĩnh vực ăn uống trên các trang thương mại điện tử, thực hiện trong khoảng thời gian gần đây tại Việt Nam. Việc phân loại cảm xúc tự động không chỉ giúp tiết kiệm thời gian và chi phí so với phương pháp thủ công mà còn hỗ trợ doanh nghiệp trong việc xây dựng chiến lược phát triển thương hiệu hiệu quả hơn.

Nghiên cứu có ý nghĩa quan trọng trong việc ứng dụng trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên (NLP) vào thực tiễn, góp phần nâng cao độ chính xác trong phân tích tâm lý người dùng, từ đó cải thiện trải nghiệm khách hàng và tăng cường khả năng cạnh tranh của doanh nghiệp trên thị trường.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và mạng neuron nhân tạo (Artificial Neural Networks - ANN), đặc biệt là các mô hình học sâu (Deep Learning).

Xử lý ngôn ngữ tự nhiên (NLP): Đây là lĩnh vực nghiên cứu sự tương tác giữa máy tính và ngôn ngữ con người, nhằm giúp máy tính hiểu và xử lý hiệu quả các dữ liệu văn bản và tiếng nói. Đặc trưng của tiếng Việt như từ đơn, từ ghép, từ láy, cùng với các hiện tượng nhập nhằng trong tách từ, được xử lý bằng công cụ vnTokenizer với độ chính xác 97%. Việc biểu diễn từ dưới dạng vector đặc trưng sử dụng Word2vec giúp mô hình học sâu hiểu được mối quan hệ ngữ nghĩa giữa các từ.
Mạng neuron nhân tạo và học sâu: Mạng neuron nhân tạo mô phỏng cách thức hoạt động của bộ não con người, gồm nhiều lớp neuron kết nối với nhau. Các mô hình học sâu như Multi Layer Perceptron (MLP), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN) và đặc biệt là Long Short-Term Memory (LSTM) được sử dụng để xử lý dữ liệu chuỗi như văn bản. LSTM có khả năng ghi nhớ thông tin dài hạn, phù hợp với việc phân loại cảm xúc trong câu bình luận ngắn gọn nhưng chứa nhiều ngữ cảnh.

Các khái niệm chính bao gồm: tách từ tiếng Việt, biểu diễn từ bằng vector (embedding), mạng LSTM, phân loại cảm xúc (sentiment classification), và các hàm kích hoạt trong mạng neuron.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bình luận tiếng Việt thu thập từ trang thương mại điện tử chuyên về lĩnh vực ăn uống. Bộ dữ liệu bao gồm khoảng vài nghìn câu bình luận, được gán nhãn cảm xúc tích cực hoặc tiêu cực dựa trên điểm đánh giá của người dùng.

Phương pháp nghiên cứu bao gồm các bước:

Thu thập dữ liệu: Tập hợp các bình luận từ trang web thương mại điện tử, đảm bảo tính đa dạng và đại diện cho các loại cảm xúc.
Tiền xử lý dữ liệu: Sử dụng công cụ vnTokenizer để tách từ, xử lý các ký tự đặc biệt, loại bỏ nhiễu và chuẩn hóa văn bản.
Biểu diễn dữ liệu: Chuyển đổi các câu bình luận thành vector đặc trưng bằng Word2vec với kích thước vector từ 300 đến 400 chiều.
Huấn luyện mô hình: Áp dụng mô hình LSTM để học và phân loại cảm xúc. Cỡ mẫu huấn luyện khoảng vài nghìn câu, sử dụng phương pháp chọn mẫu ngẫu nhiên. Quá trình huấn luyện được thực hiện trên môi trường Ubuntu với GPU GeForce GTX 1070ti 4GB và RAM 16GB.
Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác (accuracy), hàm chi phí (loss function) và k-fold cross-validation (k=5) để đánh giá hiệu quả mô hình.
So sánh mô hình: Đối chiếu kết quả LSTM với các mô hình khác như MLP, CNN và kết hợp CNN-LSTM để xác định ưu điểm vượt trội.

Timeline nghiên cứu kéo dài trong khoảng 6 tháng, từ thu thập dữ liệu đến hoàn thiện mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác mô hình LSTM: Mô hình LSTM đạt độ chính xác trung bình khoảng 85% trên bộ dữ liệu kiểm thử, vượt trội hơn so với các mô hình MLP (khoảng 70%) và CNN (khoảng 75%). Kết quả k-fold cross-validation với k=5 cho thấy độ chính xác ổn định ở mức 83-87%.
Hiệu quả biểu diễn từ bằng Word2vec: Việc sử dụng vector đặc trưng từ Word2vec giúp mô hình nắm bắt được ngữ cảnh và mối quan hệ giữa các từ, cải thiện độ chính xác phân loại lên khoảng 10% so với biểu diễn one-hot vector truyền thống.
Khó khăn trong xử lý ngôn ngữ tiếng Việt: Các hiện tượng nhập nhằng trong tách từ và sự đa dạng trong cách viết bình luận (viết tắt, sai chính tả, từ lóng) làm giảm độ chính xác phân loại khoảng 5-7% so với lý thuyết.
So sánh với các mô hình kết hợp: Mô hình kết hợp CNN và LSTM cho kết quả tương đương hoặc nhỉnh hơn LSTM đơn lẻ khoảng 1-2%, tuy nhiên chi phí tính toán và thời gian huấn luyện tăng đáng kể.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình LSTM đạt hiệu quả cao là khả năng ghi nhớ thông tin dài hạn và xử lý chuỗi dữ liệu tuần tự, phù hợp với đặc điểm câu bình luận tiếng Việt có ngữ cảnh phức tạp. Việc biểu diễn từ bằng Word2vec giúp mô hình hiểu được các mối quan hệ ngữ nghĩa, từ đó phân loại cảm xúc chính xác hơn.

So với các nghiên cứu trước đây trong lĩnh vực xử lý ngôn ngữ tiếng Việt, kết quả này thể hiện sự tiến bộ rõ rệt, đặc biệt khi so sánh với các mô hình truyền thống như SVM hay Naive Bayes có độ chính xác chỉ từ 45-65%. Tuy nhiên, các thách thức về đặc trưng ngôn ngữ tiếng Việt như nhập nhằng từ, từ lóng và biểu tượng cảm xúc vẫn là rào cản lớn, cần được cải thiện trong các nghiên cứu tiếp theo.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các mô hình, biểu đồ hàm chi phí trong quá trình huấn luyện, và bảng thống kê tỷ lệ gán nhãn chính xác theo từng thuật toán.

Đề xuất và khuyến nghị

Tăng cường tiền xử lý dữ liệu: Áp dụng các kỹ thuật làm sạch dữ liệu nâng cao như chuẩn hóa từ viết tắt, sửa lỗi chính tả tự động và nhận diện biểu tượng cảm xúc để giảm thiểu nhiễu, nâng cao độ chính xác phân loại.
Phát triển mô hình kết hợp: Kết hợp mô hình LSTM với CNN hoặc các mô hình Transformer để tận dụng ưu điểm của từng mô hình, cải thiện khả năng nhận diện ngữ cảnh và đặc trưng ngôn ngữ phức tạp.
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều nguồn khác nhau, đa dạng về chủ đề và phong cách viết để tăng tính tổng quát và khả năng áp dụng của mô hình.
Triển khai ứng dụng thực tiễn: Xây dựng hệ thống phân loại cảm xúc tự động tích hợp vào các nền tảng thương mại điện tử, giúp doanh nghiệp nhanh chóng tổng hợp và phân tích phản hồi khách hàng, từ đó điều chỉnh chiến lược kinh doanh kịp thời.

Các giải pháp trên nên được thực hiện trong vòng 12 tháng tới, với sự phối hợp giữa các nhà nghiên cứu, kỹ sư dữ liệu và doanh nghiệp trong lĩnh vực thương mại điện tử.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính: Có thể sử dụng luận văn làm tài liệu tham khảo về ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là mô hình LSTM và kỹ thuật biểu diễn từ.
Doanh nghiệp thương mại điện tử và marketing: Hỗ trợ xây dựng hệ thống phân tích phản hồi khách hàng tự động, giúp nâng cao chất lượng dịch vụ và phát triển sản phẩm dựa trên dữ liệu thực tế.
Chuyên gia phát triển phần mềm AI và NLP: Cung cấp kiến thức về các công cụ và phương pháp xử lý ngôn ngữ tiếng Việt, từ tiền xử lý đến huấn luyện mô hình học sâu, phục vụ phát triển các ứng dụng trí tuệ nhân tạo.
Cơ quan quản lý và nghiên cứu thị trường: Giúp hiểu rõ hơn về tâm lý người tiêu dùng thông qua phân tích cảm xúc, từ đó đưa ra các chính sách và chiến lược phù hợp với xu hướng thị trường.

Câu hỏi thường gặp

Phân loại cảm xúc trong tiếng Việt có khó khăn gì đặc biệt?
Tiếng Việt có đặc trưng từ ghép, từ láy và hiện tượng nhập nhằng trong tách từ, cùng với sự đa dạng trong cách viết bình luận (viết tắt, từ lóng) gây khó khăn cho việc nhận diện chính xác cảm xúc.
Tại sao chọn mô hình LSTM cho bài toán này?
LSTM có khả năng ghi nhớ thông tin dài hạn và xử lý chuỗi dữ liệu tuần tự, phù hợp với việc phân loại cảm xúc trong câu bình luận có ngữ cảnh phức tạp và ngắn gọn.
Word2vec giúp gì trong việc phân loại cảm xúc?
Word2vec biểu diễn từ dưới dạng vector đặc trưng, giúp mô hình hiểu được mối quan hệ ngữ nghĩa giữa các từ, từ đó cải thiện độ chính xác phân loại so với biểu diễn one-hot vector.
Mô hình LSTM có thể áp dụng cho các lĩnh vực khác không?
Có, LSTM được sử dụng rộng rãi trong nhiều lĩnh vực như dịch máy, nhận dạng giọng nói, phân tích văn bản và sinh văn bản tự động.
Làm thế nào để cải thiện độ chính xác phân loại cảm xúc?
Có thể cải thiện bằng cách tăng cường tiền xử lý dữ liệu, mở rộng bộ dữ liệu huấn luyện, kết hợp các mô hình học sâu khác nhau và xử lý các đặc trưng ngôn ngữ đặc thù của tiếng Việt.

Kết luận

Luận văn đã đề xuất và triển khai thành công mô hình phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu LSTM, đạt độ chính xác khoảng 85%.
Việc sử dụng công cụ tách từ vnTokenizer và biểu diễn từ bằng Word2vec đóng vai trò quan trọng trong việc nâng cao hiệu quả mô hình.
Nghiên cứu đã chỉ ra những thách thức đặc thù của ngôn ngữ tiếng Việt trong xử lý cảm xúc, đồng thời so sánh hiệu quả với các mô hình khác như MLP và CNN.
Đề xuất các giải pháp cải tiến và ứng dụng thực tiễn nhằm nâng cao độ chính xác và tính khả thi của hệ thống phân loại cảm xúc tự động.
Các bước tiếp theo bao gồm mở rộng dữ liệu, phát triển mô hình kết hợp và triển khai ứng dụng trong môi trường thương mại điện tử thực tế.

Để tiếp tục nghiên cứu và ứng dụng, độc giả và doanh nghiệp được khuyến khích áp dụng các phương pháp học sâu tiên tiến và tích hợp hệ thống phân loại cảm xúc vào quy trình quản lý phản hồi khách hàng nhằm nâng cao hiệu quả kinh doanh.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: GIỚI THIỆU 1. Mục tiêu, đối tượng và phương pháp nghiên cứu 1. Mục tiêu Với sự phát triển mạnh mẽ của mạng xã hội, diễn đàn, báo chí, các doanh nghiệp có thể tiếp cận với các phản hồi của khách hàng về sản phẩm của họ một cách nhanh chóng và dễ dàng. Thay vì trước đây, các cơ quan doanh nghiệp phải thực hiện lấy ý kiến người tiêu dùng bằng các bản khảo sát ý kiến trên giấy sẽ mất nhiều thời gian, công sức và tài chính.

Thu thập thông tin phản hồi, đánh giá của khách hàng là một cách tuyệt vời giúp cho các doanh nghiệp hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của mình; đồng thời nhanh chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch vụ hoàn hảo nhất. Nhằm giúp các doanh nghiệp tổng hợp các ý kiến đánh giá một cách nhanh chóng, rõ ràng, luận văn thực hiện đề tài “Phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu”. Mục tiêu chung của luận văn: Đề xuất mô hình phân loại các câu bình luận, nhận xét, phản hồi của người dùng về một sản phầm hay dịch vụ trong lĩnh vực ăn uống; Mục tiêu cụ thể là phân loại các câu bình luận thành 2 nhóm: Tích cực và tiêu cực. Đối tượng nghiên cứu Đối tượng nghiên cứu của luận văn là tập trung khai phá phân loại cảm xúc của người dùng dựa trên các bình luận vào các địa điểm ăn uống hoặc dịch vụ.

Dữ liệu thu thập là những bình luận của người dùng. Luận văn tập trung vào biểu diễn từ thành vector đặc trưng sử dụng word2vec và xử lý dữ liệu của các thuật toán học máy, đi sâu hơn vào nghiên cứu thuật toán LSTM. Phạm vi nghiên cứu Chương trình thực nghiệm của luận văn được thực hiện trong phạm vi nghiên cứu các ứng dụng xử lý văn bản tiếng Việt, cụ thể hơn là các bình luận về lĩnh vực ăn uống hoặc dịch vụ bằng tiếng Việt. Nghiên cứu liên quan Khoa học kỹ thuật ngày càng phát triển, khái niệm trí tuệ nhân tạo đã không còn lạ lẫm với người dùng, các công trình nghiên cứu, các sản phẩm được cho ra đời và cải tiến liên tục.

Về lĩnh vực nghiên cứu liên quan đến ngôn ngữ tiếng Việt như: Nhận dạng giọng nói, chữ viết tay, phân loại cảm xúc người dùng có thể kể ra một số công trình nghiên cứu trong và ngoài nước như sau: - Wawre và cộng sự [15] đã nghiên cứu xây dựng một mô hình phân loại cảm xúc các bình luận của phim. Mỗi bình luận sẽ đại diện cho cảm xúc của người dùng lúc đó và được phân vào một trong hai lớp “Cảm xúc tích cực” hay “Cảm xúc tiêu cực”. Nghiên cứu đánh giá, so sánh, tính hiệu quả của hai bộ phân loại SVM và Naive Bayes. Theo kết quả Wawre đưa ra, mô hình SVM có độ chính xác là 45.71% và mô hình Naive Bayes có độ chính xác là 65.57%; Duyu Tang và cộng sự [6] nghiên cứu đi xây dựng mô hình phân loại ý kiến cho từng bình luận trên Twitter theo hướng quan điểm tích cực hay tiêu cực.

Luận văn cũng nêu ra rằng thuật toán sentiment specific word embedding (SSWE) mang lại độ chính xác tốt nhất là 77. - Phương và cộng sự [8] đã đề xuất phương pháp tách từ tiếng Việt với độ chính xác 97%. Nghiên cứu của Phương và các cộng sự góp phần đắc lực vào lĩnh vực nghiên cứu liên quan đến xử lý ngôn ngữ và văn bản tiếng Việt; Lưu Tuấn Anh [2] đã đề xuất xây dựng một phần mềm thêm dấu cho tiếng Việt dựa vào từ và âm tiết. Tác giả đề xuất phương pháp mới tiến hành thêm dấu ở từng âm tiết một cách độc lập.

Độ chính xác của phương pháp này lên đến 94.7%; Nguyễn Thái Ân [7] đã đề xuất xây dựng một mô hình phân loại cảm xúc người dùng trong mạng xã hội Twitter, đồng thời dựa vào phân tích để phân loại các chia sẻ thành các loại (N - negative – tệ, Neu – neutral – bình thường, P – positive – tốt) bằng các môn hình CNN, RNN, mô hình kết hợp giữa CNN và RNN (xử lý song song và xử lý tuần tự) với độ chính xác 64. Mô hình mạng neural kết hợp giữa CNN và RNN luôn cho kết quả tốt nhất; Phạm Hùng [11] đề xuất mô hình LSTM trong bài toán trích xuất thông tin quan điểm đối với 2 tập dữ liệu tiếng Anh và tiếng Việt. Tập dữ liệu tiếng Anh có độ chính xác là 82.76% và tập dữ liệu tiếng Việt có độ chính xác là 43. Luan van 6 Và rất nhiều các công trình nghiên cứu khác có liên quan tới vấn đề xử lý ngôn ngữ tự nhiên Tiếng Việt nói chung và bài toán phân loại cảm xúc nói riêng.

Vấn đề tồn tại - Nội dung bình luận, tán gẫu trên mạng xã hội của người dùng có số ký tự khá ngắn, thường chỉ một đến hai câu; Cảm xúc của người dùng sẽ bị chi phối bởi nội dung người dùng đang đọc, nghe hoặc tâm trạng của họ trước đó. Nên việc phân loại cảm xúc người dung trong mạng xã hội là một thách thức. - Các ký tự cảm xúc (emoticons) trên mạng xã hội khá đa dạng, có nhiều loại ký tự được thay đổi liên tục. Điều này gây khó khăn trong việc nắm bắt những biểu tượng cảm xúc đó thể hiện cho tâm trạng nào.

- Trong mạng xã hội, nội dung do người dùng viết ra không phải là văn bản chính thống nên từ ngữ bị viết tắt hoặc biến tướng đi rất nhiều, thậm chí là sai chính tả. Ngôn ngữ viết mang tính chất đa dạng, phụ thuộc vào cách viết của mỗi người dùng, nên việc nhận biết, chuyển đổi chúng sang cảm xúc không thể chính xác tuyệt đối. - Đối với bài toán phân loại cảm xúc người dùng, ý kiến của người dùng là về một sự vật hiện tượng được nói đến trong chính nội dung câu đó. Nhưng trong vấn đề khai phá cảm xúc, thì đối tượng nói tới không hẳn là có sẵn.

Ví dụ: “Bài hát này rất hay, mỗi lần nghe nó tôi lại cảm thấy buồn” thì đối tượng nói tới ở đây là “tôi” chứ không phải là bài hát. Do đó việc nhận diện chính xác đối tượng cũng là một thách thức lớn. Kết luận Đây là chương mở đầu của luận văn nhằm giới thiệu và tập trung xem xét một cách tổng quan về bài toán phân loại cảm xúc người dùng. Điều này giúp chúng ta có một cái nhìn sơ lược về bài toán, những thách thức cũng như khó khăn khi nghiên cứu lĩnh vực này.

Luan van 7 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2. Tổng quan về xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên là ngôn ngữ mà các loài động sử dụng để giao tiếp với nhau. Con người cũng là một loại động vật sử dụng ngôn ngữ để giao tiếp. Thế giới ngôn ngữ của con người rất phong phú, theo thống kê của các nhà khoa học thì có tới hàng ngàn ngôn ngữ tồn tại trên trái đất.

Ngôn ngữ tự nhiên có 2 dạng là chữ viết (ký tự) và âm thanh (tiếng nói). Ngôn ngữ của mỗi dân tộc, quốc gia lại khác nhau bao gồm cách viết và cách phát âm. Xử lý ngôn ngữ tự nhiên (Natural Language Processing – viết tắt là NLP) là một nhánh của trí tuệ nhân tạo tập trung vào việc nghiên cứu sự tương tác giữa máy tính và ngôn ngữ tự nhiên của con người. Mục tiêu của lĩnh vực này là giúp máy tính hiểu và thực hiện hiệu quả những nhiệm vụ liên quan đến ngôn ngữ của con người như: tương tác giữa người và máy nhằm nâng cao hiệu quả xử lý văn bản và tiếng nói [19].

Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” gồm có dữ liệu “văn bản” hay “tiếng nói”. Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu. Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cá nhân, của viễn thông, của thiết bị âm thanh, ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói. Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin.

Đặc trưng của ngôn ngữ tiếng Việt Trước khi đi sâu vào tìm hiểu đặc trưng của ngôn ngữ tiếng Việt, bài luận xin giới thiệu một định nghĩa sau làm ví dụ về định nghĩa từ: “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu”.[4] Luan van 8 Theo nghiên cứu và tổng hợp của Vietnam Lexicography Center, Tiếng Việt có khoảng 40.181 từ, số âm tiết là 7.55% các âm tiết đồng thời là các từ đơn, 70.72% các từ ghép có 2 âm tiết, 13.59% các từ ghép có 3, 4 âm tiết, 1.04% các từ ghép có từ 5 âm tiết trở lên. [18] Dưới đây là bảng thống kê chiều dài và số lượng từ được đo bằng âm tiết: Bảng 2.1: Bảng thống kê chiều dài và số lượng từ được đo bằng âm tiết Chiều dài Số lượng Tỷ lệ (%) 1 6,303 15.04 Tổng 40,181 100 Tiếng Việt có các phương thức cấu tạo như sau [4]: Từ đơn: Từ đơn, hay còn gọi là từ có 1 âm tiết, là các từ được cấu tạo bởi 1 từ duy nhất, ví dụ: Tôi, bạn, hoa, quả. Từ ghép: Từ ghép là các từ được tạo nên từ hai hoặc nhiều hơn hai từ. Giữa các từ có mối quan hệ về nghĩa với nhau, vì thế ta cũng có các loại từ ghép khác nhau.

- Từ ghép đẳng lập: Các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau, ví dụ: đi đứng, ăn nói. - Từ ghép chính phụ: Các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nhau về nghĩa. Thành phần phụ sẽ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính. Ví dụ: hoa hồng, đường sắt, áo xanh.

Từ láy: Một từ được coi là từ láy khi các yếu tố cấu tạo nên có thành phần ngữ âm được lặp lại, ví dụ: long lanh, lung linh. Độ dài từ láy thay đổi từ 2 tiếng đến 4 tiếng. Nhưng trong tiếng Việt đa số là từ láy hai tiếng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ của Nguyễn Thế Bảo tại Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh, mang tiêu đề "Luận văn thạc sĩ HCMUTE về phân loại cảm xúc trong văn bản tiếng Việt sử dụng phương pháp học sâu", tập trung vào việc áp dụng các phương pháp học sâu để phân loại cảm xúc trong văn bản tiếng Việt. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách thức mà công nghệ có thể được sử dụng để phân tích ngữ nghĩa trong ngôn ngữ tự nhiên, mà còn mở ra cơ hội cho các ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo. Độc giả sẽ tìm thấy giá trị trong việc hiểu rõ hơn về các kỹ thuật học sâu và cách chúng có thể được áp dụng để cải thiện khả năng phân tích cảm xúc trong văn bản.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến công nghệ thông tin và học máy, hãy khám phá thêm về Nghiên cứu ứng dụng học máy trong sửa lỗi tự động các lỗ hổng bảo mật, nơi mà các phương pháp học máy được áp dụng để cải thiện bảo mật. Bên cạnh đó, bạn cũng có thể tìm hiểu về Ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL, một nghiên cứu khác trong lĩnh vực xử lý ngôn ngữ tự nhiên. Cuối cùng, bài viết về Luận Văn Thạc Sĩ Về Ngăn Chặn Lan Truyền Thông Tin Xấu Trên Mạng Xã Hội cũng mang lại cái nhìn thú vị về việc ứng dụng công nghệ để giải quyết các vấn đề xã hội hiện nay. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của công nghệ trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#văn bản tiếng Việt

#phân tích cảm xúc

#phân loại cảm xúc

Chủ đề

nghiên cứu và ứng dụng trong giáo dục

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ học sâu

Phân tích cảm xúc trong văn bản