Luận Văn Thạc Sĩ Về Phân Tích Cảm Xúc Trong Khoa Học Máy Tính

Luận văn thạc sĩ nghiên cứu máy tính phân tích cảm xúc dựa trên khía cạnh, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Bách Khoa - ĐHQG TP.HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu bài toán

1.2. Mục tiêu và phạm vi đề tài

1.3. Cấu trúc luận văn

2. CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Sử dụng đặc trưng n-grams và từ điển cảm xúc

2.2. Mở rộng mô hình RNN và AdaRNN cho bài toán Phân tích cảm xúc dựa trên khía cạnh

2.3. Kết hợp cơ sở kiến thức chung vào LSTM

3. CHƯƠNG 3: CƠ SỞ KIẾN THỨC

3.1. Word Embedding

3.2. Biểu diễn từ bằng vectơ one-hot

3.3. Kỹ thuật Word2vec

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu bài toán

Phân tích cảm xúc dựa trên khía cạnh (Aspect Based Sentiment Analysis - ABSA) là một vấn đề quan trọng trong khoa học máy tính, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên. Với sự phát triển của công nghệ và Internet, việc phân tích các ý kiến từ văn bản về các sản phẩm, dịch vụ và các vấn đề xã hội đã trở nên cần thiết. Việc này không chỉ giúp người tiêu dùng đưa ra quyết định mua sắm mà còn cung cấp thông tin cho các nhà sản xuất về phản hồi từ khách hàng. Đề tài này tập trung vào việc nghiên cứu và xây dựng mô hình phân tích cảm xúc cho ngôn ngữ tiếng Việt, nhằm khai thác thông tin chi tiết từ văn bản. Theo nghiên cứu, việc phân loại các thái cực cảm xúc đối với một khía cạnh cụ thể trong câu có thể mang lại giá trị lớn cho nhiều lĩnh vực trong đời sống và nghiên cứu.

II. Nghiên cứu các công trình liên quan

Trong chương này, tác giả đã tổng hợp và phân tích các công trình nghiên cứu trước đây liên quan đến phân tích cảm xúc. Các nghiên cứu sớm chủ yếu dựa vào việc xây dựng đặc trưng từ câu đầu vào kết hợp với thông tin về ngữ nghĩa và cấu trúc câu. Một số phương pháp đáng chú ý bao gồm việc sử dụng đặc trưng n-grams và từ điển cảm xúc, kết hợp với các mô hình học máy như SVM. Nghiên cứu của Wagner và cộng sự vào năm 2014 đã trình bày phương pháp này, cho thấy độ chính xác cao trong việc phân loại cảm xúc. Hơn nữa, các mô hình như RNN và LSTM cũng đã được áp dụng để cải thiện độ chính xác của phân tích cảm xúc dựa trên khía cạnh. Những nghiên cứu này đã đặt nền móng cho việc phát triển các phương pháp mới trong lĩnh vực này.

III. Cơ sở kiến thức

Chương này trình bày các kiến thức nền tảng về machine learning và các mô hình ngôn ngữ. Một trong những kỹ thuật quan trọng là Word Embedding, cho phép biểu diễn từ dưới dạng các vectơ số, giúp máy tính hiểu được ngữ nghĩa của từ. Kỹ thuật Word2vec là một trong những phương pháp phổ biến nhất trong lĩnh vực này. Ngoài ra, mô hình BERT cũng được thảo luận, với khả năng nắm bắt ngữ cảnh trong câu, từ đó cải thiện độ chính xác của các hệ thống phân tích cảm xúc. Các công cụ và thư viện hỗ trợ cho việc nghiên cứu và xây dựng mô hình cũng được nêu rõ, tạo cơ sở cho việc thực hiện các thí nghiệm trong các chương tiếp theo.

IV. Phương pháp đề xuất

Tác giả đã đề xuất một phương pháp mới cho bài toán phân tích cảm xúc dựa trên khía cạnh, kết hợp giữa mô hình ngôn ngữ BERT và mạng nơ-ron. Phương pháp này được thiết kế để cải thiện khả năng phân loại cảm xúc trong các câu tiếng Việt. Các bước thực hiện bao gồm xây dựng câu phụ trợ, xử lý dữ liệu và huấn luyện mô hình. Đặc biệt, việc sử dụng các phương pháp học sâu giúp tối ưu hóa quá trình phân loại, từ đó nâng cao độ chính xác của mô hình. Các kết quả đạt được từ các thí nghiệm cũng được trình bày, cho thấy tính khả thi và hiệu quả của phương pháp đề xuất trong việc phân tích cảm xúc.

V. Kết quả thực nghiệm

Chương này tập trung vào việc trình bày kết quả thực nghiệm từ mô hình phân tích cảm xúc được xây dựng. Các kết quả cho thấy mô hình đã đạt được độ chính xác cao trong việc phân loại cảm xúc cho các câu tiếng Việt. Việc so sánh với các phương pháp trước đây cũng được thực hiện để đánh giá hiệu quả của mô hình. Đặc biệt, các chỉ số như Precision, Recall và F-measure được sử dụng để đo lường hiệu suất của mô hình. Kết quả này không chỉ khẳng định tính khả thi của phương pháp đề xuất mà còn mở ra hướng nghiên cứu mới cho việc ứng dụng phân tích cảm xúc trong các lĩnh vực khác nhau.

VI. Kết luận

Luận văn đã thành công trong việc nghiên cứu và xây dựng mô hình phân tích cảm xúc dựa trên khía cạnh cho ngôn ngữ tiếng Việt. Những đóng góp của nghiên cứu không chỉ nằm ở việc phát triển mô hình mà còn cung cấp thông tin hữu ích cho các hệ thống phân tích cảm xúc trong tương lai. Hạn chế của nghiên cứu cũng được chỉ ra, cùng với các hướng phát triển tiếp theo, nhằm cải thiện hơn nữa độ chính xác và khả năng ứng dụng của mô hình trong thực tế. Những kết quả đạt được từ nghiên cứu này có thể được áp dụng trong nhiều lĩnh vực, từ thương mại điện tử đến quản lý phản hồi từ khách hàng.

09/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân tích cảm xúc dựa trên khía cạnh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân tích cảm xúc dựa trên khía cạnh (Aspect Based Sentiment Analysis - ABSA) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên, nhằm khai thác ý kiến và thái độ của người dùng về các khía cạnh cụ thể của sản phẩm hoặc dịch vụ. Với sự phát triển mạnh mẽ của Internet và mạng xã hội, nguồn dữ liệu đánh giá trực tuyến ngày càng phong phú, tạo điều kiện thuận lợi cho việc nghiên cứu và ứng dụng ABSA. Theo ước tính, tập dữ liệu UIT-ViSFD gồm hơn 11,000 đánh giá về điện thoại thông minh tại Việt Nam đã được sử dụng để đánh giá mô hình trong nghiên cứu này.

Mục tiêu chính của luận văn là xây dựng một mô hình phân tích cảm xúc dựa trên khía cạnh dành cho ngôn ngữ tiếng Việt, tận dụng mô hình ngôn ngữ BERT kết hợp với mạng nơ-ron truyền thẳng và các phương pháp xây dựng câu phụ trợ nhằm chuyển đổi bài toán thành phân loại cặp câu. Phạm vi nghiên cứu tập trung vào dữ liệu tiếng Việt thu thập từ các trang thương mại điện tử trong khoảng thời gian gần đây, với 10 khía cạnh và 3 nhãn cảm xúc chính: tích cực, trung tính và tiêu cực.

Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp công cụ phân tích cảm xúc chính xác cho các doanh nghiệp và tổ chức, giúp họ hiểu rõ hơn về phản hồi khách hàng, từ đó cải thiện sản phẩm và dịch vụ. Đồng thời, kết quả nghiên cứu cũng góp phần phát triển các hệ thống xử lý ngôn ngữ tự nhiên dành riêng cho tiếng Việt, một ngôn ngữ còn nhiều thách thức về mặt kỹ thuật.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Mô hình BERT (Bidirectional Encoder Representations from Transformers): Đây là mô hình ngôn ngữ tiên tiến sử dụng kiến trúc Transformer với cơ chế attention hai chiều, cho phép học các mối quan hệ ngữ cảnh phức tạp giữa các từ trong câu. BERT được huấn luyện trước trên kho văn bản lớn và có khả năng tinh chỉnh cho các bài toán cụ thể như phân loại cảm xúc.
Mạng nơ-ron truyền thẳng (Feedforward Neural Network): Được sử dụng như lớp phân loại cuối cùng, nhận đầu ra từ token đặc biệt [CLS] của BERT để dự đoán nhãn cảm xúc.

Các khái niệm chính bao gồm:

Phân tích cảm xúc dựa trên khía cạnh (ABSA): Xác định khía cạnh được đề cập trong câu và phân loại thái cực cảm xúc tương ứng.
Câu phụ trợ (Auxiliary Sentence): Các câu được xây dựng dựa trên khía cạnh nhằm chuyển đổi bài toán thành phân loại cặp câu.
Các nhãn cảm xúc: Tích cực (Positive), Trung tính (Neutral), Tiêu cực (Negative), và nhãn "không đề cập" cho các khía cạnh không xuất hiện trong câu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập UIT-ViSFD gồm 11,122 đánh giá về điện thoại thông minh bằng tiếng Việt, với 10 khía cạnh và 3 nhãn cảm xúc. Dữ liệu được tiền xử lý qua bước phân tách từ (word segmentation) bằng công cụ Underthesea và token hóa phù hợp với mô hình BERT.

Phương pháp phân tích sử dụng mô hình PhoBERT (phiên bản base) được huấn luyện trước dành riêng cho tiếng Việt, kết hợp với mạng nơ-ron truyền thẳng để phân loại. Bốn phương pháp xây dựng câu phụ trợ được đề xuất nhằm biến đổi bài toán thành phân loại cặp câu:

Câu cho QA-M (câu hỏi nhiều lớp)
Câu cho NLI-M (câu giả nhiều lớp)
Câu cho QA-B (câu hỏi nhị phân)
Câu cho NLI-B (câu giả nhị phân)

Mỗi phương pháp tạo ra tập huấn luyện và đánh giá riêng biệt. Mô hình được huấn luyện với 5 epoch, learning rate 1e-6, batch size 3 và dropout 0.5. Đánh giá sử dụng chỉ số F1 cho việc xác định khía cạnh và độ chính xác (Accuracy) cho phân loại cảm xúc.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp QA-M và NLI-M: Hai phương pháp này đạt F1 lần lượt là 89.09% và 88.82% trong việc xác định khía cạnh, đồng thời cho độ chính xác phân loại cảm xúc cao, thể hiện khả năng nhận diện và phân loại cảm xúc chính xác trên tập dữ liệu tiếng Việt.
Hiệu suất thấp hơn của QA-B và NLI-B: Mặc dù tạo ra tập dữ liệu lớn hơn và phức tạp hơn, hai phương pháp này chỉ đạt F1 khoảng 79.21% và 85.6%, cho thấy việc phân loại nhị phân với nhiều mẫu hơn không đảm bảo hiệu quả cao hơn.
Tác động của câu phụ trợ: Việc xây dựng câu phụ trợ phù hợp với ngôn ngữ tiếng Việt đóng vai trò quan trọng trong việc cải thiện hiệu quả mô hình, đặc biệt là các câu hỏi mang tính mô tả rõ ràng về khía cạnh và cảm xúc.
Tốc độ xử lý và tối ưu mã nguồn: Mô hình hiện tại chưa được tối ưu song song, dẫn đến tốc độ xử lý còn chậm, ảnh hưởng đến khả năng ứng dụng thực tế.

Thảo luận kết quả

Kết quả cho thấy mô hình kết hợp PhoBERT và mạng nơ-ron truyền thẳng cùng với phương pháp xây dựng câu phụ trợ QA-M và NLI-M là hướng đi khả thi cho bài toán ABSA tiếng Việt. So với các nghiên cứu trước đây sử dụng các phương pháp truyền thống như SVM hay RNN, mô hình này tận dụng được sức mạnh của BERT trong việc hiểu ngữ cảnh phức tạp.

Biểu đồ so sánh F1 và Accuracy giữa bốn phương pháp xây dựng câu phụ trợ sẽ minh họa rõ sự khác biệt hiệu quả. Nguyên nhân hiệu quả thấp hơn của QA-B và NLI-B có thể do sự phức tạp trong xử lý kết quả và kích thước tập dữ liệu lớn gây khó khăn cho việc học.

So sánh với các nghiên cứu quốc tế, kết quả này là bước tiến quan trọng trong việc phát triển các hệ thống phân tích cảm xúc dành riêng cho tiếng Việt, một ngôn ngữ có cấu trúc và đặc điểm riêng biệt.

Đề xuất và khuyến nghị

Tinh chỉnh mô hình học máy: Cần tiếp tục điều chỉnh các tham số huấn luyện, thử nghiệm các kiến trúc mạng nơ-ron sâu hơn hoặc kết hợp các kỹ thuật attention để nâng cao độ chính xác phân loại cảm xúc.
Tối ưu mã nguồn: Áp dụng kỹ thuật tối ưu song song và tăng tốc phần cứng để cải thiện tốc độ xử lý, giúp mô hình có thể ứng dụng trong môi trường thực tế với khối lượng dữ liệu lớn.
Đa dạng hóa tập dữ liệu: Thu thập và xây dựng thêm các tập dữ liệu đa dạng về lĩnh vực và ngôn ngữ tiếng Việt nhằm tăng tính tổng quát và khả năng áp dụng của mô hình.
Phát triển phương pháp xây dựng câu phụ trợ mới: Nghiên cứu và đề xuất các phương pháp kết hợp hoặc cải tiến câu phụ trợ phù hợp hơn với đặc thù ngôn ngữ tiếng Việt, nhằm nâng cao hiệu quả phân loại.
So sánh và đánh giá với các phương pháp khác: Thực hiện các thí nghiệm so sánh với các mô hình hiện đại khác như Transformer đa nhiệm hoặc mô hình học sâu kết hợp kiến thức ngữ nghĩa để đánh giá toàn diện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức nền tảng và phương pháp ứng dụng mô hình BERT cho bài toán phân tích cảm xúc tiếng Việt.
Doanh nghiệp phát triển sản phẩm và dịch vụ: Các công ty thương mại điện tử, dịch vụ khách hàng có thể áp dụng mô hình để phân tích phản hồi người dùng, cải thiện chất lượng sản phẩm.
Chuyên gia phân tích dữ liệu và trí tuệ nhân tạo: Tài liệu giúp hiểu rõ cách xây dựng và huấn luyện mô hình phân loại cảm xúc dựa trên khía cạnh, từ đó phát triển các ứng dụng AI phù hợp.
Cơ quan quản lý và nghiên cứu xã hội: Sử dụng kết quả phân tích cảm xúc để đánh giá thái độ người dân về các chính sách, sự kiện xã hội, hỗ trợ ra quyết định chính sách.

Câu hỏi thường gặp

Phân tích cảm xúc dựa trên khía cạnh là gì?
Là kỹ thuật xác định cảm xúc (tích cực, tiêu cực, trung tính) liên quan đến từng khía cạnh cụ thể trong câu, giúp hiểu sâu sắc hơn về ý kiến người dùng.
Tại sao chọn mô hình BERT cho bài toán này?
BERT có khả năng học ngữ cảnh hai chiều, giúp hiểu chính xác hơn các mối quan hệ phức tạp trong câu, nâng cao hiệu quả phân loại cảm xúc.
Câu phụ trợ có vai trò gì trong mô hình?
Câu phụ trợ giúp chuyển đổi bài toán phân tích cảm xúc thành bài toán phân loại cặp câu, làm rõ khía cạnh và cảm xúc cần phân loại, tăng độ chính xác.
Tập dữ liệu UIT-ViSFD có đặc điểm gì?
Gồm hơn 11,000 đánh giá tiếng Việt về điện thoại thông minh, với 10 khía cạnh và 3 nhãn cảm xúc, là nguồn dữ liệu thực tế và đa dạng để huấn luyện mô hình.
Làm thế nào để cải thiện tốc độ xử lý mô hình?
Tối ưu mã nguồn, áp dụng kỹ thuật song song, sử dụng phần cứng mạnh hơn và giảm kích thước batch hợp lý sẽ giúp tăng tốc độ xử lý.

Kết luận

Đã xây dựng thành công mô hình phân tích cảm xúc dựa trên khía cạnh cho tiếng Việt, kết hợp PhoBERT và mạng nơ-ron truyền thẳng.
Phương pháp xây dựng câu phụ trợ QA-M và NLI-M cho kết quả khả quan với F1 trên 88%.
Mô hình hiện tại còn hạn chế về tốc độ xử lý và độ chính xác so với mô hình tham khảo.
Đề xuất các hướng phát triển như tinh chỉnh mô hình, tối ưu mã nguồn và đa dạng hóa dữ liệu.
Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình để nâng cao chất lượng phân tích cảm xúc tiếng Việt.

Tiếp theo, việc mở rộng nghiên cứu và áp dụng mô hình trong các lĩnh vực thực tế sẽ góp phần nâng cao giá trị ứng dụng của đề tài. Độc giả quan tâm có thể tiếp cận mã nguồn và dữ liệu để phát triển thêm các giải pháp mới.

Trích đoạn nội dung tài liệu

Chương 1 (chương hiện tại), tôi giới thiệu khái quát về đề tài luận văn, nêu rõ mục tiêu và phạm vi đề tài. Chương này giúp cho người đọc có cái nhìn toàn cảnh về luận văn. Ở những chương sau, tôi trình bày các kiến thức nền tảng, các công trình liên quan đến bài toán và chi tiết về mô hình xề xuất cũng như các thí nghiệm và kết quả đánh giá của mô hình. Cụ thể nội dung chính của mỗi chương như sau: Chương 2: Các công trình nghiên cứu liên quan Trong Chương 2, tôi trình bày khái quát về một số phương pháp tiếp cận giải quyết bài toán "Phân tích cảm xúc dựa trên khía cạnh" Chương 3: Kiến thức nền tảng Chương 3 trình bày ngắn gọn các kiến thức, công nghệ nền tảng, cùng một số thư viện và công cụ được sử dụng trong quá trình nghiên cứu và hiện thực mô hình.

Chương 4: Phương pháp đề xuất Trong Chương 4, tôi trình bày các yêu cầu của bài toán "Phân tích cảm xúc dựa trên khía cạnh", và đề xuất phương pháp giải quyết bài toán này. Chương 5: Hiện thực mô hình và kết quả thực nghiệm Chương này trình bày chi tiết về hiện thực của mô hình, các công cụ và thư viện sử dụng, các bước thực hiện, các phương pháp đánh giá và kết quả 3 thực nghiệm. Chương 6: Kết luận Trong chương cuối cùng, tôi tóm tắt kết quả đạt được trong quá trình làm luận văn, trình bày những đóng góp và hạn chế của luận văn, và đề xuất hướng phát triển tiếp theo. 4 Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Các công trình nghiên cứu sớm nhất về Phân tích cảm xúc dựa trên khía cạnh chủ yếu dựa trên việc xây dựng các đặc trưng từ câu đầu vào kết hợp với một số thông tin về ngữ nghĩa, khái niệm và cấu trúc của các thành phần trong câu.

Sử dụng đặc trưng n-grams và từ điển cảm xúc Trong công trình nghiên cứu năm 2014 [3] Wagner và cộng sự đã trình bày phương pháp sử dụng đặc trưng n-grams (với n từ 1 đến 5) kết hợp với đặc trưng trích xuất từ điểm số chỉ định bởi một từ điển cảm xúc (sentiment lexicon) để xây dựng các đặc trưng cho câu đầu vào. Hệ thống phân loại sử dụng học máy có giám sát với SVM để phân loại một khía cạnh vào một trong bốn lớp. Đặc trưng xây dựng là "word n-grams" (với n từ 1 tới 5) xung quanh từ chỉ khía cạnh (aspect term) kết hợp với đặc trưng trích xuất từ điểm số được gán bởi một từ điển cảm xúc (sentiment lexicon). Có bốn từ điển cảm xúc được sử dụng, bao gồm: − MPQA [4] phân loại một từ hoặc một cụm vào các lớp tích cực, tiêu cực, cả hai hoặc trung tính với mức độ chủ quan mạnh hoặc yếu.

5 Dataset System Training Test Laptop Baseline - 51.1% Laptop All positive 41.1% Laptop Rule-based 65.3% Restaurant All positive 58.2% Restaurant Rule-based 69.1: Độ chính xác của hệ thống cơ sở, một hệ thống phân loại mọi mẫu vào lớp tích cực, hệ thống dựa trên các luật và hệ thống sử dụng SVM trên tập huấn luyện và tập đánh giá − SentiWordNet [5] đầu ra là nhãn tích cực hoặc tiêu cực cùng với điểm số chủ quan. − General Inquirer xác định một từ biểu diễn cảm xúc tích cực hay tiêu cực − Bing Liu’s Opinion Lexicon [6] xác định một từ biểu diễn cảm xúc tích cực hay tiêu cực Dựa trên kết hợp điểm số của của các từ điển cảm xúc, nhóm tác giả của công trình này trước hết đã xây dựng một hệ thống phân loại dựa trên các luật (rule-based) để phân loại thái cực cảm xúc của một từ khía cạnh. Từ đó khám phá thêm nhiều cách khác nhau để biến đổi hệ thống dựa trên các luật này thành các đặc trưng có thể kết hợp được với các đặc trưng bag-of-n-gram trong một hệ thống học máy có giám sát sử dụng SVM.1 thể hiện độ chính xác huấn luyện và đánh giá của hệ thống cơ sở, một hệ thống phân loại mọi mẫu là tích cực, hệ thống dựa trên các luật và hệ thống sử dụng SVM. Mở rộng mô hình RNN và AdaRNN cho bài toán Phân tích cảm xúc dựa trên khía cạnh Năm 2015, Thien Hai Nguyen cùng cộng sự đã đề xuất phương pháp ứng dụng mạng nơ-ron hồi quy (RNN) [7] để giải quyết bài toán phân tích cảm xúc dựa trên khía cạnh.

Phương pháp này đã đạt được độ chính xác cao hơn so với các phương pháp trước đó. Phương pháp mà nhóm tác giả đề xuất là một mô hình mở rộng của RNN và AdaRNN, ý tưởng cơ bản của mô hình này là làm cho biểu diễn khía cạnh phong phú hơn bằng cách sử dụng thông tin cú pháp từ cả cây phụ thuộc và cây cấu thành của câu. Trong RNN và AdaRNN, cho một câu chứa một khía cạnh, cây phụ thuộc nhị phân (binary dependency tree) được xây dựng từ cây phụ thuộc của câu. Về mặt trực quan, nó biểu thị các quan hệ cú pháp liên kết với khía cạnh.

Mỗi từ (lá) hay cụm từ (nút nội) trong cây phụ thuộc nhị phân được biểu diễn dưới dạng một véc tơ d chiều. Tư nút là đi lên nút gốc, biểu diễn của một nút cha v được tính toán bằng cách kết hợp các vectơ biểu diễn của nút con bên trái (vl ) và nút con bên phải (vl ) sử dụng một hàm toàn cục g trong RNN:   vl g(vl , vr ) = W   + b (2.1) vr trong đó W ∈ Rd×2d là ma trận hợp (composition matrix) và b ∈ Rd là độ lệch (bias). Cuối cùng v = f (g(vl ,Vr )) trong đó f là một hàm phi tuyến ví dụ như hàm tanh. Thay vì sử dụng một hàm toàn cục g duy nhất, AdaRNN sử dụng n 7 hàm tổng hợp G = {g1 , ., gn } và lựa chọn chúng dựa trên các thẻ ngôn ngữ (linguistic tags) và kết hợp các véc-tơ như sau: n v = f ( ∑ P(gi |vl , vr , e)gi (vl , vr )) (2.2) n=1 Trong mô hình PhraseRNN, biểu diễn của một khía cạnh sẽ thu được từ "cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu" (target dependent binary phrase dependency tree) được xây dựng bằng cách kết hợp cây thành phần (constituent tree) và cây phụ thuộc (dependency tree).1: Cấu trúc phân cấp trong PhraseRNN: (a) Cây phụ thuộc, (b) Cây phụ thuộc cụm, (c) Cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu Đầu tiên, các cụm cơ bản được trích xuất từ cây thành phần của câu.

Với một cây phụ thuộc và một danh sách các cụm, một cây phụ thuộc cụm (phrase dependency tree) được tao ra. Tiếp theo, cây phụ thuộc cụm này sẽ được biến đổi thành một cây phụ thuộc cụm từ nhị phân phụ thuộc mục tiêu. Mỗi nốt trong cây nhị phân này được biểu diễn dưới dạng một véc tơ d chiều. PhraseRNN sử dụng hai loại hàm tổng hợp khác nhau, kết hợp hai loại hàm này tạo ra bốn mô hình với kết quả đánh giá như trong bảng 2.2 8 Phương pháp Accuracy Precision Recall F-measure PhraseRNN-1 64.2: Kết quả đánh giá các phương pháp PhraseRNN 9 2.

Kết hợp cơ sở kiến thức chung vào LSTM Trong nghiên cứu năm 2018 [8], Yukun Ma và cộng sự đã kết hợp kiến thức chung hữu ích vào một mạng nơ-ron học sâu để cải thiện hơn nữa kết quả của mô hình Phân tích cảm xúc dựa trên khía cạnh. Phương pháp này học cùng lúc target-specific instance attention và global attention. Đóng góp của phương pháp được trình bày trong nghiên cứu này bao gồm 3 phần: 1. Đề xuất một mô hình chú ý phân cấp (hierarchical attention model), trước hết chú ý đến các mục tiêu và sau đó đến toàn bộ câu.

Mở rộng phần tử LSTM cổ điển với các thành phần chịu trách nhiệm cho sự tích hợp với kiến thức bên ngoài; 3. Kết hợp kiến thức thông thường vào một mạng nơ-ron học sâu. Kiến trúc nơ-ron của mô hình này bao gồm hai thành phần: bộ mã hoá chuỗi (sequence encoder) và một thành phần chú ý phân cấp (a hierarchical attention component).2 minh hoạ cách thức hoạt động của kiến trúc nơ-ron. Cho một câu s = {w1 , w2 , ., wL }, đầu tiên một tác vụ tìm kiếm sẽ được thực hiện để chuyển đổi các từ đầu vào thành các embeddings.

Bộ mã hoá chuỗi sử dụng trong mô hình này dựa trên một mô hình LSTM hai chiều, biến đổi embeddings của các từ thành một chuỗi các đầu ra ẩn (hidden output). Thành phần chú ý sẽ được đặt trên các hidden output. Thành phần chú ý mức mục tiêu (target-level attention) nhận đầu vào là các hidden output ở vị trí của các từ chỉ mục tiêu (màu nâu trong hình) và tính toán véc tơ self-attention cho các từ này. Đầu ra của thành phần target-level attention là một biểu diễn của mục 10 Hình 2.2: Tổng quan kiến trúc tiêu.

Sau cùng, biểu diễn mục tiêu cùng với các embeddings khía cạnh được sử dụng cho việc tính toán một sentence-level attention, biến đổi cả câu thành một véc tơ. Véc tơ này được đưa vào bộ phân loại nhiều nhãn để phân giải thái cực cảm xúc của cặp mục tiêu và khía cạnh trong câu. Để cải thiện độ chính xác của bộ phân loại cảm xúc, nghiên cứu này còn sử dụng thêm bộ dữ liệu về kiến thức chung để làm nguồn tri thức đưa vào bộ mã hoá chuỗi. Cụ thể, nghiên cứu này sử dụng SenticNet một cơ sở kiến thức chung chứa 50,000 khái niệm liên quan đến một tập hợp các thuộc tính cảm xúc phong phú.

Các thuộc tính cảm xúc này không chỉ cung cấp sự biểu diễn ở cấp độ khái niệm mà còn cung cấp các liên kết ngữ nghĩa với các khía cạnh và cảm xúc của chúng. Ví dụ, khái niệm ’rotten fish’ (cá ươn) có thuộc tính "KindOffood" (Loại thực phẩm) có liên hệ trực tiếp với các khía cạnh như ’restaurant’ (nhà hàng) hay ’food quality’ (chất lượng thực phẩm). Để tận dụng kiến thức chung về cảm xúc của SenticNet một cách hiệu quả, các tác giả của nghiên cứu này đã đề xuất một phần mở rộng liên quan đến cảm xúc của LSTM, được gọi là Sentic LSTM. Sentic LSTM hướng đến đưa ra các khái niệm với hai vai trò quan trọng: 1) hỗ trợ lọc thông tin từ bước này sang bước tiếp theo và 2) cung cấp thông tin bổ sung cho ô nhớ.

11 Chương 3 CƠ SỞ KIẾN THỨC 3. Word Embedding Word Embedding là một phương pháp hiệu quả trong việc biểu diễn từ. Nó đề xuất rằng một vector biểu diễn từ có thể hàm chứa ngữ nghĩa của các từ trong các vectơ số, từ đó có thể được xử lý một cách hiệu quả bằng máy tính.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ Về Phân Tích Cảm Xúc Trong Khoa Học Máy Tính của tác giả Vũ Duy Quang, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ và TS. Nguyễn Thiên Bình, được thực hiện tại Đại học Bách Khoa - ĐHQG TP.HCM vào năm 2022. Bài viết tập trung vào việc phân tích cảm xúc trong lĩnh vực khoa học máy tính, khám phá các phương pháp và kỹ thuật để nhận diện và phân loại cảm xúc từ dữ liệu. Điều này không chỉ giúp nâng cao khả năng tương tác giữa con người và máy tính mà còn mở ra hướng đi mới trong việc phát triển các ứng dụng trí tuệ nhân tạo.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo các bài viết liên quan như Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi trình bày cách áp dụng học máy trong nhận diện giọng nói, hay Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, nghiên cứu về nhận diện giọng nói tiếng Việt thông qua các mô hình học sâu. Cuối cùng, bài viết Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ cũng cung cấp cái nhìn sâu sắc về việc ứng dụng học sâu trong các lĩnh vực ngôn ngữ mà không cần dữ liệu song ngữ, mở rộng khả năng ứng dụng trong phân tích cảm xúc. Những tài liệu này sẽ giúp bạn có cái nhìn đa chiều hơn về các ứng dụng của cảm xúc trong khoa học máy tính và trí tuệ nhân tạo.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#phân tích cảm xúc

Chủ đề

Ứng dụng của phân tích cảm xúc trong công nghệ

Phương pháp và kỹ thuật trong phân tích cảm xúc

Tương lai của khoa học máy tính và cảm xúc

Nghiên cứu và phát triển trong lĩnh vực trí tuệ nhân tạo