Nghiên Cứu Mô Hình Markov Ẩn Bậc Cao Để Xác Định Cảm Xúc Từ Văn Bản

Luận văn thạc sĩ phân tích máy tính mô hình markov ẩn bậc cao cho việc xác định cảm xúc từ văn bản, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2012

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu về Mô hình Markov Ẩn Bậc Cao

Mô hình Markov Ẩn Bậc Cao (High-order Hidden Markov Model - HOHMM) là một phương pháp tiên tiến trong xác định cảm xúc từ văn bản. Mô hình này mô phỏng quá trình biến đổi trạng thái tinh thần dẫn đến sự phát sinh cảm xúc. Phân tích văn bản dựa trên HOHMM giúp máy tính hiểu được cảm xúc con người thông qua ngôn ngữ tự nhiên. Phương pháp này không chỉ dựa trên từ khóa cảm xúc mà còn xem xét các yếu tố ngữ nghĩa và cú pháp, mang lại độ chính xác cao hơn so với các phương pháp truyền thống.

1.1. Ứng dụng của Mô hình Markov Ẩn Bậc Cao

Mô hình Markov Ẩn Bậc Cao được ứng dụng rộng rãi trong xử lý ngôn ngữ tự nhiên và học máy. Nó giúp cải thiện khả năng dự đoán cảm xúc từ văn bản, đặc biệt trong các hệ thống tương tác giữa người và máy. Ví dụ, hệ thống đọc văn bản thành tiếng có thể điều chỉnh ngữ điệu dựa trên cảm xúc được xác định. Phương pháp này cũng được sử dụng trong phân loại văn bản và tối ưu hóa nội dung cho các chiến lược SEO.

II. Phương pháp đề xuất

Phương pháp đề xuất trong luận văn sử dụng Mô hình Markov Ẩn Bậc Cao để xác định cảm xúc từ văn bản. Quá trình này bao gồm việc phân tách văn bản, so sánh tương tự ngữ nghĩa, và tự động sinh trạng thái cho mô hình. Latent Semantic Indexing (LSI) được áp dụng để đánh giá độ tương tự ngữ nghĩa giữa các từ và cụm từ. Kết quả thực nghiệm trên tập dữ liệu ISEAR cho thấy phương pháp này vượt trội so với các phương pháp tiên tiến khác.

2.1. Xây dựng mô hình Markov Ẩn Bậc Cao

Quá trình xây dựng Mô hình Markov Ẩn Bậc Cao bao gồm các bước: phân tách văn bản, so sánh tương tự ngữ nghĩa, và tự động sinh trạng thái. Mỗi trạng thái trong mô hình đại diện cho một trạng thái tinh thần, và sự chuyển đổi giữa các trạng thái này được mô hình hóa bằng xác suất. Phân tích ngữ nghĩa được sử dụng để đánh giá xác suất sinh ký hiệu và chuyển trạng thái, giúp mô hình chính xác hơn.

III. Đánh giá phương pháp

Phương pháp đề xuất được đánh giá dựa trên tập dữ liệu ISEAR, một tập dữ liệu chuẩn trong xác định cảm xúc từ văn bản. Kết quả cho thấy Mô hình Markov Ẩn Bậc Cao đạt độ chính xác cao hơn so với các phương pháp dựa trên từ khóa và học máy. Phương pháp này cũng linh hoạt hơn, dễ dàng áp dụng cho các miền dữ liệu khác nhau. Phân tích ngữ nghĩa và tối ưu hóa nội dung là những yếu tố chính giúp cải thiện hiệu suất của mô hình.

3.1. So sánh với các phương pháp khác

So sánh với các phương pháp như Vector Space Model và Latent Semantic Analysis, Mô hình Markov Ẩn Bậc Cao cho kết quả tốt hơn trong việc xác định cảm xúc từ văn bản. Phương pháp này không chỉ dựa trên từ khóa mà còn xem xét các yếu tố ngữ nghĩa và cú pháp, giúp cải thiện độ chính xác. Kết quả thực nghiệm cho thấy sự vượt trội của phương pháp đề xuất trong việc dự đoán cảm xúc và phân loại văn bản.

IV. Kết luận và hướng phát triển

Mô hình Markov Ẩn Bậc Cao là một phương pháp hiệu quả trong xác định cảm xúc từ văn bản. Phương pháp này không chỉ cải thiện độ chính xác mà còn linh hoạt và dễ dàng áp dụng cho các miền dữ liệu khác nhau. Hướng phát triển trong tương lai bao gồm việc tích hợp thêm các yếu tố ngữ nghĩa và cú pháp, cũng như mở rộng ứng dụng trong các lĩnh vực như xử lý ngôn ngữ tự nhiên và học máy.

4.1. Hướng phát triển tương lai

Hướng phát triển của Mô hình Markov Ẩn Bậc Cao bao gồm việc tích hợp thêm các yếu tố ngữ nghĩa và cú pháp để cải thiện độ chính xác. Ngoài ra, phương pháp này có thể được mở rộng ứng dụng trong các lĩnh vực như phân loại văn bản, tối ưu hóa nội dung, và chiến lược SEO. Việc sử dụng các tập dữ liệu lớn hơn và đa dạng hơn cũng là một hướng nghiên cứu tiềm năng.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính mô hình markov ẩn bậc cao cho việc xác định cảm xúc từ văn bản

Tải đầy đủ

Trích đoạn nội dung tài liệu

chương 1, nhược điểm lớn nhất của các phương pháp thuộc nhóm này đó là việc bị lệ thuộc vào sự xuất hiện của các từ khóa cảm xúc trong văn bản.  Các phương pháp dựa trên học máy Các phương pháp thuộc nhóm này nhìn vấn đề xác định cảm xúc cho văn bản dưới góc độ của một bài toán phân loại văn bản. Sử dụng các kĩ thuật học máy dựa trên nền tảng mạnh mẽ của xác suất thống kê, mỗi phương pháp trong nhóm này khai thác những đặc tính khác nhau rút trích được từ văn bản để từ đó thực hiện phân loại cho văn bản vào hai hay nhiều loại cảm xúc khác nhau. Các kĩ thuật học máy đã được sử dụng để giải quyết vấn đề này bao gồm cả những kĩ thuật rất cơ bản, phổ biến như Naïve Bayes (NB) [20], Support Vector Machine (SVM), and Conditional Random Fields (CRF).

Trong [25], các kĩ thuật SVM và CRF được sử dụng để xác định cảm xúc cho cả mức độ câu và mức độ tài liệu. Để xác định cảm xúc cho một câu, các từ khóa thuộc một tập đã xác định trước trong câu đó được rút trích ra, để từ đó tạo thành các đặc tính (feature set) đưa vào cho bộ phân loại để thực hiện việc xác định cảm xúc. Hai bộ phân loại trong công trình này, lần lượt sử dụng SVM và CRF, được huấn luyện có giám sát bằng một tập dữ liệu với cảm xúc đã xác định sẵn lấy từ các trang blog. Cảm xúc cho một tài liệu, được xác định bằng các heuristic dựa trên cảm xúc của từng câu trong tài liệu đó, lần lượt là: cảm xúc chiếm đa số các câu, cảm xúc của chuỗi các câu liên tiếp có cùng cảm xúc dài nhất và cảm xúc của câu cuối cùng trong tài liệu.

Trong [3] sử dụng mô hình không gian vectơ (Vector Space Model – VSM), một kĩ thuật cơ bản trong Truy hồi thông tin, thực hiện việc phân loại để xác định cảm xúc cho các tài liệu. Mỗi tài liệu được biểu diễn trong VSM bởi một vectơ mà mỗi thành phần của nó ứng với một từ khóa, và giá trị của mỗi thành phần là trọng 23 số thể hiện mức độ quan trọng của từ khóa tương ứng đối với tài liệu. Mỗi cảm xúc cũng được biểu diễn bởi một vectơ, là trung bình của các vectơ biểu diễn của các văn bản được gán cảm xúc đó trong tập dữ liệu huấn luyện. Cảm xúc cho một tài liệu được xác định là cảm xúc có vectơ biểu diễn gần với vectơ biểu diễn của tài liệu đó nhất (cosin của góc hợp bởi hai vectơ đó là lớn nhất).

Với nhận xét rằng những từ ngữ không phải từ khóa trực tiếp thể hiện cảm xúc, ví dụ: gift (món quà), school (trường học)…, cũng có thể hiện cảm xúc, việc xác định cảm xúc của [20] xét thêm cả những từ ngữ này. Phương pháp này sử dụng phương pháp Phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysic – LSA) thu giảm số chiều cho VSM để khai thác những mối quan hệ ngữ nghĩa tiềm ẩn giữa các từ ngữ. Nhờ đó, dựa vào các tập từ khóa cảm xúc định nghĩa trước (WordNet- Affect [21]), cảm xúc cho các từ không phải từ khóa cũng được xác định và sử dụng cho việc xác định cảm xúc của các tài liệu. Ngoài ra, vectơ đại diện cho mỗi cảm xúc, thay vì dựa vào tập dữ liệu huấn luyện, được xác định bằng cách tính tổng của tất cả các vectơ biểu diễn của các từ khóa đại diện cho cảm xúc đó và các từ đồng nghĩa của nó.

Phương pháp này đã đạt được một kết quả khá khả quan. Kết quả thực nghiệm cho thấy các phương pháp này đều tốt hơn so với LSA. Dù sử dụng nhiều kĩ thuật học máy khác nhau nhưng các phương pháp nhóm này về bản chất vẫn phụ thuộc vào các từ khóa cảm xúc. Việc sử dụng các từ khóa đó ẩn trong các đặc tính dùng cho việc phân loại.

Tuy nhiên, khác với các phương pháp dựa trên từ khóa chỉ xét đơn thuần một từ khóa có xuất hiện trong tài liệu hay không, các phương pháp nhóm này đã dựa vào xác suất thống kê để đánh giá trọng số cho các từ khóa đối với tài liệu, nhờ đó đạt kết quả tốt hơn. 24  Các phương pháp dựa trên ngữ nghĩa Cảm xúc là một khái niệm trừu tượng phức tạp, nên việc nhận biết cảm xúc chỉ dựa trên các đặc tính về từ ngữ như hai nhóm phương pháp trên là một thiếu sót. Do đó, nhóm phương pháp thứ ba tập trung khai thác thêm những khía cạnh ngữ nghĩa như: cấu trúc cú pháp, đặc điểm tâm lý… để từ đó rút trích ra những đặc tính mới cho việc xác định cảm xúc. Công trình trong [24] dựa trên nghiên cứu tâm lý về những điều kiện phát sinh của cảm xúc để đúc kết thành một tập các Luật sinh cảm xúc (Emotion Generation Rules – EGR).

Mỗi câu trong tập dữ liệu huấn luyện được gán nhãn cảm xúc và EGR thích hợp nhất tương ứng với nó. Các nhãn ngữ nghĩa gồm ba loại, tương ứng với các động từ quan trọng rút trích từ các EGR, các từ ngữ phủ định (no, never…) và các từ ngữ liên kết câu (and, but, finally…) cũng được định nghĩa trước. Tất cả những việc này đều thực hiện bằng thủ công. Mỗi câu trong tập huấn luyện được chuyển thành một chuỗi gồm các nhãn ngữ nghĩa và các khái niệm (tương ứng với danh từ).

Các khái niệm sau đó được thay thế bằng những thuộc tính tương ứng của nó được định nghĩa sẵn trong một cơ sở tri thức miền. Bằng thuật toán a-priori, các luật kết hợp giữa các nhãn ngữ nghĩa và các thuộc tính được phát hiện, và từ đó được tự động đúc kết thành tập Luật kết hợp cảm xúc (Emotion Association Rules - EAR). Cuối cùng, bằng cách sử dụng Mô hình hỗn hợp khả phân tách (Separable Mixture Model), EAR thích hợp nhất cho một văn bản có thể xác định được, và nhờ đó suy ra được cảm xúc cho văn bản đó. Một công trình khác trong [8] thực hiện một khảo sát để từ đó chỉ ra các cảm xúc thường được diễn đạt kèm với nguyên nhân gây ra nó.

Từ đó, một tập luật được sử dụng để dựa trên cấu trúc cú pháp rút trích ra những nguyên nhân gây cảm xúc trong các câu có chứa từ khóa đặc trưng cho các cảm xúc. Tập luật này ban đầu bao gồm một số luật được xác định bằng thủ công, sau đó được tự động mở rộng ra. Các nguyên nhân gây cảm xúc được phát hiện sau đó được dùng như những dấu hiệu để nhận biết cảm xúc. 25 Các phương pháp thuộc nhóm này, tuy khác nhau về những đặc tính được khai thác, nhưng phần lớn đều thực hiện việc xác định cảm xúc bằng một hệ thống sử dụng luật.

Các luật này ít nhiều vẫn đòi hỏi phải xây dựng một cách thủ công, dẫn tới khó đầy đủ và đòi hỏi nhiều công sức.1 Mô hình không gian vectơ Mô hình không gian vectơ (Vector Space Model – VSM) [3] là một công cụ đã được sử dụng rộng rãi trong lĩnh vực Truy hồi thông tin (Information Retrieval) để biểu diễn các tài liệu (document) trong máy tính. Trong mô hình này, mỗi tài liệu được biểu diễn dưới dạng một vectơ mà mỗi chiều của vectơ đó là tương ứng với một thuật ngữ xác định. Các thuật ngữ (term), tùy theo mục đích sử dụng, có thể là một từ, hoặc cũng có thể là cả một cụm từ. Trong phạm vi luận văn này, một thuật ngữ là tương ứng với một từ vựng.

Giả sử, với tập từ vựng , là một tập có thứ tự bao gồm từ vựng phân biệt nhau, được định nghĩa như sau: { } Mỗi tài liệu sẽ được biểu diễn bởi một vectơ chiều ⃗ như sau: ⃗ 〈 〉 Trong đó, mỗi giá trị là trọng số tương ứng của từ vựng đối với tài liệu. Trọng số này phụ thuộc vào tần suất xuất hiện của từ vựng trong tài liệu , và có nhiều phương pháp khác nhau cho việc tính toán giá trị cho nó. Một trong những phương pháp tính toán trọng số phổ biến nhất là -. Phương pháp này cho phép đánh giá được tầm quan trọng của một từ vựng đối với một tài liệu dựa trên cả yếu tố cục bộ và yếu tố toàn cục.

Yếu tố cục bộ ( ) là tần suất xuất hiện của từ vựng đó chỉ trong tài liệu đó, trong khi yếu tố toàn cục ( ) đánh giá dựa trên sự xuất hiện của từ vựng đó trong tất cả các tài liệu trong tập dữ liệu. Giá trị cho trọng số được chuẩn hóa tính theo phương pháp - được tính bởi công thức sau: ( ⁄ ) √∑ ( ) [ ( ⁄ )] 27 trong đó: = tần suất xuất hiện của từ vựng trong tài liệu = ( ) = nghịch đảo của tần suất các tài liệu có chứa từ vựng = số tài liệu trong tập dữ liệu có chứa từ vựng = số tài liệu trong tập dữ liệu Do mỗi tài liệu được biểu diễn bởi một vectơ, toàn bộ tập dữ liệu sẽ được biểu diễn trong Mô hình không gian vectơ bởi một ma trận, được gọi là ma trận thuật ngữ-theo-tài liệu (term-by-document matrix). Với cách biểu diễn này, mô hình không gian vectơ cho phép độ tương tự giữa hai tài liệu có thể được xác định bởi cosin của góc hợp bởi hai vectơ biểu diễn của hai tài liệu đó trong không gian vectơ như sau: ̂ ⃗ ⃗ ( ) (⃗ ⃗) ‖ ⃗ ‖‖ ⃗ ‖ 3.2 Phân tích ngữ nghĩa tiềm ẩn Là một nền tảng cơ bản nhất, mô hình không gian vectơ chỉ mới dừng lại ở việc cung cấp một cách biểu diễn tập các tài liệu, và một phương thức để so sánh tương tự hai tài liệu chỉ mới xét đến việc xuất hiện của các từ ngữ. Theo đó, hai tài liệu sẽ được coi là tương tự nhau nếu chúng có chứa những từ ngữ giống nhau, và những từ ngữ đó có tần suất xuất hiện tương tự nhau.

Tuy nhiên, có nhiều trường hợp mà trong đó hai tài liệu thỏa điều kiện này lại diễn đạt những nội dung hoàn toàn khác nhau. Đồng thời, cũng có những trường hợp tuy hai tài liệu không có chung bất kì từ khóa nào, nhưng lại có nội dung diễn đạt tương tự nhau. Trường hợp đầu tiên xảy ra là do vấn đề đa nghĩa của từ ngữ, nghĩa là cùng một từ nhưng tùy tình huống sử dụng có thể mang nhiều nghĩa khác nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Mô Hình Markov Ẩn Bậc Cao Trong Xác Định Cảm Xúc Từ Văn Bản" tập trung vào việc ứng dụng mô hình Markov ẩn bậc cao để phân tích và xác định cảm xúc từ văn bản. Đây là một phương pháp tiên tiến, giúp cải thiện độ chính xác trong việc nhận diện cảm xúc, đặc biệt hữu ích trong các ứng dụng xử lý ngôn ngữ tự nhiên (NLP). Tài liệu này cung cấp cái nhìn sâu sắc về cách mô hình này hoạt động, đồng thời đề xuất các cải tiến để tối ưu hóa hiệu suất. Đối với những ai quan tâm đến NLP và phân tích cảm xúc, đây là một nguồn tham khảo giá trị.

Nếu bạn muốn khám phá thêm về các phương pháp xử lý văn bản và cảm xúc, hãy xem Luận văn thạc sĩ khoa học máy tính sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực, nơi bạn sẽ tìm thấy cách tiếp cận khác để phân loại cảm xúc. Bên cạnh đó, Luận văn thạc sĩ khoa học máy tính phân loại văn bản dựa trên mô hình tiền xử lý transformer cung cấp thêm góc nhìn về việc sử dụng các mô hình hiện đại như transformer trong xử lý văn bản. Cuối cùng, Luận văn thạc sĩ khoa học máy tính ứng dụng học sâu vào xây dựng mô hình rút trích thông tin sẽ giúp bạn hiểu rõ hơn về cách học sâu được áp dụng trong các bài toán liên quan đến văn bản.

Mỗi liên kết trên là cơ hội để bạn mở rộng kiến thức và khám phá các phương pháp tiên tiến khác trong lĩnh vực này.

#phân tích cảm xúc

#mô hình Markov ẩn

#xử lý văn bản

#Xác định cảm xúc

#Mô hình bậc cao

#AI trong NLP

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Phân tích dữ liệu

Trí tuệ nhân tạo

Nghiên Cứu Mô Hình Markov Ẩn Bậc Cao Để Xác Định Cảm Xúc Từ Văn Bản

I. Giới thiệu về Mô hình Markov Ẩn Bậc Cao

1.1. Ứng dụng của Mô hình Markov Ẩn Bậc Cao

II. Phương pháp đề xuất

2.1. Xây dựng mô hình Markov Ẩn Bậc Cao

III. Đánh giá phương pháp

3.1. So sánh với các phương pháp khác

IV. Kết luận và hướng phát triển

4.1. Hướng phát triển tương lai

THÔNG TIN CHI TIẾT

Tác giả: Hồ Trung Dũng

Người hướng dẫn: PGS. Cao Hoàng Trụ

Trường học: Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa học Máy tính

Đề tài: Mô hình Markov ẩn bậc cao trong xác định cảm xúc từ văn bản

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2012

Địa điểm: TP. Hồ Chí Minh

Nghiên Cứu Mô Hình Markov Ẩn Bậc Cao Để Xác Định Cảm Xúc Từ Văn Bản

I. Giới thiệu về Mô hình Markov Ẩn Bậc Cao

1.1. Ứng dụng của Mô hình Markov Ẩn Bậc Cao

II. Phương pháp đề xuất

2.1. Xây dựng mô hình Markov Ẩn Bậc Cao

III. Đánh giá phương pháp

3.1. So sánh với các phương pháp khác

IV. Kết luận và hướng phát triển

4.1. Hướng phát triển tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Hồ Trung Dũng

Người hướng dẫn: PGS. Cao Hoàng Trụ

Trường học: Đại học Bách Khoa - Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa học Máy tính

Đề tài: Mô hình Markov ẩn bậc cao trong xác định cảm xúc từ văn bản

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2012

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm