Nghiên cứu về nhận diện cảm xúc trong giọng nói sử dụng hệ thống suy diễn mờ dựa trên bộ nhớ liên kết mờ

Trường đại học

Soongsil University

Chuyên ngành

Digital Media

Người đăng

Ẩn danh

Thể loại

thesis

2014

128
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Về Nhận Diện Cảm Xúc Trong Giọng Nói Khám Phá

Giao tiếp bằng giọng nói là phương thức tự nhiên và phổ biến nhất giữa con người. Vì lẽ đó, việc nghiên cứu về nhận diện giọng nói đã phát triển mạnh mẽ trong nhiều thập kỷ. Tuy nhiên, để đạt được sự tương tác tự nhiên giữa người và máy, máy móc cần hiểu được trạng thái cảm xúc của con người. Điều này dẫn đến sự ra đời của lĩnh vực nhận diện cảm xúc trong giọng nói (SER). Các hệ thống giọng nói hiện tại xử lý hiệu quả giọng nói trung tính được ghi âm trong phòng thu, nhưng hiệu suất của chúng giảm sút đáng kể khi đối diện với giọng nói biểu cảm. Nguyên nhân là do khó khăn trong việc mô hình hóa và đặc trưng hóa cảm xúc thể hiện trong giọng nói. Sự hiện diện của cảm xúc làm cho giọng nói trở nên tự nhiên hơn. Trong một cuộc trò chuyện, giao tiếp phi ngôn ngữ truyền tải thông tin quan trọng như ý định của người nói.

1.1. Tầm Quan Trọng Của Cảm Xúc Trong Giao Tiếp Bằng Giọng Nói

Ngoài thông điệp được truyền tải qua văn bản, cách thức diễn đạt lời nói cũng mang thông tin phi ngôn ngữ thiết yếu. Cùng một thông điệp văn bản có thể được truyền tải với ngữ nghĩa khác nhau tùy thuộc vào cảm xúc được lồng ghép. Văn bản nói có thể có nhiều cách hiểu, tùy thuộc vào cách diễn đạt. Ví dụ: từ 'OKAY' trong tiếng Anh có thể được sử dụng để thể hiện sự ngưỡng mộ, không tin, đồng ý, thờ ơ hoặc khẳng định. Do đó, chỉ hiểu văn bản thôi là chưa đủ để giải thích ngữ nghĩa của một phát ngôn [1]. Giọng nói là một trong những phương thức tương tác tự nhiên giữa người và máy. Các hệ thống giọng nói ngày nay chỉ có thể đạt được hiệu suất tương đương con người khi chúng có thể xử lý hiệu quả các cảm xúc tiềm ẩn [2].

1.2. Ứng Dụng Thực Tế Của Nhận Diện Cảm Xúc Trong Giọng Nói

Mục đích của các hệ thống giọng nói phức tạp không nên giới hạn ở việc xử lý thông điệp đơn thuần, mà thay vào đó, chúng nên hiểu được ý định tiềm ẩn của người nói bằng cách phát hiện các biểu cảm trong giọng nói [3], [4]. Trong thời gian gần đây, việc xử lý tín hiệu giọng nói để nhận diện các cảm xúc tiềm ẩn đã nổi lên như một trong những lĩnh vực nghiên cứu giọng nói quan trọng. Việc nhúng thành phần xử lý cảm xúc vào các hệ thống giọng nói hiện có giúp chúng trở nên tự nhiên và hiệu quả hơn. Do đó, trong khi phát triển các hệ thống giọng nói (ví dụ: nhận dạng giọng nói, nhận dạng người nói, tổng hợp giọng nói và nhận dạng ngôn ngữ), người ta nên sử dụng một cách thích hợp kiến thức về cảm xúc [1].

II. Thách Thức Bài Toán Trong Nhận Diện Cảm Xúc Giọng Nói

Nhận diện cảm xúc trong giọng nói (SER) là một nhiệm vụ đầy thách thức. Không rõ đặc trưng giọng nói nào mạnh mẽ nhất trong việc phân biệt giữa các cảm xúc. Cách một cảm xúc cụ thể được thể hiện thường phụ thuộc vào người nói, văn hóa và môi trường của họ. Để nâng cao độ chính xác của hệ thống SER, có hai hướng tiếp cận chính. Đầu tiên là khám phá các đặc trưng phù hợp, có thể mô tả hiệu quả hơn các cảm xúc khác nhau. Thứ hai là tìm ra các bộ phân loại có khả năng phân loại cảm xúc giọng nói tốt hơn. Nghiên cứu này giới thiệu một phương pháp phân loại mới sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ.

2.1. Vấn Đề Về Đặc Trưng Hóa Cảm Xúc Trong Giọng Nói

Bài toán cốt lõi trong nhận diện cảm xúc giọng nói là làm thế nào để trích xuất và biểu diễn thông tin cảm xúc từ tín hiệu giọng nói một cách hiệu quả. Điều này đòi hỏi việc xác định các đặc trưng giọng nói có khả năng phân biệt rõ ràng giữa các trạng thái cảm xúc khác nhau. Các đặc trưng này có thể liên quan đến cao độ, cường độ, tốc độ nói, và các thông số phổ. Tuy nhiên, việc lựa chọn và kết hợp các đặc trưng này sao cho tối ưu là một thách thức lớn.

2.2. Hạn Chế Của Các Phương Pháp Phân Loại Cảm Xúc Hiện Tại

Các phương pháp phân loại cảm xúc giọng nói hiện tại, bao gồm các mô hình thống kê và học máy, thường gặp khó khăn trong việc xử lý sự biến đổi và không chắc chắn vốn có trong biểu cảm cảm xúc của con người. Các yếu tố như giọng nói của người nói, tiếng ồn môi trường và sự khác biệt văn hóa có thể ảnh hưởng đến hiệu suất của các bộ phân loại này. Cần có các phương pháp phân loại mạnh mẽ hơn, có khả năng thích ứng với sự đa dạng và phức tạp của dữ liệu giọng nói.

III. Phương Pháp Suy Diễn Mờ Dựa Trên Bộ Nhớ Liên Kết Mờ Giải Pháp

Luận văn này trình bày một phương pháp phân loại mới sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ (FAM). Đây là một cách tiếp cận mới để đóng góp một phương pháp mới cho việc phân loại cảm xúc giọng nói cùng với bảy phương pháp hiện có như trong [1]. Giọng nói là một tín hiệu phức tạp được tạo ra từ hệ thống ống giọng của con người được kích thích bởi một nguồn kích thích thay đổi theo thời gian. Giọng nói chứa thông tin về thông điệp ý tưởng, danh tính người nói, ngôn ngữ được diễn đạt và cảm xúc dự định [5]. Cảm xúc là một thành phần phi ngôn ngữ của một bài phát biểu. Nó được sử dụng rộng rãi bởi con người để thể hiện ý định hoặc trạng thái của họ. Để sử dụng thông tin cụ thể về cảm xúc từ giọng nói, người ta cần trích xuất các đặc trưng từ các cách và cấp độ khác nhau [5].

3.1. Ưu Điểm Của Hệ Thống Suy Diễn Mờ Trong Nhận Diện Cảm Xúc

Hệ thống suy diễn mờ có khả năng xử lý sự không chắc chắn và mơ hồ vốn có trong biểu cảm cảm xúc của con người. Bằng cách sử dụng các tập mờ để biểu diễn các trạng thái cảm xúc, hệ thống có thể nắm bắt được sự thay đổi tinh tế và chồng chéo giữa các cảm xúc khác nhau. Khả năng lý luận gần đúng của suy luận mờ cho phép hệ thống đưa ra quyết định đáng tin cậy ngay cả khi có dữ liệu không đầy đủ hoặc nhiễu.

3.2. Vai Trò Của Bộ Nhớ Liên Kết Mờ FAM Trong Hệ Thống

Bộ nhớ liên kết mờ (FAM) đóng vai trò quan trọng trong việc ánh xạ các đặc trưng giọng nói trích xuất được vào các trạng thái cảm xúc tương ứng. FAM lưu trữ các quy tắc mờ đại diện cho mối quan hệ giữa các đặc trưng đầu vào và các trạng thái cảm xúc đầu ra. Bằng cách sử dụng một cơ chế liên kết mờ, FAM cho phép hệ thống suy luận một cách linh hoạt và thích ứng, có khả năng khái quát hóa cho các dữ liệu chưa thấy.

3.3. Cấu Trúc Tổng Quan Của Hệ Thống Suy Diễn Mờ Dựa Trên FAM

Hệ thống bao gồm các giai đoạn chính: trích xuất đặc trưng giọng nói, xây dựng hàm thuộc mờ, tạo luật mờ, và suy diễn mờ bằng FAM. Đặc trưng giọng nói được trích xuất từ tín hiệu âm thanh. Hàm thuộc mờ được sử dụng để lượng tử hóa đặc trưng giọng nói. Luật mờ được tạo ra dựa trên tri thức chuyên gia. Suy diễn mờ được thực hiện thông qua FAM.

IV. Xây Dựng Hàm Thuộc Xác Định Ma Trận Trọng Số Chi Tiết

Cảm xúc giọng nói là thông tin phi ngôn ngữ chứa trong giọng nói, còn được gọi là thông tin cận ngôn ngữ. Trích xuất đặc trưng là chuyển đổi dữ liệu từ không gian chiều cao sang không gian chiều thấp hơn. Phân loại là một quá trình trong đó các ý tưởng và đối tượng được nhận dạng, phân biệt và hiểu. Nhận dạng cảm xúc giọng nói được định nghĩa là trích xuất trạng thái cảm xúc của một người nói từ giọng nói của họ. Nói cách khác, SER nhằm mục đích nhận ra các trạng thái cảm xúc tiềm ẩn của người nói từ tín hiệu giọng nói mà họ phát ra.

4.1. Các Loại Hàm Thuộc Thường Được Sử Dụng Trong Hệ Thống

Hàm thuộc đóng vai trò quan trọng trong việc ánh xạ các giá trị đặc trưng giọng nói vào các độ thuộc tương ứng với các tập mờ. Các loại hàm thuộc thường được sử dụng bao gồm hàm tam giác, hàm hình thang, hàm Gaussian và hàm sigmoid. Việc lựa chọn loại hàm thuộc phù hợp phụ thuộc vào đặc điểm của dữ liệu và yêu cầu của ứng dụng.

4.2. Phương Pháp Xác Định Ma Trận Trọng Số Trong Bộ Nhớ Liên Kết Mờ

Ma trận trọng số trong FAM xác định sức mạnh của mối liên kết giữa các luật mờ khác nhau. Có nhiều phương pháp để xác định ma trận trọng số, bao gồm phương pháp học có giám sát và phương pháp học không giám sát. Phương pháp học có giám sát sử dụng dữ liệu huấn luyện được gắn nhãn để điều chỉnh trọng số sao cho tối ưu hóa hiệu suất phân loại. Phương pháp học không giám sát sử dụng các thuật toán clustering để khám phá cấu trúc tiềm ẩn trong dữ liệu và xác định trọng số tương ứng.

4.3. Mô Hình Nhận Dạng Cảm Xúc Giọng Nói Sử Dụng Hệ Thống Suy Diễn Mờ

Mô hình đề xuất sử dụng hệ thống suy diễn mờ dựa trên FAM để phân loại cảm xúc giọng nói. Mô hình bao gồm các bước: tiền xử lý tín hiệu giọng nói, trích xuất đặc trưng, xây dựng hàm thuộc, tạo luật mờ, suy diễn mờ bằng FAM, và quyết định phân loại. Kết quả thử nghiệm cho thấy mô hình có hiệu suất phân loại tốt trên các bộ dữ liệu cảm xúc giọng nói khác nhau.

V. Ứng Dụng Kết Quả Nghiên Cứu Hệ Thống Nhận Diện Cảm Xúc

Để so sánh với phương pháp sử dụng máy vectơ hỗ trợ (SVM), một phương pháp được sử dụng phổ biến hiện nay, công trình này đã thử nghiệm trên một số đặc trưng đơn hiện có như Hệ số Cepstral tần số Mel (MFCC), Hệ số Cepstral tần số Greenwood (GFCC), Hệ số dự đoán tuyến tính tri giác Greenwood (GPLP). Các bộ phân loại đã được thử nghiệm trên hai cơ sở dữ liệu: Cơ sở dữ liệu giọng nói cảm xúc Berlin (Berlin Emo-DB) bằng tiếng Đức và Cơ sở dữ liệu cảm xúc biểu cảm nghe nhìn Surrey (SAVEE) bằng tiếng Anh.

5.1. So Sánh Hiệu Suất Với Các Phương Pháp Phân Loại Khác

Nghiên cứu so sánh hiệu suất của phương pháp suy luận mờ dựa trên FAM với phương pháp máy vectơ hỗ trợ (SVM) trên cùng một bộ dữ liệu và cùng một tập hợp các đặc trưng giọng nói. Kết quả cho thấy phương pháp suy luận mờ dựa trên FAM có hiệu suất tương đương hoặc tốt hơn so với SVM, đặc biệt trong trường hợp dữ liệu có nhiều nhiễu hoặc khi cần giải thích kết quả phân loại.

5.2. Đánh Giá Độ Chính Xác Trên Các Cơ Sở Dữ Liệu Cảm Xúc Khác Nhau

Phương pháp suy luận mờ dựa trên FAM được đánh giá trên nhiều cơ sở dữ liệu cảm xúc giọng nói khác nhau, bao gồm Berlin Emo-DB (tiếng Đức) và SAVEE (tiếng Anh). Kết quả cho thấy phương pháp có khả năng khái quát hóa tốt trên các ngôn ngữ và phong cách biểu cảm cảm xúc khác nhau.

5.3. Phân Tích Ma Trận Lẫn Lộn Các Lỗi Phân Loại Thường Gặp

Phân tích ma trận lẫn lộn giúp xác định các cặp cảm xúc thường bị nhầm lẫn với nhau. Ví dụ, cảm xúc buồn và lo lắng có thể có các đặc trưng tương đồng, dẫn đến việc hệ thống phân loại nhầm lẫn giữa hai cảm xúc này. Việc xác định các lỗi phân loại thường gặp giúp cải thiện thiết kế của hệ thống suy luận mờ và lựa chọn các đặc trưng giọng nói phù hợp hơn.

VI. Kết Luận Hướng Phát Triển Tương Lai Của Nhận Diện

Kết quả thực nghiệm cho thấy bộ phân loại sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ tốt hơn phương pháp phân loại sử dụng máy vectơ hỗ trợ trên cùng loại đặc trưng và cơ sở dữ liệu. Các thuật toán và kết quả thực nghiệm của bộ phân loại được trình bày trong luận văn chỉ là những bước đầu tiên. Cần phải nghiên cứu thêm để có thể có được kết quả tốt hơn về nhận dạng cảm xúc giọng nói cũng như áp dụng cho các bài toán nhận dạng mẫu khác. Vì vậy, hy vọng rằng phương pháp phân loại được đề xuất sẽ được nghiên cứu và phát triển liên tục trong tương lai.

6.1. Tổng Kết Về Hiệu Suất Ưu Điểm Của Phương Pháp Đề Xuất

Phương pháp suy luận mờ dựa trên FAM thể hiện tiềm năng lớn trong việc nhận diện cảm xúc giọng nói. Ưu điểm của phương pháp bao gồm khả năng xử lý sự không chắc chắn, khả năng khái quát hóa và khả năng giải thích kết quả phân loại. Tuy nhiên, cần có thêm nghiên cứu để cải thiện hiệu suất và khả năng ứng dụng của phương pháp trong các tình huống thực tế.

6.2. Gợi Ý Ứng Dụng Tiềm Năng Của Hệ Thống Nhận Diện Cảm Xúc

Hệ thống nhận diện cảm xúc giọng nói có thể được ứng dụng trong nhiều lĩnh vực, bao gồm giao tiếp người-máy, chăm sóc sức khỏe, giáo dục, giải trí và an ninh. Ví dụ, trong giao tiếp người-máy, hệ thống có thể giúp máy tính hiểu rõ hơn nhu cầu và cảm xúc của người dùng, từ đó cung cấp các phản hồi phù hợp hơn. Trong chăm sóc sức khỏe, hệ thống có thể giúp chẩn đoán các bệnh tâm lý dựa trên phân tích giọng nói của bệnh nhân.

6.3. Hướng Nghiên Cứu Cải Tiến Hệ Thống Trong Tương Lai

Hướng nghiên cứu trong tương lai bao gồm việc phát triển các phương pháp trích xuất đặc trưng giọng nói mạnh mẽ hơn, tối ưu hóa kiến trúc của hệ thống suy luận mờ, tích hợp thông tin từ các phương thức khác (ví dụ: hình ảnh, văn bản) và xây dựng các bộ dữ liệu cảm xúc giọng nói lớn hơn và đa dạng hơn. Ngoài ra, cần nghiên cứu các phương pháp đánh giá khách quan hơn để đánh giá hiệu suất của hệ thống trong các tình huống thực tế.

28/05/2025
Luận văn thạc sĩ speech emotion recognition using fuzzy inference system based on fuzzy associative memory
Bạn đang xem trước tài liệu : Luận văn thạc sĩ speech emotion recognition using fuzzy inference system based on fuzzy associative memory

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu có tiêu đề "Nhận diện cảm xúc trong giọng nói bằng hệ thống suy diễn mờ dựa trên bộ nhớ liên kết mờ" trình bày một phương pháp tiên tiến để nhận diện cảm xúc thông qua giọng nói, sử dụng hệ thống suy diễn mờ kết hợp với bộ nhớ liên kết mờ. Phương pháp này không chỉ giúp cải thiện độ chính xác trong việc phân tích cảm xúc mà còn mở ra những ứng dụng tiềm năng trong các lĩnh vực như chăm sóc sức khỏe, giáo dục và dịch vụ khách hàng. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà công nghệ này có thể được áp dụng trong thực tiễn, từ đó nâng cao khả năng giao tiếp và hiểu biết về cảm xúc con người.

Nếu bạn muốn tìm hiểu sâu hơn về các phương pháp nhận diện cảm xúc khác, hãy tham khảo tài liệu Luận văn tốt nghiệp khoa học máy tính phát triển hệ thống nhận diện cảm xúc qua giọng nói, nơi cung cấp cái nhìn tổng quan về các hệ thống tương tự. Bên cạnh đó, tài liệu Luận văn thạc sĩ kỹ thuật viễn thông nhận dạng cảm xúc người nói dựa trên học sâu sẽ giúp bạn khám phá thêm về các kỹ thuật học sâu trong nhận diện cảm xúc. Cuối cùng, bạn cũng có thể tìm hiểu về nhận diện cảm xúc qua khuôn mặt trong tài liệu Đề tài nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập cnn. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và cái nhìn đa chiều về lĩnh vực nhận diện cảm xúc.