Luận văn thạc sĩ speech emotion recognition using fuzzy inference system based on fuzzy associative memory

Luận văn thạc sĩ phân tích speech emotion recognition using fuzzy inference system based on fuzzy associative memory, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả

Trường đại học

Soongsil University

Chuyên ngành

Digital Media

Người đăng

Ẩn danh

Thể loại

thesis

2014

128

Phí lưu trữ

35 Point

Mục lục chi tiết

ACKNOWLEDGEMENT

ABSTRACT IN ENGLISH

ABSTRACT IN KOREAN

1. CHAPTER 1: INTRODUCTION

1.1. Rationale and Incentives

1.2. Related Concepts and Definitions

1.3. Applications of Speech Emotion Recognition

1.4. Problem Statement

1.5. Dissertation Outline

2. CHAPTER 2: RELATED WORKS

2.1. Speech Emotion Features

2.1.1. Excitation Source Features

2.2. Vocal Tract Features

2.3. Prosodic Features

2.4. Combination of Features

2.5. Emotion Classification Methods

3. CHAPTER 3: FUZZY INFERENCE SYSTEM BASED ON FUZZY ASSOCIATIVE MEMORY

3.1. The Principal Structure of the Fuzzy Associative Memory

3.2. Model of the FAM-based Fuzzy Inference System

3.3. Layers of the FAM-based Fuzzy Inference System

3.4. Building up Membership Functions

3.5. Basic Model of Inference and Fuzzy Rules

3.6. Determining Weight Matrix

3.7. The Model of Speech Emotion Recognition using FAM-based Fuzzy Inference System

4. CHAPTER 4: SPEECH EMOTION RECOGNITION TOOLBOX

4.1. Main Interface Window

4.2. Features Group

4.3. Framing Modes Group

4.4. Tools Group

4.4.1. Check Database Tool

4.4.2. Convert HTK to TXT Tool

4.4.3. Cut Wav Files Tool

4.4.4. Trim Wav Files Tool

4.5. Resample Wav Files

4.6. Operations Group

4.7. Commands Group

4.8. Recognition Group

4.8.1. CHE SVM Tool

4.8.2. FAM FIS Tool

5. CHAPTER 5: PERFORMANCE AND RESULTS

5.1. Databases

5.2. Speech Emotion Feature Extraction

5.2.1. Mel Frequency Cepstral Coefficients (MFCCs)

5.2.2. Generalized Frequency Cepstral Coefficients (GFCCs)

5.2.3. Generalized Perceptual Linear Prediction

5.2.4. Pre-Emphasis Filter

5.2.5. Hamming Window

5.2.6. Power Spectrum Estimation

5.2.7. Filter Bank Analysis

5.2.8. Equal Loudness Normalization

5.2.9. Intensity-loudness Power Law

5.2.10. Autoregressive Modeling

5.2.11. Cepstral Domain Transformation

5.3. The Classification

5.3.1. Emo-DB Database

5.3.2. SAVEE Database

5.3.3. Comparison Results

6. CHAPTER 6: CONCLUSION AND FUTURE WORK

6.1. Overall Performance

6.2. Suggestion of Applications

6.3. Future Work

REFERENCES

APPENDICES

Tóm tắt

I. Tổng Quan Về Nhận Diện Cảm Xúc Trong Giọng Nói Khám Phá

Giao tiếp bằng giọng nói là phương thức tự nhiên và phổ biến nhất giữa con người. Vì lẽ đó, việc nghiên cứu về nhận diện giọng nói đã phát triển mạnh mẽ trong nhiều thập kỷ. Tuy nhiên, để đạt được sự tương tác tự nhiên giữa người và máy, máy móc cần hiểu được trạng thái cảm xúc của con người. Điều này dẫn đến sự ra đời của lĩnh vực nhận diện cảm xúc trong giọng nói (SER). Các hệ thống giọng nói hiện tại xử lý hiệu quả giọng nói trung tính được ghi âm trong phòng thu, nhưng hiệu suất của chúng giảm sút đáng kể khi đối diện với giọng nói biểu cảm. Nguyên nhân là do khó khăn trong việc mô hình hóa và đặc trưng hóa cảm xúc thể hiện trong giọng nói. Sự hiện diện của cảm xúc làm cho giọng nói trở nên tự nhiên hơn. Trong một cuộc trò chuyện, giao tiếp phi ngôn ngữ truyền tải thông tin quan trọng như ý định của người nói.

1.1. Tầm Quan Trọng Của Cảm Xúc Trong Giao Tiếp Bằng Giọng Nói

Ngoài thông điệp được truyền tải qua văn bản, cách thức diễn đạt lời nói cũng mang thông tin phi ngôn ngữ thiết yếu. Cùng một thông điệp văn bản có thể được truyền tải với ngữ nghĩa khác nhau tùy thuộc vào cảm xúc được lồng ghép. Văn bản nói có thể có nhiều cách hiểu, tùy thuộc vào cách diễn đạt. Ví dụ: từ 'OKAY' trong tiếng Anh có thể được sử dụng để thể hiện sự ngưỡng mộ, không tin, đồng ý, thờ ơ hoặc khẳng định. Do đó, chỉ hiểu văn bản thôi là chưa đủ để giải thích ngữ nghĩa của một phát ngôn [1]. Giọng nói là một trong những phương thức tương tác tự nhiên giữa người và máy. Các hệ thống giọng nói ngày nay chỉ có thể đạt được hiệu suất tương đương con người khi chúng có thể xử lý hiệu quả các cảm xúc tiềm ẩn [2].

1.2. Ứng Dụng Thực Tế Của Nhận Diện Cảm Xúc Trong Giọng Nói

Mục đích của các hệ thống giọng nói phức tạp không nên giới hạn ở việc xử lý thông điệp đơn thuần, mà thay vào đó, chúng nên hiểu được ý định tiềm ẩn của người nói bằng cách phát hiện các biểu cảm trong giọng nói [3], [4]. Trong thời gian gần đây, việc xử lý tín hiệu giọng nói để nhận diện các cảm xúc tiềm ẩn đã nổi lên như một trong những lĩnh vực nghiên cứu giọng nói quan trọng. Việc nhúng thành phần xử lý cảm xúc vào các hệ thống giọng nói hiện có giúp chúng trở nên tự nhiên và hiệu quả hơn. Do đó, trong khi phát triển các hệ thống giọng nói (ví dụ: nhận dạng giọng nói, nhận dạng người nói, tổng hợp giọng nói và nhận dạng ngôn ngữ), người ta nên sử dụng một cách thích hợp kiến thức về cảm xúc [1].

II. Thách Thức Bài Toán Trong Nhận Diện Cảm Xúc Giọng Nói

Nhận diện cảm xúc trong giọng nói (SER) là một nhiệm vụ đầy thách thức. Không rõ đặc trưng giọng nói nào mạnh mẽ nhất trong việc phân biệt giữa các cảm xúc. Cách một cảm xúc cụ thể được thể hiện thường phụ thuộc vào người nói, văn hóa và môi trường của họ. Để nâng cao độ chính xác của hệ thống SER, có hai hướng tiếp cận chính. Đầu tiên là khám phá các đặc trưng phù hợp, có thể mô tả hiệu quả hơn các cảm xúc khác nhau. Thứ hai là tìm ra các bộ phân loại có khả năng phân loại cảm xúc giọng nói tốt hơn. Nghiên cứu này giới thiệu một phương pháp phân loại mới sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ.

2.1. Vấn Đề Về Đặc Trưng Hóa Cảm Xúc Trong Giọng Nói

Bài toán cốt lõi trong nhận diện cảm xúc giọng nói là làm thế nào để trích xuất và biểu diễn thông tin cảm xúc từ tín hiệu giọng nói một cách hiệu quả. Điều này đòi hỏi việc xác định các đặc trưng giọng nói có khả năng phân biệt rõ ràng giữa các trạng thái cảm xúc khác nhau. Các đặc trưng này có thể liên quan đến cao độ, cường độ, tốc độ nói, và các thông số phổ. Tuy nhiên, việc lựa chọn và kết hợp các đặc trưng này sao cho tối ưu là một thách thức lớn.

2.2. Hạn Chế Của Các Phương Pháp Phân Loại Cảm Xúc Hiện Tại

Các phương pháp phân loại cảm xúc giọng nói hiện tại, bao gồm các mô hình thống kê và học máy, thường gặp khó khăn trong việc xử lý sự biến đổi và không chắc chắn vốn có trong biểu cảm cảm xúc của con người. Các yếu tố như giọng nói của người nói, tiếng ồn môi trường và sự khác biệt văn hóa có thể ảnh hưởng đến hiệu suất của các bộ phân loại này. Cần có các phương pháp phân loại mạnh mẽ hơn, có khả năng thích ứng với sự đa dạng và phức tạp của dữ liệu giọng nói.

III. Phương Pháp Suy Diễn Mờ Dựa Trên Bộ Nhớ Liên Kết Mờ Giải Pháp

Luận văn này trình bày một phương pháp phân loại mới sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ (FAM). Đây là một cách tiếp cận mới để đóng góp một phương pháp mới cho việc phân loại cảm xúc giọng nói cùng với bảy phương pháp hiện có như trong [1]. Giọng nói là một tín hiệu phức tạp được tạo ra từ hệ thống ống giọng của con người được kích thích bởi một nguồn kích thích thay đổi theo thời gian. Giọng nói chứa thông tin về thông điệp ý tưởng, danh tính người nói, ngôn ngữ được diễn đạt và cảm xúc dự định [5]. Cảm xúc là một thành phần phi ngôn ngữ của một bài phát biểu. Nó được sử dụng rộng rãi bởi con người để thể hiện ý định hoặc trạng thái của họ. Để sử dụng thông tin cụ thể về cảm xúc từ giọng nói, người ta cần trích xuất các đặc trưng từ các cách và cấp độ khác nhau [5].

3.1. Ưu Điểm Của Hệ Thống Suy Diễn Mờ Trong Nhận Diện Cảm Xúc

Hệ thống suy diễn mờ có khả năng xử lý sự không chắc chắn và mơ hồ vốn có trong biểu cảm cảm xúc của con người. Bằng cách sử dụng các tập mờ để biểu diễn các trạng thái cảm xúc, hệ thống có thể nắm bắt được sự thay đổi tinh tế và chồng chéo giữa các cảm xúc khác nhau. Khả năng lý luận gần đúng của suy luận mờ cho phép hệ thống đưa ra quyết định đáng tin cậy ngay cả khi có dữ liệu không đầy đủ hoặc nhiễu.

3.2. Vai Trò Của Bộ Nhớ Liên Kết Mờ FAM Trong Hệ Thống

Bộ nhớ liên kết mờ (FAM) đóng vai trò quan trọng trong việc ánh xạ các đặc trưng giọng nói trích xuất được vào các trạng thái cảm xúc tương ứng. FAM lưu trữ các quy tắc mờ đại diện cho mối quan hệ giữa các đặc trưng đầu vào và các trạng thái cảm xúc đầu ra. Bằng cách sử dụng một cơ chế liên kết mờ, FAM cho phép hệ thống suy luận một cách linh hoạt và thích ứng, có khả năng khái quát hóa cho các dữ liệu chưa thấy.

3.3. Cấu Trúc Tổng Quan Của Hệ Thống Suy Diễn Mờ Dựa Trên FAM

Hệ thống bao gồm các giai đoạn chính: trích xuất đặc trưng giọng nói, xây dựng hàm thuộc mờ, tạo luật mờ, và suy diễn mờ bằng FAM. Đặc trưng giọng nói được trích xuất từ tín hiệu âm thanh. Hàm thuộc mờ được sử dụng để lượng tử hóa đặc trưng giọng nói. Luật mờ được tạo ra dựa trên tri thức chuyên gia. Suy diễn mờ được thực hiện thông qua FAM.

IV. Xây Dựng Hàm Thuộc Xác Định Ma Trận Trọng Số Chi Tiết

Cảm xúc giọng nói là thông tin phi ngôn ngữ chứa trong giọng nói, còn được gọi là thông tin cận ngôn ngữ. Trích xuất đặc trưng là chuyển đổi dữ liệu từ không gian chiều cao sang không gian chiều thấp hơn. Phân loại là một quá trình trong đó các ý tưởng và đối tượng được nhận dạng, phân biệt và hiểu. Nhận dạng cảm xúc giọng nói được định nghĩa là trích xuất trạng thái cảm xúc của một người nói từ giọng nói của họ. Nói cách khác, SER nhằm mục đích nhận ra các trạng thái cảm xúc tiềm ẩn của người nói từ tín hiệu giọng nói mà họ phát ra.

4.1. Các Loại Hàm Thuộc Thường Được Sử Dụng Trong Hệ Thống

Hàm thuộc đóng vai trò quan trọng trong việc ánh xạ các giá trị đặc trưng giọng nói vào các độ thuộc tương ứng với các tập mờ. Các loại hàm thuộc thường được sử dụng bao gồm hàm tam giác, hàm hình thang, hàm Gaussian và hàm sigmoid. Việc lựa chọn loại hàm thuộc phù hợp phụ thuộc vào đặc điểm của dữ liệu và yêu cầu của ứng dụng.

4.2. Phương Pháp Xác Định Ma Trận Trọng Số Trong Bộ Nhớ Liên Kết Mờ

Ma trận trọng số trong FAM xác định sức mạnh của mối liên kết giữa các luật mờ khác nhau. Có nhiều phương pháp để xác định ma trận trọng số, bao gồm phương pháp học có giám sát và phương pháp học không giám sát. Phương pháp học có giám sát sử dụng dữ liệu huấn luyện được gắn nhãn để điều chỉnh trọng số sao cho tối ưu hóa hiệu suất phân loại. Phương pháp học không giám sát sử dụng các thuật toán clustering để khám phá cấu trúc tiềm ẩn trong dữ liệu và xác định trọng số tương ứng.

4.3. Mô Hình Nhận Dạng Cảm Xúc Giọng Nói Sử Dụng Hệ Thống Suy Diễn Mờ

Mô hình đề xuất sử dụng hệ thống suy diễn mờ dựa trên FAM để phân loại cảm xúc giọng nói. Mô hình bao gồm các bước: tiền xử lý tín hiệu giọng nói, trích xuất đặc trưng, xây dựng hàm thuộc, tạo luật mờ, suy diễn mờ bằng FAM, và quyết định phân loại. Kết quả thử nghiệm cho thấy mô hình có hiệu suất phân loại tốt trên các bộ dữ liệu cảm xúc giọng nói khác nhau.

V. Ứng Dụng Kết Quả Nghiên Cứu Hệ Thống Nhận Diện Cảm Xúc

Để so sánh với phương pháp sử dụng máy vectơ hỗ trợ (SVM), một phương pháp được sử dụng phổ biến hiện nay, công trình này đã thử nghiệm trên một số đặc trưng đơn hiện có như Hệ số Cepstral tần số Mel (MFCC), Hệ số Cepstral tần số Greenwood (GFCC), Hệ số dự đoán tuyến tính tri giác Greenwood (GPLP). Các bộ phân loại đã được thử nghiệm trên hai cơ sở dữ liệu: Cơ sở dữ liệu giọng nói cảm xúc Berlin (Berlin Emo-DB) bằng tiếng Đức và Cơ sở dữ liệu cảm xúc biểu cảm nghe nhìn Surrey (SAVEE) bằng tiếng Anh.

5.1. So Sánh Hiệu Suất Với Các Phương Pháp Phân Loại Khác

Nghiên cứu so sánh hiệu suất của phương pháp suy luận mờ dựa trên FAM với phương pháp máy vectơ hỗ trợ (SVM) trên cùng một bộ dữ liệu và cùng một tập hợp các đặc trưng giọng nói. Kết quả cho thấy phương pháp suy luận mờ dựa trên FAM có hiệu suất tương đương hoặc tốt hơn so với SVM, đặc biệt trong trường hợp dữ liệu có nhiều nhiễu hoặc khi cần giải thích kết quả phân loại.

5.2. Đánh Giá Độ Chính Xác Trên Các Cơ Sở Dữ Liệu Cảm Xúc Khác Nhau

Phương pháp suy luận mờ dựa trên FAM được đánh giá trên nhiều cơ sở dữ liệu cảm xúc giọng nói khác nhau, bao gồm Berlin Emo-DB (tiếng Đức) và SAVEE (tiếng Anh). Kết quả cho thấy phương pháp có khả năng khái quát hóa tốt trên các ngôn ngữ và phong cách biểu cảm cảm xúc khác nhau.

5.3. Phân Tích Ma Trận Lẫn Lộn Các Lỗi Phân Loại Thường Gặp

Phân tích ma trận lẫn lộn giúp xác định các cặp cảm xúc thường bị nhầm lẫn với nhau. Ví dụ, cảm xúc buồn và lo lắng có thể có các đặc trưng tương đồng, dẫn đến việc hệ thống phân loại nhầm lẫn giữa hai cảm xúc này. Việc xác định các lỗi phân loại thường gặp giúp cải thiện thiết kế của hệ thống suy luận mờ và lựa chọn các đặc trưng giọng nói phù hợp hơn.

VI. Kết Luận Hướng Phát Triển Tương Lai Của Nhận Diện

Kết quả thực nghiệm cho thấy bộ phân loại sử dụng hệ thống suy luận mờ dựa trên bộ nhớ liên kết mờ tốt hơn phương pháp phân loại sử dụng máy vectơ hỗ trợ trên cùng loại đặc trưng và cơ sở dữ liệu. Các thuật toán và kết quả thực nghiệm của bộ phân loại được trình bày trong luận văn chỉ là những bước đầu tiên. Cần phải nghiên cứu thêm để có thể có được kết quả tốt hơn về nhận dạng cảm xúc giọng nói cũng như áp dụng cho các bài toán nhận dạng mẫu khác. Vì vậy, hy vọng rằng phương pháp phân loại được đề xuất sẽ được nghiên cứu và phát triển liên tục trong tương lai.

6.1. Tổng Kết Về Hiệu Suất Ưu Điểm Của Phương Pháp Đề Xuất

Phương pháp suy luận mờ dựa trên FAM thể hiện tiềm năng lớn trong việc nhận diện cảm xúc giọng nói. Ưu điểm của phương pháp bao gồm khả năng xử lý sự không chắc chắn, khả năng khái quát hóa và khả năng giải thích kết quả phân loại. Tuy nhiên, cần có thêm nghiên cứu để cải thiện hiệu suất và khả năng ứng dụng của phương pháp trong các tình huống thực tế.

6.2. Gợi Ý Ứng Dụng Tiềm Năng Của Hệ Thống Nhận Diện Cảm Xúc

Hệ thống nhận diện cảm xúc giọng nói có thể được ứng dụng trong nhiều lĩnh vực, bao gồm giao tiếp người-máy, chăm sóc sức khỏe, giáo dục, giải trí và an ninh. Ví dụ, trong giao tiếp người-máy, hệ thống có thể giúp máy tính hiểu rõ hơn nhu cầu và cảm xúc của người dùng, từ đó cung cấp các phản hồi phù hợp hơn. Trong chăm sóc sức khỏe, hệ thống có thể giúp chẩn đoán các bệnh tâm lý dựa trên phân tích giọng nói của bệnh nhân.

6.3. Hướng Nghiên Cứu Cải Tiến Hệ Thống Trong Tương Lai

Hướng nghiên cứu trong tương lai bao gồm việc phát triển các phương pháp trích xuất đặc trưng giọng nói mạnh mẽ hơn, tối ưu hóa kiến trúc của hệ thống suy luận mờ, tích hợp thông tin từ các phương thức khác (ví dụ: hình ảnh, văn bản) và xây dựng các bộ dữ liệu cảm xúc giọng nói lớn hơn và đa dạng hơn. Ngoài ra, cần nghiên cứu các phương pháp đánh giá khách quan hơn để đánh giá hiệu suất của hệ thống trong các tình huống thực tế.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ speech emotion recognition using fuzzy inference system based on fuzzy associative memory

Tải đầy đủ

Trích đoạn nội dung tài liệu

Thesis for the Degree of Doctor Speech Emotion Recognition using Fuzzy Inference System based on Fuzzy Associative Memory 3] 2] ee2] ] o] 7) WAFEAADS AB r ^w|3| 4⁄4 a4) June 2014 Department of Digital Media Graduate School of Soongsil University TON THAT HOA AN Thesis for the Degree of Doctor Speech Emotion Recognition using Fuzzy Inference System based on Fuzzy Associative Memory June 2014 Department of Digital Media Graduate School of Soongsil University TON THAT HOA AN Thesis for the Degree of Doctor Speech Emotion Recognition using Fuzzy Inference System based on Fuzzy Associative Memory A thesis supervisor: Professor Hyung-I] Choi Thesis submitted in partial fulfillment of the requirements for the Degree of Doctor June 2014 Department of Digital Media Graduate School of Soongsil University TON THAT HOA AN To approve the submitted thesis for the Degree of Doctor by Ton That Hoa An Thesis Committee Chair (signature) Member (signature) Member (signature) Member (signature) (signature) June 2014 Graduate School of Soongsil University ACKNOWLEDGEMENT I would like to express my deep gratefulness to everyone who contributed to make my Ph. I am profoundly thankful to Soongsil University and Computer Vision lab which supported my tuition and subsistence fees during the years in Korea. I would like to express my especial thanks to my advisor, Professor Hyung-II Choi for his advices and help. My sincere gratitude goes to Professors in Digital Media department of SSU for their courses that I participated about Computer Vision, Image Processing, Pattern Recognition, Computer Graphics, Media Arts and other related topics.

I also greatly appreciate the help of Professor Michael T. Johnson (Marquette University, USA) whomI have never been met. I would like to gratefully acknowledge to my parents, my wife and my daughter for their endless support, encouragement and motivation. Also, I want to thank my friends in same lab as well as other labs for their good relation and cooperation, and Korean friends for helping me during my stays here.

Finally great thanks to all my colleagues and relatives for their support, and encouragement for the duration of my graduate research and especially to my committee for all of the insightful comments and encouragement along the way for finishing this dissertation. TABLE OF CONTENTS ABSTRACT IN ENGLISH----------- ---- 5222 S1} 9999 99222922221 111k kho ix ABSTRACT IN KOREAN rreerrsssrrrstert ttt nnn eens e eens XI CHAPTER 1 INTRODUCTION --:---::----------------------:---5©‡‡cŸSŸ‡‡<s-: 1 my mẻ.1 Rationale and Incentives _+eee°-~------ - - --- --- 2: -- nàn sà.2 Related Concepts and Definitions -----:---:-------------+--*-*+*reeseeeeeeeeeee 3 1.1 Applications of Speech Emotion Recognition ------:-+-++**+**+*+c*teeceecetec 4 1. «<M A ME Be cece cneeec ene rer ean eesens 5 1.3 Problem Statement -:--:-::::--:-:--:----+***** nh nh nh th nh hen nh kh th kg 8 1.4 nhicon in số.5 Dissertation Outline ---::--:-:-::----:-:++*+*rrrhhehehhhhhhthhhherhnnneeneeereeeeeeeee 9 CHAPTER 2 RELATED WORKS:----:---------------------------------------- 11 2.1 Speech Emotion Features --:--:::-::-::::::::+:::++trrttthhhhhhhhhhhhhhenehdee 11 2.1 Excitation Source Features ---:------::-::+:+++*rrerereereeeerrerereeeeeeeeeree 11 2.2 Vocal Tract Features <cccctctec cette eccrine th nh nh eee he he 12 2.3 Prosodic Features 100: :tttt tee etter nee eee: 13 2.4 Combination of Features -:---::--:-::-::+:+*rrrreenennrhentrnernerrreeeereeeerere 15 22 Emotion Classification Methods ¬.- 17 CHAPTER 3 FUZZY INFERENCE SYSTEM BASED ON FUZZY ASSOCIATIVE MEMORY -------------- 22 3.1 The Principal Structure of the Fuzzy Associative Memory --:-:------------- 22 3.2 Model of the FAM-based Fuzzy Inference System ---------:------::-:--:-:-- 23 3.3 Layers of the FAM-based Fuzzy Inference System ------------------------+-+ 24 3.4 Building up Membership Functions ---::::---------------*-*+*+‡cceeecececececằc 29 3.5 Basic Model of Inference and Fuzzy Rules ------:----:----:--:-+-++erreccererec 30 3.6 Determining Weight Matrix -------------------*****ee nhe hnhnhehehhheeeeeeeeeere 31 3.7 The Model of Speech Emotion Recognition using FAM-based Fuzzy Inference System Penne cere cence cree cere eres l9 9 9 sree eens eee sees ee eee eee neeeeneenenes 33 CHAPTER 4 SPEECH EMOTION RECOGNITION TOOLBOX -----:--------------------------------------Ÿcc cà: 35 4.1 Main Interface Window ----:::--:+** 22h nh nh hen 36 4.2 Features Group ---:::-:-:--++r+rerrrhthhhhhhhhnhhhh nen nh nh he khen nhe he 38 4.3 Framing Modes Group --::-::::::::::::++:trttthhhhhhhhhhhhhhhrrrnrrrerrre 39 4.4 Tools Group SS 42 4.1 Check Database Tool ---------:*+rrrehnnhnnhnnnnnnnenrnnnnneneenenneneereeeeree 42 4.2 Convert HTK to TXT Tool -::-:::::****22S $2 22** xxx theo 43 4.3 Cut Wav Files Tool ----:-:--------* + nh nh hề nh nh hề hề khe eens 44 4.4 Trim Wav Files Tool -:::---:::--:** 2$ 2h nhe reo 45 4.5 Resample Wav Files «111-1-:c eect etter tte ties 47 4.5 Operations Group --:::::+++++++rrrhhhhhhhhhhhhhhththhrrrrrrrrnnrnrrnnnnnnnrrtrrrreeee 48 4.6 Commands Group crisiseees 49 4.7 Recognition Group -----:-'::*******tthhhhhhhhhhhhhhthhhhenhenenheneeeereeeeeeereeee 50 4.1 CHE SVM Tool cecccecec tte nents nents 51 4.2 FAM FIS Tool ---:--------------== nh renee nee 52 CHAPTER 5 PERFORMANCE AND RESULTS ---------------------- 53 5.1 Databases «+++ ++ fae «+ aM eM Bice ese scene ens 53 5.1 Emo-DB Dafabase (Nn | A> -- ag, 1.2 SAVEE Database -----:-------------=* nh nh nền kh hề nền kh kh nhe nhe eh 56 5.3 Audio File Format <crccccctecetececee etter ne kh kh nh kh he he he 58 5.4 Database Processing ------::::::++++++rrrrthhhhhhhhhhhrrnnnnnnnnnrnnnnrnnrrre 60 5.2 Speech Emotion Feature Extraction -------::::::::+:+*rsreheneenenrnereeneeeerees 62 5.1 Mel Frequency Cepstral Coefficients (MFCCs) --------------------+*‡+Ÿccẻ 63 5.2 Generalized Frequency Cepstral Coefficients (GFCCs) -------:-------:-- 69 5.3 Generalized Perceptual Linear Prediction --------------------+++©*e+ecccccet 71 5.1 Pre-Emphasis Filter --------------*ssnnnn nh hhhhhhhh nh nh nh kh kh nh he he hen T2 5.2 Hamming Window «srr rere 3 5.3 Power Spectrum Estimation -:--:::--:::::::::+:::+r+rrrrrhhhhhhhhehrreh 74 523.4 Filter Bank Analysis ¬ 75 5.5 Equal Loudness Normalization -:-::::::::++:++++++r++rreereeeeeeceeececec 76 5.6 Intensity-loudness Power Law -::::+:*rrrrrrhhhhhhhrrrnrrnnnnrnrnnrnrrsree 16 5.7 Autoregressive Modeling -----::--:::::::::::+++:++tthhhnhhhhhhrenreo 6 5.8 Cepstral Domain Transformation -----:-+*+++++++**+eehetheeeeteeeeteeeerec 77 5.3 The Classification| RE 78 T1: .1 Emo-DB Database ---:::::--:--::::----+++* +22 St xe 80 5.2 SAVEE Database 00 eI 600 00000 SE en 82 5. 83 5422 Comparison Results Po Po SER Â.

(co e eo 86 CHAPTER 6 CONCLUSION AND FUTURE WORK --------------- 89 6.1 Overall Performance ------:-:--:--:-:++++++*+rreeeeeeeeeeeeeereeeereeeeeeeeeeeeere 89 6.2 Suggestion of Applications --:::::::::::+:++:t+tttttrthhrhhhhhhhhereesree 90 6.3 Future Work ccc ee eee EEEeee e 91 REFERENCES " 92 APPENDICES 0100200000022. 102 -iv- LIST OF TABLES [Table 5-1] Code and information of speakers in Emo-DB database------------------ 54 [Table 5-2] Code of emotions of Emo-DB database---------------------------+-ccccccccc: 54 [Table 5-3] Number of samples of emotions of Emo-DB database -------------------- 55 [Table 5-4] Notations of emotions used in Emo-DB database -:------:------------- 55 [Table 5-5] Number of samples of emotions of SAVEE database ---------------:----- 57 [Table 5-6] Notations of emotions used in SAVEE database ----------------------- 58 [Table 5-7] Recognition results of FAM FIS method on Emo-DB database in comparison with Support Vector Machine method ----------------------- 80 [Table 5-8] Confusion matrix of 19-dimension MFCC feature of Emo-DB D atabase đ :-——. 81 [Table 5-9] Recognition results of FAM FIS method on SAVEE database in comparison with Support Vector Machine method -----:--:--:--::---- 83 [Table 5-10] Confusion matrix of 19-dimensions MFCC feature of SAVEE database ". e eee eee eee eee eee 85 [Table 5-11] Confusion matrix of 17-dimensions GFCC feature of SAVEE LIST OF FIGURES [Figure 2-1] Types of classifiers used for speech emotion recognition ----:--:-:-:-- 21 [Figure 3-1] The principal structure of the fuzzy associative memory -:-:--:---:-- 22 [Figure 3-2] Model of fuzzy inference system based on fuzzy associative Memory viet te eee eee 24 [Figure 3-3] Type 1 of membership functions --------:--------++++-+*‡‡ te ceecceọc 25 [Figure 3-4] Type 2 of membership functIOns-----------+*++******+‡en set e te èc 26 [Figure 3-5] Type 3 of membership functiOnS---------++++-+++++++*+‡*c*e*c se cececcìc 26 [Figure 3-6] Membership functions of output variable -:-:-:------------+-+-+-+-+++++ 27 [Figure 3-7] Histogram of a feature (utter 12) of Emo-DB:---------------:-+-+c-cc: 30 [Figure 3-8] Smoothed histogram of a feature (utter 12) of Emo-DB -------------- 30 [Figure 3-9] Basic model of inference using fuzzy associative memory ---:::-:--- 31 [Figure 3-10] Fuzzy rules-+:+0:0:s0s0ee etter terre 31 [Figure 3-11] The model of SER using FAM-based fuzzy inference system ------ 34 [Figure 4-1] Main interface window of SERT vivre 36 [Figure 4-2] Information on Global Window Size and Global Step Size ---------- 37 [Figure 4-3] The image of an audio file in SAVEE database ------------------------- 37 [Figure 4-4] Command buttons used for speech emotion reCOØTIfION---:---------- 37 [Figure 4-5] “Features” group <r: ieee eer eeie 38 [Figure 4-6] MFCC parameter configuration interface ---:::------::---::-::---:+--+- 38 [Figure 4-7] “Framing Modes” group_----::--::::::::::::++:*+:*+tttthhhhhhhhhhthtee 39 -vi- [Figure 4-8] The HTK mode or traditional framing mode --::---::-------:---------- 40 [Figure 4-9] The Fixed Step Size framing mode ---:::-:-:-:--------:-+-+-+-*ccccc cà 41 [Figure 4-10] “Tools” group crite ttt eerie 42 [Figure 4-11] Interface of Tool for checking database --::--------------------------- 43 [Figure 4-12] Interface of Tool for converting HTK files to TXT files ------------ 44 [Figure 4-13] Interface of “Cut wav files” tool -----------+****sehnhehhhhhhheneeeeeeere 45 [Figure 4-14] Interface of “Trim wav files” tool ---------::*****crhehehhheheneeeeeere 46 [Figure 4-15] Interface of “Resample wav files” tool ------:--::--++*ree chen 47 [Figure 4-16] Functions of “Operations” øf0up_--::-:*:*:*:*:+*+*******eeeeeeheeeeeeec 48 [Figure 4-17] Functions of “Commands” group ----:::::-:-:---*:*+*+*+*+**e*+*+*ese*ẻ 49 [Figure 4-18] The interface of “Batch Process” tool -:-:--:-:++++++*rreteeheeeeteeeeet 50 [Figure 4-19] Command buttons in “Recognition” group cists 51 [Figure 4-20] Tool for Support Vector Machine classification -:-:-:--------------- 51 [Figure 4-21] Tool for FAM FIS classification -------:------:+*++*+*rreeeeheeeeeeeeeet 52 [Figure 5-1] A sample of emotion speech in Berlin database (Emo-DB) --------- 56 [Figure 5-2] A sample of emotion speech in Surrey Audio-Visual Expressed Emotion database (SAVEE) aT 57 [Figure 5-3] The algorithm for trimming silence segments at beginning and the ending of wav files ---:--::--::::::::++:++*2ttthhhhhhhhhhhhhhhhhrreree 61 [Figure 5-4] MFCC feature extraction block diagram ----------:--++-+++*+*+c+reecìc 64 [Figure 5-5] An example of MFCC filter bank---------------------+-*+**‡c‡‡ sec.

67 [Figure 5-6] GFCC feature extraction block diagram ---:-----:---++*+*+*+*+*+c*ccccc+ 70 -Vvil- [Figure 5-7] GPLP block diagram -----:--::-::--::-::::::::+:+:++:++tttttrhtererrr [Figure 5-8] Chart of FIS vs. SVM classification for MFCC feature of Berlin Emo-DB database ----:-:-:-:--------:*s nh nh nh nh thề eens the he kh th ens [Figure 5-9] Chart of SVM classification for SAVEE database ---------------------- [Figure 5-10] Chart of FAM FIS classification for SAVEE database --------------- [Figure 5-11] Chart of FIS vs. SVM classification for MFCC feature of SAVEE database ---::----::----::--++** 22 2S [Figure 5-12] Chart of FIS vs. SVM classification for GFCC feature of SAVEE database 00 a III 505000000 0 Ce ery [Figure 5-13] Chart of FIS vs.

SVM classification for GPLP feature of SAVEE database A RS > ee ee ene ee ea -viii- ABSTRACT Speech Emotion Recognition using Fuzzy Inference System based on Fuzzy Associative Memory TON THAT HOA AN Department of Digital Media Graduate School of Soongsil University Affective interaction is the high-level phase of human computer interaction. And Affective Computing is a terminology to describe a not long ago established active interdisciplinary research field dealing with the automatic sense, recognition and synthesis of human emotions from any biological modality such as speech or facial expression. Being one among research directions of Affective Computing, speech emotion recognition is a relatively recent research field which is defined as extracting the emotional state of a speaker from his or her speech. The paralinguistic information conveyed by speech emotions has been found to be useful in multiple ways such as extracting useful semantics from speech to improve the performance of speech recognition systems in speech processing or serving as an important ingredient of “emotional intelligence” of machines and contributing to human-machine interaction.

-ÌX- Despite speech emotion recognition has been investigated for past four decades but until now, there are still many difficulties and challenges. Two main problems in the research field are speech feature extraction and speech emotion classification. These are also two key research directions to improve the accuracy of speech emotion recognition systems. This dissertation presents a novel method of classification using fuzzy inference system based on fuzzy association memory.

To compare with method using support vector machine which is being used commonly at present, the work experimented on some existing single features as Mel-Frequency Cepstral Coefficients (MFCC), Greenwood Frequency Cepstral Coefficients (GFCC), Greenwood Perceptual Linear Prediction coefficients (GPLP). The classifiers have been experimented on two databases: Berlin Emotion Speech Database (Berlin Emo-DB) in German and Surrey Audio-Visual Expressed Emotion (SAVEE) database in English. Our experimental results show that the classifier using fuzzy inference system based on fuzzy association memory is better than the classification method using support vector machine on same kind of features and databases. The algorithms and experimental results of the classifier presented in the dissertation are only first steps.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Nhận diện cảm xúc trong giọng nói bằng hệ thống suy diễn mờ dựa trên bộ nhớ liên kết mờ" trình bày một phương pháp tiên tiến để nhận diện cảm xúc thông qua giọng nói, sử dụng hệ thống suy diễn mờ kết hợp với bộ nhớ liên kết mờ. Phương pháp này không chỉ giúp cải thiện độ chính xác trong việc phân tích cảm xúc mà còn mở ra những ứng dụng tiềm năng trong các lĩnh vực như chăm sóc sức khỏe, giáo dục và dịch vụ khách hàng. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà công nghệ này có thể được áp dụng trong thực tiễn, từ đó nâng cao khả năng giao tiếp và hiểu biết về cảm xúc con người.

Nếu bạn muốn tìm hiểu sâu hơn về các phương pháp nhận diện cảm xúc khác, hãy tham khảo tài liệu Luận văn tốt nghiệp khoa học máy tính phát triển hệ thống nhận diện cảm xúc qua giọng nói, nơi cung cấp cái nhìn tổng quan về các hệ thống tương tự. Bên cạnh đó, tài liệu Luận văn thạc sĩ kỹ thuật viễn thông nhận dạng cảm xúc người nói dựa trên học sâu sẽ giúp bạn khám phá thêm về các kỹ thuật học sâu trong nhận diện cảm xúc. Cuối cùng, bạn cũng có thể tìm hiểu về nhận diện cảm xúc qua khuôn mặt trong tài liệu Đề tài nhận dạng cảm xúc thông qua khuôn mặt dùng mạng nơ ron tích chập cnn. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và cái nhìn đa chiều về lĩnh vực nhận diện cảm xúc.

#nhận diện cảm xúc