Nghiên Cứu Tổng Hợp Về Tổng Hợp Giọng Nói Biểu Cảm Tại Trường Đại Học Bách Khoa Hà Nội

Tài liệu nghiên cứu Expressive speech synthesis, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về ., phục vụ nghiên cứu và ứng dụng thực tiễn

Trường đại học

Hanoi University of Science and Technology

Chuyên ngành

Information and Communication Technology

Người đăng

Ẩn danh

Thể loại

master thesis

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. INTRODUCTION

1.1. Non-emotional Features

1.2. Traditional Speech Synthesis Techniques

1.3. Modern Speech Synthesis Techniques

1.4. Expressive Speech Synthesis

2. BUILDING VIETNAMESE EMOTIONAL SPEECH DATASET

2.1. Existing Emotion Datasets

2.2. Data Processing Techniques

2.3. Pipeline For Building Emotional Speech Dataset

2.4. Target Speech Segmentation

2.5. Analysis of Pipeline Errors

3. EMOTIONAL SPEECH SYNTHESIS SYSTEM

3.1. Baseline Acoustic Model

3.2. Proposed Acoustic Model

3.3. Result and Discussion

LIST OF FIGURES

LIST OF TABLES

ACRONYMS

4. THEORETICAL BACKGROUND

4.1. Non-emotional Features

4.1.1. Spectrogram

4.1.2. Mel Spectrogram

4.1.3. Acoustic/Prosodic Features

4.2. Emotional Features

4.3. Overview

4.4. Traditional Speech Synthesis Techniques

4.5. Modern Speech Synthesis Techniques

4.5.1. Acoustic Model

PART CONCLUSION

Tóm tắt

I. Tổng Quan Nghiên Cứu Về Tổng Hợp Giọng Nói Biểu Cảm

Công nghệ tổng hợp giọng nói (TTS) ngày càng trở nên phổ biến, giúp tiết kiệm thời gian và tăng khả năng tiếp cận thông tin. Một hướng đi đầy hứa hẹn là tổng hợp giọng nói biểu cảm, tạo ra giọng nói truyền tải được sắc thái cảm xúc thông qua ngữ điệu và các dấu hiệu giọng nói khác. Tổng hợp giọng nói biểu cảm có tiềm năng cách mạng hóa tương tác giữa người và máy, làm cho nó trở nên tự nhiên và giống con người hơn. Đây là một lĩnh vực phát triển nhanh chóng, với nhiều tiến bộ gần đây trên toàn thế giới. Nghiên cứu này tập trung vào cảm xúc trong giọng nói, được truyền tải qua các biến đổi về âm sắc, cao độ và âm lượng. Các cảm xúc trong giọng nói bao gồm vui, buồn, giận dữ và sợ hãi. Loại giọng nói này giúp truyền đạt cảm xúc của người nói và có thể được sử dụng để gợi ra phản ứng cảm xúc từ người nghe.

1.1. Giới Thiệu Về Công Nghệ TTS Biểu Cảm Hiện Đại

Công nghệ TTS biểu cảm hiện đại sử dụng các thuật toán phức tạp và học máy trong tổng hợp giọng nói để tạo ra âm thanh tự nhiên và biểu cảm hơn. Các hệ thống này phân tích văn bản đầu vào và tạo ra giọng nói phù hợp với ngữ cảnh và cảm xúc mong muốn. Một trong những thách thức lớn nhất là thu thập và xử lý lượng lớn dữ liệu huấn luyện. Các thuật toán cần được điều chỉnh để xử lý sự thay đổi trong giọng nói, bao gồm tuổi tác, giới tính và văn hóa. Các mô hình TTS biểu cảm hiện đại cần tận dụng tối đa dữ liệu hạn chế và tích hợp các cơ chế hỗ trợ tạo ra giọng nói biểu cảm, cũng như các điều khiển dễ hiểu áp dụng được trong nhiều tình huống.

1.2. Ứng Dụng Tiềm Năng Của Tổng Hợp Giọng Nói Biểu Cảm

Ứng dụng tổng hợp giọng nói rất đa dạng, từ trợ lý ảo cá nhân đến hệ thống tương tác người-máy. Trong lĩnh vực giáo dục, nó có thể tạo ra các bài giảng và tài liệu học tập hấp dẫn hơn. Trong lĩnh vực giải trí, nó có thể tạo ra các nhân vật và giọng lồng tiếng sống động hơn. Giao diện người máy bằng giọng nói cũng được cải thiện đáng kể nhờ công nghệ này, tạo ra trải nghiệm tương tác tự nhiên và trực quan hơn. Các hệ thống tương tác người máy có thể hiểu và phản hồi cảm xúc của người dùng, tạo ra một kết nối sâu sắc hơn.

II. Thách Thức Trong Nghiên Cứu Tổng Hợp Giọng Nói Biểu Cảm

Một trong những thách thức lớn nhất trong nghiên cứu tổng hợp giọng nói là yêu cầu về lượng lớn dữ liệu huấn luyện. Việc tạo ra giọng nói nghe tự nhiên và truyền tải được biểu cảm trong giọng nói đòi hỏi một lượng lớn dữ liệu, và việc thu thập và phân loại dữ liệu này có thể tốn thời gian và tốn kém. Một vấn đề khác là yêu cầu về các thuật toán mạnh mẽ có thể xử lý sự thay đổi trong các mẫu giọng nói. Ví dụ, giọng nói biểu cảm có thể khác nhau tùy thuộc vào các đặc điểm như tuổi tác, giới tính và văn hóa. Các thuật toán được sử dụng cho tổng hợp giọng nói biểu cảm phải có khả năng thích ứng với sự thay đổi này và cung cấp giọng nói phù hợp với ngữ cảnh.

2.1. Thiếu Hụt Dữ Liệu Giọng Nói Biểu Cảm Tiếng Việt

Tại Việt Nam, một trong những thách thức chính đối với các nhà nghiên cứu là thiếu các bộ dữ liệu giọng nói biểu cảm tiếng Việt chất lượng cao. Điều này gây khó khăn cho việc huấn luyện các mô hình chính xác cho tổng hợp giọng nói cảm xúc. Theo như được biết, có rất ít nghiên cứu về giọng nói biểu cảm tiếng Việt, và không có bộ dữ liệu nào được công khai. Việc thu thập và xây dựng các bộ dữ liệu này là một nhiệm vụ tốn kém và đòi hỏi nhiều nguồn lực.

2.2. Xử Lý Sự Thay Đổi Trong Biểu Cảm Trong Giọng Nói

Biểu cảm trong giọng nói có thể thay đổi đáng kể tùy thuộc vào nhiều yếu tố, bao gồm cảm xúc, ngữ cảnh và đặc điểm cá nhân của người nói. Các mô hình tổng hợp giọng nói cần có khả năng xử lý sự thay đổi này để tạo ra giọng nói tự nhiên và phù hợp. Các thuật toán cần được thiết kế để nhận diện và tái tạo các sắc thái cảm xúc khác nhau, cũng như điều chỉnh giọng nói cho phù hợp với ngữ cảnh cụ thể.

III. Phương Pháp Xây Dựng Dữ Liệu Giọng Nói Cảm Xúc Bán Tự Động

Luận văn này đề xuất một quy trình bán tự động để xây dựng bộ dữ liệu giọng nói cảm xúc tiếng Việt. Phương pháp này giúp giảm chi phí và thời gian bằng cách trích xuất và gắn nhãn dữ liệu từ các nguồn dữ liệu có sẵn. Đồng thời, tính khả dụng của dữ liệu được trình bày được minh họa bằng mô hình tổng hợp giọng nói cảm xúc được đề xuất. Quy trình này bao gồm các bước như phân đoạn giọng nói mục tiêu, xử lý hậu kỳ âm thanh và phân tích lỗi quy trình. Hai bộ dữ liệu giọng nói cảm xúc tiếng Việt, TTH và LMH, được phát hành bằng quy trình này.

3.1. Quy Trình Xây Dựng Dữ Liệu Giọng Nói Cảm Xúc

Quy trình xây dựng dữ liệu giọng nói cảm xúc bao gồm các bước chính như thu thập dữ liệu từ các nguồn khác nhau, tiền xử lý dữ liệu để loại bỏ nhiễu và chuẩn hóa định dạng, gắn nhãn cảm xúc cho từng đoạn giọng nói, và kiểm tra chất lượng dữ liệu để đảm bảo tính chính xác và nhất quán. Các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng để hỗ trợ quá trình gắn nhãn cảm xúc.

3.2. Phân Tích Lỗi Trong Quy Trình Xây Dựng Dữ Liệu

Việc phân tích lỗi trong quy trình xây dựng dữ liệu là rất quan trọng để xác định các vấn đề và cải thiện chất lượng dữ liệu. Các lỗi có thể phát sinh từ nhiều nguồn khác nhau, bao gồm lỗi trong quá trình thu thập dữ liệu, lỗi trong quá trình gắn nhãn cảm xúc, và lỗi trong quá trình xử lý dữ liệu. Việc xác định và sửa chữa các lỗi này sẽ giúp tăng độ chính xác và độ tin cậy của dữ liệu.

3.3. So Sánh Quy Trình Bán Tự Động Với Quy Trình Thủ Công

Quy trình bán tự động giúp giảm đáng kể thời gian và chi phí so với quy trình thủ công. Quy trình thủ công đòi hỏi nhiều công sức và thời gian để thu thập, xử lý và gắn nhãn dữ liệu. Quy trình bán tự động sử dụng các công cụ và thuật toán tự động để hỗ trợ các bước này, giúp tăng hiệu quả và giảm thiểu sai sót.

IV. Mô Hình Tổng Hợp Giọng Nói Cảm Xúc Phù Hợp Với Dữ Liệu

Luận văn này phát triển một mô hình tổng hợp giọng nói cảm xúc phù hợp với các mục tiêu dữ liệu được chỉ định. Mô hình này bao gồm một mô hình âm thanh cơ bản và một mô hình âm thanh được đề xuất. Mô hình âm thanh cơ bản được sử dụng làm điểm chuẩn để so sánh hiệu suất của mô hình được đề xuất. Mô hình được đề xuất sử dụng một bộ mã hóa cảm xúc để tích hợp thông tin cảm xúc vào quá trình tổng hợp giọng nói. Mô hình này được huấn luyện trên hai bộ dữ liệu giọng nói cảm xúc tiếng Việt, TTH và LMH.

4.1. Kiến Trúc Mô Hình Âm Thanh Cơ Bản

Mô hình âm thanh cơ bản sử dụng kiến trúc phổ biến trong tổng hợp giọng nói, chẳng hạn như Tacotron 2 hoặc FastSpeech. Mô hình này bao gồm một bộ mã hóa văn bản để chuyển đổi văn bản đầu vào thành biểu diễn số, một bộ giải mã âm thanh để tạo ra các đặc trưng âm thanh từ biểu diễn văn bản, và một bộ mã hóa giọng nói để chuyển đổi các đặc trưng âm thanh thành dạng sóng âm thanh.

4.2. Đề Xuất Mô Hình Âm Thanh Với Bộ Mã Hóa Cảm Xúc

Mô hình âm thanh được đề xuất bổ sung một bộ mã hóa cảm xúc để tích hợp thông tin cảm xúc vào quá trình tổng hợp giọng nói. Bộ mã hóa cảm xúc nhận đầu vào là nhãn cảm xúc và tạo ra một biểu diễn số của cảm xúc. Biểu diễn này được kết hợp với biểu diễn văn bản để tạo ra các đặc trưng âm thanh phù hợp với cảm xúc mong muốn.

4.3. Đánh Giá Hiệu Suất Mô Hình Trên Dữ Liệu Tiếng Việt

Hiệu suất của mô hình được đánh giá bằng cách sử dụng các số liệu khách quan và chủ quan. Các số liệu khách quan bao gồm tỷ lệ nhận dạng cảm xúc (EIR) và điểm trung bình ý kiến (MOS). Các số liệu chủ quan bao gồm điểm SUS (Semantically Unpredictable Sentences) để đánh giá tính tự nhiên của giọng nói.

V. Ứng Dụng Thực Tế Và Kết Quả Nghiên Cứu Giọng Nói Biểu Cảm

Nghiên cứu này có nhiều ứng dụng thực tế trong các lĩnh vực như trợ lý ảo, giáo dục, giải trí và chăm sóc sức khỏe. Ứng dụng tổng hợp giọng nói có thể được sử dụng để tạo ra các trợ lý ảo cá nhân có khả năng tương tác với người dùng một cách tự nhiên và biểu cảm. Trong lĩnh vực giáo dục, nó có thể được sử dụng để tạo ra các bài giảng và tài liệu học tập hấp dẫn hơn. Trong lĩnh vực giải trí, nó có thể được sử dụng để tạo ra các nhân vật và giọng lồng tiếng sống động hơn. Trong lĩnh vực chăm sóc sức khỏe, nó có thể được sử dụng để hỗ trợ giao tiếp cho những người bị khuyết tật về giọng nói.

5.1. Cải Thiện Tương Tác Người Máy Thông Qua Giọng Nói Biểu Cảm

Giọng nói biểu cảm có thể cải thiện đáng kể tương tác người máy bằng cách làm cho nó trở nên tự nhiên và trực quan hơn. Các hệ thống có khả năng hiểu và phản hồi cảm xúc của người dùng có thể tạo ra một kết nối sâu sắc hơn và cung cấp trải nghiệm tương tác tốt hơn.

5.2. Ứng Dụng Trong Trợ Lý Ảo Và Hệ Thống Tự Động

Ứng dụng AI trong giọng nói ngày càng phổ biến trong các trợ lý ảo và hệ thống tự động. Tổng hợp giọng nói biểu cảm có thể được sử dụng để tạo ra các trợ lý ảo có khả năng tương tác với người dùng một cách tự nhiên và biểu cảm, cung cấp thông tin và hỗ trợ một cách hiệu quả.

5.3. Tiềm Năng Trong Giáo Dục Và Giải Trí

Ứng dụng tổng hợp giọng nói có tiềm năng lớn trong lĩnh vực giáo dục và giải trí. Nó có thể được sử dụng để tạo ra các bài giảng và tài liệu học tập hấp dẫn hơn, cũng như tạo ra các nhân vật và giọng lồng tiếng sống động hơn trong các trò chơi điện tử và phim ảnh.

VI. Kết Luận Và Hướng Phát Triển Tổng Hợp Giọng Nói Biểu Cảm

Luận văn này đã trình bày một nghiên cứu về tổng hợp giọng nói biểu cảm tại Đại học Bách khoa Hà Nội. Nghiên cứu này đã đề xuất một quy trình bán tự động để xây dựng bộ dữ liệu giọng nói cảm xúc tiếng Việt và phát triển một mô hình tổng hợp giọng nói cảm xúc phù hợp với dữ liệu. Kết quả nghiên cứu cho thấy rằng mô hình được đề xuất có khả năng tạo ra giọng nói biểu cảm tự nhiên và phù hợp với cảm xúc mong muốn. Nghiên cứu này đóng góp vào sự phát triển của lĩnh vực tổng hợp giọng nói tại Việt Nam và mở ra nhiều hướng nghiên cứu tiềm năng trong tương lai.

6.1. Tóm Tắt Các Đóng Góp Chính Của Nghiên Cứu

Nghiên cứu này đã đóng góp vào lĩnh vực tổng hợp giọng nói bằng cách đề xuất một quy trình bán tự động để xây dựng bộ dữ liệu giọng nói cảm xúc tiếng Việt, phát hành hai bộ dữ liệu giọng nói cảm xúc tiếng Việt (TTH và LMH), và phát triển một mô hình tổng hợp giọng nói cảm xúc phù hợp với dữ liệu.

6.2. Hướng Nghiên Cứu Tương Lai Về Cải Thiện Giọng Nói Biểu Cảm

Các hướng nghiên cứu tương lai có thể tập trung vào việc cải thiện giọng nói biểu cảm bằng cách sử dụng các kỹ thuật học máy tiên tiến hơn, khám phá các phương pháp mới để thu thập và xử lý dữ liệu giọng nói cảm xúc, và phát triển các ứng dụng thực tế của tổng hợp giọng nói biểu cảm trong các lĩnh vực khác nhau.

6.3. Tầm Quan Trọng Của Nghiên Cứu Khoa Học Bách Khoa Trong Lĩnh Vực AI

Nghiên cứu khoa học Bách khoa đóng vai trò quan trọng trong sự phát triển của lĩnh vực AI, đặc biệt là trong các lĩnh vực như tổng hợp giọng nói và xử lý ngôn ngữ tự nhiên. Các nghiên cứu này cung cấp các kiến thức và công nghệ mới để giải quyết các vấn đề thực tế và thúc đẩy sự tiến bộ của xã hội.

05/06/2025

Bạn đang xem trước tài liệu:

Expressive speech synthesis

Tải đầy đủ

Trích đoạn nội dung tài liệu

HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY MASTER THESIS Expressive Speech Synthesis NGUYEN THI NGOC ANH Anh.vn School of Information and Communication Technology Supervisor: Dr. Nguyen Thanh Hung Supervisor’s signature School: Information and Communication Technology 18th May 2023 Graduation Thesis Assignment Name: Nguyen Thi Ngoc Anh Phone: +84342612379 Email: Anh.vn; ngocanh2162@gmail.com Class: CH2021A Affiliation: Hanoi University of Science and Technology Nguyen Thi Ngoc Anh - hereby warrants that the work and presentation in this thesis were performed by myself under the supervision of Dr. Nguyen Thanh Hung. All the results presented in this thesis are truthful and are not copied from any other works.

All references in this thesis including images, tables, figures, and quotes are clearly and fully documented in the bibliography. I will take full responsibility for even one copy that violates school regulations. Student Signature and Name Acknowledgement I’d like to take this opportunity to thank everyone who has been so supportive of me throughout my academic career. To begin, I’d like to thank Dr.

Nguyen Thanh Hung for his unwavering support and encouragement throughout my mas- ter’s studies. His support and guidance have been instrumental in helping me achieve my academic goals. In addition, I’d like to thank Dr. Nguyen Thi Thu Trang and her colleagues in Lab 914 for their assistance in completing the experiments.

Their willingness to share their knowledge and skills has been very helpful to me, and I’ve learned a lot from them. Her knowledge, advice, and support were very important to my academic career, and I will always be grateful to her. I also want to thank Dr. Do Van Hai and my other coworkers at Viettel Cyberspace Center for their constant help and support during my master’s studies.

Their will- ingness to lend a hand and help me out when I needed it has been very important to me. I would not have been able to achieve academic success without their as- sistance. Aside from my academic mentors, I’m thankful to my family and friends for their constant support and encouragement. Their never-ending love and support have given me strength and pushed me to do well in school.

Finally, I would like to thank myself for persevering and not giving up. The jour- ney was difficult, but I am proud of myself for overcoming the challenges and reaching my academic goals. Abstract Text-to-speech technology, also known as TTS, is a type of assistive technol- ogy that converts written text into spoken words. The overall goal of the speech synthesis research community is to create natural sounding synthetic speech.

Cur- rently, there are many speech synthesis engines available on the market, each with its own strengths and weaknesses. Some engines focus on generating natural- sounding speech, while others focus on generating expressive speech. To increase naturalness, researchers have recently identified synthesizing emotional speech as a major research focus for the speech community. Expressive speech synthesis is the ability to convey emotions and attitudes through synthesized speech.

This is achieved by adding prosodic features like intonation, stress, and rhythm to the speech waveform. Vietnamese expressive speech research is scarce, to my knowl- edge. No datasets from these articles have been released. However, significant work remains in this field.

A large, high-quality dataset is needed to investigate Vietnamese expressive speech. This thesis (1) publishes two Vietnamese emotional speech datasets, (2) proposes a method for automatically building data, and (3) develops a model for synthe- sizing emotional speech. The proposed method for automatically building data helps reduce costs and time by extracting and labeling data from available data sources. Simultaneously, the applicability of the presented data is illustrated using the proposed emotional speech synthesis model.

Keywords: Speech Synthesis, Text To Speech, Expressive Speech Synthesis, Cor- pus Building Student Signature and Name TABLE OF CONTENTS INTRODUCTION.1 Non-emotional Features.2 Traditional Speech Synthesis Techniques.3 Modern Speech Synthesis Techniques .3 Expressive Speech Synthesis. BUILDING VIETNAMESE EMOTIONAL SPEECH DATASET 13 2.1 Existing Emotion Datasets .2 Data Processing Techniques .2 Pipeline For Building Emotional Speech Dataset .2 Target Speech Segmentation.1 Analysis of Pipeline Errors. EMOTIONAL SPEECH SYNTHESIS SYSTEM.1 Baseline Acoustic Model .2 Proposed Acoustic Model .3 Result and Discussion. 52 LIST OF FIGURES 1.1 An example of waveform, spectrogram, and mel-spectrogram.3 An example of modern TTS architecture.4 Typical acoustic models.5 Some expressive speech synthesis techniques.1 Pipeline for building an emotional speech dataset.2 Audio post-processing.4 F0 means in the TTH and LMH datasets.5 t-SNE visualizations of emotion embeddings in the TTH dataset.6 t-SNE visualizations of emotion embeddings in the LMH dataset.1 Pipeline for training baseline acoustic model.2 Baseline acoustic model architecture.3 Proposed acoustic model architecture.4 Detail of Emotion Encoder module.6 HifiGAN model architecture [66].

39 LIST OF TABLES 2.1 Some emotional datasets .2 Pipeline errors in the LMH dataset .3 LMH dataset before and after normalization .4 Compare manual pipeline and proposed pipeline processing times 27 2.5 Syllable coverage in two datasets .2 Acoustic model configuration .3 MOS score of data evaluation .4 EIR score of data evaluation .5 SUS score of data evaluation .6 MOS score in model evaluation .7 EIR score in model evaluation .8 SUS score in model evaluation. 50 ACRONYMS Notation Description AI Artificial Intelligence ASR Automatic Speech Recognition CNN Convolutional Neural Network DNN Deep Neural Network E2E End To End EIR Emotion Identification Rate ESS Expressive Speech Synthesis GAN Generative Adversarial Network GST Global Style Tokens HMM Hidden Markov Model LMH Luong Manh Hai LSTM Long Short Term Memory MOS Mean Opinion Score NLP Natural Language Processing RNN Recurrent Neural Network S2S Sequence-to-Sequence SER Speech Emotion Recognition SOTA State-Of-The-Art SPSS Statistical Parametric Speech Synthesis SUS Semantically Unpredictable Sentences TTH Tang Thanh Ha TTS Text To Speech VAE Variational Autoencoder WER Word Error Rate INTRODUCTION In recent years, TTS has become increasingly popular for general use, as it saves time and makes communication more accessible. One promising direction is the use of expressive speech synthesis, which aims to generate speech that conveys emotional nuances through prosody and other vocal cues. Expressive speech syn- thesis has the potential to revolutionize our interaction with technology by mak- ing it more natural and human-like.

It is a rapidly developing field, and there have been many recent advancements in this area worldwide. There are also a lot of technical difficulties related to expressive speech syn- thesis. One of the most significant issues is the requirement for huge amounts of training data. Generating speech that sounds human-like and conveys expres- siveness requires a large amount of data, and collecting and classifying this data can be time-consuming and expensive.

Another problem is the requirement for strong algorithms that can deal with variability in speech patterns. For example, expressive speech might differ depending on characteristics such as age, gender, and culture. Algorithms employed for expressive speech synthesis must be able to accommodate this variability and provide context-appropriate speech. It is cer- tainly possible to record large expressive datasets and apply the same complicated models, but the huge range of languages, speakers, and expressive and affect in- tensities makes this an ineffective experiment.

Besides that, modern expressive TTS models must make better use of the limited data they can train on and have integrated mechanisms that aid in generating expressive speech, as well as easy- to-interpret controls that are applicable in a variety of circumstances. In Vietnam, there has also been some progress in developing expressive speech synthesis, but it is still in the early stages of development. One of the main chal- lenges facing researchers in Vietnam is the lack of high-quality speech datasets, which can make it difficult to train accurate models for emotion speech synthesis. To the best of my knowledge, there has been little research on Vietnamese ex- pressive speech, such as [1]–[3]; however, none of the datasets contained in these papers have been made public.

Despite this, there is still room for improvement in this area. It is important to acquire a large, high-quality dataset for studying Vietnamese expressive speech. In this thesis, when referring to expressive speech, emotional speech is specifi- cally focused on. Emotional speech refers to the emotional state of the speaker and is conveyed through variations in tone, pitch, and volume.

Examples of emo- 1 tions conveyed through emotional speech include joy, sadness, anger, and fear. This type of speech helps communicate the speaker’s feelings and can also be used to elicit emotional responses from the listener. The main contributions of this thesis include: • Propose a semi-automatic pipeline to build Vietnamese emotional speech dataset. • Release two datasets of Vietnamese emotional speech using the described pipeline.

Analyze these Vietnamese emotional corpora and provide view- points. • Develop a model for emotional speech synthesis that is suitable for the spec- ified data objectives. The thesis is organized as follows: Chapter 1 provides an overview of speech features, speech synthesis, and expres- sive speech synthesis, focusing mostly on the technical side. Chapter 2 describes existing expressive datasets and some basic data processing steps.

It then presents TTH and LMH - two Vietnamese emotional speech datasets - and describes the strategy for the emotional corpus-building pipeline. Chapter 3 presents a baseline and proposed emotional speech synthesis model. Chapter 4 provides experimental results on various instances. Additionally, the effectiveness of the proposed corpus building pipeline is examined.

Part Conclusion concludes the thesis and outlines future works. THEORETICAL BACKGROUND This chapter provides an overview of speech features, speech synthesis, and ex- pressive speech synthesis, focusing mostly on the technical side.1 Non-emotional Features Speech is a signal that contains a lot of information. Depending on the purpose of the analysis, useful information will be extracted and analyzed. There are var- ious feature spaces that characterize speech data.

This section provides a simple overview of the features that are commonly used in Deep Learning architectures. a, Spectrogram A spectrogram is a visual representation of a signal’s frequency spectrum as it changes over time [4]. In the field of speech, spectrograms are often used to ana- lyze and change speech data. The spectrogram represents the frequency content of a spoken signal over time.

The x-axis indicates time, while the y-axis indicates frequency. At each location on the spectrogram, the color intensity corresponds to the amplitude or strength of the corresponding frequency component. Spectrograms are useful for judging how speech sounds, figuring out what pho- netic qualities they have, and learning about how speech sounds. They are also used in speech synthesis to change speech signals and make synthetic speech.

b, Mel Spectrogram Based on the idea that the human ear is more sensitive to some frequencies than others, this property tries to compress the representation of speech in the higher frequency domain. The mel scale is an experimental function that shows how sensitive the human ear is to different frequencies. The mel-spectrogram, which is based on the auditory-based mel-frequency scale, gives more frequency resolution than the spectrogram [5].1: An example of waveform, spectrogram, and mel-spectrogram. c, Acoustic/Prosodic Features Acoustic features are the physical qualities of the sound waves that the vocal tract makes [6].

These include parameters such as pitch, loudness, and duration of phonemes (units of sound). They provide information about the speaker’s emo- tions, attitudes, and intentions. Pitch describes the intonation of a sentence, while energy features cover the intensity of the uttered words. Duration stands for the speed of talking and the number of pauses.

Two more classes that do not directly belong to prosody are articulation (formants and bandwidths) and zero crossing rate. These deduced features are obtained by measuring statistical values of their corresponding extracted contours, such as mean, median, minimum, maximum, range, and variance. On the other hand, prosodic features are the patterns of stress, tone, and rhythm in speech [7]. These features play an important role in conveying meaning and emotion in human communication.

In speech synthesis, prosodic features need to be carefully modeled and synthesized in order to create a realistic-sounding synthetic speech.2 Emotional Features Valence and arousal are two key features used to describe emotions in speech [8].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt nghiên cứu "Nghiên Cứu Tổng Hợp Về Tổng Hợp Giọng Nói Biểu Cảm Tại Trường Đại Học Bách Khoa Hà Nội" tập trung vào việc tạo ra giọng nói nhân tạo có cảm xúc, một lĩnh vực đầy thách thức trong tổng hợp tiếng nói. Nghiên cứu này có thể khám phá các kỹ thuật và mô hình khác nhau để truyền tải cảm xúc (ví dụ: vui, buồn, tức giận) thông qua giọng nói tổng hợp. Đọc giả sẽ được tìm hiểu sâu hơn về các phương pháp xử lý tín hiệu, học máy và trí tuệ nhân tạo được áp dụng để đạt được mục tiêu này. Nghiên cứu này có ý nghĩa quan trọng trong việc cải thiện tính tự nhiên và biểu cảm của các hệ thống tương tác bằng giọng nói, mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như trợ lý ảo, trò chơi điện tử và giáo dục.

Để hiểu rõ hơn về các kỹ thuật xử lý âm thanh liên quan, bạn có thể tham khảo thêm Luận văn giấu tin trong file âm thanh bằng các phép biến đổi rời rạc. Tài liệu này cung cấp một góc nhìn khác về việc thao tác và biến đổi tín hiệu âm thanh, có thể bổ sung kiến thức cho việc tổng hợp giọng nói biểu cảm.

#phân tích giọng nói

#ứng dụng giọng nói

#công nghệ giọng nói

#Đại học Bách Khoa Hà Nội

#nghiên cứu giọng nói

#tổng hợp giọng nói biểu cảm

Chủ đề

Công nghệ âm thanh hiện đại

nghiên cứu về giọng nói

ứng dụng giọng nói trong giáo dục

phát triển công nghệ giọng nói