Nghiên Cứu Tổng Hợp Về Tổng Hợp Giọng Nói Biểu Cảm Tại Trường Đại Học Bách Khoa Hà Nội

Người đăng

Ẩn danh

Thể loại

master thesis

2023

68
2
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI MỞ ĐẦU

1. INTRODUCTION

1.1. Non-emotional Features

1.2. Traditional Speech Synthesis Techniques

1.3. Modern Speech Synthesis Techniques

1.4. Expressive Speech Synthesis

2. BUILDING VIETNAMESE EMOTIONAL SPEECH DATASET

2.1. Existing Emotion Datasets

2.2. Data Processing Techniques

2.3. Pipeline For Building Emotional Speech Dataset

2.4. Target Speech Segmentation

2.5. Analysis of Pipeline Errors

3. EMOTIONAL SPEECH SYNTHESIS SYSTEM

3.1. Baseline Acoustic Model

3.2. Proposed Acoustic Model

3.3. Result and Discussion

LIST OF FIGURES

LIST OF TABLES

ACRONYMS

4. THEORETICAL BACKGROUND

4.1. Non-emotional Features

4.1.1. Spectrogram

4.1.2. Mel Spectrogram

4.1.3. Acoustic/Prosodic Features

4.2. Emotional Features

4.3. Overview

4.4. Traditional Speech Synthesis Techniques

4.5. Modern Speech Synthesis Techniques

4.5.1. Acoustic Model

PART CONCLUSION

Tóm tắt nghiên cứu "Nghiên Cứu Tổng Hợp Về Tổng Hợp Giọng Nói Biểu Cảm Tại Trường Đại Học Bách Khoa Hà Nội" tập trung vào việc tạo ra giọng nói nhân tạo có cảm xúc, một lĩnh vực đầy thách thức trong tổng hợp tiếng nói. Nghiên cứu này có thể khám phá các kỹ thuật và mô hình khác nhau để truyền tải cảm xúc (ví dụ: vui, buồn, tức giận) thông qua giọng nói tổng hợp. Đọc giả sẽ được tìm hiểu sâu hơn về các phương pháp xử lý tín hiệu, học máy và trí tuệ nhân tạo được áp dụng để đạt được mục tiêu này. Nghiên cứu này có ý nghĩa quan trọng trong việc cải thiện tính tự nhiên và biểu cảm của các hệ thống tương tác bằng giọng nói, mở ra nhiều ứng dụng tiềm năng trong các lĩnh vực như trợ lý ảo, trò chơi điện tử và giáo dục.

Để hiểu rõ hơn về các kỹ thuật xử lý âm thanh liên quan, bạn có thể tham khảo thêm Luận văn giấu tin trong file âm thanh bằng các phép biến đổi rời rạc. Tài liệu này cung cấp một góc nhìn khác về việc thao tác và biến đổi tín hiệu âm thanh, có thể bổ sung kiến thức cho việc tổng hợp giọng nói biểu cảm.