Nghiên Cứu Phát Triển Hệ Thống Thích Nghi Giọng Nói Trong Tổng Hợp Tiếng Việt

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

144
0
0

Phí lưu trữ

30.000 VNĐ

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. CÁC NGHIÊN CỨU LIÊN QUAN VÀ KIẾN THỨC

1.2. CƠ SỞ VỀ TỔNG HỢP VÀ THÍCH NGHI GIỌNG NÓI

1.2.1. Tổng quan về tổng hợp tiếng nói và tổng hợp thích nghi

1.2.2. Tổng hợp tiếng nói

1.2.3. Phân loại các phương pháp tổng hợp tiếng nói

1.2.4. Tổng hợp tiếng nói với khả năng điều chỉnh đặc trưng đầu ra

1.2.5. Tổng hợp tiếng nói hiệu quả

1.2.6. Thích nghi trong tổng hợp tiếng nói

1.2.7. Các kiến thức cơ sở

1.2.8. Cấu tạo tiếng Việt

1.2.9. Các thành phần chính của hệ thống tổng hợp thích nghi

1.2.10. Đánh giá chất lượng hệ thống tổng hợp thích nghi

1.2.11. Tình hình nghiên cứu hiện nay về tổng hợp thích nghi

1.2.12. Một số nghiên cứu gần đây trên một số ngôn ngữ khác

1.2.13. Một số nghiên cứu hiện này về tổng hợp tiếng Việt

1.2.14. Một số nghiên cứu hiện nay về tổng hợp thích nghi cho tiếng Việt

1.3. Hướng nghiên cứu chính của luận án

1.4. Kết luận Chương 1 và các nội dung nghiên cứu chính của luận án

2. CHƯƠNG 2: XÂY DỰNG CƠ SỞ DỮ LIỆU TIẾNG VIỆT

2.1. CHI PHÍ THẤP CHO TỔNG HỢP VÀ THÍCH NGHI GIỌNG NÓI

2.1.1. Xây dựng bộ CSDL tổng hợp và thích nghi

2.1.2. Thống kê các bộ CSDL cho tổng hợp hiện nay và bộ CSDL đề xuất

2.1.3. Quy trình xây dựng bộ CSDL cho tổng hợp và thích nghi

2.1.4. Đánh giá kết quả xây dựng bộ CSDL cho tổng hợp và thích nghi

2.2. Kết luận Chương 2

3. CHƯƠNG 3: MÔ HÌNH TỔNG HỢP THÍCH NGHI CÓ HUẤN LUYỆN VỚI MẪU NHỎ (FEW-SHOT TTS)

3.1. Thích nghi few-shot cho tổng hợp tiếng và các phương pháp

3.2. Mô hình tổng hợp thích nghi cơ sở

3.3. Mô hình thích nghi dựa trên tinh chỉnh

3.4. Mô hình thích nghi dựa trên mã hóa vector đặc trưng

3.5. Nâng cao chất lượng TTS thích nghi đơn người nói bằng kỹ thuật Multi-pass fine-tune

3.6. Kỹ thuật học chuyển đổi trong tổng hợp tiếng nói

3.7. Đề xuất kỹ thuật Multi-pass fine-tune cho tổng hợp tiếng nói tiếng Việt

3.8. Thử nghiệm đánh giá và kết quả

3.9. Nâng cao chất lượng tổng hợp thích nghi bằng vector đặc trưng EMV

3.10. Dự đoán và điều khiển các đặc trưng tiếng nói. Đề xuất vector trích xuất đặc trưng Extracting Mel-Vector (EMV)

3.11. Hàm mất mát huấn luyện

3.12. Thử nghiệm đánh giá và kết quả

3.13. Kết luận Chương 3

4. CHƯƠNG 4: MÔ HÌNH TỔNG HỢP THÍCH NGHI KHÔNG HUẤN LUYỆN VỚI MẪU TỐI THIỂU (ZERO-SHOT TTS)

4.1. Các nghiên cứu liên quan

4.2. Zero-shot TTS. Mô hình khuếch tán (Diffusion model)

4.3. Đề xuất mô hình Adapt-TTS cải tiến hiệu năng cho tổng hợp thích nghi tiếng Việt

4.4. Mô hình tổng quát

4.5. Mã hóa đặc trưng với EMV

4.6. Bộ khử nhiễu khuếch tán phổ Mel (Mel-spectrogram denoiser)

4.7. Sinh âm thanh có điều kiện

4.8. Hàm mất mát huấn luyện

4.9. Thử nghiệm đánh giá và kết quả

4.10. Thử nghiệm đánh giá

4.11. Kết luận Chương 4

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ

LIÊN QUAN ĐẾN LUẬN ÁN

DANH MỤC TÀI LIỆU THAM KHẢO

Tài liệu "Nghiên Cứu Phát Triển Hệ Thống Thích Nghi Giọng Nói Trong Tổng Hợp Tiếng Việt" tập trung vào việc phát triển một hệ thống nhận diện giọng nói hiệu quả cho tiếng Việt, nhằm cải thiện khả năng tương tác giữa con người và máy móc. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện đại trong lĩnh vực nhận diện giọng nói mà còn chỉ ra những thách thức và giải pháp tiềm năng trong việc xử lý ngôn ngữ tự nhiên. Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về công nghệ giọng nói và ứng dụng của nó trong các lĩnh vực như giáo dục, dịch vụ khách hàng và nhiều lĩnh vực khác.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo tài liệu Đồ án hcmute xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập, nơi bạn sẽ tìm thấy thông tin về công nghệ nhận diện khuôn mặt, một lĩnh vực có liên quan mật thiết đến nhận diện giọng nói. Ngoài ra, tài liệu Luận văn tốt nghiệp khoa học máy tính nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt sẽ giúp bạn hiểu rõ hơn về các thách thức trong việc bảo mật hệ thống nhận diện giọng nói. Cuối cùng, tài liệu Nghiên ứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động sẽ cung cấp cái nhìn về ứng dụng thực tiễn của công nghệ nhận diện giọng nói trong các thiết bị di động. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này.