Nghiên Cứu Phát Triển Hệ Thống Thích Nghi Giọng Nói Trong Tổng Hợp Tiếng Việt

Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt, ứng dụng công nghệ tiên tiến để nâng cao chất lượng giao tiếp.

Trường đại học

Học viện Khoa học và Công nghệ

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2023

144

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. CÁC NGHIÊN CỨU LIÊN QUAN VÀ KIẾN THỨC

1.2. CƠ SỞ VỀ TỔNG HỢP VÀ THÍCH NGHI GIỌNG NÓI

1.2.1. Tổng quan về tổng hợp tiếng nói và tổng hợp thích nghi

1.2.2. Tổng hợp tiếng nói

1.2.3. Phân loại các phương pháp tổng hợp tiếng nói

1.2.4. Tổng hợp tiếng nói với khả năng điều chỉnh đặc trưng đầu ra

1.2.5. Tổng hợp tiếng nói hiệu quả

1.2.6. Thích nghi trong tổng hợp tiếng nói

1.2.7. Các kiến thức cơ sở

1.2.8. Cấu tạo tiếng Việt

1.2.9. Các thành phần chính của hệ thống tổng hợp thích nghi

1.2.10. Đánh giá chất lượng hệ thống tổng hợp thích nghi

1.2.11. Tình hình nghiên cứu hiện nay về tổng hợp thích nghi

1.2.12. Một số nghiên cứu gần đây trên một số ngôn ngữ khác

1.2.13. Một số nghiên cứu hiện này về tổng hợp tiếng Việt

1.2.14. Một số nghiên cứu hiện nay về tổng hợp thích nghi cho tiếng Việt

1.3. Hướng nghiên cứu chính của luận án

1.4. Kết luận Chương 1 và các nội dung nghiên cứu chính của luận án

2. CHƯƠNG 2: XÂY DỰNG CƠ SỞ DỮ LIỆU TIẾNG VIỆT

2.1. CHI PHÍ THẤP CHO TỔNG HỢP VÀ THÍCH NGHI GIỌNG NÓI

2.1.1. Xây dựng bộ CSDL tổng hợp và thích nghi

2.1.2. Thống kê các bộ CSDL cho tổng hợp hiện nay và bộ CSDL đề xuất

2.1.3. Quy trình xây dựng bộ CSDL cho tổng hợp và thích nghi

2.1.4. Đánh giá kết quả xây dựng bộ CSDL cho tổng hợp và thích nghi

2.2. Kết luận Chương 2

3. CHƯƠNG 3: MÔ HÌNH TỔNG HỢP THÍCH NGHI CÓ HUẤN LUYỆN VỚI MẪU NHỎ (FEW-SHOT TTS)

3.1. Thích nghi few-shot cho tổng hợp tiếng và các phương pháp

3.2. Mô hình tổng hợp thích nghi cơ sở

3.3. Mô hình thích nghi dựa trên tinh chỉnh

3.4. Mô hình thích nghi dựa trên mã hóa vector đặc trưng

3.5. Nâng cao chất lượng TTS thích nghi đơn người nói bằng kỹ thuật Multi-pass fine-tune

3.6. Kỹ thuật học chuyển đổi trong tổng hợp tiếng nói

3.7. Đề xuất kỹ thuật Multi-pass fine-tune cho tổng hợp tiếng nói tiếng Việt

3.8. Thử nghiệm đánh giá và kết quả

3.9. Nâng cao chất lượng tổng hợp thích nghi bằng vector đặc trưng EMV

3.10. Dự đoán và điều khiển các đặc trưng tiếng nói. Đề xuất vector trích xuất đặc trưng Extracting Mel-Vector (EMV)

3.11. Hàm mất mát huấn luyện

3.12. Thử nghiệm đánh giá và kết quả

3.13. Kết luận Chương 3

4. CHƯƠNG 4: MÔ HÌNH TỔNG HỢP THÍCH NGHI KHÔNG HUẤN LUYỆN VỚI MẪU TỐI THIỂU (ZERO-SHOT TTS)

4.1. Các nghiên cứu liên quan

4.2. Zero-shot TTS. Mô hình khuếch tán (Diffusion model)

4.3. Đề xuất mô hình Adapt-TTS cải tiến hiệu năng cho tổng hợp thích nghi tiếng Việt

4.4. Mô hình tổng quát

4.5. Mã hóa đặc trưng với EMV

4.6. Bộ khử nhiễu khuếch tán phổ Mel (Mel-spectrogram denoiser)

4.7. Sinh âm thanh có điều kiện

4.8. Hàm mất mát huấn luyện

4.9. Thử nghiệm đánh giá và kết quả

4.10. Thử nghiệm đánh giá

4.11. Kết luận Chương 4

DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ

LIÊN QUAN ĐẾN LUẬN ÁN

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Nghiên Cứu Tổng Quan Hệ Thống Thích Nghi Giọng Nói TTS

Tiếng nói nhân tạo, hay còn gọi là tổng hợp tiếng nói, đã có lịch sử phát triển hơn 200 năm. Ngày nay, tổng hợp tiếng nói tiếng Việt đã đạt đến chất lượng gần giống với giọng người thật và có nhiều ứng dụng rộng rãi. Ta có thể dễ dàng thấy các sản phẩm tổng hợp tiếng nói tiếng Việt trên Internet, ứng dụng di động và các hệ thống trả lời tự động. Một trong những chủ đề quan trọng nhất là điều khiển và thích nghi các đặc trưng của giọng nói để tạo ra các giọng nói có phong cách và ngữ điệu riêng. Thông thường, để xây dựng giọng nói có đặc trưng của một người cụ thể, cần thu âm một lượng lớn dữ liệu. Điều này tốn kém, mất thời gian và khó thực hiện với các ngôn ngữ nghèo tài nguyên. Các yêu cầu hiện nay còn cao hơn, như xây dựng giọng nói riêng, cá nhân hóa hay phục hồi giọng nói. Vì vậy, nâng cao chất lượng tổng hợp tiếng nói với lượng dữ liệu mẫu nhỏ là một thách thức. Các đặc trưng riêng biệt của người nói bao gồm đặc trưng giọng nói và đặc trưng ngữ điệu. Do đó, cần phải chuyển đổi tất cả các tham số đặc trưng giọng nói nguồn thành các tham số đặc trưng giọng nói đích.

1.1. Lịch Sử Phát Triển Tổng Hợp Tiếng Nói Speech Synthesis

Tổng hợp tiếng nói đã trải qua một chặng đường dài. Từ những thí nghiệm ban đầu đến những hệ thống phức tạp ngày nay, công nghệ này đã có những bước tiến vượt bậc. Chất lượng âm thanh ngày càng được cải thiện, giúp tổng hợp tiếng nói trở nên tự nhiên và dễ nghe hơn. Điều này mở ra nhiều cơ hội ứng dụng trong các lĩnh vực khác nhau. Các nghiên cứu điều chỉnh, biến đổi tham số đặc trưng giọng nói và thích nghi giọng nói đa phần mới chỉ được áp dụng trong các công trình nghiên cứu của các tác giả nước ngoài trên các ngôn ngữ phổ biến.

1.2. Ứng Dụng Thực Tiễn Của Tổng Hợp Tiếng Nói Tiếng Việt

Ứng dụng tổng hợp tiếng nói tiếng Việt ngày càng phổ biến. Chúng ta có thể thấy chúng trong các trợ lý ảo, hệ thống điều khiển bằng giọng nói, và các ứng dụng học tập. Việc phát triển các ứng dụng này đòi hỏi sự hiểu biết sâu sắc về ngôn ngữ và công nghệ. Những thành tựu này mở ra nhiều cơ hội mới cho việc tương tác giữa con người và máy móc thông qua giọng nói.

II. Thách Thức Trong Phát Triển Hệ Thống Thích Nghi Giọng Nói

Với tiếng Việt, một ngôn ngữ nghèo tài nguyên và phức tạp, việc phát triển hệ thống thích nghi giọng nói gặp nhiều khó khăn. Ngôn ngữ này có chứa thành phần ngữ điệu và nhiều từ mượn. Ngay cả các kỹ thuật tổng hợp tiếng nói tiên tiến nhất áp dụng cho tiếng Việt cũng chưa giải quyết được triệt để các vấn đề như đọc câu dài và từ mượn. Đã có một số nghiên cứu về chuyển đổi đặc trưng giọng nói và thích nghi giọng nói áp dụng đối với tiếng Việt. Tuy nhiên, các nghiên cứu này vẫn tiếp cận phương pháp tổng hợp thích nghi dựa trên HMM và cho chất lượng tổng hợp thấp. Vì vậy, việc nghiên cứu một giải pháp tổng hợp tiếng nói tiếng Việt dựa trên thích nghi giọng nói là một vấn đề cấp thiết cả về tính khoa học và tính kinh tế.

2.1. Khó Khăn Với Ngôn Ngữ Nghèo Tài Nguyên Low resource Language

Tiếng Việt là một ngôn ngữ nghèo tài nguyên, gây khó khăn cho việc thu thập dữ liệu và huấn luyện mô hình tổng hợp tiếng nói. Số lượng dữ liệu giọng nói có sẵn thường hạn chế, dẫn đến chất lượng tổng hợp không cao. Do đó, cần có các phương pháp tiếp cận sáng tạo để vượt qua những hạn chế này. Giải pháp cần đảm bảo chất lượng cho ngôn ngữ nghèo tài nguyên như tiếng Việt trong khi chỉ có vài phút mẫu thích nghi.

2.2. Vấn Đề Xử Lý Từ Mượn Trong Tổng Hợp Tiếng Việt

Tiếng Việt có nhiều từ mượn từ các ngôn ngữ khác, gây khó khăn cho việc tổng hợp tiếng nói chính xác. Các mô hình cần được huấn luyện để nhận diện và phát âm các từ mượn này một cách tự nhiên. Điều này đòi hỏi sự kết hợp giữa kiến thức ngôn ngữ học và các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến. Cần xem xét đến việc hệ thống có thể thực hiện được không và lượng mẫu thích nghi tối thiểu cần bao nhiêu nếu thích nghi bằng mẫu dữ liệu chỉ vài giây và không cần huấn luyện lại mô hình.

2.3. Hạn Chế Của Phương Pháp Thích Nghi Giọng Nói Dựa Trên HMM

Các nghiên cứu trước đây về thích nghi giọng nói tiếng Việt thường sử dụng phương pháp dựa trên HMM, cho chất lượng tổng hợp thấp. Các phương pháp mới hơn, như sử dụng mạng nơ-ron sâu (DNN), có thể mang lại kết quả tốt hơn. Cần phải khám phá và áp dụng các kỹ thuật tiên tiến này để cải thiện chất lượng tổng hợp.

III. Phương Pháp Phát Triển Hệ Thống Thích Nghi Giọng Nói DNN

Luận án này tập trung vào việc nghiên cứu và xây dựng hệ thống tổng hợp tiếng nói tiếng Việt bằng các kỹ thuật huấn luyện thích nghi các đặc trưng âm học của người nói dựa trên DNN. Mục tiêu là nâng cao chất lượng tổng hợp tiếng nói dựa trên thích nghi bằng các đề xuất cải tiến về độ tự nhiên. Đồng thời, hệ thống cần có khả năng tổng hợp giọng nói mới mang các đặc trưng âm học của giọng nói đích với chất lượng và độ tương đồng cao trong khi chỉ cần sử dụng một lượng dữ liệu mẫu nhỏ. Cuối cùng, hệ thống cần có khả năng tổng hợp giọng nói tức thì với lượng mẫu nhỏ mà không cần tốn chi phí huấn luyện lại.

3.1. Ứng Dụng Mạng Nơ Ron Sâu Deep Learning Cho Tổng Hợp Giọng Nói

Mạng nơ-ron sâu (DNN) là một công cụ mạnh mẽ để tổng hợp tiếng nói. Chúng có khả năng học các đặc trưng phức tạp của giọng nói và tạo ra âm thanh tự nhiên hơn. Việc áp dụng DNN vào thích nghi giọng nói có thể cải thiện đáng kể chất lượng tổng hợp. Nghiên cứu này khám phá các kiến trúc DNN khác nhau và các kỹ thuật huấn luyện phù hợp cho tổng hợp tiếng Việt.

3.2. Kỹ Thuật Huấn Luyện Thích Nghi Speaker Adaptation Trong DNN

Kỹ thuật huấn luyện thích nghi cho phép mô hình tổng hợp tiếng nói điều chỉnh theo đặc trưng của từng người nói. Điều này giúp tạo ra các giọng nói cá nhân hóa và tự nhiên hơn. Các phương pháp thích nghi có thể bao gồm tinh chỉnh mô hình với dữ liệu giọng nói của người nói đích hoặc sử dụng các vector biểu diễn đặc trưng giọng nói để điều khiển quá trình tổng hợp. Cần tối thiểu bao nhiêu dữ liệu thích nghi (được huấn luyện cùng hệ thống) để đảm bảo giọng tổng hợp đạt được chất lượng và độ tương đồng cao?

3.3. Đề Xuất Cải Tiến Về Độ Tự Nhiên Của Giọng Nói Tổng Hợp

Nghiên cứu này tập trung vào việc cải thiện độ tự nhiên của giọng nói tổng hợp. Các kỹ thuật như mô hình hóa ngữ điệu và điều chỉnh âm vực có thể giúp tạo ra âm thanh giống với giọng nói của con người hơn. Cần xem xét đến việc tích hợp các yếu tố này vào mô hình tổng hợp để đạt được chất lượng cao nhất.

IV. Giải Pháp Thích Nghi Giọng Nói Với Dữ Liệu Mẫu Hạn Chế

Luận án đề xuất hai mô hình tổng hợp thích nghi phụ thuộc người nói dựa trên DNN với điều kiện ít dữ liệu mẫu huấn luyện (Few-shot TTS): 1) Mô hình tổng hợp thích nghi phụ thuộc người nói dựa trên học chuyển đổi (transfer-learning); và 2) Mô hình tổng hợp thích nghi phụ thuộc người nói dựa trên trích xuất vector biểu diễn đặc trưng. Ngoài ra, luận án còn đề xuất mô hình tổng hợp thích nghi độc lập người nói dựa trên DNN với điều kiện chỉ cần một vài câu mẫu mà không cần huấn luyện lại mô hình. Kích thước mẫu sẽ ảnh hưởng như thế nào đến chất lượng tổng hợp và ưu nhược điểm của các phương pháp này?

4.1. Mô Hình Tổng Hợp Thích Nghi Dựa Trên Học Chuyển Đổi Transfer Learning

Học chuyển đổi là một kỹ thuật cho phép mô hình học từ một tập dữ liệu lớn (ví dụ: dữ liệu giọng nói của nhiều người) và sau đó áp dụng kiến thức đó vào một tập dữ liệu nhỏ hơn (ví dụ: dữ liệu giọng nói của một người cụ thể). Điều này giúp mô hình tổng hợp hoạt động tốt hơn với ít dữ liệu hơn. Kỹ thuật này hiệu quả với việc xây dựng tổng hợp tiếng nói đảm bảo chất lượng cho ngôn ngữ nghèo tài nguyên như tiếng Việt trong khi chỉ có vài phút mẫu thích nghi.

4.2. Mô Hình Tổng Hợp Thích Nghi Dựa Trên Trích Xuất Vector Đặc Trưng

Phương pháp này trích xuất các vector đặc trưng từ dữ liệu giọng nói của người nói đích và sử dụng chúng để điều khiển quá trình tổng hợp. Các vector này có thể biểu diễn các đặc trưng như âm sắc, ngữ điệu và tốc độ nói. Việc sử dụng các vector đặc trưng giúp tạo ra các giọng nói cá nhân hóa và tự nhiên hơn. Và quan trọng nhất là khả năng bắt chước hoặc tạo một giọng nói mới bất kỳ với ngữ liệu huấn luyện từ đa người nói và đa phong cách với chỉ một lượng mẫu nhỏ.

4.3. Mô Hình Tổng Hợp Thích Nghi Không Cần Huấn Luyện Lại Mô Hình

Mô hình này cho phép tổng hợp giọng nói ngay lập tức mà không cần huấn luyện lại mô hình. Điều này đặc biệt hữu ích trong các ứng dụng thời gian thực hoặc khi không có đủ dữ liệu để huấn luyện một mô hình mới. Tuy nhiên, chất lượng của giọng nói có thể thấp hơn so với các phương pháp khác. Các nghiên cứu này vẫn tiếp cận phương pháp tổng hợp thích nghi dựa trên HMM và cho chất lượng tổng hợp thấp.

V. Ứng Dụng Thực Tế và Đánh Giá Chất Lượng Hệ Thống TTS

Các mô hình được đề xuất có thể được ứng dụng trong nhiều lĩnh vực, bao gồm trợ lý ảo tiếng Việt, hệ thống điều khiển bằng giọng nói tiếng Việt, và các ứng dụng speech therapy. Việc đánh giá chất lượng của các mô hình này là rất quan trọng để đảm bảo rằng chúng hoạt động tốt và đáp ứng được nhu cầu của người dùng. Cần sử dụng các phương pháp đánh giá khách quan và chủ quan để có được cái nhìn toàn diện về hiệu quả của các mô hình. Thử nghiệm đánh giá và kết quả cần chứng minh được các điều sau: Nâng cao chất lượng tổng hợp tiếng nói dựa trên thích nghi bằng các đề xuất cải tiến về độ tự nhiên; Tổng hợp giọng nói mới mang các đặc trưng âm học của giọng nói đích với chất lượng và độ tương đồng cao trong khi chỉ cần sử dụng một lượng dữ liệu mẫu nhỏ.

5.1. Phát Triển Ứng Dụng Trợ Lý Ảo Tiếng Việt Cá Nhân Hóa

Các mô hình tổng hợp tiếng nói có thể được sử dụng để tạo ra các trợ lý ảo tiếng Việt có giọng nói cá nhân hóa. Điều này giúp người dùng cảm thấy gần gũi hơn và dễ dàng tương tác hơn với các thiết bị thông minh. Nghiên cứu này tập trung vào việc phát triển các ứng dụng trợ lý ảo có khả năng thích nghi giọng nói.

5.2. Ứng Dụng Trong Hệ Thống Điều Khiển Bằng Giọng Nói Tiếng Việt

Các hệ thống điều khiển bằng giọng nói tiếng Việt có thể được cải thiện bằng cách sử dụng các mô hình tổng hợp tiếng nói tiên tiến. Điều này giúp hệ thống hiểu rõ hơn các lệnh của người dùng và phản hồi một cách tự nhiên hơn. Các kết quả nghiên cứu sẽ được áp dụng vào các hệ thống điều khiển bằng giọng nói để cải thiện hiệu suất.

5.3. Đánh Giá Chất Lượng Giọng Nói Tổng Hợp Bằng Phương Pháp MOS

MOS (Mean Opinion Score) là một phương pháp đánh giá chủ quan được sử dụng rộng rãi để đánh giá chất lượng giọng nói tổng hợp. Người tham gia sẽ nghe các đoạn giọng nói và cho điểm theo thang điểm từ 1 đến 5, với 5 là chất lượng tốt nhất. Kết quả MOS sẽ được sử dụng để so sánh các mô hình tổng hợp tiếng nói khác nhau. Cần chú ý đến các yếu tố như độ rõ ràng, độ tự nhiên và độ dễ nghe của giọng nói.

VI. Kết Luận và Hướng Phát Triển Hệ Thống Tổng Hợp Tiếng Việt

Luận án này đã trình bày một nghiên cứu về phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt. Các mô hình được đề xuất có khả năng tạo ra các giọng nói cá nhân hóa với chất lượng cao và yêu cầu ít dữ liệu huấn luyện. Các kết quả nghiên cứu có thể được ứng dụng trong nhiều lĩnh vực khác nhau. Trong tương lai, cần tập trung vào việc cải thiện hơn nữa chất lượng giọng nói và khám phá các ứng dụng mới của công nghệ này. Các kết quả nghiên cứu đảm bảo trung thực và khách quan nhất.

6.1. Tóm Tắt Những Đóng Góp Chính Của Luận Án Về TTS Tiếng Việt

Luận án này đã đóng góp vào lĩnh vực tổng hợp tiếng nói tiếng Việt bằng cách đề xuất các mô hình thích nghi giọng nói mới. Các mô hình này có khả năng tạo ra các giọng nói cá nhân hóa với chất lượng cao và yêu cầu ít dữ liệu huấn luyện. Các kết quả nghiên cứu có thể được ứng dụng trong nhiều lĩnh vực khác nhau. Đề xuất phương pháp tổng hợp giọng nói dựa trên kỹ thuật thích nghi bằng mạng nơ-ron sâu (DNN) để cải thiện chất lượng tổng hợp.

6.2. Các Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai

Trong tương lai, cần tập trung vào việc cải thiện hơn nữa chất lượng giọng nói tổng hợp. Các hướng nghiên cứu tiềm năng bao gồm sử dụng các kiến trúc mạng nơ-ron tiên tiến hơn, tích hợp các yếu tố cảm xúc vào giọng nói, và phát triển các phương pháp thích nghi giọng nói không cần giám sát. Cần nghiên cứu thêm để hệ thống có thể thực hiện được không và lượng mẫu thích nghi tối thiểu cần bao nhiêu nếu thích nghi bằng mẫu dữ liệu chỉ vài giây và không cần huấn luyện lại mô hình.

6.3. Tích Hợp Thêm Yếu Tố Cảm Xúc Vào Giọng Nói Tổng Hợp

Tích hợp các yếu tố cảm xúc vào giọng nói tổng hợp là một hướng nghiên cứu đầy hứa hẹn. Điều này có thể giúp tạo ra các giọng nói biểu cảm hơn và phù hợp hơn với ngữ cảnh giao tiếp. Cần nghiên cứu các phương pháp để nhận diện và mô hình hóa các yếu tố cảm xúc trong giọng nói.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng việt và ứng dụng

Tải đầy đủ

Trích đoạn nội dung tài liệu

Đặt vấn đề Tổng hợp tiếng nói nhân tạo đã được ứng dụng rộng rãi trong cuộc sống và từ lâu đã trở thành một chủ đề lớn trong nghiên cứu về trí tuệ nhân tạo, ngôn ngữ tự nhiên và xử lý giọng nói. Khi có sự phát triển của học sâu, tổng hợp tiếng nói dựa trên mạng nơ-ron đã phát triển mạnh, một lượng lớn công trình nghiên cứu tập trung vào các khía cạnh khác nhau của tổng hợp tiếng nói dựa trên mạng nơ- ron [9] [10] [11]. Do đó, chất lượng của tiếng nói tổng hợp đã được cải thiện đáng kể trong những năm gần đây. Mục tiêu quan trọng nhất của một hệ thống TTS là tổng hợp được tiếng nói chất lượng cao.

Chất lượng của tiếng nói được xác định bởi nhiều khía cạnh liên quan đến nhận thức lời nói, bao gồm tính dễ hiểu, tính tự nhiên, biểu cảm, ngữ điệu, cảm xúc, phong cách, độ mạnh mẽ, khả năng điều khiển giọng, v. Trong khi các phương pháp tiếp cận nơ-ron đã cải thiện đáng kể chất lượng của giọng nói tổng hợp đạt được như con người thì vẫn còn nhiều hướng đi nhằm cải tiến các tồn tại của hệ thống tổng hợp tiếng nói, trong đó thu nhỏ kích thước dữ liệu huấn luyện bằng các kỹ thuật thích nghi là cách tiếp cận phổ biến và chiếm ưu thế nhất [12] [13] [14]. Tổng quan về tổng hợp tiếng nói và tổng hợp thích nghi 1. Tổng hợp tiếng nói Trước khi nói về tổng hợp tiếng nói, cần phân tích bản chất cách con người tạo ra âm thanh và tiếng nói.

Âm thanh và tiếng nói của con người được tạo ra bởi sự tương tác phức tạp của các thành phần trong cơ thể người. Hầu hết các âm thanh và tiếng nói đều bắt đầu bằng hệ thống hô hấp, hệ thống này sẽ đẩy không khí ra khỏi phổi theo mô tả trong Hình 1. Hình 1: Cấu tạo bộ lọc nguồn tạo ra âm thanh và lời nói của con người [15] Theo lý thuyết bộ lọc nguồn [15], luồng không khí từ phổi gây ra rung động ở nếp gấp thanh quản, nơi tạo ra âm thanh nguồn. Bộ lọc âm định hình cấu trúc phổ của âm thanh nguồn.

Âm thanh và lời nói được lọc cuối cùng được phát ra từ miệng. Có thể mô tả chi tiết như sau: Không khí đi qua khí quản và đi vào thanh quản, nơi có hai nếp gấp cơ nhỏ, được gọi là “Nếp gấp thanh quản”. Khi các nếp gấp thanh âm được tập trung lại với nhau để tạo thành một đường dẫn khí hẹp, luồng khí làm cho chúng dao động theo chu kỳ. Các rung động nếp gấp thanh quản điều chỉnh áp suất không khí và tạo ra âm thanh tuần hoàn.

Những âm thanh được tạo ra, khi các nếp gấp thanh quản rung động, được gọi là “âm hữu thanh”, trong khi âm thanh mà các nếp gấp thanh quản không rung động được gọi là “âm 7 vô thanh”. Các đường dẫn khí phía trên thanh quản được gọi là “Dây thanh quản”. Các luồng không khí hỗn loạn được tạo ra tại các phần bị co thắt của thanh môn hoặc thanh quản cũng góp phần tạo ra âm thanh nguồn không theo chu kỳ được phân phối trên một dải tần số rộng. Hình dạng của đường thanh âm và vị trí của các khớp nối (tức là hàm, lưỡi, vật đệm, môi, miệng, răng và vòm miệng cứng) là yếu tố quan trọng để xác định đặc trưng âm học của tiếng nói.

Trạng thái của các nếp gấp thanh âm cũng như vị trí, hình dạng và kích thước của các khớp nối thay đổi theo thời gian để tạo ra các âm thanh khác nhau một cách tuần tự. Con người có thể kiểm soát quá trình phát âm (tạo nguồn) và đọc âm (lọc) một cách độc lập. Do đó, âm thanh và lời nói được coi là phản ứng của bộ lọc đường âm, nơi cung cấp nguồn âm thanh. Để mô hình hóa các hệ thống lọc nguồn như vậy cho việc tạo ra tiếng nói, nguồn âm thanh hoặc tín hiệu kích thích x(t) thường được thực hiện như một hệ thống phát xung định kỳ cho giọng nói, trong khi tiếng ồn trắng được sử dụng làm nguồn cho lời nói không chỉnh âm.

Nếu cấu hình đường âm không thay đổi theo thời gian, bộ lọc đường âm sẽ trở thành một hệ thống tuyến tính bất biến theo thời gian (LTI) và tín hiệu đầu ra y(t) có thể được biểu thị bằng tích chập của tín hiệu đầu vào x(t) và đáp ứng xung của hệ thống h(t) như công thức sau: y(t) = h(t) ∗ x(t), (1.1) trong đó dấu hoa thị * biểu thị tích chập. Phương trình trên được mô tả trong miền thời gian, cũng có thể được biểu diễn trong miền tần số như sau: Y(ω) = H(ω) X(ω).2) 8 Công thức miền tần số cho biết rằng phổ giọng nói Y(ω) được mô hình hóa như một sản phẩm của phổ âm thanh nguồn X(ω) và phổ âm thanh của bộ lọc đường âm H(ω). Phổ của bộ lọc đường âm H(ω) được biểu thị bằng tích của hàm truyền qua đường thanh âm T(ω) và các đặc tính bức xạ từ miệng và mũi R(ω), nghĩa là: Y(ω)=[T(ω) R(ω)]X(ω).3) Dựa trên nguyên tắc tổng hợp tiếng nói tự nhiên, việc tổng hợp tiếng nói nhân tạo cũng theo nguyên tắc với đầu vào dựa trên tiếng nói tự nhiên của con người nhằm tạo ra một mô hình tổng hợp, sau cùng có thể dùng mô hình tổng hợp này để sinh tiếng nói ngẫu nhiên bằng đầu vào văn bản hoặc các mã hóa ngữ âm (âm vị, mã âm thanh, mã phần cứng). Hình 2 mô tả trực quan quá trình tổng hợp tiếng nói nhân tạo.

Quá trình Quá trình Nhãn văn bản huấn luyện tổng hợp (X) Mô hình tổng hợp Tiếng nói tự nhiên Tiếng nói nhân tạo của con người (y) (Y) Văn bản hoặc mã hóa ngữ âm (x) Hình 2: Mô hình tổng hợp tiếng nói nhân tạo Khái niệm tổng hợp tiếng nói Tổng hợp tiếng nói (Speech Synthesis) là quá trình tạo ra tiếng nói con người một cách nhân tạo từ đầu vào là văn bản hoặc các mã hóa ngữ âm. Tổng hợp tiếng nói chính là một phần trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chuyển đổi văn bản thành tiếng nói (Text to Speech – viết tắt là TTS) là một công nghệ quan trọng trong tổng hợp tiếng nói, công nghệ này tạo ra sóng âm tiếng nói đầu ra một cách tùy ý từ văn bản bằng đầu vào. Nghiên cứu của luận án là một nhánh nằm trong tổng hợp tiếng nói từ văn bản (TTS).

Có thể mô tả hệ thống TTS bằng mô hình tính xác suất phân phối dự đoán: 𝑝(𝑦|𝑥, 𝑌, 𝑋) (1.4) 9 trong đó, 𝑌 là âm thanh tiếng nói dùng để huấn luyện và 𝑋 là văn bản gán nhãn tương ứng, x là văn bản đầu vào và y là tiếng nói cần tổng hợp. Nếu coi 𝑜 và 𝒪 lần lượt là đặc trưng âm học của y và Y, l và L lần lượt là đặc trưng ngôn ngữ của x và X, 𝜆 là mô hình, thì ta có thể biểu diễn biểu thức trên dưới dạng các biến đại diện và phục thuộc như sau: 𝑦𝑜 𝑜 𝑙, 𝜆 𝑙𝜆 𝑙𝑥 ( | 𝒪) (𝒪| , ) ( ) ( | ) 𝑝(𝑦|𝑥, 𝑌, 𝑋) = ∭ ∑∀ ∑∀ ( ) 𝑑𝑜𝑑𝒪𝑑𝜆 (1. Phân loại các phương pháp tổng hợp tiếng nói Có thể phân loại các nghiên cứu về tổng hợp tiếng nói theo các nhóm sau: *Tổng hợp dựa trên khớp nối (Articulatory Synthesis): Tổng hợp khớp nối [16] tạo ra tiếng nói bằng cách mô phỏng hành vi của bộ phận khớp nối của con người như môi, lưỡi, thanh quản và đường thanh âm chuyển động. Tuy nhiên, rất khó để mô hình hóa các hành vi của khớp nối này hoạt động trong thực tế.

Do đó, chất lượng giọng nói do tổng hợp khớp nối thường kém hơn so với chất lượng giọng nói bằng các kỹ thuật tổng hợp sau này. *Tổng hợp formant (Formant Synthesis): Tổng hợp formant [17] tạo ra lời nói dựa trên một tập hợp các quy tắc điều khiển mô hình bộ lọc nguồn đơn giản hóa. Các lời nói được tổng hợp bởi một mô-đun tổng hợp phụ và một mô hình âm học với các thông số khác nhau như tần số cơ bản, giọng nói và mức tiếng ồn. Tổng hợp formant có thể tạo ra giọng nói dễ hiểu với tài nguyên tính toán vừa phải, phù hợp với các hệ thống nhúng và không dựa vào kho ngữ liệu giọng nói của con người quy mô lớn như trong tổng hợp ghép nối.

Tuy nhiên, giọng nói 10 tổng hợp nghe kém tự nhiên hơn và hơi máy. Hơn nữa, rất khó để xác định các quy tắc tổng hợp. *Tổng hợp dựa trên ghép nối (Concatenative Synthesis): Tổng hợp dựa trên ghép nối [18] dựa vào việc nối các đoạn lời nói được lưu trữ trong cơ sở dữ liệu. Cách này chỉ thực sự hiệu quả khi bộ dữ liệu âm thanh đủ lớn cả về kích thước, độ đa dạng phát âm và các đặc trưng phổ âm thanh.

Có ba kiểu tổng hợp ghép nối: Tổng hợp chọn đơn vị âm; Tổng hợp âm kép (dipphone) và; Tổng hợp chuyên ngành. Tuy nhiên, TTS dựa trên ghép nối yêu cầu cơ sở dữ liệu ghi âm khổng lồ, bao gồm tất cả các xác suất kết hợp có thể có của các đơn vị tiếng nói. Một nhược điểm nữa là giọng nói được tạo ra kém tự nhiên và kém tính truyền cảm do điểm ghép nối kém mượt do sự căng thẳng, cảm xúc, ngữ điệu, khác nhau tại từng thời điểm thu âm. *Tổng hợp dựa trên tham số thống kê (Statistical Parametric Synthesis- SPSS): Để giải quyết những hạn chế của TTS ghép nối, tổng hợp tiếng nói tham số thống kê (SPSS) được đề xuất [19].

Ý tưởng cơ bản là thay vì tạo trực tiếp dạng sóng thông qua ghép nối, trước tiên có thể tạo ra các tham số âm thanh [20] [21] cần thiết để tạo ra giọng nói, sau đó khôi phục giọng nói từ các tham số âm thanh đã tạo bằng một số thuật toán [22] [23] [24]. Trích rút đặc Tổng hợp tham Bộ phát âm Văn Sóng âm trưng ngôn ngữ số thống kê (Vocoder) bản Hình 3: Tổng hợp tiếng nói dựa trên tham số thống kê SPSS thường bao gồm ba thành phần: một mô-đun phân tích văn bản nhằm trích rút đặc trưng ngôn ngữ ; một mô-đun dự đoán tham số thống kê (mô hình âm học) và một mô-đun phân tích, tổng hợp thành sóng âm. Có thể mô tả các mô- đun trong Hình 3. SPSS có một số ưu điểm so với các hệ thống TTS trước đây: 1) Tính tự nhiên, âm thanh tự nhiên hơn; 2) Tính linh hoạt, để sửa đổi các tham số một cách thuận tiện để kiểm soát lời nói tạo ra; 3) Chi phí dữ liệu thấp, yêu cầu ít bản ghi hơn so với tổng hợp ghép nối.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Phát Triển Hệ Thống Thích Nghi Giọng Nói Trong Tổng Hợp Tiếng Việt" tập trung vào việc phát triển một hệ thống nhận diện giọng nói hiệu quả cho tiếng Việt, nhằm cải thiện khả năng tương tác giữa con người và máy móc. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện đại trong lĩnh vực nhận diện giọng nói mà còn chỉ ra những thách thức và giải pháp tiềm năng trong việc xử lý ngôn ngữ tự nhiên. Độc giả sẽ tìm thấy nhiều lợi ích từ tài liệu này, bao gồm việc hiểu rõ hơn về công nghệ giọng nói và ứng dụng của nó trong các lĩnh vực như giáo dục, dịch vụ khách hàng và nhiều lĩnh vực khác.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo tài liệu Đồ án hcmute xây dựng hệ thống nhận diện khuôn mặt và cảm xúc dùng mạng nơ ron tích chập, nơi bạn sẽ tìm thấy thông tin về công nghệ nhận diện khuôn mặt, một lĩnh vực có liên quan mật thiết đến nhận diện giọng nói. Ngoài ra, tài liệu Luận văn tốt nghiệp khoa học máy tính nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt sẽ giúp bạn hiểu rõ hơn về các thách thức trong việc bảo mật hệ thống nhận diện giọng nói. Cuối cùng, tài liệu Nghiên ứu phát triển hệ thống nhận dạng tiếng việt cho ứng dụng danh bạ trên thiết bị di động sẽ cung cấp cái nhìn về ứng dụng thực tiễn của công nghệ nhận diện giọng nói trong các thiết bị di động. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này.

#công nghệ xử lý ngôn ngữ tự nhiên