Tổng hợp giọng nói cho ngôn ngữ ít tài nguyên: Ứng dụng cho ngôn ngữ Mường

Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên, ứng dụng thích nghi với tiếng Mường, mở ra hướng phát triển mới trong công nghệ ngôn ngữ.

Trường đại học

Hanoi University of Science and Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Doctoral Dissertation

2023

178

Phí lưu trữ

45 Point

Mục lục chi tiết

DECLARATION OF AUTHORSHIP

ACKNOWLEDGMENT

ABSTRACT

CONTENT

1. PART 1 : BACKGROUND AND RELATED WORKS

1.1. OVERVIEW OF SPEECH SYNTHESIS AND SPEECH SYNTHESIS FOR LOW-RESOURCED LANGUAGE

1.1.1. Overview of speech synthesis

1.1.2. Evolution of TTS methods over time

1.1.3. TTS using unit-selection method

1.1.4. Statistical parameter speech synthesis

1.1.5. Speech synthesis using deep neural networks

1.1.6. Neural speech synthesis

1.1.7. Speech synthesis for low-resourced languages

1.1.8. TTS using emulating input approach

1.1.9. TTS using the polyglot approach

1.1.10. Speech synthesis for low-resourced language using the adaptation approach

1.1.11. Neural translation model

1.1.12. Attention in neural machine translation

1.1.13. Statistical machine translation based on phrase

1.1.14. Statistical machine translation problem based on phrase

1.1.15. Translation model and language model

1.1.16. Decode the input sentence in the translation system

1.1.17. Model for building a statistical translation system

1.1.18. Machine translation through intermediate representation

1.1.19. Speech translation for unwritten low-resourced languages

1.1.20. Speech synthesis evaluation metrics

1.1.20.1. Mean Opinion Score (MOS)

1.1.20.2. Mel Cepstral Distortion (MCD)

1.1.20.3. MCD with Dynamic Time Warping (MCD – DTW)

1.1.20.4. Analysis of variance (Anova)

1.2. VIETNAMESE AND MUONG LANGUAGE

1.2.1. History of Vietnamese

1.2.2. Vietnamese phonetic system

1.2.3. Vietnamese syllabus structure

1.2.4. Vietnamese tone system

1.2.5. Overview of Muong people and Muong language

1.2.6. Viet Muong group

1.2.7. Muong written script

1.2.8. Muong phonetics system

1.2.9. Muong syllable structure

1.2.10. Muong phoneme system

1.2.11. Muong tone system

1.2.12. Comparison between Vietnamese and Muong

1.2.13. Dicussion and proposal approach

2. PART 2 : SPEECH SYNTHESIS FOR MUONG AS A WRITTEN LANGUAGE

2.1. EMULATING OF THE MUONG TTS BASED ON INPUT TRANSFORMATION OF THE VIETNAMESE TTS

2.1.1. Muong emulating IPA module

2.1.2. Analysis by ANOVA method

2.1.3. MOS analysis by ANOVA

2.1.4. Intelligibility analysis by ANOVA

2.2. CROSS-LINGUAL TRANSFER LEARNING FOR MUONG SPEECH SYNTHESIS

2.2.1. Muong Project‘s data

2.2.2. Muong fine-tuning data

2.2.3. Graphemes to phonemes

2.2.4. Training the pretrained model using Vietnamese dataset

2.2.5. Finetuned TTS model on Muong datasets

2.2.6. MOS analysis by ANOVA

3. PART 3 : SPEECH SYNTHESIS FOR MUONG AS AN UNWRITTEN LANGUAGE

3.1. GENERATE UNWRITTEN LOW-RESOURCED LANGUAGE’S SPEECH DIRECTLY FROM RICH-RESOURCE LANGUAGE’S TEXT

3.1.1. Training the speech synthesis system

3.1.2. MOS analysis by ANOVA

3.1.3. ANOVA analysis in Muong Bi speech synthesis

3.1.4. ANOVA analysis in Muong Tan Son speech synthesis

3.2. SPEECH SYNTHESIS FOR UNWRITTEN LOW-RESOURCED LANGUAGE USING INTERMEDIATE REPRESENTATION

3.2.1. Text to phone translation

3.2.2. Phone to Sound Conversion

3.2.3. Evaluation in Muong Bi and Muong Tan Son

3.2.4. MOS analysis by ANOVA

3.2.5. ANOVA analysis in Muong Bi speech synthesis

3.2.6. ANOVA analysis in Muong Tan Son speech synthesis

3.2.7. Conclusion and comparison

CONCLUSION AND FUTURE WORKS

ABBREVIATIONS

LIST OF TABLES

LIST OF FIGURES

Tóm tắt

I. Giới Thiệu Nghiên Cứu Tổng Hợp Giọng Nói Tiếng Mường

Công nghệ xử lý tiếng nói ngày nay đóng vai trò quan trọng trong tương tác người-máy. Các hệ thống tương tác bằng giọng nói cho phép người dùng giao tiếp với thiết bị trên smartphone, xe thông minh, nhà thông minh. Một thành phần thiết yếu là tổng hợp giọng nói hoặc Text-to-Speech (TTS), chuyển văn bản thành giọng nói. Phát triển hệ thống TTS cho ngôn ngữ đòi hỏi nghiên cứu ngôn ngữ học về ngữ âm, âm vị học, cú pháp và ngữ pháp. Theo Ethnologue, có 7.151 ngôn ngữ trên thế giới, 2.982 ngôn ngữ không có chữ viết. Các phương pháp học máy dựa trên dữ liệu lớn không áp dụng được cho ngôn ngữ ít tài nguyên, đặc biệt là ngôn ngữ Mường chưa viết. Lĩnh vực xử lý ngôn ngữ ít tài nguyên này mới bắt đầu được chú ý và còn ít kết quả. Nghiên cứu này mang lại công nghệ giao tiếp bằng giọng nói cho cộng đồng dân tộc thiểu số, góp phần bảo tồn ngôn ngữ.

1.1. Tầm quan trọng của TTS tiếng Mường trong tương tác người máy

Tổng hợp giọng nói tiếng Mường mở ra khả năng tương tác tự nhiên hơn giữa người Mường và các thiết bị công nghệ. Nó có thể được sử dụng trong các ứng dụng giáo dục, giải trí và hỗ trợ giao tiếp. Nghiên cứu này nhấn mạnh vai trò quan trọng của công nghệ TTS trong việc bảo tồn và phát triển ngôn ngữ Mường, đặc biệt trong bối cảnh số hóa.

1.2. Thách thức đặc thù của ngôn ngữ Mường trong nghiên cứu ngôn ngữ học

Ngôn ngữ Mường có đặc điểm ngôn ngữ độc đáo gây khó khăn khi phát triển hệ thống TTS, như thanh điệu và cấu trúc ngữ âm phức tạp. Việc thiếu tài nguyên ngôn ngữ tiếng Mường như văn bản và dữ liệu giọng nói cũng là một thách thức lớn. Nghiên cứu này nhằm giải quyết các thách thức này và cải thiện khả năng tiếp cận công nghệ TTS cho ngôn ngữ Mường.

II. Vấn Đề Thiếu Hụt Tài Nguyên Ngôn Ngữ Tiếng Mường

Trong lĩnh vực xử lý tiếng Việt, các đơn vị nghiên cứu trong nước đã chú ý đến các khía cạnh khác nhau từ xử lý ngôn ngữ tự nhiên đến xử lý tiếng nói. Tuy nhiên, vấn đề xử lý ngôn ngữ và tiếng nói, bao gồm cả hệ thống TTS cho các ngôn ngữ dân tộc thiểu số không có hệ thống chữ viết, chưa được quan tâm nhiều. Nguyên nhân do thiếu dữ liệu song ngữ và dữ liệu giọng nói, cũng như thiếu nghiên cứu ngôn ngữ học liên quan. Ngôn ngữ Mường có những đặc điểm ngôn ngữ độc đáo gây khó khăn cho việc phát triển hệ thống TTS, như thanh điệu và cấu trúc ngữ âm phức tạp. Luận án này tập trung vào phát triển hệ thống TTS cho ngôn ngữ Mường, một ngôn ngữ thiểu số ở Việt Nam không có hệ thống chữ viết (chỉ phương ngữ Mường Hòa Bình có hệ thống chữ viết năm 2016).

2.1. Sự khan hiếm cơ sở dữ liệu giọng nói tiếng Mường chất lượng cao

Việc xây dựng một hệ thống TTS hiệu quả đòi hỏi một cơ sở dữ liệu giọng nói tiếng Mường phong phú và chất lượng cao. Tuy nhiên, việc thu thập và gán nhãn dữ liệu giọng nói này gặp nhiều khó khăn do thiếu nguồn lực và nhân lực chuyên môn. Nghiên cứu này cần giải quyết vấn đề thu thập và xử lý dữ liệu giọng nói để tạo ra một cơ sở dữ liệu giọng nói tiếng Mường đủ lớn và chất lượng.

2.2. Khó khăn trong việc chuẩn hóa phát âm tiếng Mường

Ngôn ngữ Mường có nhiều phương ngữ khác nhau, mỗi phương ngữ có những đặc điểm phát âm riêng. Điều này gây khó khăn trong việc chuẩn hóa phát âm tiếng Mường để xây dựng một hệ thống TTS thống nhất. Nghiên cứu này cần xem xét các phương ngữ khác nhau của ngôn ngữ Mường và tìm ra giải pháp để tạo ra một hệ thống TTS có thể xử lý được sự đa dạng về phát âm.

III. Phương Pháp Áp Dụng Học Máy cho Tổng Hợp Giọng Nói

Luận án phân loại ngôn ngữ ít tài nguyên thành hai loại: có chữ viết và không có chữ viết. Ngôn ngữ Mường sẽ là đối tượng nghiên cứu trong cả hai trường hợp: Mường Hòa Bình (có chữ viết) và Mường Phú Thọ (không có chữ viết). Nghiên cứu này nhằm giải quyết những thách thức này và cải thiện khả năng tiếp cận công nghệ TTS cho cả hai phương ngữ Mường. Mục tiêu là phát triển hệ thống TTS tiếng Mường có khả năng chuyển đổi văn bản (nếu có) hoặc phiên âm thành giọng nói một cách tự nhiên và dễ hiểu.

3.1. Sử dụng deep learning cho tổng hợp giọng nói

Deep learning cung cấp các mô hình mạnh mẽ để học các biểu diễn phức tạp của dữ liệu giọng nói và văn bản. Các mô hình như Tacotron 2 và WaveGlow có thể được sử dụng để xây dựng hệ thống TTS tiếng Mường có chất lượng cao. Nghiên cứu này sẽ tập trung vào việc điều chỉnh và tối ưu hóa các mô hình deep learning hiện có để phù hợp với đặc điểm của ngôn ngữ Mường.

3.2. Chuyển giao học tập Transfer Learning từ tiếng Việt sang tiếng Mường

Do thiếu hụt tài nguyên ngôn ngữ tiếng Mường, chuyển giao học tập từ tiếng Việt (một ngôn ngữ có nhiều tài nguyên hơn) là một phương pháp hiệu quả. Mô hình TTS đã được huấn luyện trên tiếng Việt có thể được tinh chỉnh trên một lượng nhỏ dữ liệu tiếng Mường để tạo ra một hệ thống TTS tiếng Mường có chất lượng chấp nhận được. Nghiên cứu này sẽ khám phá các kỹ thuật chuyển giao học tập khác nhau và đánh giá hiệu quả của chúng.

3.3. Xây dựng mô hình tổng hợp giọng nói dựa trên đơn vị

Mô hình tổng hợp giọng nói dựa trên đơn vị (unit selection synthesis) là một phương pháp khác để tạo ra giọng nói tự nhiên. Phương pháp này sử dụng một cơ sở dữ liệu giọng nói lớn và chọn các đơn vị giọng nói phù hợp để ghép lại thành câu nói. Nghiên cứu này sẽ thử nghiệm với phương pháp này và so sánh kết quả với phương pháp deep learning.

IV. Ứng Dụng Tạo TTS Tiếng Mường Từ Văn Bản Tiếng Việt

Nghiên cứu này tiến hành các thử nghiệm khác nhau để tạo TTS cho ngôn ngữ ít tài nguyên, cụ thể là ngôn ngữ Mường. Nghiên cứu tập trung vào hai nhóm ngôn ngữ ít tài nguyên chính: Có chữ viết (sử dụng mô phỏng để đọc ngôn ngữ Mường bằng TTS tiếng Việt và chuyển giao học tập đa ngôn ngữ) và Không có chữ viết (thử nghiệm với sự thích ứng theo hai hướng: tạo tổng hợp giọng nói tiếng Mường trực tiếp từ văn bản tiếng Việt và giọng nói tiếng Mường; tạo tổng hợp giọng nói tiếng Mường từ bản dịch thông qua biểu diễn trung gian).

4.1. Mô phỏng phát âm tiếng Mường bằng TTS tiếng Việt

Phương pháp này sử dụng hệ thống TTS tiếng Việt hiện có để tạo ra giọng nói tiếng Mường bằng cách chuyển đổi văn bản tiếng Việt thành phiên âm tiếng Mường và sau đó sử dụng TTS tiếng Việt để đọc phiên âm đó. Phương pháp này đơn giản nhưng có thể không tạo ra giọng nói tiếng Mường tự nhiên do sự khác biệt giữa hai ngôn ngữ. Nghiên cứu này sẽ đánh giá chất lượng của giọng nói được tạo ra bằng phương pháp này thông qua các thử nghiệm đánh giá chủ quan.

4.2. Tạo TTS tiếng Mường từ biểu diễn trung gian

Phương pháp này sử dụng một biểu diễn trung gian (ví dụ: phiên âm ngữ âm) để chuyển đổi văn bản tiếng Việt thành giọng nói tiếng Mường. Văn bản tiếng Việt được chuyển đổi thành biểu diễn trung gian, sau đó biểu diễn trung gian được sử dụng để tạo ra giọng nói tiếng Mường. Phương pháp này có thể tạo ra giọng nói tiếng Mường tự nhiên hơn so với phương pháp mô phỏng trực tiếp, vì nó cho phép mô hình học các mối quan hệ giữa các đơn vị ngữ âm của hai ngôn ngữ. Nghiên cứu này sẽ thiết kế và xây dựng một biểu diễn trung gian phù hợp cho ngôn ngữ Mường.

V. Đánh Giá Đo Lường Chất Lượng Tổng Hợp Giọng Nói

Hy vọng rằng những phát hiện này có thể thúc đẩy sự phát triển của tổng hợp giọng nói cho ngôn ngữ ít tài nguyên trên toàn thế giới và đóng góp vào cơ sở phát triển tổng hợp giọng nói cho 53 ngôn ngữ dân tộc thiểu số ở Việt Nam. Các thử nghiệm đánh giá chủ quan được thực hiện để đo lường chất lượng và độ tự nhiên của giọng nói được tạo ra. Các chỉ số như Mean Opinion Score (MOS) và khả năng dễ hiểu được sử dụng.

5.1. Sử dụng Mean Opinion Score MOS để đánh giá

Mean Opinion Score (MOS) là một phương pháp đánh giá chủ quan phổ biến được sử dụng để đo lường chất lượng của giọng nói được tạo ra. Người tham gia sẽ nghe các mẫu giọng nói và đánh giá chúng trên thang điểm từ 1 đến 5, với 5 là chất lượng tốt nhất. Nghiên cứu này sẽ sử dụng MOS để so sánh chất lượng của các hệ thống TTS tiếng Mường khác nhau.

5.2. Phân tích Mel Cepstral Distortion MCD

Mel Cepstral Distortion (MCD) là một phương pháp đánh giá khách quan được sử dụng để đo lường sự khác biệt giữa giọng nói được tạo ra và giọng nói thực tế. MCD đo lường khoảng cách giữa các hệ số Mel Cepstral của hai giọng nói. Nghiên cứu này sẽ sử dụng MCD để đánh giá độ chính xác của hệ thống TTS tiếng Mường.

5.3. Kiểm tra khả năng dễ hiểu của giọng nói tổng hợp

Khả năng dễ hiểu là một yếu tố quan trọng trong việc đánh giá chất lượng của hệ thống TTS. Người tham gia sẽ nghe các câu được tạo ra bởi hệ thống TTS và cố gắng viết lại những gì họ nghe được. Tỷ lệ các từ được viết lại chính xác sẽ được sử dụng để đo lường khả năng dễ hiểu của giọng nói tổng hợp. Nghiên cứu này sẽ sử dụng các thử nghiệm khả năng dễ hiểu để đảm bảo rằng giọng nói được tạo ra bởi hệ thống TTS tiếng Mường dễ hiểu.

VI. Kết Luận Tương Lai Phát Triển Ứng Dụng Cho Tiếng Mường

Nghiên cứu này đã khám phá các phương pháp khác nhau để phát triển hệ thống TTS cho ngôn ngữ Mường, một ngôn ngữ ít tài nguyên ở Việt Nam. Các kết quả cho thấy rằng chuyển giao học tập và sử dụng biểu diễn trung gian là những phương pháp hứa hẹn. Trong tương lai, nghiên cứu sẽ tập trung vào việc cải thiện chất lượng của giọng nói được tạo ra, mở rộng cơ sở dữ liệu giọng nói tiếng Mường, và phát triển các ứng dụng thực tế cho hệ thống TTS tiếng Mường.

6.1. Hướng phát triển hệ thống TTS cho các phương ngữ Mường khác

Nghiên cứu này tập trung vào hai phương ngữ Mường (Hòa Bình và Phú Thọ). Trong tương lai, cần mở rộng nghiên cứu để phát triển hệ thống TTS cho các phương ngữ Mường khác nhau, từ đó tạo ra một hệ thống TTS toàn diện cho ngôn ngữ Mường.

6.2. Xây dựng ứng dụng tổng hợp giọng nói tiếng Mường phục vụ cộng đồng

Mục tiêu cuối cùng của nghiên cứu là xây dựng các ứng dụng thực tế cho hệ thống TTS tiếng Mường để phục vụ cộng đồng người Mường. Các ứng dụng này có thể bao gồm ứng dụng học tiếng Mường, ứng dụng đọc sách báo tiếng Mường, và ứng dụng hỗ trợ giao tiếp cho người khuyết tật. Sự phát triển của các ứng dụng này sẽ góp phần bảo tồn và phát triển ngôn ngữ Mường.

23/05/2025

Bạn đang xem trước tài liệu:

Nghiên cứu tổng hợp tiếng nói cho ngôn ngữ ít nguồn tài nguyên theo hướng thích nghi ứng dụng với tiếng mường

Tải đầy đủ

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY Pham Van Dong SPEECH SYNTHESIS FOR LOW-RESOURCED LANGUAGES BASED ON ADAPTATION APPROACH: APPLICATION TO MUONG LANGUAGE DOCTORAL DISSERTATION IN COMPUTER SCIENCE Ha Noi – 2023 MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY Pham Van Dong SPEECH SYNTHESIS FOR LOW-RESOURCED LANGUAGES BASED ON ADAPTATION APPROACH: APPLICATION TO MUONG LANGUAGE Major: Computer science Code: 9480101 DOCTORAL DISSERTATION IN COMPUTER SCIENCE SUPERVISORS: 1. MAC DANG KHOA 2. TRAN DO DAT Ha Noi - 2023 DECLARATION OF AUTHORSHIP I, Pham Van Dong, declare that the dissertation titled “Speech Synthesis for Low- Resourced Languages based on Adaptation Approach: Application to Muong Language” has been entirely composed by myself. I assure you of some points as follows:  This work was done wholly or mainly while in candidature for a Ph.

research degree at Hanoi University of Science and Technology.  The work has not been submitted for any other degree or qualifications at Hanoi University of Science and Technology or any other institution.  Appropriate acknowledgment has been given within this dissertation, where reference has been made to the published work of others.  The dissertation submitted is my own, except where work in the collaboration has been included.

The collaborative contributions have been indicated. Hanoi, December 8, 2023 Ph. Student Pham Van Dong ADVISORS 1. Mac Dang Khoa 2.

Tran Do Dat i ACKNOWLEDGMENT Foremost, I would like to express my most sincere and deepest gratitude to my thesis advisors Dr. Mạc Đăng Khoa (Speech Communication Department, MultiLab at MICA), Prof. TRẦN Đỗ Đạt (The Ministry of Science and Technology, Vietnam) for their continuous support and guidance during my Ph. program, and for providing me with such a severe and inspiring research environment.

I am grateful to Dr. Mạc Đăng Khoa for his excellent mentorship, caring, patience, and immense Text-To-Speech (TTS) knowledge. His advice helped me in all the research and writing of this thesis. I am very thankful to Prof.

Đạt for shaping my thesis at the beginning and for their enthusiasm and encouragement. Trần Đỗ Đạt substantially facilitated my Ph. research, especially when I was a freshman on speech processing and TTS, with his valuable comments on Vietnamese and Muong TTS. I thank all MICA members for their help during my Ph.

My sincere thanks to Dr. Nguyen Viet Son, Assoc. Dao Trung Kien and Dr. Do Thi Ngoc Diep for giving me much support and valuable advice.

Thanks to Nguyen Van Thinh, Nguyen Tien Thanh, Dang Thanh Mai, and Vu Thi Hai Ha for their help. I want to thank my Hanoi University of Mining and Geology colleagues for all their support during my Ph. Special thanks to my family for understanding my hours glued to the computer screen. Hanoi, December 8, 2023 Ph.

Student ii ABSTRACT Text-to-speech (TTS) synthesis is the automatic conversion of text into speech. Typically, building high-quality voiceovers requires collecting tens of hours of the voice of a professional speaker with a high-quality microphone. There are about 7,000 languages spoken worldwide, but only a few languages, such as English, Spanish, Mandarin, and Japanese, are used in good TTS. With so-called "low-resourced languages" or even languages that are not yet written, these languages do not have TTS.

Thus, to apply TTS technology to low-resourced language, it is necessary to study other TTS methods. In Vietnam, Vietnamese is the mother tongue and is used the most. The Muong is a group of the language spoken by the Muong people of Vietnam. They are in the Austroasiatic language family and are closely related to Vietnamese, and Muong is also one of the five ethnic groups with the largest population.

However, Muong still needs an official script, a typical representative of the low-resourced language in Vietnam. Therefore, researching TTS technologies to create TTS for the Muong language is challenging. In the first part of this thesis, we do an overview of TTS. Researching the phonetics of Vietnamese and Muong languages, the thesis has also researched and published some tools to support TTS technology for Vietnamese and Muong languages.

In the rest of the thesis, we conduct various experiments in creating TTS for low-resourced language; specifically, we experiment with the Muong language. We focus on two main low-resourced language groups:  Written: We use emulating to simulate the reading of the Muong language using Vietnamese TTS and cross-lingual adaptation transfer-learning.  Unwritten: We experiment with adaptation in two directions. The first is to create Muong speech synthesis directly from Vietnamese Text and Muong voice.

The second is to create Muong speech synthesis from translation through intermediate representation We hope our findings can serve as an impetus to develop speech synthesis for low-resourced languages worldwide and contribute to the basis for speech synthesis development for 53 ethnic minority languages in Viet Nam. Hanoi, December 8, 2023 Ph. Student iii CONTENT DECLARATION OF AUTHORSHIP. VIII LIST OF TABLES.

X LIST OF FIGURES. 1 PART 1 : BACKGROUND AND RELATED WORKS. OVERVIEW OF SPEECH SYNTHESIS AND SPEECH SYNTHESIS FOR LOW-RESOURCED LANGUAGE. Overview of speech synthesis.

Evolution of TTS methods over time. TTS using unit-selection method. Statistical parameter speech synthesis. Speech synthesis using deep neural networks.

Neural speech synthesis. Speech synthesis for low-resourced languages. TTS using emulating input approach. TTS using the polyglot approach.

Speech synthesis for low-resourced language using the adaptation approach. Neural translation model. Attention in neural machine translation. Statistical machine translation based on phrase.

Statistical machine translation problem based on phrase. Translation model and language model. Decode the input sentence in the translation system. Model for building a statistical translation system.

Machine translation through intermediate representation. Speech translation for unwritten low-resourced languages. Speech synthesis evaluation metrics. Mean Opinion Score (MOS).

Mel Cepstral Distortion (MCD). MCD with Dynamic Time Warping (MCD – DTW). Analysis of variance (Anova). VIETNAMESE AND MUONG LANGUAGE.

History of Vietnamese. Vietnamese phonetic system. Vietnamese syllabus structure. Vietnamese phonetic system.

Vietnamese tone system. Overview of Muong people and Muong language. Viet Muong group. Muong written script.

Muong phonetics system. Muong syllable structure. Muong phoneme system. Muong tone system.

Comparison between Vietnamese and Muong. Dicussion and proposal approach. 60 PART 2 : SPEECH SYNTHESIS FOR MUONG AS A WRITTEN LANGUAGE. EMULATING OF THE MUONG TTS BASED ON INPUT TRANSFORMATION OF THE VIETNAMESE TTS.

Muong emulating IPA module. Analysis by ANOVA method. MOS analysis by ANOVA. Intelligibility analysis by ANOVA.

CROSS-LINGUAL TRANSFER LEARNING FOR MUONG SPEECH SYNTHESIS. Muong Project‘s data. Muong fine-tuning data. Graphemes to phonemes.

Training the pretrained model using Vietnamese dataset. Finetuned TTS model on Muong datasets. MOS analysis by ANOVA. 94 PART 3 : SPEECH SYNTHESIS FOR MUONG AS AN UNWRITTEN LANGUAGE.

GENERATE UNWRITTEN LOW-RESOURCED LANGUAGE’S SPEECH DIRECTLY FROM RICH-RESOURCE LANGUAGE’S TEXT. Training the speech synthesis system. MOS analysis by ANOVA. ANOVA analysis in Muong Bi speech synthesis.

ANOVA analysis in Muong Tan Son speech synthesis. SPEECH SYNTHESIS FOR UNWRITTEN LOW-RESOURCED LANGUAGE USING INTERMEDIATE REPRESENTATION. Text to phone translation. Phone to Sound Conversion.

Evaluation in Muong Bi and Muong Tan Son. MOS analysis by ANOVA. ANOVA analysis in Muong Bi speech synthesis. ANOVA analysis in Muong Tan Son speech synthesis.

Conclusion and comparison. 128 CONCLUSION AND FUTURE WORKS. Vietnamese and Muong phonetic. Muong Vietnamese phone mapping.

Information of Muong volunteers who participated in the assessment. Speech signal samples of the Muong TTS in chapter 5. 12 vii ABBREVIATIONS Expansion Explanation Abbreviation CART Classification And Regression Tree F0 Fundamental Frequency HMM Hidden Markov Model HTK Hidden markov model A portable toolkit for building and ToolKit manipulating hidden Markov models HTS HMM-based speech synthesis IPA International Phonetic Alphabet MARY Modular Architecture for (TTS) Research on speech sYnthesis MFCC Mel Frequency Cepstral Coefficents ML Maximum Likelihood MLSA Mel Log Spectrum Approximation MOS Mean Opinion Score MSD- Multi-Space probability HMM Distribution HMM NLP Natural Language Processing OCR Optical Character Recognition POS Part-Of-Speech Word class or a lexical category PP Prepositional Phrase PSOLA Pitch Synchronous OverLap and Add SAMPA Speech Assessment Methods Phonetic Alphabet SPTK Speech signal Processing ToolKit SSML Speech Synthesis Markup Language TD- Time-Domain Pitch PSOLA Synchronous OverLap and Add TTS Text-To-Speech VNSP VNSpeechCorpus for synthesis WEKA Waikato Environment for A collection of machine learning Knowledge algorithms for data mining tasks: Analysis X-SAMPA Extended Speech Assessment Methods Phonetic Alphabet XML eXtensible Markup Language PLP Perceptual Linear Prediction viii G2P Grapheme to Phoneme ANOVA Analysis of Variance DNN Deep Neural Network ANN Artificial Neural Network LPC Linear Predictive Coding EM Expectation Maximization Algorithm MLE Maximum Likelihood Network PTN Phonetic Transformation Network CNN Convolutional Neural Network NMT Neural Machine Translation SMT Statistical Machine Translation RNN Recurrent Neural Network GRU Gated Recurrent Unit DTW Dynamic Time Warping MCD Mel Ceptral Distortion Argmax Arguments of the maxima Argmax is an operation that finds the argument that gives the maximum value from a target function Log Logarith ̅ Sample mean p(e | f) Conditional Probability  Pi Product of a sequence of numbers  Sigma Factor H0 Null Hypothesis ix LIST OF TABLES Table 2.1 Vietnamese syllabus structure [94] .2 Vietnamese syllabus structure [96] .3 Vietnamese syllables based on structure .4 Hanoi Vietnamese inital consonants .5 The letter of initial consonant .6 Hanoi Vietnamese final consonant .7 Tone of Hanoi Vietnamese [108] .8 Muong syllabic structure .9 Muong final sound system .10 Muong Hoa Binh tone system [115] .11 Muong Bi and Muong Tan Son Tone .12 Muong and Vietnamese phonetic comparison (orthography in normal, IPA in italic; Vi: Vietnamese; Mb: Muong Bi ; Mts : Muong Tan Son) .13 Comparing the tone of Vietnamese with Muong Tan Son and Muong Bi .1 Muong G2P Result Sample .2 Examples of applying transformation rules to convert the Muong text into input text for Vietnamese TTS. Testing material for emulating tone.

Testing material for emulating phone (the concerning phonemes in bold). Testing material for remaining phonemes .6 ANOVA Results for MOS Test.7 ANOVA Results for Intelligibility Test .1 Parameters of acoustic model .2 Vietnamese dataset information .3 Muong recorded data .4 The Muong split data set .5 Parameter for optimizer .6 Value of parameters when training Hifigan model .7 The specifications of the in-domain and out-domain test sets .8 Test set samples .10 ANOVA Results for in-domain MOS Test .11 ANOVA Results for out-domain MOS Test .12 ANOVA Results for in/out domain MOS Test .2 TTS evaluation with in-domain test set .3 TTS evaluation with out-domain test set .4 ANOVA Results for in-domain MOS Test for Muong Bi .5 ANOVA Results for out-domain MOS Test for Muong Bi .6 ANOVA Results for Muong Bi in/out domain MOS Test .7 ANOVA Results for in-domain MOS Test for Muong Tan Son .8 ANOVA Results for out-domain MOS Test for Muong Tan Son .9 ANOVA Results for Muong Tan Son in/out domain MOS Test.1 Examples of labeling Vietnamese text into an intermediate representation of Muong Bi and Muong Tan Son phonemes.2 Text information of Muong language datasets .3 TTS evaluation with in-domain test set .4 TTS evaluation with out-domain test set .5 ANOVA Results for in-domain MOS Test for Muong Bi .6 ANOVA Results for out-domain MOS Test for Muong Bi .7 ANOVA Results for Muong Bi in/out domain MOS Test .8 ANOVA Results for in-domain MOS Test for Muong Tan Son .9 ANOVA Results for out-domain MOS Test for Muong Tan Son .10 ANOVA Results for Muong Tan Son in/out domain MOS Test.2 The Muong initial consonant .3 Muong vowels system .4 The correspondences between Vietnamese and Muong in 12 words refer to the human body parts [137] .8 Muong Vietnamese phone mapping.9 Muong Hoa Binh volunteers .10 Muong Phu Tho volunteers .10 xi LIST OF FIGURES Figure 1. Basic system architecture of a TTS system [22] .2 Neural TTS architecture [3] .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu tổng hợp giọng nói cho ngôn ngữ ít tài nguyên: Ứng dụng cho ngôn ngữ Mường" trình bày một nghiên cứu quan trọng về việc phát triển công nghệ tổng hợp giọng nói cho các ngôn ngữ ít tài nguyên, với trọng tâm là ngôn ngữ Mường. Nghiên cứu này không chỉ giúp nâng cao khả năng giao tiếp cho cộng đồng người Mường mà còn mở ra cơ hội cho việc bảo tồn và phát triển ngôn ngữ của họ trong thời đại số. Các điểm chính của tài liệu bao gồm phương pháp tổng hợp giọng nói, ứng dụng thực tiễn trong giáo dục và truyền thông, cũng như tiềm năng phát triển trong các lĩnh vực khác.

Để hiểu rõ hơn về các phương pháp liên quan đến ngôn ngữ và ứng dụng của chúng, bạn có thể tham khảo tài liệu Luận văn các phương pháp phân đoạn tiếng việt và ứng dụng. Tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các kỹ thuật phân đoạn ngôn ngữ, từ đó giúp bạn mở rộng kiến thức trong lĩnh vực ngôn ngữ học và công nghệ thông tin.

#tổng hợp giọng nói