I. Giới Thiệu Nghiên Cứu Tổng Hợp Giọng Nói Tiếng Mường
Công nghệ xử lý tiếng nói ngày nay đóng vai trò quan trọng trong tương tác người-máy. Các hệ thống tương tác bằng giọng nói cho phép người dùng giao tiếp với thiết bị trên smartphone, xe thông minh, nhà thông minh. Một thành phần thiết yếu là tổng hợp giọng nói hoặc Text-to-Speech (TTS), chuyển văn bản thành giọng nói. Phát triển hệ thống TTS cho ngôn ngữ đòi hỏi nghiên cứu ngôn ngữ học về ngữ âm, âm vị học, cú pháp và ngữ pháp. Theo Ethnologue, có 7.151 ngôn ngữ trên thế giới, 2.982 ngôn ngữ không có chữ viết. Các phương pháp học máy dựa trên dữ liệu lớn không áp dụng được cho ngôn ngữ ít tài nguyên, đặc biệt là ngôn ngữ Mường chưa viết. Lĩnh vực xử lý ngôn ngữ ít tài nguyên này mới bắt đầu được chú ý và còn ít kết quả. Nghiên cứu này mang lại công nghệ giao tiếp bằng giọng nói cho cộng đồng dân tộc thiểu số, góp phần bảo tồn ngôn ngữ.
1.1. Tầm quan trọng của TTS tiếng Mường trong tương tác người máy
Tổng hợp giọng nói tiếng Mường mở ra khả năng tương tác tự nhiên hơn giữa người Mường và các thiết bị công nghệ. Nó có thể được sử dụng trong các ứng dụng giáo dục, giải trí và hỗ trợ giao tiếp. Nghiên cứu này nhấn mạnh vai trò quan trọng của công nghệ TTS trong việc bảo tồn và phát triển ngôn ngữ Mường, đặc biệt trong bối cảnh số hóa.
1.2. Thách thức đặc thù của ngôn ngữ Mường trong nghiên cứu ngôn ngữ học
Ngôn ngữ Mường có đặc điểm ngôn ngữ độc đáo gây khó khăn khi phát triển hệ thống TTS, như thanh điệu và cấu trúc ngữ âm phức tạp. Việc thiếu tài nguyên ngôn ngữ tiếng Mường như văn bản và dữ liệu giọng nói cũng là một thách thức lớn. Nghiên cứu này nhằm giải quyết các thách thức này và cải thiện khả năng tiếp cận công nghệ TTS cho ngôn ngữ Mường.
II. Vấn Đề Thiếu Hụt Tài Nguyên Ngôn Ngữ Tiếng Mường
Trong lĩnh vực xử lý tiếng Việt, các đơn vị nghiên cứu trong nước đã chú ý đến các khía cạnh khác nhau từ xử lý ngôn ngữ tự nhiên đến xử lý tiếng nói. Tuy nhiên, vấn đề xử lý ngôn ngữ và tiếng nói, bao gồm cả hệ thống TTS cho các ngôn ngữ dân tộc thiểu số không có hệ thống chữ viết, chưa được quan tâm nhiều. Nguyên nhân do thiếu dữ liệu song ngữ và dữ liệu giọng nói, cũng như thiếu nghiên cứu ngôn ngữ học liên quan. Ngôn ngữ Mường có những đặc điểm ngôn ngữ độc đáo gây khó khăn cho việc phát triển hệ thống TTS, như thanh điệu và cấu trúc ngữ âm phức tạp. Luận án này tập trung vào phát triển hệ thống TTS cho ngôn ngữ Mường, một ngôn ngữ thiểu số ở Việt Nam không có hệ thống chữ viết (chỉ phương ngữ Mường Hòa Bình có hệ thống chữ viết năm 2016).
2.1. Sự khan hiếm cơ sở dữ liệu giọng nói tiếng Mường chất lượng cao
Việc xây dựng một hệ thống TTS hiệu quả đòi hỏi một cơ sở dữ liệu giọng nói tiếng Mường phong phú và chất lượng cao. Tuy nhiên, việc thu thập và gán nhãn dữ liệu giọng nói này gặp nhiều khó khăn do thiếu nguồn lực và nhân lực chuyên môn. Nghiên cứu này cần giải quyết vấn đề thu thập và xử lý dữ liệu giọng nói để tạo ra một cơ sở dữ liệu giọng nói tiếng Mường đủ lớn và chất lượng.
2.2. Khó khăn trong việc chuẩn hóa phát âm tiếng Mường
Ngôn ngữ Mường có nhiều phương ngữ khác nhau, mỗi phương ngữ có những đặc điểm phát âm riêng. Điều này gây khó khăn trong việc chuẩn hóa phát âm tiếng Mường để xây dựng một hệ thống TTS thống nhất. Nghiên cứu này cần xem xét các phương ngữ khác nhau của ngôn ngữ Mường và tìm ra giải pháp để tạo ra một hệ thống TTS có thể xử lý được sự đa dạng về phát âm.
III. Phương Pháp Áp Dụng Học Máy cho Tổng Hợp Giọng Nói
Luận án phân loại ngôn ngữ ít tài nguyên thành hai loại: có chữ viết và không có chữ viết. Ngôn ngữ Mường sẽ là đối tượng nghiên cứu trong cả hai trường hợp: Mường Hòa Bình (có chữ viết) và Mường Phú Thọ (không có chữ viết). Nghiên cứu này nhằm giải quyết những thách thức này và cải thiện khả năng tiếp cận công nghệ TTS cho cả hai phương ngữ Mường. Mục tiêu là phát triển hệ thống TTS tiếng Mường có khả năng chuyển đổi văn bản (nếu có) hoặc phiên âm thành giọng nói một cách tự nhiên và dễ hiểu.
3.1. Sử dụng deep learning cho tổng hợp giọng nói
Deep learning cung cấp các mô hình mạnh mẽ để học các biểu diễn phức tạp của dữ liệu giọng nói và văn bản. Các mô hình như Tacotron 2 và WaveGlow có thể được sử dụng để xây dựng hệ thống TTS tiếng Mường có chất lượng cao. Nghiên cứu này sẽ tập trung vào việc điều chỉnh và tối ưu hóa các mô hình deep learning hiện có để phù hợp với đặc điểm của ngôn ngữ Mường.
3.2. Chuyển giao học tập Transfer Learning từ tiếng Việt sang tiếng Mường
Do thiếu hụt tài nguyên ngôn ngữ tiếng Mường, chuyển giao học tập từ tiếng Việt (một ngôn ngữ có nhiều tài nguyên hơn) là một phương pháp hiệu quả. Mô hình TTS đã được huấn luyện trên tiếng Việt có thể được tinh chỉnh trên một lượng nhỏ dữ liệu tiếng Mường để tạo ra một hệ thống TTS tiếng Mường có chất lượng chấp nhận được. Nghiên cứu này sẽ khám phá các kỹ thuật chuyển giao học tập khác nhau và đánh giá hiệu quả của chúng.
3.3. Xây dựng mô hình tổng hợp giọng nói dựa trên đơn vị
Mô hình tổng hợp giọng nói dựa trên đơn vị (unit selection synthesis) là một phương pháp khác để tạo ra giọng nói tự nhiên. Phương pháp này sử dụng một cơ sở dữ liệu giọng nói lớn và chọn các đơn vị giọng nói phù hợp để ghép lại thành câu nói. Nghiên cứu này sẽ thử nghiệm với phương pháp này và so sánh kết quả với phương pháp deep learning.
IV. Ứng Dụng Tạo TTS Tiếng Mường Từ Văn Bản Tiếng Việt
Nghiên cứu này tiến hành các thử nghiệm khác nhau để tạo TTS cho ngôn ngữ ít tài nguyên, cụ thể là ngôn ngữ Mường. Nghiên cứu tập trung vào hai nhóm ngôn ngữ ít tài nguyên chính: Có chữ viết (sử dụng mô phỏng để đọc ngôn ngữ Mường bằng TTS tiếng Việt và chuyển giao học tập đa ngôn ngữ) và Không có chữ viết (thử nghiệm với sự thích ứng theo hai hướng: tạo tổng hợp giọng nói tiếng Mường trực tiếp từ văn bản tiếng Việt và giọng nói tiếng Mường; tạo tổng hợp giọng nói tiếng Mường từ bản dịch thông qua biểu diễn trung gian).
4.1. Mô phỏng phát âm tiếng Mường bằng TTS tiếng Việt
Phương pháp này sử dụng hệ thống TTS tiếng Việt hiện có để tạo ra giọng nói tiếng Mường bằng cách chuyển đổi văn bản tiếng Việt thành phiên âm tiếng Mường và sau đó sử dụng TTS tiếng Việt để đọc phiên âm đó. Phương pháp này đơn giản nhưng có thể không tạo ra giọng nói tiếng Mường tự nhiên do sự khác biệt giữa hai ngôn ngữ. Nghiên cứu này sẽ đánh giá chất lượng của giọng nói được tạo ra bằng phương pháp này thông qua các thử nghiệm đánh giá chủ quan.
4.2. Tạo TTS tiếng Mường từ biểu diễn trung gian
Phương pháp này sử dụng một biểu diễn trung gian (ví dụ: phiên âm ngữ âm) để chuyển đổi văn bản tiếng Việt thành giọng nói tiếng Mường. Văn bản tiếng Việt được chuyển đổi thành biểu diễn trung gian, sau đó biểu diễn trung gian được sử dụng để tạo ra giọng nói tiếng Mường. Phương pháp này có thể tạo ra giọng nói tiếng Mường tự nhiên hơn so với phương pháp mô phỏng trực tiếp, vì nó cho phép mô hình học các mối quan hệ giữa các đơn vị ngữ âm của hai ngôn ngữ. Nghiên cứu này sẽ thiết kế và xây dựng một biểu diễn trung gian phù hợp cho ngôn ngữ Mường.
V. Đánh Giá Đo Lường Chất Lượng Tổng Hợp Giọng Nói
Hy vọng rằng những phát hiện này có thể thúc đẩy sự phát triển của tổng hợp giọng nói cho ngôn ngữ ít tài nguyên trên toàn thế giới và đóng góp vào cơ sở phát triển tổng hợp giọng nói cho 53 ngôn ngữ dân tộc thiểu số ở Việt Nam. Các thử nghiệm đánh giá chủ quan được thực hiện để đo lường chất lượng và độ tự nhiên của giọng nói được tạo ra. Các chỉ số như Mean Opinion Score (MOS) và khả năng dễ hiểu được sử dụng.
5.1. Sử dụng Mean Opinion Score MOS để đánh giá
Mean Opinion Score (MOS) là một phương pháp đánh giá chủ quan phổ biến được sử dụng để đo lường chất lượng của giọng nói được tạo ra. Người tham gia sẽ nghe các mẫu giọng nói và đánh giá chúng trên thang điểm từ 1 đến 5, với 5 là chất lượng tốt nhất. Nghiên cứu này sẽ sử dụng MOS để so sánh chất lượng của các hệ thống TTS tiếng Mường khác nhau.
5.2. Phân tích Mel Cepstral Distortion MCD
Mel Cepstral Distortion (MCD) là một phương pháp đánh giá khách quan được sử dụng để đo lường sự khác biệt giữa giọng nói được tạo ra và giọng nói thực tế. MCD đo lường khoảng cách giữa các hệ số Mel Cepstral của hai giọng nói. Nghiên cứu này sẽ sử dụng MCD để đánh giá độ chính xác của hệ thống TTS tiếng Mường.
5.3. Kiểm tra khả năng dễ hiểu của giọng nói tổng hợp
Khả năng dễ hiểu là một yếu tố quan trọng trong việc đánh giá chất lượng của hệ thống TTS. Người tham gia sẽ nghe các câu được tạo ra bởi hệ thống TTS và cố gắng viết lại những gì họ nghe được. Tỷ lệ các từ được viết lại chính xác sẽ được sử dụng để đo lường khả năng dễ hiểu của giọng nói tổng hợp. Nghiên cứu này sẽ sử dụng các thử nghiệm khả năng dễ hiểu để đảm bảo rằng giọng nói được tạo ra bởi hệ thống TTS tiếng Mường dễ hiểu.
VI. Kết Luận Tương Lai Phát Triển Ứng Dụng Cho Tiếng Mường
Nghiên cứu này đã khám phá các phương pháp khác nhau để phát triển hệ thống TTS cho ngôn ngữ Mường, một ngôn ngữ ít tài nguyên ở Việt Nam. Các kết quả cho thấy rằng chuyển giao học tập và sử dụng biểu diễn trung gian là những phương pháp hứa hẹn. Trong tương lai, nghiên cứu sẽ tập trung vào việc cải thiện chất lượng của giọng nói được tạo ra, mở rộng cơ sở dữ liệu giọng nói tiếng Mường, và phát triển các ứng dụng thực tế cho hệ thống TTS tiếng Mường.
6.1. Hướng phát triển hệ thống TTS cho các phương ngữ Mường khác
Nghiên cứu này tập trung vào hai phương ngữ Mường (Hòa Bình và Phú Thọ). Trong tương lai, cần mở rộng nghiên cứu để phát triển hệ thống TTS cho các phương ngữ Mường khác nhau, từ đó tạo ra một hệ thống TTS toàn diện cho ngôn ngữ Mường.
6.2. Xây dựng ứng dụng tổng hợp giọng nói tiếng Mường phục vụ cộng đồng
Mục tiêu cuối cùng của nghiên cứu là xây dựng các ứng dụng thực tế cho hệ thống TTS tiếng Mường để phục vụ cộng đồng người Mường. Các ứng dụng này có thể bao gồm ứng dụng học tiếng Mường, ứng dụng đọc sách báo tiếng Mường, và ứng dụng hỗ trợ giao tiếp cho người khuyết tật. Sự phát triển của các ứng dụng này sẽ góp phần bảo tồn và phát triển ngôn ngữ Mường.