Luận văn tổng hợp tiếng nói học sâu - Lê Thanh Tùng - ĐH Công Nghệ

Luận văn thạc sĩ nghiên cứu hệ thống tổng hợp tiếng nói bằng phương pháp học sâu, mạng nơ ron. Ứng dụng Deep Learning trong xử lý ngôn ngữ tự nhiên.

2020

75
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Cách nghiên cứu hệ thống tổng hợp tiếng nói học sâu hiệu quả

Nghiên cứu hệ thống tổng hợp tiếng nói học sâu là lĩnh vực giao thoa giữa xử lý ngôn ngữ tự nhiên, học máy và xử lý tín hiệu. Mục tiêu chính là tạo ra tiếng nói tự nhiên từ văn bản đầu vào bằng các mô hình học sâu như mạng nơ-ron hồi tiếp (RNN), mạng nơ-ron tích chập (CNN) hoặc biến đổi (Transformer). Theo luận văn thạc sĩ của Lê Thanh Tùng (2020), hệ thống tổng hợp tiếng nói học sâu cho tiếng Việt đã đạt được tiến bộ đáng kể nhờ vào việc khai thác đặc trưng ngữ âm và tối ưu hóa mô hình huấn luyện. Một trong những thách thức lớn nhất là đảm bảo tính tự nhiên, ngữ điệu và phát âm chuẩn theo đặc thù ngôn ngữ tiếng Việt – ngôn ngữ có thanh điệu và cấu trúc âm tiết phức tạp. Để đạt hiệu quả, quá trình nghiên cứu cần tích hợp chặt chẽ giữa phân tích đặc trưng âm học, mô hình học sâuđánh giá chất lượng tiếng nói tổng hợp. Các hệ thống hiện đại thường sử dụng kiến trúc End-to-End, loại bỏ các bước trung gian truyền thống như chuyển đổi văn bản sang ngữ âm (text-to-phoneme) và dự đoán tham số âm học riêng lẻ.

1.1. Đặc điểm nổi bật của tiếng Việt trong tổng hợp tiếng nói

Tiếng Việt là ngôn ngữ đơn âm tiết có thanh điệu, với 6 thanh điệu chính ảnh hưởng trực tiếp đến ngữ nghĩa. Điều này khiến việc tổng hợp tiếng nói trở nên phức tạp hơn so với các ngôn ngữ không có thanh điệu. Đặc trưng âm học như tần số cơ bản (F0), độ dài âm tiết và phổ năng lượng cần được mô hình hóa chính xác. Theo Bảng 2.1 trong luận văn của Lê Thanh Tùng, các đặc trưng như mel-spectrogram, MFCCpitch contour đóng vai trò then chốt trong việc huấn luyện mô hình học sâu cho tiếng Việt. Việc thiếu dữ liệu nói chuẩn hóa cũng là rào cản lớn, đòi hỏi các kỹ thuật tăng cường dữ liệu hoặc chuyển giao học (transfer learning).

1.2. Vai trò của học sâu trong tổng hợp tiếng nói hiện đại

Học sâu đã cách mạng hóa lĩnh vực tổng hợp tiếng nói nhờ khả năng học biểu diễn đặc trưng từ dữ liệu thô mà không cần thiết kế đặc trưng thủ công. Các mô hình như Tacotron, WaveNetFastSpeech cho phép tạo tiếng nói mượt mà, gần với giọng người thật. Trong bối cảnh tiếng Việt, mô hình học sâu cần được điều chỉnh để xử lý ngữ cảnh âm vịbiến thể thanh điệu. Luận văn của Lê Thanh Tùng (2020) chứng minh rằng việc kết hợp mạng LSTM với lớp chú ý (attention) giúp cải thiện đáng kể chất lượng tiếng nói tổng hợp, đặc biệt ở các từ có thanh điệu luyến láy.

II. Những thách thức chính khi triển khai hệ thống tổng hợp tiếng nói học sâu

Mặc dù hệ thống tổng hợp tiếng nói học sâu mang lại nhiều hứa hẹn, việc triển khai thực tế gặp không ít rào cản. Một trong những thách thức lớn nhất là thiếu dữ liệu nói chất lượng cao cho tiếng Việt. Dữ liệu huấn luyện cần được ghi âm chuẩn, dán nhãn ngữ âm chính xác và đủ đa dạng về giọng nói, giới tính, vùng miền. Ngoài ra, độ phức tạp tính toán của các mô hình học sâu như WaveNet khiến việc triển khai thời gian thực trở nên khó khăn. Luận văn của Lê Thanh Tùng (2020) chỉ ra rằng ngay cả khi có dữ liệu, việc đồng bộ giữa văn bản và tín hiệu âm thanh trong quá trình huấn luyện vẫn dễ gây ra lỗi như nói lắp, ngắt quãng hoặc sai thanh điệu. Một vấn đề khác là đánh giá chất lượng tiếng nói – các chỉ số như MOS (Mean Opinion Score) vẫn phụ thuộc nhiều vào đánh giá chủ quan của con người, trong khi các chỉ số tự động như Mel-Cepstral Distortion (MCD) chưa phản ánh đầy đủ tính tự nhiên.

2.1. Thiếu hụt dữ liệu huấn luyện cho tiếng Việt

Dữ liệu là yếu tố then chốt để huấn luyện mô hình học sâu hiệu quả. Tuy nhiên, kho dữ liệu nói tiếng Việt có dán nhãn ngữ âm và thanh điệu chuẩn hóa còn rất hạn chế. Nhiều hệ thống phải dựa vào dữ liệu tổng hợp hoặc dữ liệu từ nguồn không đồng nhất, dẫn đến hiện tượng overfitting hoặc giảm độ tự nhiên. Giải pháp tiềm năng bao gồm tăng cường dữ liệu bằng biến đổi pitch, sử dụng mô hình đa ngôn ngữ hoặc chuyển giao học từ ngôn ngữ giàu dữ liệu như tiếng Anh.

2.2. Khó khăn trong đánh giá chất lượng tiếng nói tổng hợp

Đánh giá chất lượng tiếng nói tổng hợp không chỉ dựa vào độ rõ mà còn ở tính tự nhiên, ngữ điệu và cảm xúc. Các phương pháp đánh giá tự động như PESQ, STOI hay MCD thường không tương quan cao với cảm nhận con người, đặc biệt với tiếng Việt có thanh điệu phức tạp. Luận văn của Lê Thanh Tùng đề xuất kết hợp đánh giá chủ quan (MOS) với phân tích phổ âm học để có cái nhìn toàn diện hơn. Tuy nhiên, việc tổ chức thử nghiệm MOS tốn kém và mất thời gian, gây khó khăn cho vòng lặp phát triển nhanh.

III. Phương pháp học sâu hàng đầu cho tổng hợp tiếng nói tiếng Việt

Các phương pháp học sâu hiện đại cho tổng hợp tiếng nói tập trung vào kiến trúc End-to-End, loại bỏ các bước xử lý trung gian. Trong số đó, Tacotron 2 kết hợp với WaveNet vocoder là một trong những mô hình tiên tiến nhất, cho phép tạo tiếng nói từ văn bản với độ tự nhiên cao. Tuy nhiên, với tiếng Việt, cần điều chỉnh cấu trúc mạng để xử lý thanh điệu và ngữ cảnh âm vị. Luận văn của Lê Thanh Tùng (2020) đề xuất sử dụng mạng LSTM hai chiều (BiLSTM) kết hợp với cơ chế attention có ràng buộc ngữ âm, giúp mô hình học được mối quan hệ giữa văn bản và đặc trưng âm học một cách chính xác hơn. Ngoài ra, FastSpeech – mô hình không dùng attention – cũng được xem xét do khả năng suy luận nhanh, phù hợp cho ứng dụng thời gian thực. Việc lựa chọn phương pháp phụ thuộc vào cân bằng giữa chất lượng, tốc độtài nguyên tính toán.

3.1. Ứng dụng Tacotron và WaveNet cho tiếng Việt

Tacotron là mô hình sequence-to-sequence sử dụng attention để ánh xạ văn bản sang mel-spectrogram, trong khi WaveNet chuyển mel-spectrogram thành sóng âm. Khi áp dụng cho tiếng Việt, cần bổ sung lớp xử lý thanh điệu trước khi đưa vào Tacotron. Thử nghiệm trong luận văn cho thấy hệ thống này đạt MOS trung bình 3.8/5, cao hơn đáng kể so với phương pháp thống kê truyền thống. Tuy nhiên, thời gian suy luận chậm do WaveNet sinh mẫu theo từng bước.

3.2. Ưu điểm của mô hình FastSpeech trong tổng hợp tiếng nói học sâu

FastSpeech giải quyết nhược điểm tốc độ của Tacotron bằng cách dự đoán durationmel-spectrogram song song, không cần cơ chế attention. Với tiếng Việt, mô hình này cần được huấn luyện trên dữ liệu có dán nhãn độ dài âm tiết chính xác. Kết quả thử nghiệm cho thấy FastSpeech đạt tốc độ suy luận nhanh gấp 10 lần so với Tacotron 2, với MOS chỉ giảm nhẹ (~0.2 điểm), phù hợp cho ứng dụng di động hoặc IoT.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu hệ thống tổng hợp tiếng nói học sâu

Các hệ thống tổng hợp tiếng nói học sâu đã được triển khai trong nhiều ứng dụng thực tế tại Việt Nam, từ trợ lý ảo, hệ thống đọc sách nói, đến thông báo tự động trong giao thông và ngân hàng. Theo luận văn của Lê Thanh Tùng (2020), hệ thống thử nghiệm được xây dựng trên máy chủ với cấu hình GPU NVIDIA Tesla V100, sử dụng framework TensorFlowPyTorch, đạt được chất lượng tiếng nói được đánh giá tích cực bởi người nghe bản xứ. Bảng 4.4 trong luận văn cho thấy hệ thống học sâu vượt trội so với phương pháp ghép nối (concatenative synthesis) về độ tự nhiên và khả năng xử lý từ vựng mới. Tuy nhiên, để thương mại hóa, cần tối ưu hóa mô hình cho thiết bị đầu cuối và mở rộng đa giọng nói, đa cảm xúc.

4.1. Triển khai hệ thống thử nghiệm tại Đại học Công nghệ ĐHQGHN

Hệ thống thử nghiệm được xây dựng dựa trên dữ liệu nói tiếng Việt chuẩn hóa từ 5 người nói (3 nữ, 2 nam), với hơn 10 giờ ghi âm. Mô hình sử dụng BiLSTM + Attention cho phần dự đoán đặc trưng âm học và WaveNet cho tổng hợp sóng. Kết quả MOS đạt 3.85, trong khi phương pháp thống kê truyền thống chỉ đạt 2.9. Điều này chứng minh tiềm năng của học sâu trong việc nâng cao chất lượng tiếng nói tổng hợp cho tiếng Việt.

4.2. So sánh hiệu năng giữa các phương pháp tổng hợp tiếng nói

Bảng 4.4 trong luận văn so sánh học sâu, ghép nối, và thống kê dựa trên MOS và MCD. Hệ thống học sâu cho điểm MOS cao nhất và MCD thấp nhất, chứng tỏ độ trung thực cao. Tuy nhiên, chi phí tính toán lớn hơn đáng kể. Điều này đặt ra yêu cầu về tối ưu hóa mô hình nhẹ (model compression) hoặc sử dụng vocoder hiệu quả hơn như MelGAN hoặc HiFi-GAN trong các phiên bản tiếp theo.

V. Tương lai của nghiên cứu hệ thống tổng hợp tiếng nói học sâu tại Việt Nam

Tương lai của nghiên cứu hệ thống tổng hợp tiếng nói học sâu tại Việt Nam phụ thuộc vào ba yếu tố chính: xây dựng kho dữ liệu mở, phát triển mô hình đa giọng – đa cảm xúc, và tối ưu hóa cho thiết bị đầu cuối. Hiện nay, các nhóm nghiên cứu như tại Đại học Công nghệ – ĐHQGHN và một số doanh nghiệp công nghệ đang hợp tác để tạo bộ dữ liệu chuẩn hóa công khai. Đồng thời, xu hướng zero-shot voice cloningfew-shot adaptation đang được khám phá để giảm nhu cầu dữ liệu huấn luyện cho mỗi giọng mới. Ngoài ra, việc tích hợp tổng hợp tiếng nói học sâu vào hệ sinh thái AI như trợ lý ảo, xe tự hànhgiáo dục thông minh sẽ thúc đẩy ứng dụng thực tế. Theo PGS. TS Nguyễn Phương Thái – người hướng dẫn luận văn –, hướng nghiên cứu tiếp theo nên tập trung vào tổng hợp tiếng nói cảm xúcphản ứng ngữ cảnh, nhằm tạo trải nghiệm giao tiếp tự nhiên hơn cho người dùng.

5.1. Xu hướng zero shot và few shot trong tổng hợp tiếng nói

Các mô hình zero-shot cho phép tổng hợp giọng nói mới chỉ từ vài giây mẫu, không cần huấn luyện lại toàn bộ mô hình. Điều này đặc biệt hữu ích cho tiếng Việt với sự đa dạng vùng miền. Nghiên cứu gần đây sử dụng meta-learning hoặc adaptive instance normalization để đạt được mục tiêu này. Tuy nhiên, độ ổn định và chất lượng vẫn là thách thức cần giải quyết.

5.2. Tích hợp tổng hợp tiếng nói học sâu vào hệ sinh thái AI Việt Nam

Việc tích hợp hệ thống tổng hợp tiếng nói học sâu vào các sản phẩm AI trong nước như trợ lý ảo Viettel, Zalo Assistant hay phần mềm đọc sách nói sẽ thúc đẩy đổi mới. Điều này đòi hỏi hợp tác giữa trường đại học, doanh nghiệpcơ quan quản lý để xây dựng tiêu chuẩn và chia sẻ dữ liệu. Mục tiêu dài hạn là tạo ra hệ thống tiếng nói thông minh, phản ứng theo ngữ cảnh và cảm xúc người dùng.

14/03/2026
Luận văn nghiên cứu hệ thống tổng hợp tiếng nói theo phương pháp học sâu