Tổng quan nghiên cứu

Tổng hợp tiếng nói là lĩnh vực nghiên cứu và phát triển công nghệ nhằm tạo ra tiếng nói nhân tạo từ văn bản, phục vụ nhiều ứng dụng như trợ lý ảo, tổng đài tự động, và các hệ thống giao tiếp người-máy. Tại Việt Nam, tổng hợp tiếng nói tiếng Việt đã có nhiều bước tiến đáng kể với các hệ thống như VietVoice, VnSpeech, Vais, FPT TTS, và Hoa Súng. Tuy nhiên, các phương pháp truyền thống như tổng hợp ghép nối và tổng hợp dựa trên mô hình Markov ẩn (HMM) vẫn còn tồn tại hạn chế về chất lượng âm thanh và độ tự nhiên của giọng nói.

Luận văn tập trung nghiên cứu phát triển hệ thống tổng hợp tiếng nói tiếng Việt sử dụng công nghệ học sâu (Deep Neural Network - DNN), nhằm nâng cao chất lượng giọng tổng hợp, gần gũi với giọng nói tự nhiên hơn. Nghiên cứu được thực hiện trong môi trường làm việc tại Trung tâm Không gian mạng Viettel và Viện Nghiên cứu Quốc tế MICA, với bộ dữ liệu huấn luyện gồm khoảng 3500 câu văn và 6,5 giờ ghi âm. Mục tiêu chính là xây dựng hệ thống tổng hợp tiếng nói có độ chính xác cao, cải thiện đáng kể về độ tự nhiên và độ hiểu so với các hệ thống hiện có, đồng thời đề xuất các giải pháp xử lý dữ liệu nhằm nâng cao chất lượng đầu ra.

Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các ứng dụng trí tuệ nhân tạo tại Việt Nam, góp phần thúc đẩy công nghệ xử lý ngôn ngữ tự nhiên và tổng hợp tiếng nói, đồng thời hỗ trợ các dịch vụ chăm sóc khách hàng tự động và các sản phẩm công nghệ thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính sau:

  • Mô hình Markov ẩn (Hidden Markov Model - HMM): Là mô hình thống kê phổ biến trong tổng hợp tiếng nói truyền thống, mô phỏng chuỗi âm vị dựa trên xác suất chuyển trạng thái và phân phối tham số âm học. HMM được sử dụng để huấn luyện và tổng hợp tham số âm học từ dữ liệu.

  • Mạng nơ ron học sâu (Deep Neural Network - DNN): Mạng nơ ron nhiều lớp với khả năng mô hình hóa các quan hệ phi tuyến phức tạp giữa đặc trưng ngôn ngữ và đặc trưng âm học. DNN được áp dụng để thay thế mô hình HMM, giúp cải thiện chất lượng tổng hợp tiếng nói.

  • Các khái niệm chính:

    • Đặc trưng ngôn ngữ học (Linguistic Features): Bao gồm thông tin về âm vị, vị trí âm trong từ, từ trong câu, thanh điệu, và các đặc trưng ngữ cảnh.
    • Đặc trưng âm học (Acoustic Features): Bao gồm tần số cơ bản (F0), phổ quang phổ (spectral envelope), và các thành phần không tuần hoàn (aperiodicity).
    • Vocoder: Bộ phân tích và tổng hợp tín hiệu âm thanh, trong nghiên cứu sử dụng WORLD vocoder để chuyển đổi đặc trưng âm học thành tín hiệu âm thanh.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Bộ dữ liệu gồm 3504 câu văn tiếng Việt, tương ứng khoảng 6,5 giờ ghi âm, thu thập từ các nguồn phát thanh trực tuyến và internet, được xử lý và chuẩn hóa kỹ lưỡng nhằm đảm bảo chất lượng.

  • Phương pháp phân tích:

    • Xử lý ngôn ngữ tự nhiên để trích chọn đặc trưng ngôn ngữ học từ văn bản đầu vào, bao gồm phân đoạn từ, gán nhãn từ loại, phân tích cụm từ và chuyển đổi sang chuỗi âm vị.
    • Huấn luyện mô hình DNN với 6 lớp ẩn, mỗi lớp 1024 nơ ron, sử dụng hàm kích hoạt tanh và thuật toán tối ưu Stochastic Gradient Descent (SGD).
    • Sử dụng mô hình Duration Model để dự đoán thời gian xuất hiện của từng âm vị.
    • Áp dụng WORLD vocoder để tổng hợp tín hiệu âm thanh từ đặc trưng âm học do DNN sinh ra.
  • Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng thời gian từ năm 2017 đến 2018, trong môi trường làm việc tại Trung tâm Không gian mạng Viettel và Viện Nghiên cứu Quốc tế MICA.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Chất lượng tổng hợp tiếng nói sử dụng DNN vượt trội so với HMM: Qua đánh giá bằng phương pháp MOS với 6 người tham gia, hệ thống DNN đạt điểm trung bình 4.23 trên thang 5, cao hơn đáng kể so với 3.96 của hệ thống HMM, cho thấy DNN cải thiện rõ rệt độ tự nhiên và độ hiểu của giọng tổng hợp.

  2. Xử lý dữ liệu huấn luyện nâng cao chất lượng đầu ra: Việc áp dụng các bước tiền xử lý dữ liệu như cân bằng âm lượng, lọc nhiễu, cắt câu và loại bỏ các đoạn không mong muốn giúp hệ thống DNN đạt điểm MOS 4.61, cao hơn 4.11 của hệ thống chưa xử lý dữ liệu, chứng tỏ tầm quan trọng của dữ liệu chất lượng trong huấn luyện mô hình.

  3. So sánh với các hệ thống tổng hợp tiếng Việt hiện có: Hệ thống Viettel TTS đạt điểm MOS 4.66 trong cuộc thi VLSP Workshop, vượt trội so với các hệ thống khác, đồng thời đạt độ tự nhiên và độ hiểu trên 90%, gần với giọng nói tự nhiên.

  4. Hiệu năng hệ thống: Thời gian phản hồi trung bình khoảng 1,5 giây cho mỗi câu, phù hợp với các ứng dụng thực tế. Bộ nhớ chiếm dụng và tài nguyên hệ thống được tối ưu để vận hành hiệu quả trên máy chủ cấu hình cao.

Thảo luận kết quả

Kết quả cho thấy việc ứng dụng mạng nơ ron học sâu trong tổng hợp tiếng nói tiếng Việt mang lại bước tiến vượt bậc về chất lượng giọng nói tổng hợp. So với mô hình HMM truyền thống, DNN có khả năng mô hình hóa các quan hệ phi tuyến phức tạp giữa đặc trưng ngôn ngữ và âm học, từ đó tạo ra giọng nói tự nhiên hơn, mượt mà hơn.

Việc xử lý dữ liệu đầu vào kỹ càng giúp giảm thiểu các yếu tố gây méo tiếng, nhiễu và sai lệch đặc trưng âm học, từ đó nâng cao hiệu quả huấn luyện và chất lượng đầu ra. So sánh với các hệ thống tổng hợp tiếng Việt hiện có, hệ thống nghiên cứu đạt kết quả cạnh tranh, khẳng định tính khả thi và hiệu quả của phương pháp học sâu.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh điểm MOS giữa các hệ thống, bảng thống kê số lượng câu và thời gian ghi âm, cũng như biểu đồ thời gian phản hồi hệ thống theo độ dài câu.

Đề xuất và khuyến nghị

  1. Mở rộng và đa dạng hóa bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu ghi âm với nhiều giọng nói, vùng miền và ngữ cảnh khác nhau nhằm tăng tính đa dạng và khả năng tổng quát của mô hình. Mục tiêu tăng số lượng câu lên khoảng 10.000 câu trong vòng 12 tháng, do Trung tâm Không gian mạng Viettel phối hợp thực hiện.

  2. Cải tiến mô hình học sâu: Nghiên cứu áp dụng các kiến trúc mạng nơ ron tiên tiến như mạng hồi tiếp (RNN), mạng biến đổi (Transformer) để nâng cao khả năng mô hình hóa ngữ điệu và ngữ cảnh. Thời gian thử nghiệm và đánh giá trong 6 tháng, do nhóm nghiên cứu khoa học công nghệ đảm nhiệm.

  3. Tối ưu hóa vocoder: Phát triển và tích hợp vocoder thế hệ mới có khả năng tổng hợp âm thanh chất lượng cao hơn, giảm méo tiếng và tăng độ tự nhiên. Dự kiến hoàn thành trong 9 tháng, phối hợp với các chuyên gia âm thanh.

  4. Xây dựng hệ thống đánh giá tự động: Phát triển công cụ đánh giá chất lượng giọng nói tổng hợp tự động dựa trên các chỉ số kỹ thuật và phản hồi người dùng, giúp rút ngắn thời gian đánh giá và cải tiến hệ thống liên tục. Thời gian triển khai 6 tháng, do phòng nghiên cứu phát triển sản phẩm thực hiện.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và phát triển công nghệ xử lý tiếng nói: Luận văn cung cấp cơ sở lý thuyết, phương pháp và kết quả thực nghiệm về ứng dụng học sâu trong tổng hợp tiếng nói tiếng Việt, hỗ trợ nghiên cứu và phát triển các hệ thống tương tự.

  2. Các doanh nghiệp công nghệ và viễn thông: Đặc biệt là các đơn vị phát triển trợ lý ảo, tổng đài tự động, chatbot có nhu cầu tích hợp tổng hợp tiếng nói chất lượng cao cho tiếng Việt.

  3. Sinh viên và học viên cao học chuyên ngành khoa học máy tính, xử lý ngôn ngữ tự nhiên: Tài liệu chi tiết về kiến trúc mạng nơ ron, xử lý dữ liệu và xây dựng hệ thống tổng hợp tiếng nói, giúp nâng cao kiến thức và kỹ năng thực hành.

  4. Chuyên gia âm thanh và kỹ sư phát triển vocoder: Tham khảo các kỹ thuật trích chọn đặc trưng âm học, mô hình hóa và tổng hợp tín hiệu âm thanh trong môi trường học sâu.

Câu hỏi thường gặp

1. Tổng hợp tiếng nói là gì và tại sao cần ứng dụng học sâu?
Tổng hợp tiếng nói là quá trình chuyển đổi văn bản thành tín hiệu âm thanh có giọng nói tự nhiên. Học sâu giúp mô hình hóa các quan hệ phức tạp giữa ngôn ngữ và âm học, nâng cao chất lượng giọng nói tổng hợp so với các phương pháp truyền thống như HMM.

2. Dữ liệu huấn luyện ảnh hưởng thế nào đến chất lượng tổng hợp?
Dữ liệu chất lượng cao, đa dạng và được xử lý kỹ lưỡng giúp mô hình học sâu học được đặc trưng chính xác, giảm nhiễu và méo tiếng, từ đó cải thiện độ tự nhiên và độ hiểu của giọng tổng hợp.

3. Vocoder là gì và vai trò của nó trong hệ thống?
Vocoder là bộ phân tích và tổng hợp tín hiệu âm thanh, chuyển đổi đặc trưng âm học thành tín hiệu âm thanh thực tế. WORLD vocoder được sử dụng trong nghiên cứu này nhờ khả năng tổng hợp âm thanh chất lượng cao và hiệu quả tính toán.

4. Làm thế nào để đánh giá chất lượng giọng nói tổng hợp?
Phương pháp phổ biến là đánh giá bằng điểm MOS (Mean Opinion Score) dựa trên phản hồi của người nghe về độ tự nhiên và độ hiểu của giọng nói tổng hợp. Ngoài ra còn có các chỉ số kỹ thuật như độ chính xác, độ méo tiếng.

5. Hệ thống tổng hợp tiếng nói này có thể ứng dụng ở đâu?
Hệ thống phù hợp cho các ứng dụng trợ lý ảo, tổng đài tự động, dịch vụ chăm sóc khách hàng, giáo dục trực tuyến, và các sản phẩm công nghệ cần giọng nói tiếng Việt tự nhiên, mượt mà.

Kết luận

  • Nghiên cứu đã xây dựng thành công hệ thống tổng hợp tiếng nói tiếng Việt sử dụng mạng nơ ron học sâu, cải thiện đáng kể chất lượng so với mô hình HMM truyền thống.
  • Bộ dữ liệu huấn luyện được xử lý kỹ lưỡng giúp nâng cao độ tự nhiên và độ hiểu của giọng tổng hợp.
  • Hệ thống Viettel TTS đạt điểm MOS 4.66, vượt trội trong các cuộc thi tổng hợp tiếng nói tiếng Việt.
  • Hiệu năng hệ thống đáp ứng yêu cầu ứng dụng thực tế với thời gian phản hồi trung bình khoảng 1,5 giây.
  • Đề xuất mở rộng dữ liệu, cải tiến mô hình và vocoder, cùng xây dựng hệ thống đánh giá tự động để phát triển hệ thống trong tương lai.

Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng công nghệ học sâu trong tổng hợp tiếng nói, đồng thời tiếp tục đầu tư phát triển dữ liệu và mô hình để nâng cao chất lượng và đa dạng hóa ứng dụng.