Tổng quan nghiên cứu

Trong bối cảnh phát triển công nghệ trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên, việc xây dựng hệ thống voicebot có khả năng tương tác tự nhiên với con người qua giọng nói ngày càng trở nên cấp thiết. Theo ước tính, các hệ thống voicebot hiện đại như Google Assistant, Alexa đã được ứng dụng rộng rãi trên thế giới, tuy nhiên tại Việt Nam, các voicebot hỗ trợ tiếng Việt còn hạn chế, đặc biệt trong việc xử lý đại từ nhân xưng theo giới tính – một yếu tố quan trọng trong giao tiếp tiếng Việt. Luận văn tập trung nghiên cứu và phát triển phương pháp xác định đại từ nhân xưng theo giới tính ứng dụng trong voicebot tiếng Việt, nhằm nâng cao tính tự nhiên và thân thiện trong giao tiếp giữa người và máy.

Mục tiêu cụ thể của nghiên cứu bao gồm: (1) phát triển mô hình nhận dạng giọng nói tiếng Việt dựa trên Wave2vec 2.0; (2) cải tiến bộ nhận diện đại từ nhân xưng bằng cách xác định giới tính người nói và thay thế mô hình dịch thuật Googletrans bằng MTet; (3) tinh chỉnh mô hình chuyển văn bản thành giọng nói (Text-to-Speech) dựa trên Transformer TTS với các cải tiến phù hợp cho tiếng Việt; (4) xây dựng bộ dữ liệu âm thanh tiếng Việt chất lượng cao phục vụ huấn luyện mô hình. Phạm vi nghiên cứu tập trung vào ba mô-đun chính của voicebot: Speech-to-Text, Chatbot và Text-to-Speech, với dữ liệu thu thập và xử lý tại Việt Nam trong giai đoạn 2021-2022.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao trải nghiệm người dùng khi tương tác với voicebot tiếng Việt, góp phần phát triển công nghệ xử lý ngôn ngữ tự nhiên phù hợp với đặc thù văn hóa và ngôn ngữ Việt Nam. Các chỉ số đánh giá như độ chính xác nhận dạng giọng nói, độ chính xác xác định đại từ nhân xưng và điểm MOS (Mean Opinion Scores) về chất lượng giọng nói được sử dụng làm metrics đánh giá hiệu quả của hệ thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình nghiên cứu chính:

  1. Mô hình Transformer: Được giới thiệu trong công trình "Attention is All You Need" (2017), mô hình Transformer sử dụng cơ chế tự chú ý (self-attention) và kiến trúc encoder-decoder để xử lý chuỗi dữ liệu. Đây là nền tảng cho các mô hình dịch máy, chuyển văn bản thành giọng nói và nhận dạng giọng nói hiện đại.

  2. Mô hình Wav2vec 2.0: Mô hình học tự giám sát (self-supervised learning) của Facebook, được huấn luyện trên hàng ngàn giờ dữ liệu âm thanh chưa gán nhãn, sau đó tinh chỉnh trên dữ liệu có gán nhãn. Wav2vec 2.0 cho tiếng Việt được huấn luyện trên 13.000 giờ âm thanh không gán nhãn và 250 giờ có gán nhãn, đạt độ chính xác cao với Word Error Rate thấp (6,15% khi sử dụng mô hình ngôn ngữ 4-grams).

  3. Mô hình Transformer TTS và Multi-band MelGAN: Transformer TTS là mô hình chuyển văn bản thành giọng nói dựa trên kiến trúc Transformer, loại bỏ LSTM truyền thống, tăng tốc độ và độ chính xác. Multi-band MelGAN là mô hình giải mã âm thanh thay thế WaveNet, giúp tăng tốc độ giải mã và cải thiện chất lượng âm thanh, đã được chứng minh hiệu quả trên tiếng Anh và được áp dụng thử nghiệm cho tiếng Việt.

Các khái niệm chính bao gồm: đại từ nhân xưng trong tiếng Việt (phân biệt theo ngôi và giới tính), học tự giám sát, attention mechanism, Mel-spectrogram, và các kỹ thuật trích xuất đặc trưng âm thanh như MFCC.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm:

  • Bộ dữ liệu âm thanh tiếng Việt UIT-Audio-39h (30 giờ âm thanh của một người phát âm, chất lượng 22.05 kHz).
  • Bộ dữ liệu Common Voice với 66.938 đoạn âm thanh (33.469 giọng nam, 33.469 giọng nữ) dùng để huấn luyện mô hình nhận dạng giới tính.
  • Bộ dữ liệu hội thoại cảm xúc UIT-VED-27K được dịch từ Empathetic Dialogues của Facebook.

Phương pháp phân tích gồm:

  • Áp dụng mô hình Wav2vec 2.0 để chuyển giọng nói thành văn bản, sử dụng trọng số đã được huấn luyện sẵn.
  • Cải tiến bộ nhận diện đại từ nhân xưng bằng cách tích hợp mô hình CNN nhận dạng giới tính dựa trên đặc trưng MFCC, kết hợp với mô hình dịch thuật MTet thay thế Googletrans để dịch câu tiếng Việt sang tiếng Anh, từ đó xác định đại từ nhân xưng chính xác hơn.
  • Tinh chỉnh mô hình Transformer TTS bằng cách thay thế mô-đun chuyển hình vị thành âm vị tiếng Anh bằng quy luật phát âm tiếng Việt dựa trên bảng IPA, đồng thời thay thế mô hình giải mã WaveNet bằng Multi-band MelGAN để tăng tốc độ và chất lượng âm thanh.
  • Quy trình gán nhãn dữ liệu âm thanh được xây dựng chi tiết, đảm bảo chất lượng dữ liệu huấn luyện.

Timeline nghiên cứu kéo dài trong năm 2022, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, đánh giá và tinh chỉnh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng giọng nói: Mô hình Wav2vec 2.0 cho tiếng Việt đạt Word Error Rate (WER) thấp nhất là 6,15% khi sử dụng mô hình ngôn ngữ 4-grams, vượt trội so với các mô hình trước đó có WER trên 10%.

  2. Hiệu quả nhận dạng giới tính qua giọng nói: Mô hình CNN 2 lớp sử dụng đặc trưng MFCC đạt độ chính xác 90,28% trên tập kiểm thử, cho thấy khả năng phân biệt giới tính người nói hiệu quả, hỗ trợ xác định đại từ nhân xưng chính xác hơn.

  3. Cải tiến bộ nhận diện đại từ nhân xưng: Việc thay thế thư viện Googletrans bằng mô hình dịch thuật MTet giúp dịch câu tiếng Việt sang tiếng Anh chính xác hơn, từ đó xác định đại từ nhân xưng ngôi thứ nhất và ngôi thứ hai phù hợp với giới tính người nói, khắc phục các lỗi dịch máy trước đây.

  4. Chất lượng giọng nói tổng hợp: Mô hình Multi-band MelGAN thay thế WaveNet trong mô hình Transformer TTS cho điểm MOS trung bình 4,22, cao hơn 8,8% so với MelGAN (3,87), đồng thời giảm số lượng tham số và tăng tốc độ giải mã gần thời gian thực.

Thảo luận kết quả

Nguyên nhân của các kết quả tích cực trên là do sự kết hợp hiệu quả giữa các mô hình hiện đại và các cải tiến phù hợp với đặc thù tiếng Việt. Mô hình Wav2vec 2.0 tận dụng học tự giám sát trên lượng lớn dữ liệu chưa gán nhãn, giúp tăng khả năng nhận dạng giọng nói chính xác. Việc sử dụng mô hình CNN nhận dạng giới tính dựa trên đặc trưng MFCC giúp phân biệt giới tính người nói, từ đó cải thiện độ chính xác trong xác định đại từ nhân xưng – một yếu tố quan trọng trong giao tiếp tiếng Việt.

So sánh với các nghiên cứu trước đây, đặc biệt là chatbot cảm xúc của hai tác giả Tiến và Thành, luận văn đã nâng cấp thành công thành voicebot có khả năng tương tác qua giọng nói, đồng thời khắc phục hạn chế về nhận diện đại từ nhân xưng và giới tính. Việc thay thế Googletrans bằng MTet cũng giúp giảm sai sót dịch thuật, nâng cao độ tự nhiên trong hội thoại.

Chất lượng giọng nói tổng hợp được cải thiện rõ rệt nhờ mô hình Multi-band MelGAN, phù hợp với yêu cầu về tốc độ và độ chính xác trong ứng dụng thực tế. Dữ liệu có thể được trình bày qua biểu đồ so sánh WER giữa các mô hình, biểu đồ độ chính xác nhận dạng giới tính qua các epoch huấn luyện, và bảng điểm MOS đánh giá chất lượng giọng nói.

Đề xuất và khuyến nghị

  1. Triển khai rộng rãi mô hình voicebot tiếng Việt: Đề xuất các doanh nghiệp công nghệ và tổ chức nghiên cứu ứng dụng mô hình voicebot đã phát triển vào các dịch vụ chăm sóc khách hàng, trợ lý ảo, đặc biệt trong lĩnh vực tư vấn tâm lý và hỗ trợ người dùng qua giọng nói. Mục tiêu nâng cao trải nghiệm người dùng, giảm thiểu sai sót trong giao tiếp, thực hiện trong vòng 12 tháng.

  2. Phát triển bộ dữ liệu âm thanh đa dạng hơn: Khuyến nghị xây dựng thêm bộ dữ liệu âm thanh tiếng Việt đa dạng về giọng nói, vùng miền, độ tuổi để tăng tính bao phủ và độ chính xác của mô hình nhận dạng giọng nói và nhận dạng giới tính. Chủ thể thực hiện là các viện nghiên cứu và trường đại học, với timeline 18-24 tháng.

  3. Nâng cao khả năng nhận diện cảm xúc và ngữ cảnh trong voicebot: Đề xuất nghiên cứu tích hợp thêm mô hình nhận diện cảm xúc và phân tích ngữ cảnh sâu hơn để voicebot có thể phản hồi tự nhiên, đồng cảm hơn với người dùng. Thời gian thực hiện dự kiến 12-18 tháng, do các nhóm nghiên cứu chuyên sâu về NLP đảm nhiệm.

  4. Tối ưu hóa mô hình chuyển văn bản thành giọng nói cho đa dạng giọng đọc: Khuyến nghị phát triển mô hình TTS hỗ trợ đa giọng đọc, đa phong cách phát âm để phù hợp với nhiều đối tượng người dùng khác nhau, tăng tính cá nhân hóa. Chủ thể thực hiện là các công ty công nghệ, với thời gian 12 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức chuyên sâu về mô hình Transformer, Wav2vec 2.0, và các kỹ thuật xử lý giọng nói tiếng Việt, hỗ trợ nghiên cứu và phát triển các ứng dụng AI.

  2. Doanh nghiệp phát triển công nghệ AI và voicebot: Các công ty công nghệ có thể áp dụng phương pháp và mô hình trong luận văn để nâng cao chất lượng sản phẩm voicebot, trợ lý ảo tiếng Việt, đặc biệt trong lĩnh vực chăm sóc khách hàng và tư vấn.

  3. Chuyên gia phát triển ứng dụng chăm sóc sức khỏe tâm thần và giáo dục: Voicebot có khả năng tương tác cảm xúc và phân biệt đại từ nhân xưng theo giới tính giúp tạo ra các ứng dụng hỗ trợ tâm lý, giáo dục trực tuyến thân thiện và hiệu quả hơn.

  4. Cơ quan quản lý và tổ chức nghiên cứu ngôn ngữ: Luận văn cung cấp cơ sở khoa học để phát triển các tiêu chuẩn, chính sách về công nghệ xử lý tiếng Việt, góp phần bảo tồn và phát triển ngôn ngữ trong kỷ nguyên số.

Câu hỏi thường gặp

  1. Voicebot tiếng Việt có thể phân biệt đại từ nhân xưng theo giới tính như thế nào?
    Voicebot sử dụng mô hình CNN nhận dạng giới tính dựa trên đặc trưng MFCC của giọng nói, kết hợp với mô hình dịch thuật MTet để dịch câu sang tiếng Anh, từ đó xác định đại từ nhân xưng phù hợp với giới tính người nói, giúp giao tiếp tự nhiên hơn.

  2. Mô hình Wav2vec 2.0 có ưu điểm gì so với các mô hình nhận dạng giọng nói khác?
    Wav2vec 2.0 áp dụng học tự giám sát trên lượng lớn dữ liệu chưa gán nhãn, giúp mô hình học được đặc trưng âm thanh phong phú, đạt độ chính xác cao với Word Error Rate thấp, phù hợp cho tiếng Việt với dữ liệu hạn chế.

  3. Tại sao cần thay thế mô hình WaveNet bằng Multi-band MelGAN trong Text-to-Speech?
    Multi-band MelGAN có số lượng tham số ít hơn, tốc độ giải mã nhanh gần thời gian thực và cho chất lượng âm thanh tổng hợp tốt hơn, giúp voicebot phản hồi nhanh và tự nhiên hơn trong giao tiếp.

  4. Bộ dữ liệu âm thanh tiếng Việt được xây dựng như thế nào?
    Bộ dữ liệu gồm 30 giờ âm thanh của một người phát âm, mỗi đoạn dài từ 3 đến 13 giây, chất lượng 22.05 kHz, định dạng *.wav, được gán nhãn kỹ lưỡng để huấn luyện mô hình chuyển văn bản thành giọng nói.

  5. Voicebot có thể ứng dụng trong những lĩnh vực nào?
    Voicebot có thể được ứng dụng trong chăm sóc khách hàng, trợ lý ảo cá nhân, tư vấn tâm lý, giáo dục trực tuyến, và các dịch vụ hỗ trợ người dùng qua giọng nói, đặc biệt khi cần giao tiếp tự nhiên và đồng cảm.

Kết luận

  • Luận văn đã phát triển thành công phương pháp xác định đại từ nhân xưng theo giới tính trong voicebot tiếng Việt, nâng cao tính tự nhiên trong giao tiếp.
  • Mô hình Wav2vec 2.0 và CNN nhận dạng giới tính đạt độ chính xác cao, hỗ trợ hiệu quả cho việc xác định đại từ nhân xưng.
  • Tinh chỉnh mô hình Transformer TTS với Multi-band MelGAN cải thiện chất lượng giọng nói tổng hợp và tốc độ phản hồi.
  • Bộ dữ liệu âm thanh tiếng Việt chất lượng cao được xây dựng phục vụ huấn luyện mô hình, góp phần phát triển công nghệ xử lý tiếng Việt.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cao khả năng nhận diện cảm xúc và phát triển đa giọng đọc, nhằm hoàn thiện hệ thống voicebot thân thiện và hiệu quả hơn.

Đề nghị các nhà nghiên cứu và doanh nghiệp công nghệ tiếp tục ứng dụng và phát triển các kết quả này để thúc đẩy công nghệ voicebot tiếng Việt ngày càng tiến bộ.