Luận văn thạc sĩ: Tổng hợp giọng nói tiếng Bahnar sử dụng học sâu

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

75
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu đề tài

Bài toán tổng hợp giọng nói từ văn bản (TTS) là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt là trong khoa học máy tínhhọc sâu. Mục tiêu của TTS là chuyển đổi văn bản thành tín hiệu âm thanh, nhằm tạo ra giọng nói tự nhiên và dễ hiểu từ văn bản đầu vào. Tuy nhiên, nhiều nghiên cứu trước đây chủ yếu tập trung vào các ngôn ngữ có nguồn dữ liệu phong phú như tiếng Anh và tiếng Trung. Trong khi đó, tiếng Bahnar, một ngôn ngữ của dân tộc thiểu số ở Việt Nam, vẫn chưa được khai thác đầy đủ. Việc xây dựng mô hình TTS cho tiếng Bahnar không chỉ giúp bảo tồn văn hóa và ngôn ngữ mà còn cung cấp công cụ cho những người khuyết tật về thị giác. Do đó, nghiên cứu này sẽ tập trung vào việc phát triển các mô hình tổng hợp giọng nói cho tiếng Bahnar bằng cách sử dụng các mô hình học sâu.

II. Cơ sở lý thuyết

Chương này trình bày các mô hình cơ bản trong học sâu mà sẽ được áp dụng trong việc tổng hợp giọng nói. Các mô hình như Artificial Neural Network (ANN), Convolutional Neural Network (CNN)Generative Adversarial Networks (GAN) đều đóng vai trò quan trọng trong việc xử lý và tạo ra âm thanh. Mô hình ANN mô phỏng cách thức hoạt động của nơ-ron trong não người, giúp xử lý thông tin đầu vào hiệu quả. Mô hình GAN, với hai thành phần là GeneratorDiscriminator, cho phép tạo ra âm thanh tự nhiên hơn bằng cách học từ dữ liệu âm thanh thực tế. Bên cạnh đó, các kỹ thuật như mel-spectrogram cũng được sử dụng để chuyển đổi tín hiệu âm thanh thành dạng mà máy tính có thể xử lý được. Những kiến thức này sẽ là nền tảng cho việc phát triển mô hình tổng hợp giọng nói cho tiếng Bahnar.

III. Các công trình nghiên cứu liên quan

Nghiên cứu tổng hợp giọng nói đã có nhiều công trình trước đây, tuy nhiên, phần lớn đều tập trung vào các ngôn ngữ có nguồn tài nguyên phong phú. Các phương pháp như tổng hợp khớp nối, tổng hợp hình thái, và tổng hợp tham số thống kê đều đã được áp dụng thành công cho các ngôn ngữ này. Đặc biệt, việc sử dụng học sâu trong TTS đã mang lại những cải tiến đáng kể trong chất lượng âm thanh. Tuy nhiên, với các ngôn ngữ ít tài nguyên như tiếng Bahnar, các nghiên cứu còn hạn chế. Do đó, việc phát triển một mô hình TTS cho tiếng Bahnar sẽ giúp lấp đầy khoảng trống này và mở ra cơ hội cho các nghiên cứu tiếp theo trong lĩnh vực này.

IV. Mô hình đề xuất

Mô hình đề xuất trong nghiên cứu này bao gồm việc kết hợp hai mô hình chính là Grad-TTSStarGANv2. Mô hình Grad-TTS cho phép phát âm các từ tiếng Bahnar mà không bị giới hạn từ vựng, trong khi StarGANv2 nâng cao tính tự nhiên của lời nói tổng hợp. Việc áp dụng Hifi-GAN cũng giúp cải thiện chất lượng giọng nói với giọng bản địa. Các bước thực nghiệm sẽ được thực hiện trên tập dữ liệu đã thu thập và xử lý để đánh giá hiệu suất của mô hình. Kết quả từ các thí nghiệm này sẽ cung cấp cái nhìn sâu sắc về khả năng tổng hợp giọng nói cho tiếng Bahnar và hướng đi cho các nghiên cứu trong tương lai.

V. Kết luận

Luận văn này đã trình bày một cách tổng quan về bài toán tổng hợp giọng nói cho tiếng Bahnar, nhấn mạnh tầm quan trọng của việc bảo tồn ngôn ngữ và văn hóa thông qua công nghệ. Các mô hình học sâu đã được áp dụng để xây dựng một hệ thống TTS có thể tạo ra âm thanh tự nhiên từ văn bản. Kết quả nghiên cứu không chỉ có giá trị thực tiễn mà còn mở ra hướng đi mới cho các nghiên cứu về ngôn ngữ ít tài nguyên. Việc phát triển mô hình này sẽ góp phần vào việc bảo tồn và phát triển ngôn ngữ Bahnar, đồng thời tạo ra cơ hội cho các nghiên cứu tiếp theo trong lĩnh vực TTS.

10/01/2025
Luận văn thạc sĩ khoa học máy tính tổng hợp giọng nói sử dụng học sâu cho tiếng bahnar
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính tổng hợp giọng nói sử dụng học sâu cho tiếng bahnar

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Tổng hợp giọng nói tiếng Bahnar sử dụng học sâu của tác giả Hồ Minh Hoàng, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ, được trình bày tại Đại học Bách Khoa - ĐHQG TP.HCM vào năm 2024. Nghiên cứu này tập trung vào việc ứng dụng các phương pháp học sâu để tổng hợp giọng nói cho ngôn ngữ Bahnar, một ngôn ngữ ít được nghiên cứu và phát triển trong lĩnh vực công nghệ giọng nói. Bài viết không chỉ cung cấp cái nhìn sâu sắc về kỹ thuật tổng hợp giọng nói mà còn mở ra cơ hội cho việc phát triển các ứng dụng công nghệ thông tin phục vụ cho cộng đồng người nói tiếng Bahnar.

Để mở rộng kiến thức về lĩnh vực này, bạn có thể tham khảo thêm các bài viết liên quan như Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu ứng dụng Active Learning trong nhận diện giọng nói, hay Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ, bài viết này cũng áp dụng các kỹ thuật học sâu trong nhận dạng giọng nói tiếng Việt. Cuối cùng, Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ sẽ cung cấp thêm thông tin về ứng dụng học sâu trong lĩnh vực ngôn ngữ, mở rộng góc nhìn cho người đọc. Những tài liệu này sẽ giúp bạn hiểu rõ hơn về các xu hướng và công nghệ hiện đại trong lĩnh vực khoa học máy tính và xử lý ngôn ngữ tự nhiên.

Tải xuống (75 Trang - 1.05 MB)