Luận Văn Thạc Sĩ Về Tổng Hợp Tiếng Nói Sử Dụng Giải Thuật TD_PSOLA

Luận văn thạc sĩ trình bày tổng hợp tiếng nói bằng giải thuật TD-PSOLA, khám phá ứng dụng và hiệu quả trong xử lý tín hiệu âm thanh.

Trường đại học

Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh

Chuyên ngành

Điện điện tử

Người đăng

Ẩn danh

Thể loại

Luận văn tốt nghiệp

2013

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

CẢM TẠ

TÓM TẮT

ABSTRACT

1. CHƯƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

1.1. Lịch sử phát triển

1.2. Mục đích của đề tài

1.3. Nhiệm vụ của đề tài và giới hạn đề tài

1.4. Phương pháp nghiên cứu

1.5. Kế hoạch thực hiện

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Lý thuyết về tiếng nói

2.1.1. Các khái niệm cơ bản

2.1.1.1. Âm và cường độ âm

2.1.1.2. Các đặc trưng sinh học của âm

2.1.1.3. Các tham số âm

2.1.1.4. Một số khái niệm ngữ âm

2.1.2. Đặc tính âm học của tiếng nói

2.1.2.1. Âm hữu thanh và âm vô thanh

2.1.2.2. Âm vị

2.1.2.3. Các đặc tính khác

2.1.3. Bộ máy phát âm

2.1.3.1. Cấu tạo bộ máy phát âm

2.1.3.2. Cơ chế phát âm

2.1.4. Biểu diễn tín hiệu tiếng nói

2.1.4.1. Tần số lấy mẫu

2.1.4.2. Lượng tử hoá

2.1.5. Các phương pháp tổng hợp tiếng nói

2.1.5.1. Mô hình tạo tiếng nói

2.1.5.2. Tổng hợp tiếng nói

2.1.5.2.1. Tổng hợp tiếng nói theo cách phát âm

2.1.5.2.2. Tổng hợp đầu cuối tự nhiên

2.1.5.3. Các phương pháp tổng hợp tiếng nói

2.1.5.3.1. Phương pháp mô phỏng hệ thống phát âm

2.1.5.3.2. Phương pháp tổng hợp Formant

2.1.5.3.3. Phương pháp ghép nối

2.1.5.3.4. So sánh các phương pháp tổng hợp tiếng nói

2.1.6. Phân tích giải thuật TD_PSOLA

2.1.6.1. Giải thuật PSOLA

2.1.6.1.1. Phân tích PSOLA

2.1.6.1.2. Tổng hợp PSOLA

2.1.6.2. Giải thuật TD_PSOLA

2.1.6.3. TD_PSOLA và tín hiệu tiếng nói

2.1.6.4. Các vấn đề liên quan

2.1.6.4.1. Xác định tần số cơ bản

2.1.6.4.2. Làm trơn tín hiệu khi ghép nối

2.1.7. Mô hình tổng hợp tiếng nói từ văn bản

2.1.7.1. Mô hình tổng quát

2.1.7.2. Tổng hợp mức cao

2.1.7.3. Phân tích cách phát âm

2.1.7.4. Tổng hợp mức thấp

3. CHƯƠNG 3: THIẾT KẾ CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT

3.1. Phân tích giải thuật

3.2. Diphone trong tiếng việt

3.3. Xây dựng cơ sở dữ liệu

3.3.1. Lưu trữ dữ liệu

3.4. Phân tích văn bản thành diphone

3.4.1. Phân tích văn bản tiếng Việt thành các từ

3.4.2. Tách từ thành các diphone

3.5. Ghép nối các diphone và điều khiển tần số cơ bản

3.5.1. Ghép nối các diphone

3.5.2. Biến đổi tần số cơ bản

3.6. Mô phỏng hệ thống tổng hợp tiếng nói tiếng Việt trên Matlab

3.6.1. Mô phỏng chương trình tổng hợp tiếng nói

3.6.2. Mô phỏng quá trình thu âm và tách từ

3.6.3. Mô phỏng quá trình tách diphone

3.6.4. Mô phỏng quá trình ghép nối các diphone

3.6.5. Mô phỏng giải thuật TD_PSOLA

3.6.6. Lưu trữ và quản lý cơ sở dữ liệu

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Đánh giá kết quả

4.2. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

PHỤ LỤC

1. Phụ lục 1: Bảng mã TCVN3 – ABC các ký tự tiếng Việt chữ thường

2. Phụ lục 2: Bảng các diphone tiếng Việt đã lưu trong cơ sở dữ liệu

3. Phụ lục 3: Code chương trình trên matlab

Tóm tắt

I. Tổng Quan Về Tổng Hợp Tiếng Nói Bằng Giải Thuật TD_PSOLA

Tổng hợp tiếng nói là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin và truyền thông. Giải thuật TD_PSOLA (Time Domain Pitch Synchronous Overlap Add) đã được phát triển để cải thiện chất lượng tiếng nói tổng hợp. Giải thuật này cho phép phân tích và tổng hợp tín hiệu âm thanh một cách tự nhiên hơn, đáp ứng nhu cầu ngày càng cao trong việc giao tiếp giữa con người và máy móc.

1.1. Lịch Sử Phát Triển Giải Thuật TD_PSOLA

Giải thuật TD_PSOLA được phát triển từ những năm 1990, nhằm cải thiện khả năng tổng hợp tiếng nói. Nó đã trở thành một trong những phương pháp phổ biến nhất trong lĩnh vực tổng hợp tiếng nói nhờ vào tính hiệu quả và chất lượng âm thanh cao.

1.2. Mục Đích Của Nghiên Cứu Tổng Hợp Tiếng Nói

Mục đích chính của nghiên cứu này là phát triển một hệ thống tổng hợp tiếng nói tiếng Việt có khả năng tạo ra âm thanh tự nhiên và dễ nghe, phục vụ cho nhiều ứng dụng trong đời sống hàng ngày.

II. Vấn Đề Và Thách Thức Trong Tổng Hợp Tiếng Nói

Mặc dù có nhiều tiến bộ trong công nghệ tổng hợp tiếng nói, nhưng vẫn còn nhiều thách thức cần phải vượt qua. Đặc biệt, việc tạo ra âm thanh tự nhiên và dễ nghe vẫn là một vấn đề lớn. Các yếu tố như ngữ điệu, nhấn âm và ngữ cảnh cần được xem xét kỹ lưỡng.

2.1. Các Yếu Tố Ảnh Hưởng Đến Chất Lượng Tiếng Nói

Chất lượng tiếng nói tổng hợp phụ thuộc vào nhiều yếu tố như độ chính xác của phân tích âm thanh, khả năng điều chỉnh tần số cơ bản và cách xử lý tín hiệu. Những yếu tố này cần được tối ưu hóa để đạt được kết quả tốt nhất.

2.2. Thách Thức Trong Việc Xử Lý Ngữ Âm Tiếng Việt

Tiếng Việt có nhiều đặc điểm ngữ âm riêng biệt, như thanh điệu và cách phát âm khác nhau. Điều này tạo ra thách thức lớn trong việc xây dựng hệ thống tổng hợp tiếng nói hiệu quả.

III. Phương Pháp Tổng Hợp Tiếng Nói Bằng Giải Thuật TD_PSOLA

Giải thuật TD_PSOLA sử dụng phương pháp phân tích tín hiệu thành các thành phần tần số cơ bản, sau đó thực hiện các biến đổi cần thiết để tạo ra âm thanh tổng hợp. Phương pháp này cho phép điều chỉnh tần số và thời gian của tín hiệu, mang lại âm thanh tự nhiên hơn.

3.1. Quy Trình Phân Tích Tín Hiệu Âm Thanh

Quy trình này bao gồm việc phân tích tín hiệu âm thanh thành các thành phần tần số khác nhau, từ đó xác định các thông số cần thiết cho việc tổng hợp.

3.2. Cách Thực Hiện Biến Đổi Tần Số Và Thời Gian

Biến đổi tần số và thời gian là bước quan trọng trong quy trình tổng hợp. Việc điều chỉnh này giúp tạo ra âm thanh phù hợp với ngữ cảnh và yêu cầu của người dùng.

IV. Ứng Dụng Thực Tiễn Của Giải Thuật TD_PSOLA

Giải thuật TD_PSOLA đã được áp dụng trong nhiều lĩnh vực khác nhau, từ hệ thống tổng hợp tiếng nói cho máy tính đến các ứng dụng trong truyền thông và giải trí. Chất lượng âm thanh tự nhiên của nó đã giúp cải thiện trải nghiệm người dùng.

4.1. Ứng Dụng Trong Hệ Thống Tương Tác Giữa Người Và Máy

Hệ thống tổng hợp tiếng nói sử dụng TD_PSOLA có thể được áp dụng trong các ứng dụng như trợ lý ảo, giúp người dùng giao tiếp dễ dàng hơn với máy tính.

4.2. Kết Quả Nghiên Cứu Và Phát Triển

Nghiên cứu đã cho thấy rằng việc sử dụng giải thuật TD_PSOLA có thể tạo ra âm thanh tổng hợp với chất lượng cao, đáp ứng được yêu cầu của người dùng trong nhiều tình huống khác nhau.

V. Kết Luận Và Tương Lai Của Tổng Hợp Tiếng Nói

Tổng hợp tiếng nói bằng giải thuật TD_PSOLA đã mở ra nhiều cơ hội mới trong việc phát triển công nghệ giao tiếp. Tương lai của lĩnh vực này hứa hẹn sẽ có nhiều tiến bộ hơn nữa, với khả năng tạo ra âm thanh tự nhiên và dễ nghe hơn.

5.1. Hướng Phát Triển Trong Nghiên Cứu

Nghiên cứu trong lĩnh vực tổng hợp tiếng nói sẽ tiếp tục được mở rộng, với mục tiêu cải thiện chất lượng âm thanh và khả năng tương tác của hệ thống.

5.2. Tương Lai Của Công Nghệ Tổng Hợp Tiếng Nói

Công nghệ tổng hợp tiếng nói sẽ ngày càng trở nên phổ biến, với nhiều ứng dụng trong đời sống hàng ngày, từ giáo dục đến giải trí.

18/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ tổng hợp tiếng nói sử dụng giải thuật td psola

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về tổng hợp tiếng nói Chương 2: Cơ sở lý thuyết Chương 3: Thiết kế chương trình Tổng hợp tiếng nói tiếng Việt Chương 4: Kết luận và hướng phát triển Trang vi ABSTRACT Today with the development of technology has made the exchange of information amongst people become richer, voice communication is still the most dominant mode of human society in the exchangeinformation. The word has increasingly been extended through the means of bringing technologies such as: telephone, radio, TV and Internet. With the strong support of computer technology so media voices also requires increasing. A voice system should have the ability to synthesize words, the level of natural.

One of the most important objectives of the speech synthesizer is to voice synthesis to achieve maximum natural, and to be able to apply to many areas of life, it must have a flexibility. Currently scientists around the world have given quite a lot of algorithms are applied to satisfy these requirements, one of which was that TD_PSOLA algorithm. Algorithm TD_PSOLA the analysis of the original real signal into the signal chain components, where each segment contains a frequency component signals are fundamentally different, then make changes to the fundamental frequency component intensity ratio (Pitch) or by the percentage of time (time), finally overlaps add the signal chain components together, we get the new signal. Vietnamese speech synthesis system from the text is divided into two levels of treatment which is a combination of high and low level synthesis: + High Level Synthesis: text processing accented Vietnamese input, the pronunciation of the word analysis, metrics analysis of sentences and finally create the voice unit (diphone).

+ Low Level Synthesis: is the process of pairing the unit voices in the order of the text input, signal processing after pairing by smoothing the signal, the Trang vii fundamental frequency control and finally voice is represented in the output of the system. In this thesis, I have use algorithms TD_PSOLA to apply to the speech synthesizer Vietnamese based on its own characteristics in terms of pronunciation. After more than six months of empirical research themes Speech Synthesis using algorithm TD_PSOLA with instructors Master Dr. Duong Hoai Nghia, so far obtained results are quite satisfactory: + Achieve targets for the development and management of database systems flexible on Matlab software, the database is limited in the scope of the basic sentence.

+ Corresponding memory capacity of 209 diphone is 779 KB. + Handling the written Vietnamese input speech synthesis system, the input text regardless of uppercase or lowercase letters, be entered directly on the GUI interface of Matlab or Microsoft Word software. + The quality of speech synthetic systems is relatively natural. + System stability and convenient operation.

Atmospheric content structure thesis report consists of four chapters are presented as follows: Chapter 1: Overview of speech synthesis Chapter 2: Theoretical basis Chapter 3: Designing Integrated program the speech synthesizer Vietnamese Chapter 4: Conclusions and developments Trang viii MỤC LỤC Trang tựa Trang Quyết định giao đề tài Lý lịch cá nhân i Lời cam đoan iii Cảm tạ iv Tóm tắt v Abstract vii Mục lục ix Danh sách các chữ viết tắt xiii Danh sách các hình xiv Danh sách các bảng xvii Chƣơng 1. TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 1 1.1 Lịch sử phát triển 1 1.2 Mục đích của đề tài 3 1.3 Nhiệm vụ của đề tài và giới hạn đề tài 4 1.4 Phƣơng pháp nghiên cứu 4 1.5 Kế hoạch thực hiện 5 Chƣơng 2.1 Lý thuyết về tiếng nói 6 2.1 Các khái niệm cơ bản 6 2.1 Âm và cường độ âm 6 2.2 Các đặc trưng sinh học của âm 6 2.3 Các tham số âm 7 2.4 Một số khái niệm ngữ âm 7 2.2 Đặc tính âm học của tiếng nói 8 2.1 Âm hữu thanh và âm vô thanh 8 2.2 Âm vị 9 Trang ix 2.3 Các đặc tính khác 9 2.3 Bộ máy phát âm 11 2.1 Cấu tạo bộ máy phát âm 11 2.2 Cơ chế phát âm 12 2.4 Biểu diễn tín hiệu tiếng nói 13 2.1 Tần số lấy mẫu 14 2.2 Lượng tử hoá 15 2.2 Các phƣơng pháp tổng hợp tiếng nói 16 2.1 Mô hình tạo tiếng nói 16 2.2 Tổng hợp tiếng nói 18 2.1 Tổng hợp tiếng nói theo cách phát âm 18 2.2 Tổng hợp đầu cuối tự nhiên 18 2.3 Các phƣơng pháp tổng hợp tiếng nói 19 2.1 Phương pháp mô phỏng hệ thống phát âm 20 2.2 Phương pháp tổng hợp Formant 20 2.3 Phương pháp ghép nối 21 2.4 So sánh các phƣơng pháp tổng hợp tiếng nói 24 2.3 Phân tích giải thuật TD_PSOLA 25 2.1 Giải thuật PSOLA 25 2.1 Phân tích PSOLA 27 2.2 Tổng hợp PSOLA 29 2.2 Giải thuật TD_PSOLA 30 2.3 TD_PSOLA và tín hiệu tiếng nói 33 2.4 Các vấn đề liên quan 36 2.1 Xác định tần số cơ bản 37 2.2 Làm trơn tín hiệu khi ghép nối 40 2.4 Mô hình tổng hợp tiếng nói từ văn bản 41 2.1 Mô hình tổng quát 41 2.2 Tổng hợp mức cao 42 Trang x 2.2 Phân tích cách phát âm 43 2.3 Tổng hợp mức thấp 44 Chƣơng 3. THIẾT KẾ CHƢƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT 46 3.1 Phân tích giải thuật 46 3.2 Diphone trong tiếng việt 48 3.3 Xây dựng cơ sở dữ liệu 49 3.3 Lưu trữ dữ liệu 51 3.4 Phân tích văn bản thành diphone 52 3.1 Phân tích văn bản tiếng Việt thành các từ 52 3.2 Tách từ thành các diphone 55 3.5 Ghép nối các diphone và điều khiển tần số cơ bản 58 3.1 Ghép nối các diphone 58 3.2 Biến đổi tần số cơ bản 60 3.6 Mô phỏng hệ thống tổng hợp tiếng nói tiếng Việt trên Matlab 60 3.1 Mô phỏng chương trình tổng hợp tiếng nói 62 3.2 Mô phỏng quá trình thu âm và tách từ 63 3.3 Mô phỏng quá trình tách diphone 65 3.4 Mô phỏng quá trình ghép nối các diphone 65 3.5 Mô phỏng giải thuật TD_PSOLA 66 3.6 Lưu trữ và quản lý cơ sở dữ liệu 69 Chƣơng 4.1 Đánh giá kết quả 72 4.2 Hƣớng phát triển của đề tài 73 TÀI LIỆU THAM KHẢO 74 PHỤ LỤC 76 Trang xi 1. Phụ lục 1: Bảng mã TCVN3 – ABC các ký tự tiếng Việt chữ thường 76 2.

Phụ lục 2: Bảng các diphone tiếng Việt đã lưu trong cơ sỡ dữ liệu 78 3. Phụ lục 3: Code chương trình trên matlab 80 Trang xii DANH SÁCH CHỮ VIẾT TẮT PSOLA (Pitch Synchronous Overlap Add) : Cộng chồng lấp đồng bộ hóa pitch TD_PSOLA (Time Domain_Pitch : PSOLA trên miền thời gian Synchronous Overlap Add) FD_PSOLA (Frequency Domain_Pitch : PSOLA trên miền tần số Synchronous Overlap Add) LP_PSOLA (Linear Prediction_Pitch : PSOLA trên miền thời gian và miền Synchronous Overlap Add) tần số Formant Frequency : Tần số cộng hưỡng BW (Band Width) : Dãi thông Diphone : Âm vị ghép Pitch : Chu kỳ tần số cơ bản Short-time : Thời gian ngắn Spectrum : Phổ Speech Synthesis : Tổng hợp tiếng nói TTS (Text to Speech) : Chuyển văn bản thành tiếng nói F1, F2, F3. : Các tần số cộng hưởng F0 : Tần số cơ bản Trang xiii DANH SÁCH CÁC HÌNH HÌNH Trang Hình 2.1: Tín hiệu sóng âm 6 Hình 2.2: Mô tả bộ máy phát âm 12 Hình 2.3: Phương pháp biểu diễn tín hiệu tiếng nói 13 Hình 2.4: Mô hình hoá nguồn âm đối với âm hữu thanh 16 Hình 2.5: Chuỗi 5 đoạn ống âm học lý tưởng 17 Hình 2.6: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp 20 Hình 2.7: Cấu trúc cơ bản của một bộ tổng hợp formant song song 21 Hình 2.8: Quá trình phân chia các đoạn tín hiệu 26 Hình 2.9: Xác định cực đại địa phương của hàm năng lượng 28 Hình 2.10: Cộng xếp chồng các đoạn tín hiệu 29 Hình 2.11: Quá trình làm thay đổi tần số của tín hiệu 31 Hình 2.12: Sự thay đổi tần số và thời gian với TD_PSOLA 32 Hình 2. Hiệu chỉnh giảm tỉ lệ pitch, b.

Hiệu chỉnh tăng tỉ lệ pitch 35 Hình 2.14: Làm tăng tỉ lệ pitch 35 Hình 2.15: Hiệu chỉnh tỉ lệ thời gian 36 Trang xiv Hình 2.16: Hàm tự tương quan đối với âm hữu thanh (a) và (b); và vô thanh (c) dùng của sổ Hamming 38 Hình 2.17: Mô hình tổng quát tổng hợp tiếng nói 42 Hình 2.18: Sự phụ thuộc của ngôn điệu vào các yếu tố 44 Hình 3.1: Sơ đồ tổng hợp tiếng Việt từ văn bản 48 Hình 3.2: Điểm cắt bên phải của diphone 51 Hình 3.3: Lưu đồ thuật toán xác định câu trong văn bản 53 Hình 3.4: Minh hoạ sự biến đổi tần số cơ bản của các từ theo tần số cơ bản của câu 54 Hình 3.5: Lưu đồ thuật toán xác định từ trong câu 55 Hình 3.6: Lưu đồ thuật toán xác định vị trí nguyên âm đầu tiên 57 Hình 3.7: Ghép nối hai diphone 59 Hình 3.8: Cộng xếp chồng các tín hiệu thành phần 59 Hình 3.9: Quá trình biến đổi tần số cơ bản của từ theo thời gian 60 Hình 3.10: Giao diện chính của hệ thống 61 Hình 3.11: Giao diện tổng hợp tiếng nói 62 Hình 3.12: Giao diện nhập văn bản tiếng việt từ file word 63 Hình 3.13: Giao diện chương trình thu âm 64 Hình 3.14: Giao diện chương trình tách các từ 64 Hình 3.15: Giao diện chương trình cắt khoảng lặng và tách các diphone 65 Trang xv Hình 3.16: Giao diện chính chương trinh ghép nối hai diphone 66 Hình 3.17: Giao diện tổng hợp với tham số Pitch và Time bằng 1 67 Hình 3.18: Giao diện tổng hợp với tham số Pitch bằng 0.8 và Time bằng 0.19: Giao diện tổng hợp với tham số Pitch bằng 1.2 và Time bằng 1 68 Hình 3.20: Giao diện quản lý cơ sở dữ liệu 70 Hình 3.21: Tập tin lưu tên txtfile.txt và cửa sổ workspace 70 Hình 3.22: Kết quả mô phỏng tổng hợp tiếng nói từ văn bản 71 Trang xvi DANH SÁCH CÁC BẢNG BẢNG Trang Bảng 1.1: Danh sách các nghiên cứu trong nước 2 Bảng 1.2: Danh sách các nghiên cứu ngoài nước 3 Bảng 1.3: Kế hoạch thực hiện đề tài 5 Bảng 2.1: Giới hạn tần số cơ bản của người nói 11 Bảng 3.1: Tham khảo một vài diphone cơ bản trong tiếng Việt 49 Bảng 3.2: Các loại dấu câu 52 Bảng 3.3: Thứ tự dữ liệu lưu trữ trong Mydatabase.1: Tổng kết và so sánh cơ sở dữ liệu đã xây dựng 73 Trang xvii CHƢƠNG 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 1.1 Lịch sử phát triển Năm 1797, Christian Kratzenstein, trường đại học St. Petersburg đã xây dựng một mô hình có dạng vòm họng người có thể tạo ra 5 nguyên âm (a, e, i, o và u). Sau đó nó được Wolfgang von Kempelen ở Vienna, Austria phát triển thêm và gọi là Máy tạo tiếng nói dựa trên cơ chế âm học. Tổng hợp tiếng nói là một vấn đề khoa học liên quan đến nhiều lĩnh vực khoa học khác nhau như ngôn ngữ học, tâm lý học, toán học, xử lý tín hiệu số và khoa học máy tính.

Hệ thống tổng hợp tiếng nói dựa trên máy tính, đầu tiên được xây dựng vào những năm 50 của thế kỷ trước và hệ thống text-to-speech đầu tiên được hoàn thành vào năm 1968.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ tổng hợp tiếng nói hiện đại

Giải thuật và phương pháp tổng hợp tiếng nói

Ứng dụng của tổng hợp tiếng nói trong đời sống

Nghiên cứu và phát triển tiếng nói nhân tạo