Luận văn thạc sĩ về phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt

Luận văn thạc sĩ VNU UET nghiên cứu phương pháp P-Sola trong tổng hợp tiếng nói tiếng Việt, góp phần phát triển công nghệ thông tin.

Trường đại học

ĐH Công nghệ, ĐHQG Hà Nội

Người đăng

Ẩn danh

Thể loại

luận văn

2006

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI

1.1. Lịch sử phát triển

1.2. Âm và cơ chế phát âm

1.3. Các đặc trưng sinh học của âm

1.4. Các tham số âm

1.5. Một số khái niệm ngữ âm

2. CHƯƠNG 2: XỬ LÝ TÍN HIỆU SỐ

2.1. Số hoá tín hiệu

2.2. Xác định tần số lấy mẫu tín hiệu tiếng nói

2.3. Biểu diễn tín hiệu số

2.4. Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)

2.5. Các hàm cửa sổ

3. CHƯƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI

3.1. Tổng quan về tổng hợp tiếng nói

3.2. Các phương pháp tổng hợp tiếng nói

3.2.1. Tổng hợp theo cấu âm

3.2.2. Tổng hợp Formant theo quy luật

3.2.3. Tổng hợp xích chuỗi

3.2.4. Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC

3.3. Các ứng dụng của TTS

3.4. Lựa chọn phương pháp tổng hợp Tiếng Việt

4. CHƯƠNG 4: NGỮ ÂM TIẾNG VIỆT

4.1. Tổng quan về ngữ âm tiếng Việt

4.2. Các đặc điểm của âm tiết tiếng Việt

4.3. Cấu trúc của âm tiết tiếng Việt

4.4. Thanh điệu trong tiếng Việt

5. CHƯƠNG 5: XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM

5.1. Lựa chọn đơn vị âm cho tổng hợp tiếng Việt

5.2. Gán nhãn cơ sở dữ liệu

5.2.1. Gán nhãn bằng tay

5.2.2. Gán nhãn tự động

5.2.3. Thuật toán gán nhãn tự động mức âm tiết

5.2.4. Thuật toán gán nhãn tự động mức âm vị

6. CHƯƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT

6.1. Kỹ thuật PSOLA

6.1.1. Phân tích tín hiệu

6.1.2. Tính điểm cao độ tần số cơ bản tổng hợp (epoch)

6.2. Làm mềm hoá biên nối

7. CHƯƠNG 7: CÀI ĐẶT CHƯƠNG TRÌNH

7.1. Lựa chọn công cụ

7.2. Phương pháp tổng hợp

7.3. Giao diện chương trình

ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƯỚNG NGHIÊN CỨU

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về phương pháp PSOLA trong tổng hợp tiếng nói

Phương pháp PSOLA (Pitch Synchronous Overlap and Add) là một trong những kỹ thuật tiên tiến trong lĩnh vực tổng hợp tiếng nói. Phương pháp này cho phép tạo ra âm thanh tự nhiên hơn bằng cách xử lý các tín hiệu âm thanh theo cách đồng bộ với cao độ. PSOLA đã được áp dụng rộng rãi trong nhiều ngôn ngữ, trong đó có tiếng Việt. Việc áp dụng PSOLA giúp cải thiện chất lượng âm thanh tổng hợp, mang lại trải nghiệm gần gũi hơn với giọng nói con người.

1.1. Lịch sử phát triển phương pháp PSOLA

Phương pháp PSOLA được phát triển từ những năm 1990, với mục tiêu cải thiện chất lượng tổng hợp tiếng nói. Kỹ thuật này đã trải qua nhiều cải tiến và hiện nay được sử dụng rộng rãi trong các ứng dụng tổng hợp tiếng nói hiện đại.

1.2. Nguyên lý hoạt động của PSOLA

PSOLA hoạt động dựa trên nguyên lý chồng chéo và thêm các đoạn âm thanh đã được phân tích. Kỹ thuật này cho phép điều chỉnh cao độ và thời gian của âm thanh, tạo ra âm thanh tự nhiên hơn.

II. Thách thức trong tổng hợp tiếng nói tiếng Việt bằng PSOLA

Tổng hợp tiếng nói tiếng Việt gặp nhiều thách thức do đặc thù ngữ âm và ngữ điệu của ngôn ngữ. Các yếu tố như thanh điệu, âm tiết và cách phát âm khác nhau giữa các vùng miền tạo ra khó khăn trong việc áp dụng PSOLA. Để đạt được chất lượng âm thanh tốt nhất, cần phải xử lý các vấn đề này một cách hiệu quả.

2.1. Đặc điểm ngữ âm tiếng Việt

Tiếng Việt có nhiều thanh điệu và âm tiết phức tạp, điều này làm cho việc tổng hợp tiếng nói trở nên khó khăn hơn. Các âm tiết có thể thay đổi ý nghĩa chỉ bằng cách thay đổi thanh điệu.

2.2. Khó khăn trong việc xử lý tín hiệu

Việc xử lý tín hiệu tiếng nói tiếng Việt đòi hỏi phải có các thuật toán chính xác để nhận diện và tổng hợp âm thanh. Điều này bao gồm việc xác định tần số lấy mẫu và xử lý các tín hiệu số.

III. Phương pháp áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt

Để áp dụng PSOLA hiệu quả trong tổng hợp tiếng nói tiếng Việt, cần phải thực hiện các bước phân tích và xử lý tín hiệu một cách chính xác. Các bước này bao gồm phân tích tín hiệu, xác định điểm cao độ và làm mềm hóa biên nối. Những bước này giúp tạo ra âm thanh tự nhiên và mượt mà hơn.

3.1. Phân tích tín hiệu tiếng nói

Phân tích tín hiệu là bước đầu tiên trong quá trình tổng hợp. Bước này giúp xác định các đặc điểm âm thanh cần thiết để tạo ra âm thanh tổng hợp.

3.2. Xác định điểm cao độ tần số cơ bản

Xác định điểm cao độ là rất quan trọng trong việc tạo ra âm thanh tự nhiên. Điều này giúp điều chỉnh cao độ của âm thanh tổng hợp theo cách tự nhiên nhất.

IV. Ứng dụng thực tiễn của PSOLA trong tổng hợp tiếng nói

Phương pháp PSOLA đã được áp dụng trong nhiều ứng dụng thực tiễn, từ các hệ thống tổng hợp tiếng nói cho đến các ứng dụng trong lĩnh vực giáo dục và giải trí. Việc sử dụng PSOLA giúp cải thiện trải nghiệm người dùng và tạo ra các sản phẩm âm thanh chất lượng cao.

4.1. Ứng dụng trong hệ thống tổng hợp tiếng nói

Nhiều hệ thống tổng hợp tiếng nói hiện nay đã áp dụng PSOLA để tạo ra âm thanh tự nhiên hơn. Điều này giúp người dùng có trải nghiệm tốt hơn khi tương tác với các thiết bị công nghệ.

4.2. Ứng dụng trong giáo dục và giải trí

PSOLA cũng được sử dụng trong các ứng dụng giáo dục, giúp học sinh tiếp cận với ngôn ngữ một cách tự nhiên hơn. Ngoài ra, nó còn được áp dụng trong các sản phẩm giải trí như trò chơi và phim ảnh.

V. Kết luận và tương lai của phương pháp PSOLA trong tổng hợp tiếng nói

Phương pháp PSOLA đã chứng minh được hiệu quả trong việc tổng hợp tiếng nói tiếng Việt. Tuy nhiên, vẫn còn nhiều thách thức cần phải vượt qua để cải thiện chất lượng âm thanh. Tương lai của PSOLA hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới trong lĩnh vực tổng hợp tiếng nói.

5.1. Định hướng nghiên cứu trong tương lai

Nghiên cứu trong tương lai sẽ tập trung vào việc cải thiện các thuật toán PSOLA để nâng cao chất lượng âm thanh tổng hợp. Điều này bao gồm việc phát triển các phương pháp mới và tối ưu hóa quy trình xử lý tín hiệu.

5.2. Tích hợp công nghệ mới vào PSOLA

Việc tích hợp các công nghệ mới như học máy và trí tuệ nhân tạo vào PSOLA sẽ mở ra nhiều cơ hội mới cho việc tổng hợp tiếng nói, giúp tạo ra âm thanh tự nhiên và linh hoạt hơn.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet áp dụng phương pháp p sola trong tổng hợp tiếng nói tiếng việt luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Trích đoạn nội dung tài liệu

mở đầu, làm trầm hoá âm tiết, thƣờng do nguyên âm đảm nhiệm. Âm chính quyết định âm sắc chủ yếu của âm tiết, là hạt nhân của âm tiết. Thành phần này là một nguyên âm. Thành phần cuối cùng của âm tiết là âm cuối, nó có thể là phụ âm trong từ kiểm, là nguyên âm trong từ soát, hoặc không có trong từ bà.

Có thể biểu diễn một âm tiết nhƣ sau [4]: THANH ĐIỆU VẦN ÂM ĐẦU Âm Âm Âm chính đệm cuối Ngữ điệu: (intonation) là sự chuyển động của thanh cơ bản của giọng nói, là sự nâng cao hoặc hạ thấp giọng nói trong câu. Nó mang thông tin biểu cảm của giọng nói, giúp ta phân biệt đƣợc câu thuộc loại gì. Chức năng chính của ngữ điệu là nối liền các bộ phận của lời nói lại với nhau, làm cho lời nói trở nên liền mạch. Trọng âm: (accent) là sự nêu bật một trong những âm tiết của từ bằng những phƣơng tiện ngữ điệu nhất định, đƣợc thực hiện bằng cách tăng cƣờng trƣờng độ của nguyên âm.

Tuy nhiên trọng âm trong tiếng Việt thƣờng không có ảnh hƣởng nhiều đến nghĩa của từ nhƣ các ngôn ngữ khác (tiếng Anh, tiếng Nga, tiếng Pháp…) Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong một âm tiết có tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc hình vị (tiếng). Ví dụ sự khác Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 13 nhau giữa cà và cá là sự khác nhau về thanh điệu: âm tiết cá đƣợc phát âm cao, âm tiết cà đƣợc phát âm thấp. Trong tiếng Việt có 6 thanh điệu: bằng, huyền, sắc, hỏi, ngã, nặng. Trên đây chúng ta đã tìm hiểu một cách tổng quan về tiếng nói và ngữ âm tiếng Việt cùng các khái niệm cơ sở của nó.

Trong chƣơng tiếp theo chúng ta sẽ tìm hiểu sâu hơn về tiếng nói và biểu diễn tiếng nói dƣới dạng số hóa. Qua đó là cơ sở để xây dựng các bộ tổng hợp tiếng nói. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 14 2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ 2.2 Tần số lấy mẫu 2.3 Biểu diễn tín hiệu số 2.4 Biến đổi Fourier rời rạc 2.5 Các hàm cửa sổ Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 15 2.1 Số hoá tín hiệu Một trong những cách phổ biến nhất để biểu diễn tiếng nói là thể hiện nó dƣới dạng sóng.

Xử lý tín hiệu số đóng một một vai trò vô cùng quan trọng trong việc xử lý ngôn ngữ nói, bao gồm tín hiệu số, biến đổi miền tần số rời rạc và liên tục, các bộ lọc số, mối liên quan giữa tín hiệu số và tín hiệu tƣơng tự. Trong chƣơng này chúng ta sẽ tìm hiểu một số công thức toán học cho việc phân tích tần số, ứng dụng cho các chƣơng tiếp theo. Để xử lý tín hiệu tiếng nói, ngƣời ta biểu diễn chúng nhƣ là một hàm liên tục theo thời gian, xét một hàm xa(t) là một hàm liên tục theo thời gian, nếu chúng ta lấy mẫu tín hiệu x với chu kỳ lấy mẫu là T (ví dụ t = n.T), ta có một tín hiệu rời rạc theo thời gian x[n] = xa(nT), ta gọi là tín hiệu số. Chúng ta có thể định nghĩa một tần số lấy mẫu Fs = 1/T là giá trị nghịch đảo của chu kỳ T.

Ví dụ với tần số lấy mẫu là Fs = 8kHz tƣơng ứng với chu kỳ lấy mẫu là 125 micro giây. Trong một số trƣờng hợp, ngƣời ta có thể khôi phục chính xác tín hiệu tƣơng tự xa(t) từ tín hiệu số x[n].1 Tín hiệu tƣơng tự và tín hiệu số Để biểu diễn tín hiệu số, ngƣời ta dùng một công thức dạng sóng hay còn gọi là tín hiệu hình sin: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 16 x0[n] = A0cos(0n + 0) Với A0 là biên độ sóng, 0 là tần số góc và 0 là pha. Độ đo góc của hàm lƣợng giác này đƣợc tính bằng radian, do đó tần số góc 0 tƣơng ứng với tần số chuẩn f0 và 0 = 2f0 (0  f0  1). Tín hiệu này là tuần hoàn với chu kỳ T0 = 1/f0.2 Tín hiệu hình sin với chu kỳ lấy mẫu là 25 mẫu.2 Xác định tần số lấy mẫu tín hiệu tiếng nói Định lý Shannon: Một tín hiệu tƣơng tự x(t) có dải phổ hữu hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngoài dải [-Fmax,Fmax]).

Ta sẽ chỉ có thể khôi phục lại xa(t) một cách chính xác từ các mẫu x(n.Ts) nếu nhƣ: Fs > 2Fmax hay Ts < 1/2Fmax Do tín hiệu tiếng nói có thể trải phổ đến 12kHz nên theo định lý Shannon, tần số lấy mẫu tối thiểu là 24kHz. Nhƣng để tiết kiệm các chi phí cho việc xử lý tín hiệu số, ngƣời ta hạn chế tín hiệu tiếng nói bằng cách sử dụng một bộ lọc nhằm làm giảm giới hạn của phổ tín hiệu nhƣng không làm giảm nhiều chất lƣợng của tiếng nói và vẫn đảm bảo đƣợc mức độ ngữ nghĩa của thông tin tiếng nói. Ngƣời ta nhận thấy rằng tín hiệu điện thoại có phổ tín hiệu ở mức 3400Hz nhƣng vẫn đảm bảo đƣợc chất lƣợng âm thanh. Trong các phƣơng pháp xử lý tín hiệu số, ngƣời ta chọn tần số lấy mẫu fe = 8000Hz.

Thông thƣờng tần số này có thể biến đổi từ 6000Hz tới Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 17 16000Hz. Đối với các tín hiệu âm thanh nhƣ âm nhạc, ngƣời ta thƣờng chọn tần số lấy mẫu là 48kHz để biểu diễn chính xác tín hiệu.3 Biểu diễn tín hiệu số Trong phần này sẽ giới thiệu một số phƣơng pháp biểu diễn tiếng nói, những tín hiệu có nghĩa cho việc mã hóa, tổng hợp hay đoán nhận tiếng nói. Vấn đề trọng tâm là việc phân tách tín hiệu tiếng nói thông qua một bộ lọc biến đổi tuyến tính theo thời gian. Bộ lọc này đƣợc tạo ra từ các mô hình tạo tiếng nói dựa trên lý thuyết ngữ âm học, nó tạo ra các nguồn không khí thông qua dây thanh âm, và bộ lọc biểu diễn âm thanh nhƣ là các cơ quan phát âm.

Mô hình bộ lọc nguồn đƣợc biểu diễn nhƣ Hình 2.3 với e[n] đƣợc gọi là nguồn hay nguồn kích, h[n] gọi là bộ lọc và x[n] là tín hiệu tiếng nói mong muốn.3 Mô hình bộ lọc nguồn Để thử nghiệm bộ lọc chúng ta đƣa ra các phƣơng pháp dựa trên các mô hình tạo tiếng nói (ví dụ nhƣ mã dự báo tuyến tính hoặc phƣơng pháp phân tích phổ). Mỗi khi bộ lọc đƣợc thử nghiệm, nguồn âm có thể đƣợc thu bằng cách cho tín hiệu tiếng nói đi qua một bộ lọc đảo. Việc tách nguồn và bộ lọc là một trong những thách thức lớn nhất trong việc xử lý tiếng nói. Việc phân loại âm vị (bằng tay hay bằng máy) đều phụ thuộc vào các đặc trƣng của bộ lọc.

Thông thƣờng ngƣời ta bỏ qua nguồn và chỉ tập trung vào đánh giá bộ lọc. Nhiều kỹ thuật tổng hợp tiếng nói hiện nay sử dụng mô hình lọc nguồn vì nó cho phép thay đổi trƣờng độ và bộ lọc một cách linh hoạt. Nhiều bộ mã hóa tiếng nói cũng sử dụng mô hình này vì nó cho ra một tỷ lệ bit thấp.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) Biến đổi Fourier rời rạc của một tín hiệu tuần hoàn xN [n] với chu kỳ N đƣợc định nghĩa nhƣ sau [2]: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 18 N 1 X N k    xN ne  j 2nk / N 0kN (2.4 dƣới đây chúng ta xem xét một xấp xỉ của tín hiệu hình vuông tuần hoàn với chu kỳ N = 100 là tổng hợp của 19 sóng điều hòa hình sin. Tần số lấy mẫu là k = 2k/100.

Ở đây chúng ta chỉ sử dụng 19 hệ số XN[k] đầu tiên cho biểu thức (2.4 Tín hiệu hình vuông với chu kỳ N=100 Trong lĩnh vực xử lý số tín hiệu biến đổi Fourier chiếm vị trí hàng đầu nhờ sự tồn tại các thuật toán hiệu quả tính DFT. Để tính DFT N điểm của một dãy có chiều dài hữu hạn ta có thể viết chƣơng trình tính trực tiếp theo định nghĩa của DFT. Tuy nhiên, cách tính trực tiếp làm mất nhiều thời gian và bộ nhớ máy tính, vì phải thực hiện quá nhiều phép toán nhân và cộng (2N2 phép tính hàm lƣợng giác, 4N2 phép Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 19 nhân thực, 4N(N-1) phép cộng thực) và phải lƣu nhiều dữ liệu trung gian. Các thuật toán biến đổi Fourier nhanh (FFT: Fast Fourier Transform) nhằm cố gắng làm giảm số lƣợng phép tính và sử dụng ít bộ nhớ hơn trong cách tính trực tiếp.

Các thuật toán FFT chỉ cần có Nlog2N phép tính. Từ khi Cooley phát hiện ra thuật toán tính nhanh biến đổi Fourier rời rạc vào năm 1965, các thuật toán FFT ngày càng khẳng định vai trò của nó và hiện đƣợc sử dụng rất rộng rãi trong xử lý tiếng nói. Có nhiều thuật toán FFT đƣợc đề xuất, chẳng hạn thuật toán FFT cơ số 2 (Radix-2 FFT algorithms) phân thời gian, thuật toán FFT cơ số 2 phân tần số,… Trong khuôn khổ của luận văn này, tôi xin không đƣa các thuật toán này vào vì chúng khá phổ biến trong các tài liệu về xử lý tín hiệu số hiện nay. Tuy nhiên chúng ta có thể tìm hiểu thêm trong các tài liệu tham khảo của luận văn này [2].5 Các hàm cửa sổ Các hàm cửa sổ là các tín hiệu tập trung trong một khoảng thời gian (thông thƣờng là hữu hạn).

Trong các hệ thống xử lý tiếng nói, các hàm Tứ giác, Hanning, Hamming thƣờng đƣợc sử dụng rộng rãi hơn các hàm nhƣ Tam giác, Kaiser, Barllet. Các hàm cửa sổ thƣờng tập trung vào các vùng tần số thấp, chúng đƣợc ứng dụng trong các bộ lọc số đã nói ở trên. Cửa sổ chữ nhật đƣợc định nghĩa đơn giản nhƣ sau: hx[n] = u[n] – u[n-N] (2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ tổng hợp tiếng nói Text-to-Speech

Nghiên cứu và phát triển giọng nói nhân tạo

Ngữ âm học ứng dụng trong công nghệ tiếng nói