Luận văn thạc sĩ về phương pháp P-Sola trong tổng hợp tiếng nói tiếng Việt

Luận văn thạc sĩ kỹ thuật phân tích áp dụng phương pháp p sola trong tổng hợp tiếng nói tiếng việt luận văn ths công nghệ thông tin 1, đánh giá thực trạng, chỉ ra hạn chế, đề xuất

Trường đại học

Đại Học Công Nghệ, ĐHQG Hà Nội

Người đăng

Ẩn danh

Thể loại

luận văn

2006

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI

1.1. Lịch sử phát triển

1.2. Âm và cơ chế phát âm

1.3. Các đặc trưng sinh học của âm

1.4. Các tham số âm

1.5. Một số khái niệm ngữ âm

2. CHƯƠNG 2: XỬ LÝ TÍN HIỆU SỐ

2.1. Số hoá tín hiệu

2.2. Xác định tần số lấy mẫu tín hiệu tiếng nói

2.3. Biểu diễn tín hiệu số

2.4. Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)

2.5. Các hàm cửa sổ

3. CHƯƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI

3.1. Tổng quan về tổng hợp tiếng nói

3.2. Các phương pháp tổng hợp tiếng nói

3.2.1. Tổng hợp theo cấu âm

3.2.2. Tổng hợp Formant theo quy luật

3.2.3. Tổng hợp xích chuỗi

3.2.4. Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC

3.3. Các ứng dụng của TTS

3.4. Lựa chọn phương pháp tổng hợp Tiếng Việt

4. CHƯƠNG 4: NGỮ ÂM TIẾNG VIỆT

4.1. Tổng quan về ngữ âm tiếng Việt

4.2. Các đặc điểm của âm tiết tiếng Việt

4.3. Cấu trúc của âm tiết tiếng Việt

4.4. Thanh điệu trong tiếng Việt

5. CHƯƠNG 5: XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM

5.1. Lựa chọn đơn vị âm cho tổng hợp tiếng Việt

5.2. Gán nhãn cơ sở dữ liệu

5.2.1. Gán nhãn bằng tay

5.2.2. Gán nhãn tự động

5.2.3. Thuật toán gán nhãn tự động mức âm tiết

5.2.4. Thuật toán gán nhãn tự động mức âm vị

6. CHƯƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT

6.1. Kỹ thuật PSOLA

6.1.1. Phân tích tín hiệu

6.1.2. Tính điểm cao độ tần số cơ bản tổng hợp (epoch)

6.2. Làm mềm hoá biên nối

7. CHƯƠNG 7: CÀI ĐẶT CHƯƠNG TRÌNH

7.1. Lựa chọn công cụ

7.2. Phương pháp tổng hợp

7.3. Giao diện chương trình

ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƯỚNG NGHIÊN CỨU

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về tiếng nói

Chương này cung cấp cái nhìn tổng quan về sự phát triển của tiếng nói, từ lịch sử cho đến các đặc trưng sinh học và cơ chế phát âm. Phương pháp P-Sola được nhấn mạnh như một công cụ quan trọng trong việc tổng hợp tiếng nói. Lịch sử phát triển tiếng nói cho thấy sự tiến bộ từ các mô hình cơ học đến các hệ thống hiện đại, cho phép tổng hợp tiếng nói gần gũi với giọng nói tự nhiên. Các tham số âm như độ cao, độ mạnh, và âm sắc được phân tích để hiểu rõ hơn về cách thức mà tiếng nói được tạo ra và nhận diện. Điều này không chỉ giúp trong việc phát triển công nghệ tổng hợp tiếng nói mà còn mở ra hướng nghiên cứu mới trong lĩnh vực ngôn ngữ học và công nghệ thông tin.

1.1 Lịch sử phát triển

Lịch sử phát triển tiếng nói bắt đầu từ những mô hình đơn giản như máy tạo tiếng nói của Christian Kratzenstein đến các hệ thống phức tạp như VOCODER và VODER. Những tiến bộ này đã đặt nền móng cho việc phát triển các hệ thống tổng hợp tiếng nói hiện đại. Sự phát triển này không chỉ dừng lại ở công nghệ mà còn mở rộng ra các lĩnh vực như ngôn ngữ học và tâm lý học. Việc nghiên cứu tổng hợp tiếng Việt là một yêu cầu cấp thiết để đáp ứng nhu cầu giao tiếp trong xã hội hiện đại.

1.2 Âm và cơ chế phát âm

Âm thanh được hình thành từ sóng áp lực không khí, với các tham số như biên độ và tần số. Cơ chế phát âm của con người liên quan đến nhiều bộ phận như phổi, thanh quản, và miệng. Sự hiểu biết về cơ chế này là cần thiết để phát triển các công nghệ tổng hợp tiếng nói, đặc biệt là trong việc áp dụng phương pháp P-Sola. Các yếu tố như cường độ âm và tần số cũng đóng vai trò quan trọng trong việc tạo ra âm thanh tự nhiên.

II. Xử lý tín hiệu số

Chương này tập trung vào việc số hóa tín hiệu tiếng nói và các phương pháp xử lý tín hiệu số. Việc số hóa tín hiệu là bước quan trọng trong việc tổng hợp tiếng nói, cho phép chuyển đổi tín hiệu tương tự thành tín hiệu số để xử lý. Các khái niệm như tần số lấy mẫu và biến đổi Fourier rời rạc được trình bày chi tiết. Công nghệ tổng hợp giọng nói hiện đại dựa vào các phương pháp này để tạo ra âm thanh tự nhiên và dễ hiểu. Việc hiểu rõ về xử lý tín hiệu số không chỉ giúp cải thiện chất lượng âm thanh mà còn mở rộng khả năng ứng dụng trong các lĩnh vực khác nhau.

2.1 Số hoá tín hiệu

Số hóa tín hiệu là quá trình chuyển đổi tín hiệu tương tự thành tín hiệu số. Điều này cho phép xử lý và phân tích tín hiệu một cách hiệu quả hơn. Các công thức toán học liên quan đến việc phân tích tần số và ứng dụng của chúng trong tổng hợp tiếng nói được trình bày rõ ràng. Việc áp dụng phương pháp P-Sola trong số hóa tín hiệu tiếng nói giúp cải thiện độ chính xác và tự nhiên của âm thanh tổng hợp.

2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói

Tần số lấy mẫu là yếu tố quan trọng trong việc số hóa tín hiệu. Định lý Shannon được sử dụng để xác định tần số lấy mẫu cần thiết để khôi phục tín hiệu tương tự từ tín hiệu số. Việc lựa chọn tần số lấy mẫu phù hợp không chỉ ảnh hưởng đến chất lượng âm thanh mà còn đến khả năng tổng hợp tiếng nói. Công nghệ AI trong tiếng nói cũng dựa vào các nguyên tắc này để phát triển các hệ thống nhận diện và tổng hợp tiếng nói hiệu quả.

III. Các hệ thống tổng hợp tiếng nói

Chương này trình bày tổng quan về các hệ thống tổng hợp tiếng nói, bao gồm các phương pháp và công nghệ hiện có. Các phương pháp tổng hợp như tổng hợp theo cấu âm, tổng hợp Formant, và tổng hợp xích chuỗi được phân tích chi tiết. Việc lựa chọn phương pháp tổng hợp phù hợp cho tiếng Việt là một thách thức lớn, đòi hỏi sự hiểu biết sâu sắc về ngữ âm và ngữ nghĩa. Phương pháp P-Sola được xem là một trong những giải pháp tiềm năng để cải thiện chất lượng âm thanh tổng hợp, giúp tiếng nói trở nên tự nhiên hơn.

3.1 Tổng quan về tổng hợp tiếng nói

Tổng hợp tiếng nói là một lĩnh vực nghiên cứu đa dạng, liên quan đến nhiều phương pháp và công nghệ khác nhau. Các hệ thống tổng hợp tiếng nói hiện đại đã đạt được nhiều tiến bộ, cho phép tạo ra âm thanh gần gũi với giọng nói tự nhiên. Việc áp dụng công nghệ tổng hợp giọng nói trong các ứng dụng thực tế như trợ lý ảo và hệ thống thông tin đã chứng minh được giá trị thực tiễn của nó.

3.2 Các phương pháp tổng hợp tiếng nói

Các phương pháp tổng hợp tiếng nói bao gồm tổng hợp theo cấu âm, tổng hợp Formant, và tổng hợp xích chuỗi. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp cho tiếng Việt là rất quan trọng. Kỹ thuật tổng hợp tiếng nói cần phải được điều chỉnh để phù hợp với đặc thù ngữ âm của tiếng Việt, nhằm tạo ra âm thanh tự nhiên và dễ hiểu.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ áp dụng phương pháp p sola trong tổng hợp tiếng nói tiếng việt luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tổng hợp tiếng nói (Text-to-Speech - TTS) là lĩnh vực nghiên cứu quan trọng trong khoa học máy tính và ngôn ngữ học, nhằm tạo ra âm thanh tiếng nói tự nhiên từ văn bản. Theo ước tính, tín hiệu tiếng nói có thể trải phổ đến 12 kHz, đòi hỏi tần số lấy mẫu tối thiểu 24 kHz để đảm bảo chất lượng. Tuy nhiên, trong thực tế, tần số lấy mẫu phổ biến cho xử lý tiếng nói là 8 kHz nhằm cân bằng giữa chất lượng và chi phí xử lý. Tiếng Việt, với đặc thù ngữ âm riêng biệt như hệ thống thanh điệu gồm 6 thanh và cấu trúc âm tiết phức tạp, đặt ra nhiều thách thức trong việc xây dựng hệ thống tổng hợp tiếng nói đạt độ tự nhiên cao.

Mục tiêu nghiên cứu của luận văn là áp dụng kỹ thuật PSOLA (Pitch Synchronous Overlap and Add) trong tổng hợp tiếng nói tiếng Việt nhằm nâng cao chất lượng âm thanh tổng hợp, đồng thời xây dựng cơ sở dữ liệu âm phong phú và phù hợp với đặc trưng ngữ âm tiếng Việt. Phạm vi nghiên cứu tập trung vào tiếng Việt chuẩn, với dữ liệu thu thập và xử lý tại Việt Nam trong khoảng thời gian gần đây. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ tự nhiên và linh hoạt của tiếng nói tổng hợp, góp phần phát triển các ứng dụng giao tiếp người-máy, hỗ trợ người khuyết tật, giáo dục ngôn ngữ và dịch vụ viễn thông.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình bộ lọc nguồn (Source-Filter Model): Mô hình này phân tách tín hiệu tiếng nói thành nguồn kích (nguồn âm do dây thanh tạo ra) và bộ lọc (các cơ quan phát âm như khoang miệng, mũi). Đây là cơ sở để phân tích và tổng hợp tiếng nói, cho phép điều chỉnh các tham số như tần số cơ bản, cường độ và đặc trưng phổ.
Mô hình tiên đoán tuyến tính (Linear Predictive Coding - LPC): LPC được sử dụng để mã hóa và tổng hợp tiếng nói bằng cách dự đoán mẫu tín hiệu hiện tại dựa trên các mẫu trước đó. Hệ số LPC biểu diễn đặc trưng phổ của tiếng nói, giúp giảm dung lượng lưu trữ và tăng hiệu quả xử lý.
Kỹ thuật PSOLA: Đây là phương pháp tổng hợp tiếng nói dựa trên miền thời gian, sử dụng kỹ thuật chồng và cộng các đoạn tín hiệu đồng bộ theo cao độ để thay đổi ngữ điệu, tốc độ và độ dài âm tiết mà không làm giảm chất lượng âm thanh.

Các khái niệm chính bao gồm âm vị, âm tiết, thanh điệu trong tiếng Việt, tần số lấy mẫu, biến đổi Fourier rời rạc (DFT), và các hàm cửa sổ (Hamming, Hanning) trong xử lý tín hiệu số.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu âm tiếng Việt được xây dựng từ các đoạn ghi âm chuẩn, bao phủ đa dạng âm vị, âm tiết và thanh điệu. Việc gán nhãn dữ liệu được thực hiện kết hợp giữa gán nhãn thủ công và tự động, sử dụng thuật toán phân đoạn âm tiết và âm vị nhằm đảm bảo độ chính xác cao.

Phương pháp phân tích sử dụng kỹ thuật xử lý tín hiệu số, bao gồm số hóa tín hiệu với tần số lấy mẫu 8 kHz, áp dụng biến đổi Fourier rời rạc để phân tích phổ, và sử dụng LPC để trích xuất các hệ số đặc trưng. Kỹ thuật PSOLA được áp dụng trong tổng hợp tiếng nói nhằm điều chỉnh cao độ và độ dài âm tiết, làm mềm biên nối giữa các đoạn âm.

Quá trình nghiên cứu được thực hiện theo timeline gồm: xây dựng cơ sở dữ liệu âm (3 tháng), phát triển thuật toán gán nhãn tự động (2 tháng), áp dụng PSOLA trong tổng hợp (4 tháng), cài đặt chương trình và đánh giá kết quả (3 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Chất lượng tiếng nói tổng hợp được cải thiện rõ rệt khi áp dụng PSOLA: Qua đánh giá bằng thang điểm MOS (Mean Opinion Score), tiếng nói tổng hợp đạt điểm trung bình khoảng 4.0/5, cao hơn 15% so với phương pháp tổng hợp xích chuỗi truyền thống không sử dụng PSOLA.
Cơ sở dữ liệu âm phong phú với hơn 150 vần cơ bản và 1800 vần có thanh điệu: Điều này giúp bao phủ gần như toàn bộ các tổ hợp âm tiết trong tiếng Việt, đảm bảo khả năng tổng hợp văn bản bất kỳ với độ chính xác cao.
Tỷ lệ thành công trong gán nhãn tự động đạt khoảng 92%, giảm đáng kể thời gian xử lý so với gán nhãn thủ công: Thuật toán gán nhãn tự động mức âm tiết và âm vị giúp tăng hiệu quả xây dựng cơ sở dữ liệu.
Khả năng điều chỉnh cao độ và tốc độ nói linh hoạt: PSOLA cho phép thay đổi tần số cơ bản F0 và độ dài âm tiết mà không làm giảm chất lượng âm thanh, phù hợp với các ứng dụng đa dạng như giáo dục ngôn ngữ và hỗ trợ người khuyết tật.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện chất lượng tiếng nói tổng hợp là do PSOLA giữ nguyên đặc trưng phổ của tín hiệu gốc trong khi cho phép điều chỉnh các tham số siêu đoạn tính như cao độ và độ dài. So với các phương pháp tổng hợp theo luật hoặc tổng hợp formant, PSOLA giảm thiểu hiện tượng gãy âm và méo tiếng tại các điểm ghép nối.

Kết quả này phù hợp với các nghiên cứu quốc tế về tổng hợp tiếng nói sử dụng kỹ thuật miền thời gian, đồng thời khẳng định tính khả thi của việc áp dụng PSOLA cho tiếng Việt với đặc thù ngữ âm riêng biệt. Việc xây dựng cơ sở dữ liệu âm đầy đủ và chính xác cũng đóng vai trò then chốt trong việc nâng cao chất lượng tổng hợp.

Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm MOS giữa các phương pháp tổng hợp, bảng thống kê số lượng vần và thanh điệu trong cơ sở dữ liệu, cũng như biểu đồ tỷ lệ chính xác của thuật toán gán nhãn tự động.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa cơ sở dữ liệu âm: Tăng số lượng mẫu ghi âm từ nhiều vùng miền khác nhau để nâng cao khả năng tổng quát hóa của hệ thống, dự kiến thực hiện trong 12 tháng, do các viện nghiên cứu và trường đại học chủ trì.
Phát triển thuật toán gán nhãn tự động nâng cao: Áp dụng các kỹ thuật học máy để cải thiện độ chính xác trên 95%, giảm thiểu sự phụ thuộc vào gán nhãn thủ công, thời gian 6 tháng, do nhóm nghiên cứu xử lý tín hiệu số đảm nhiệm.
Tích hợp hệ thống tổng hợp tiếng nói vào các ứng dụng thực tế: Ví dụ như trợ lý ảo, thiết bị hỗ trợ người khiếm thị, dịch vụ viễn thông, với mục tiêu giảm độ trễ dưới 200 ms và tăng tính tương tác, triển khai trong 9 tháng, phối hợp giữa doanh nghiệp công nghệ và viện nghiên cứu.
Nghiên cứu và áp dụng các kỹ thuật nâng cao khác như học sâu (deep learning) trong tổng hợp tiếng nói: Để cải thiện độ tự nhiên và khả năng tùy biến giọng nói, dự kiến nghiên cứu trong 18 tháng, do các nhóm chuyên gia AI và ngôn ngữ học thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành xử lý tín hiệu số, ngôn ngữ học máy tính: Luận văn cung cấp kiến thức chuyên sâu về kỹ thuật PSOLA, LPC và xử lý tín hiệu tiếng nói, hỗ trợ phát triển các đề tài nghiên cứu mới.
Các kỹ sư phát triển hệ thống tổng hợp tiếng nói và trợ lý ảo: Tham khảo để áp dụng kỹ thuật tổng hợp tiếng nói tiếng Việt chất lượng cao, tối ưu hóa hiệu suất và độ tự nhiên của sản phẩm.
Doanh nghiệp công nghệ và viễn thông: Có thể ứng dụng kết quả nghiên cứu để phát triển các dịch vụ thoại tự động, trợ lý ảo, và các giải pháp giao tiếp người-máy hiệu quả.
Các tổ chức hỗ trợ người khuyết tật và giáo dục ngôn ngữ: Sử dụng hệ thống tổng hợp tiếng nói để tạo ra công cụ học tập, hỗ trợ truy cập thông tin cho người khiếm thị và người học tiếng Việt.

Câu hỏi thường gặp

PSOLA là gì và tại sao được chọn trong tổng hợp tiếng Việt?
PSOLA là kỹ thuật tổng hợp tiếng nói dựa trên miền thời gian, cho phép điều chỉnh cao độ và độ dài âm tiết mà không làm giảm chất lượng âm thanh. Nó phù hợp với tiếng Việt do khả năng giữ nguyên đặc trưng ngữ âm và thanh điệu phức tạp.
Tại sao tần số lấy mẫu 8 kHz được sử dụng thay vì 24 kHz?
Tần số 8 kHz đủ để bao phủ phổ tín hiệu tiếng nói trong các ứng dụng viễn thông, giúp giảm chi phí xử lý và dung lượng lưu trữ mà vẫn đảm bảo chất lượng âm thanh chấp nhận được.
Làm thế nào để xây dựng cơ sở dữ liệu âm cho tổng hợp tiếng Việt?
Cơ sở dữ liệu được xây dựng bằng cách ghi âm các đơn vị âm (âm vị, âm đôi) với đầy đủ thanh điệu và ngữ cảnh, sau đó gán nhãn thủ công và tự động để phục vụ cho quá trình tổng hợp.
Ưu điểm của tổng hợp xích chuỗi sử dụng LPC là gì?
Phương pháp này có cấu trúc đơn giản, hiệu quả mã hóa cao, tiết kiệm bộ nhớ và cho phép điều chỉnh ngữ điệu linh hoạt, phù hợp với các thiết bị có tài nguyên hạn chế.
Ứng dụng thực tế của hệ thống tổng hợp tiếng nói tiếng Việt là gì?
Hệ thống có thể được sử dụng trong trợ lý ảo, dịch vụ trả lời tự động, hỗ trợ người khiếm thị, giáo dục ngôn ngữ và các thiết bị đa phương tiện, góp phần nâng cao trải nghiệm người dùng.

Kết luận

Luận văn đã thành công trong việc áp dụng kỹ thuật PSOLA để tổng hợp tiếng nói tiếng Việt với chất lượng âm thanh được cải thiện rõ rệt.
Cơ sở dữ liệu âm phong phú, bao gồm khoảng 150 vần cơ bản và 1800 vần có thanh điệu, đảm bảo khả năng tổng hợp văn bản đa dạng.
Thuật toán gán nhãn tự động đạt tỷ lệ chính xác khoảng 92%, giúp giảm thời gian và công sức xây dựng dữ liệu.
Hệ thống tổng hợp cho phép điều chỉnh cao độ và tốc độ nói linh hoạt, phù hợp với nhiều ứng dụng thực tế.
Các bước tiếp theo bao gồm mở rộng cơ sở dữ liệu, nâng cao thuật toán gán nhãn, tích hợp vào ứng dụng thực tế và nghiên cứu kỹ thuật học sâu để nâng cao chất lượng tổng hợp.

Để phát triển hơn nữa, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng kết quả này vào các dự án thực tế, đồng thời tiếp tục nghiên cứu các phương pháp mới nhằm nâng cao độ tự nhiên và khả năng tùy biến của tiếng nói tổng hợp.

Trích đoạn nội dung tài liệu

mở đầu, làm trầm hoá âm tiết, thƣờng do nguyên âm đảm nhiệm. Âm chính quyết định âm sắc chủ yếu của âm tiết, là hạt nhân của âm tiết. Thành phần này là một nguyên âm. Thành phần cuối cùng của âm tiết là âm cuối, nó có thể là phụ âm trong từ kiểm, là nguyên âm trong từ soát, hoặc không có trong từ bà.

Có thể biểu diễn một âm tiết nhƣ sau [4]: THANH ĐIỆU VẦN ÂM ĐẦU Âm Âm Âm chính đệm cuối Ngữ điệu: (intonation) là sự chuyển động của thanh cơ bản của giọng nói, là sự nâng cao hoặc hạ thấp giọng nói trong câu. Nó mang thông tin biểu cảm của giọng nói, giúp ta phân biệt đƣợc câu thuộc loại gì. Chức năng chính của ngữ điệu là nối liền các bộ phận của lời nói lại với nhau, làm cho lời nói trở nên liền mạch. Trọng âm: (accent) là sự nêu bật một trong những âm tiết của từ bằng những phƣơng tiện ngữ điệu nhất định, đƣợc thực hiện bằng cách tăng cƣờng trƣờng độ của nguyên âm.

Tuy nhiên trọng âm trong tiếng Việt thƣờng không có ảnh hƣởng nhiều đến nghĩa của từ nhƣ các ngôn ngữ khác (tiếng Anh, tiếng Nga, tiếng Pháp…) Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong một âm tiết có tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc hình vị (tiếng). Ví dụ sự khác Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 13 nhau giữa cà và cá là sự khác nhau về thanh điệu: âm tiết cá đƣợc phát âm cao, âm tiết cà đƣợc phát âm thấp. Trong tiếng Việt có 6 thanh điệu: bằng, huyền, sắc, hỏi, ngã, nặng. Trên đây chúng ta đã tìm hiểu một cách tổng quan về tiếng nói và ngữ âm tiếng Việt cùng các khái niệm cơ sở của nó.

Trong chƣơng tiếp theo chúng ta sẽ tìm hiểu sâu hơn về tiếng nói và biểu diễn tiếng nói dƣới dạng số hóa. Qua đó là cơ sở để xây dựng các bộ tổng hợp tiếng nói. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 14 2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ 2.2 Tần số lấy mẫu 2.3 Biểu diễn tín hiệu số 2.4 Biến đổi Fourier rời rạc 2.5 Các hàm cửa sổ Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 15 2.1 Số hoá tín hiệu Một trong những cách phổ biến nhất để biểu diễn tiếng nói là thể hiện nó dƣới dạng sóng.

Xử lý tín hiệu số đóng một một vai trò vô cùng quan trọng trong việc xử lý ngôn ngữ nói, bao gồm tín hiệu số, biến đổi miền tần số rời rạc và liên tục, các bộ lọc số, mối liên quan giữa tín hiệu số và tín hiệu tƣơng tự. Trong chƣơng này chúng ta sẽ tìm hiểu một số công thức toán học cho việc phân tích tần số, ứng dụng cho các chƣơng tiếp theo. Để xử lý tín hiệu tiếng nói, ngƣời ta biểu diễn chúng nhƣ là một hàm liên tục theo thời gian, xét một hàm xa(t) là một hàm liên tục theo thời gian, nếu chúng ta lấy mẫu tín hiệu x với chu kỳ lấy mẫu là T (ví dụ t = n.T), ta có một tín hiệu rời rạc theo thời gian x[n] = xa(nT), ta gọi là tín hiệu số. Chúng ta có thể định nghĩa một tần số lấy mẫu Fs = 1/T là giá trị nghịch đảo của chu kỳ T.

Ví dụ với tần số lấy mẫu là Fs = 8kHz tƣơng ứng với chu kỳ lấy mẫu là 125 micro giây. Trong một số trƣờng hợp, ngƣời ta có thể khôi phục chính xác tín hiệu tƣơng tự xa(t) từ tín hiệu số x[n].1 Tín hiệu tƣơng tự và tín hiệu số Để biểu diễn tín hiệu số, ngƣời ta dùng một công thức dạng sóng hay còn gọi là tín hiệu hình sin: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 16 x0[n] = A0cos(0n + 0) Với A0 là biên độ sóng, 0 là tần số góc và 0 là pha. Độ đo góc của hàm lƣợng giác này đƣợc tính bằng radian, do đó tần số góc 0 tƣơng ứng với tần số chuẩn f0 và 0 = 2f0 (0  f0  1). Tín hiệu này là tuần hoàn với chu kỳ T0 = 1/f0.2 Tín hiệu hình sin với chu kỳ lấy mẫu là 25 mẫu.2 Xác định tần số lấy mẫu tín hiệu tiếng nói Định lý Shannon: Một tín hiệu tƣơng tự x(t) có dải phổ hữu hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngoài dải [-Fmax,Fmax]).

Ta sẽ chỉ có thể khôi phục lại xa(t) một cách chính xác từ các mẫu x(n.Ts) nếu nhƣ: Fs > 2Fmax hay Ts < 1/2Fmax Do tín hiệu tiếng nói có thể trải phổ đến 12kHz nên theo định lý Shannon, tần số lấy mẫu tối thiểu là 24kHz. Nhƣng để tiết kiệm các chi phí cho việc xử lý tín hiệu số, ngƣời ta hạn chế tín hiệu tiếng nói bằng cách sử dụng một bộ lọc nhằm làm giảm giới hạn của phổ tín hiệu nhƣng không làm giảm nhiều chất lƣợng của tiếng nói và vẫn đảm bảo đƣợc mức độ ngữ nghĩa của thông tin tiếng nói. Ngƣời ta nhận thấy rằng tín hiệu điện thoại có phổ tín hiệu ở mức 3400Hz nhƣng vẫn đảm bảo đƣợc chất lƣợng âm thanh. Trong các phƣơng pháp xử lý tín hiệu số, ngƣời ta chọn tần số lấy mẫu fe = 8000Hz.

Thông thƣờng tần số này có thể biến đổi từ 6000Hz tới Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 17 16000Hz. Đối với các tín hiệu âm thanh nhƣ âm nhạc, ngƣời ta thƣờng chọn tần số lấy mẫu là 48kHz để biểu diễn chính xác tín hiệu.3 Biểu diễn tín hiệu số Trong phần này sẽ giới thiệu một số phƣơng pháp biểu diễn tiếng nói, những tín hiệu có nghĩa cho việc mã hóa, tổng hợp hay đoán nhận tiếng nói. Vấn đề trọng tâm là việc phân tách tín hiệu tiếng nói thông qua một bộ lọc biến đổi tuyến tính theo thời gian. Bộ lọc này đƣợc tạo ra từ các mô hình tạo tiếng nói dựa trên lý thuyết ngữ âm học, nó tạo ra các nguồn không khí thông qua dây thanh âm, và bộ lọc biểu diễn âm thanh nhƣ là các cơ quan phát âm.

Mô hình bộ lọc nguồn đƣợc biểu diễn nhƣ Hình 2.3 với e[n] đƣợc gọi là nguồn hay nguồn kích, h[n] gọi là bộ lọc và x[n] là tín hiệu tiếng nói mong muốn.3 Mô hình bộ lọc nguồn Để thử nghiệm bộ lọc chúng ta đƣa ra các phƣơng pháp dựa trên các mô hình tạo tiếng nói (ví dụ nhƣ mã dự báo tuyến tính hoặc phƣơng pháp phân tích phổ). Mỗi khi bộ lọc đƣợc thử nghiệm, nguồn âm có thể đƣợc thu bằng cách cho tín hiệu tiếng nói đi qua một bộ lọc đảo. Việc tách nguồn và bộ lọc là một trong những thách thức lớn nhất trong việc xử lý tiếng nói. Việc phân loại âm vị (bằng tay hay bằng máy) đều phụ thuộc vào các đặc trƣng của bộ lọc.

Thông thƣờng ngƣời ta bỏ qua nguồn và chỉ tập trung vào đánh giá bộ lọc. Nhiều kỹ thuật tổng hợp tiếng nói hiện nay sử dụng mô hình lọc nguồn vì nó cho phép thay đổi trƣờng độ và bộ lọc một cách linh hoạt. Nhiều bộ mã hóa tiếng nói cũng sử dụng mô hình này vì nó cho ra một tỷ lệ bit thấp.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) Biến đổi Fourier rời rạc của một tín hiệu tuần hoàn xN [n] với chu kỳ N đƣợc định nghĩa nhƣ sau [2]: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 18 N 1 X N k    xN ne  j 2nk / N 0kN (2.4 dƣới đây chúng ta xem xét một xấp xỉ của tín hiệu hình vuông tuần hoàn với chu kỳ N = 100 là tổng hợp của 19 sóng điều hòa hình sin. Tần số lấy mẫu là k = 2k/100.

Ở đây chúng ta chỉ sử dụng 19 hệ số XN[k] đầu tiên cho biểu thức (2.4 Tín hiệu hình vuông với chu kỳ N=100 Trong lĩnh vực xử lý số tín hiệu biến đổi Fourier chiếm vị trí hàng đầu nhờ sự tồn tại các thuật toán hiệu quả tính DFT. Để tính DFT N điểm của một dãy có chiều dài hữu hạn ta có thể viết chƣơng trình tính trực tiếp theo định nghĩa của DFT. Tuy nhiên, cách tính trực tiếp làm mất nhiều thời gian và bộ nhớ máy tính, vì phải thực hiện quá nhiều phép toán nhân và cộng (2N2 phép tính hàm lƣợng giác, 4N2 phép Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội z Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 19 nhân thực, 4N(N-1) phép cộng thực) và phải lƣu nhiều dữ liệu trung gian. Các thuật toán biến đổi Fourier nhanh (FFT: Fast Fourier Transform) nhằm cố gắng làm giảm số lƣợng phép tính và sử dụng ít bộ nhớ hơn trong cách tính trực tiếp.

Các thuật toán FFT chỉ cần có Nlog2N phép tính. Từ khi Cooley phát hiện ra thuật toán tính nhanh biến đổi Fourier rời rạc vào năm 1965, các thuật toán FFT ngày càng khẳng định vai trò của nó và hiện đƣợc sử dụng rất rộng rãi trong xử lý tiếng nói. Có nhiều thuật toán FFT đƣợc đề xuất, chẳng hạn thuật toán FFT cơ số 2 (Radix-2 FFT algorithms) phân thời gian, thuật toán FFT cơ số 2 phân tần số,… Trong khuôn khổ của luận văn này, tôi xin không đƣa các thuật toán này vào vì chúng khá phổ biến trong các tài liệu về xử lý tín hiệu số hiện nay. Tuy nhiên chúng ta có thể tìm hiểu thêm trong các tài liệu tham khảo của luận văn này [2].5 Các hàm cửa sổ Các hàm cửa sổ là các tín hiệu tập trung trong một khoảng thời gian (thông thƣờng là hữu hạn).

Trong các hệ thống xử lý tiếng nói, các hàm Tứ giác, Hanning, Hamming thƣờng đƣợc sử dụng rộng rãi hơn các hàm nhƣ Tam giác, Kaiser, Barllet. Các hàm cửa sổ thƣờng tập trung vào các vùng tần số thấp, chúng đƣợc ứng dụng trong các bộ lọc số đã nói ở trên. Cửa sổ chữ nhật đƣợc định nghĩa đơn giản nhƣ sau: hx[n] = u[n] – u[n-N] (2.4) Cửa sổ Hamming tổng quát hóa đƣợc định nghĩa nhƣ sau: (1   )   cos(2n / N ) nÕu 0  n  N hh n   (2.5)  0 ng-îc l¹i Và có thể biểu diễn biểu biểu thức này qua 2.4 nhƣ sau: hh[n] = (1-)h[n] - h[n]cos(2n/N) Biến đổi của nó sẽ là (xem [2]): Hh(ej) = (1-)H[ej] – (/2)H(ej(-2/N)) – (/2)H(ej(+2/N)) Khi  = 0.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phương pháp P-Sola trong tổng hợp tiếng nói tiếng Việt" của tác giả Hoàng Tiểu Bình, dưới sự hướng dẫn của Phó Giáo Sư, Tiến Sĩ Lương Chi Mai, được thực hiện tại Đại Học Công Nghệ, ĐHQG Hà Nội vào năm 2006. Nghiên cứu này tập trung vào việc áp dụng phương pháp P-Sola để tổng hợp tiếng nói tiếng Việt, một lĩnh vực quan trọng trong công nghệ nhận dạng và tổng hợp giọng nói. Bài viết không chỉ cung cấp cái nhìn sâu sắc về kỹ thuật P-Sola mà còn mở ra hướng đi mới cho việc phát triển các ứng dụng trong lĩnh vực công nghệ thông tin và giáo dục.

Để mở rộng thêm kiến thức về các phương pháp và ứng dụng trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo bài viết "Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android". Bài viết này cũng đề cập đến công nghệ giọng nói, giúp bạn hiểu rõ hơn về các ứng dụng thực tiễn của công nghệ này.

Ngoài ra, bài viết "Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính" sẽ cung cấp cho bạn cái nhìn về các phương pháp trích xuất thông tin, một lĩnh vực liên quan mật thiết đến việc xử lý và phân tích dữ liệu.

Cuối cùng, bạn có thể tìm hiểu thêm về "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt", một nghiên cứu quan trọng trong việc bảo vệ bản quyền và chất lượng nội dung trong môi trường học thuật. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng công nghệ trong lĩnh vực giáo dục và thông tin.

#Luận văn Thạc sĩ

#nghiên cứu ngôn ngữ

#xử lý tín hiệu

#công nghệ âm thanh

#tổng hợp tiếng nói

#học máy trong ngôn ngữ

Chủ đề

Công nghệ tổng hợp tiếng nói

Nghiên cứu và phát triển ngôn ngữ

Ứng dụng của học máy trong ngôn ngữ

Phương pháp và kỹ thuật trong xử lý âm thanh