Luận văn thạc sĩ về phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng học máy Gaussian

Nghiên cứu phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng học máy thống kê và mô hình pha trộn gaussian trong luận văn thạc sĩ.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI

1.1. Tổng quan về tiếng nói

1.2. Thông tin tiếng nói. Tín hiệu và tín hiệu tiếng nói

1.3. Quá trình tạo tiếng nói

1.4. Cơ quan thính giác

1.5. Nhiễu trong tiếng nói

1.6. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau

1.7. Mô hình hóa tiếng nói

1.8. Xử lý nhiễu tiếng nói. Cách tiếp cận không dùng học máy

1.9. Cách tiếp cận dùng học máy

2. CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN

2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ

2.2. Thuật toán trừ phổ đối với phổ biên độ

2.3. Thuật toán trừ phổ đối với phổ công suất

2.4. Ưu nhược điểm của phương pháp

2.5. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM

2.6. Phân bố Gauss

2.7. Mô hình Gaussian hỗn hợp

2.8. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất lượng tiếng nói có nhiễu

2.9. Phổ đường cảm thụ (PLSF)

2.10. Biến đổi phổ sử dụng mô hình GMM

3. CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI

3.1. Ngữ âm tiếng Việt

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

3.3. Lựa chọn cơ sở dữ liệu

3.4. Cài đặt các phương pháp

3.5. Phương pháp trừ phổ

3.6. Phương pháp biến đổi sử dụng học máy thống kê GMM

3.7. Đánh giá kết quả thực nghiệm

3.7.1. Tiêu chí đánh giá chủ quan

3.7.2. Tiêu chí đánh giá khách quan

3.8. Kết quả đánh giá thực nghiệm

3.9. Nhận xét chung về kết quả

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nâng cao chất lượng tiếng nói có nhiễu bằng học máy Gaussian

Nâng cao chất lượng tiếng nói có nhiễu là một thách thức lớn trong lĩnh vực xử lý tín hiệu. Tiếng nói có nhiễu thường bị ảnh hưởng bởi nhiều yếu tố như môi trường xung quanh và thiết bị thu âm. Việc áp dụng học máy để cải thiện chất lượng tiếng nói đã trở thành một xu hướng nghiên cứu quan trọng. Mô hình Gaussian được sử dụng để phân tích và xử lý tín hiệu tiếng nói, giúp loại bỏ nhiễu và cải thiện độ rõ của âm thanh.

1.1. Khái niệm về tiếng nói có nhiễu và học máy

Tiếng nói có nhiễu là âm thanh bị ảnh hưởng bởi các yếu tố bên ngoài, làm giảm chất lượng truyền tải thông tin. Học máy cung cấp các phương pháp để phân tích và xử lý tín hiệu, giúp cải thiện chất lượng tiếng nói.

1.2. Tầm quan trọng của mô hình Gaussian trong xử lý tiếng nói

Mô hình Gaussian cho phép phân tích các đặc điểm của tín hiệu tiếng nói, từ đó giúp nhận diện và loại bỏ nhiễu hiệu quả. Việc áp dụng mô hình này trong xử lý tiếng nói có nhiễu đã cho thấy nhiều kết quả khả quan.

II. Vấn đề và thách thức trong xử lý tiếng nói có nhiễu

Xử lý tiếng nói có nhiễu gặp nhiều thách thức, đặc biệt là trong môi trường có nhiều nguồn nhiễu khác nhau. Các phương pháp truyền thống thường không hiệu quả trong việc xử lý nhiễu phức hợp. Việc áp dụng học máy giúp cải thiện khả năng nhận diện và xử lý tiếng nói trong các điều kiện khó khăn.

2.1. Các loại nhiễu ảnh hưởng đến tiếng nói

Nhiễu có thể đến từ nhiều nguồn khác nhau như tiếng ồn nền, nhiễu kênh, và nhiễu chập. Mỗi loại nhiễu có những đặc điểm riêng, ảnh hưởng đến chất lượng tiếng nói theo cách khác nhau.

2.2. Thách thức trong việc ước lượng nguồn nhiễu

Việc ước lượng nguồn nhiễu là một thách thức lớn trong xử lý tiếng nói. Các phương pháp hiện tại thường gặp khó khăn trong việc phân biệt giữa tiếng nói và nhiễu, đặc biệt trong môi trường phức tạp.

III. Phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng học máy Gaussian

Phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng học máy Gaussian đã được nghiên cứu và áp dụng rộng rãi. Các thuật toán như GMM (Gaussian Mixture Model) cho phép phân tích và xử lý tín hiệu tiếng nói một cách hiệu quả. Việc sử dụng các mô hình này giúp cải thiện độ rõ và tự nhiên của tiếng nói.

3.1. Giới thiệu về mô hình GMM trong xử lý tiếng nói

Mô hình GMM là một trong những phương pháp phổ biến trong xử lý tiếng nói. Nó cho phép phân tích tín hiệu tiếng nói thành nhiều thành phần khác nhau, từ đó giúp nhận diện và loại bỏ nhiễu hiệu quả.

3.2. Ứng dụng của GMM trong nâng cao chất lượng âm thanh

Mô hình GMM đã được áp dụng trong nhiều nghiên cứu để nâng cao chất lượng âm thanh. Kết quả cho thấy việc sử dụng mô hình này giúp cải thiện đáng kể độ rõ của tiếng nói trong môi trường có nhiễu.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu về nâng cao chất lượng tiếng nói có nhiễu bằng học máy Gaussian đã cho thấy nhiều kết quả khả quan. Các ứng dụng thực tiễn của phương pháp này bao gồm trong các hệ thống nhận diện giọng nói và truyền thông. Việc cải thiện chất lượng tiếng nói không chỉ giúp nâng cao trải nghiệm người dùng mà còn mở ra nhiều cơ hội mới trong lĩnh vực công nghệ thông tin.

4.1. Kết quả thực nghiệm từ nghiên cứu

Các nghiên cứu thực nghiệm cho thấy việc áp dụng mô hình Gaussian giúp cải thiện đáng kể chất lượng tiếng nói. Các chỉ số đánh giá như độ rõ và khả năng nhận diện âm thanh đều được nâng cao.

4.2. Ứng dụng trong các hệ thống nhận diện giọng nói

Phương pháp nâng cao chất lượng tiếng nói có nhiễu đã được áp dụng trong các hệ thống nhận diện giọng nói. Kết quả cho thấy khả năng nhận diện chính xác tăng lên đáng kể khi sử dụng các mô hình học máy.

V. Kết luận và tương lai của nghiên cứu

Nghiên cứu về nâng cao chất lượng tiếng nói có nhiễu bằng học máy Gaussian mở ra nhiều hướng đi mới trong lĩnh vực xử lý tín hiệu. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều ứng dụng thực tiễn và cải thiện đáng kể chất lượng giao tiếp trong các hệ thống công nghệ hiện đại.

5.1. Tóm tắt kết quả nghiên cứu

Nghiên cứu đã chỉ ra rằng việc áp dụng mô hình Gaussian trong xử lý tiếng nói có nhiễu mang lại nhiều lợi ích. Các kết quả thực nghiệm cho thấy sự cải thiện rõ rệt về chất lượng âm thanh.

5.2. Hướng nghiên cứu trong tương lai

Tương lai của nghiên cứu này có thể tập trung vào việc phát triển các mô hình học máy mới, cải thiện khả năng xử lý tiếng nói trong các điều kiện nhiễu phức tạp hơn.

17/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hay phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Tiếng nói là phương tiện giao tiếp tự nhiên và phổ biến nhất của con người, đồng thời cũng là loại hình thông tin chủ yếu trong các hệ thống viễn thông hiện đại. Tuy nhiên, chất lượng tiếng nói thường bị ảnh hưởng nghiêm trọng bởi các loại nhiễu như nhiễu cộng (background noise) và nhiễu nhân (convolutive noise). Theo ước tính, mức độ nhiễu trong các môi trường thực tế có thể dao động từ 50 đến 75 dB SPL, với tỷ số tín hiệu trên nhiễu (SNR) hiệu quả dao động từ 5 đến 15 dB trong môi trường yên tĩnh và gần như 0 dB trong môi trường nhiều tiếng ồn như tàu điện ngầm hay máy bay. Vấn đề xử lý nhiễu phức hợp, kết hợp cả nhiễu cộng và nhiễu nhân, là thách thức lớn trong lĩnh vực xử lý tiếng nói.

Mục tiêu của luận văn là nghiên cứu và phát triển phương pháp nâng cao chất lượng tiếng nói có nhiễu phức hợp bằng cách sử dụng học máy thống kê, đặc biệt là mô hình pha trộn Gaussian (GMM). Phạm vi nghiên cứu tập trung vào tín hiệu tiếng nói tiếng Việt, với dữ liệu thu thập trong môi trường thực tế và sử dụng các bộ dữ liệu tiếng Việt có nhiễu được tổng hợp từ cơ sở dữ liệu NOISEX-92. Nghiên cứu có ý nghĩa khoa học và thực tiễn lớn, góp phần nâng cao hiệu quả truyền thông và các ứng dụng nhận dạng tiếng nói trong môi trường nhiễu đa dạng.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mô hình tín hiệu tiếng nói**: Tiếng nói được mô hình hóa như tín hiệu tuyến tính với nguồn kích thích từ dây thanh âm và bộ lọc từ cơ quan phát âm. Các tần số cộng hưởng (formant) được biểu diễn qua mô hình toàn cực trong miền Z, đảm bảo tính ổn định của hệ thống.
- **Xử lý nhiễu tiếng nói truyền thống**: Phương pháp trừ phổ (Spectral Subtraction) dựa trên giả thiết nhiễu cộng tính và biến đổi chậm, sử dụng phổ biên độ hoặc phổ công suất để ước lượng và loại bỏ nhiễu.
- **Mô hình pha trộn Gaussian (GMM)**: GMM là mô hình thống kê mô tả phân phối xác suất của dữ liệu bằng tổng các phân phối Gaussian thành phần, được huấn luyện bằng thuật toán lặp cực đại kỳ vọng (EM). GMM được sử dụng để mô hình hóa mối quan hệ giữa phổ tiếng nói có nhiễu và tiếng nói sạch, hỗ trợ biến đổi phổ hiệu quả.
- **Dự đoán tuyến tính (LP) và phổ đường cảm thụ (PLSF)**: LP được dùng để ước lượng các tham số phổ của tiếng nói, trong khi PLSF giúp mã hóa phổ LP hiệu quả hơn, phù hợp cho việc huấn luyện mô hình GMM.
- **Biến đổi phổ sử dụng GMM**: Kỹ thuật này chuyển đổi các vector phổ liên hợp của tiếng nói có nhiễu sang tiếng nói sạch, không cần ước lượng nguồn F0, giúp khôi phục tiếng nói hiệu quả trong môi trường nhiễu phức hợp.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng bộ cơ sở dữ liệu tiếng Việt lớn, kết hợp với dữ liệu nhiễu trắng, nhiễu hồng và nhiễu nhà máy từ NOISEX-92 để tạo ra tiếng nói có nhiễu.
- **Phương pháp phân tích**: Thực nghiệm so sánh giữa phương pháp trừ phổ truyền thống và phương pháp biến đổi phổ sử dụng mô hình GMM. Đánh giá dựa trên tiêu chí khách quan (chỉ số MOS, LCD) và tiêu chí chủ quan (đánh giá nghe hiểu).
- **Cỡ mẫu và chọn mẫu**: Dữ liệu tiếng Việt được chọn ngẫu nhiên từ bộ dữ liệu lớn, đảm bảo đa dạng về giọng nói và môi trường nhiễu. Cỡ mẫu đủ lớn để đảm bảo tính đại diện và độ tin cậy của kết quả.
- **Timeline nghiên cứu**: Nghiên cứu được thực hiện trong năm 2016, bao gồm giai đoạn thu thập dữ liệu, huấn luyện mô hình, thực nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Phương pháp trừ phổ truyền thống có hiệu quả trong môi trường nhiễu cộng với SNR từ 5 đến 15 dB, nhưng giảm hiệu quả rõ rệt khi đối mặt với nhiễu nhân hoặc nhiễu phức hợp.
- Phương pháp sử dụng mô hình GMM cho phép nâng cao chất lượng tiếng nói trong môi trường nhiễu phức hợp, cải thiện tỷ lệ nhận dạng tiếng nói lên đến khoảng 20% so với phương pháp truyền thống.
- Đánh giá khách quan bằng chỉ số MOS cho thấy phương pháp GMM đạt điểm trung bình trên 3.5 trong khi phương pháp trừ phổ chỉ đạt khoảng 2.8 trong môi trường nhiễu nặng (SNR = -10 dB).
- Kết quả chủ quan từ người nghe cho thấy tiếng nói sau xử lý bằng GMM có độ rõ ràng và tự nhiên cao hơn, giảm hiện tượng méo tiếng và mất thông tin so với phương pháp trừ phổ.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình GMM không cần ước lượng trực tiếp nguồn nhiễu mà dựa trên biến đổi phổ giữa tiếng nói sạch và tiếng nói có nhiễu, phù hợp với cả nhiễu cộng và nhiễu nhân. So với các nghiên cứu trước đây trên tiếng Anh, kết quả trên tiếng Việt cho thấy tính khả thi và hiệu quả của phương pháp trong ngôn ngữ có đặc trưng ngữ âm riêng biệt như tiếng Việt. Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm MOS và tỷ lệ nhận dạng giữa các phương pháp, cũng như bảng tổng hợp kết quả đánh giá chủ quan và khách quan.

## Đề xuất và khuyến nghị

- **Triển khai mô hình GMM trong các hệ thống nhận dạng tiếng nói tiếng Việt** nhằm nâng cao độ chính xác trong môi trường nhiễu phức hợp, mục tiêu tăng tỷ lệ nhận dạng lên trên 85% trong vòng 12 tháng.
- **Phát triển bộ dữ liệu huấn luyện đa dạng hơn** bao gồm nhiều loại nhiễu và giọng nói khác nhau để cải thiện khả năng thích nghi của mô hình, thực hiện trong 18 tháng với sự phối hợp của các trung tâm nghiên cứu.
- **Tích hợp phương pháp nâng cao chất lượng tiếng nói vào các ứng dụng viễn thông và trợ lý ảo** để cải thiện trải nghiệm người dùng, hướng tới giảm tỷ lệ lỗi truyền tải tiếng nói xuống dưới 5% trong 2 năm tới.
- **Đào tạo và nâng cao năng lực cho đội ngũ kỹ thuật viên và nhà nghiên cứu** về kỹ thuật học máy và xử lý tiếng nói, tổ chức các khóa đào tạo chuyên sâu hàng năm.
- **Khuyến khích nghiên cứu tiếp tục về các mô hình học sâu (Deep Learning)** để khai thác tiềm năng nâng cao chất lượng tiếng nói trong tương lai, đặt mục tiêu thử nghiệm các mô hình mới trong 3 năm tới.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Xử lý tín hiệu**: Nắm bắt kiến thức chuyên sâu về mô hình GMM và ứng dụng trong xử lý tiếng nói có nhiễu.
- **Chuyên gia phát triển hệ thống nhận dạng tiếng nói và trợ lý ảo**: Áp dụng phương pháp nâng cao chất lượng tiếng nói để cải thiện hiệu suất hệ thống trong môi trường thực tế.
- **Doanh nghiệp viễn thông và công nghệ thông tin**: Tận dụng kết quả nghiên cứu để nâng cao chất lượng dịch vụ thoại và truyền thông đa phương tiện.
- **Cơ quan đào tạo và nghiên cứu ngôn ngữ tiếng Việt**: Sử dụng luận văn làm tài liệu tham khảo cho các dự án phát triển công nghệ ngôn ngữ và xử lý tiếng nói tiếng Việt.

## Câu hỏi thường gặp

1. **Phương pháp GMM có ưu điểm gì so với phương pháp trừ phổ truyền thống?**  
   GMM không cần ước lượng trực tiếp nguồn nhiễu mà dựa trên biến đổi phổ giữa tiếng nói sạch và tiếng nói có nhiễu, phù hợp với cả nhiễu cộng và nhiễu nhân, giúp nâng cao chất lượng tiếng nói trong môi trường phức tạp.

2. **Dữ liệu huấn luyện cho mô hình GMM cần những đặc điểm gì?**  
   Cần bộ dữ liệu đa dạng về giọng nói và môi trường nhiễu, bao gồm cả nhiễu trắng, nhiễu hồng và nhiễu nhà máy, để mô hình có khả năng thích nghi và xử lý hiệu quả trong nhiều điều kiện thực tế.

3. **Phương pháp này có áp dụng được cho các ngôn ngữ khác không?**  
   Có, phương pháp hướng tới mô hình độc lập ngôn ngữ, tuy nhiên hiệu quả có thể khác nhau do đặc trưng ngữ âm từng ngôn ngữ, cần đánh giá thực nghiệm riêng biệt.

4. **Có nhược điểm nào của phương pháp GMM không?**  
   Nhược điểm chính là yêu cầu lượng dữ liệu huấn luyện lớn và khả năng thích nghi không theo người nói, đòi hỏi tài nguyên tính toán và thời gian huấn luyện đáng kể.

5. **Làm thế nào để đánh giá hiệu quả của phương pháp nâng cao chất lượng tiếng nói?**  
   Sử dụng kết hợp tiêu chí khách quan như MOS, LCD và tiêu chí chủ quan qua đánh giá nghe hiểu của người dùng, đồng thời so sánh tỷ lệ nhận dạng tiếng nói trong các môi trường nhiễu khác nhau.

## Kết luận

- Phương pháp nâng cao chất lượng tiếng nói sử dụng mô hình pha trộn Gaussian (GMM) hiệu quả trong xử lý tiếng nói có nhiễu phức hợp, vượt trội so với phương pháp trừ phổ truyền thống.  
- Nghiên cứu đã xây dựng và đánh giá thành công trên bộ dữ liệu tiếng Việt lớn, góp phần làm phong phú kho công nghệ xử lý tiếng nói tiếng Việt.  
- Kết quả thực nghiệm cho thấy cải thiện rõ rệt về độ rõ và tự nhiên của tiếng nói sau xử lý, đồng thời nâng cao tỷ lệ nhận dạng tiếng nói trong môi trường nhiễu.  
- Đề xuất các giải pháp ứng dụng và phát triển tiếp theo nhằm mở rộng phạm vi và nâng cao hiệu quả của phương pháp trong thực tế.  
- Khuyến khích các nghiên cứu tiếp theo tập trung vào học sâu và mở rộng bộ dữ liệu để thích nghi tốt hơn với đa dạng môi trường và người nói.

Hành động tiếp theo là triển khai thử nghiệm thực tế trong các hệ thống nhận dạng tiếng nói và viễn thông, đồng thời phát triển các khóa đào tạo chuyên sâu cho đội ngũ kỹ thuật viên và nhà nghiên cứu trong lĩnh vực này.

Trích đoạn nội dung tài liệu

CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI 1. Tổng quan về tiếng nói 1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.

Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1.

Tín hiệu và tín hiệu tiếng nói 1. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não.

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh 1.

Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác. Chẳng hạn như, hàm: x(t )  20t 2 mô tả tín hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm: s( x, y)  3x  5xy  y 2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên.3: Tín hiệu tiếng nói Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên. Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó.

Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đến hệ thống được gọi là nguồn tín hiệu.

Như vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác. Hệ thống và xử lý tín hiệu Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong muốn.

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác. Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm.

Khi xử lý bằng các bộ vi xử lý - hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó. Phân loại tín hiệu Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng dụng cụ thể.

Chúng ta có thể phân tín hiệu Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 thành các loại : - Tín hiệu nhiều hướng và tín hiệu đa kênh - Tín hiệu liên tục và tín hiệu rời rạc - Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc - Tín hiệu xác định và tín hiệu ngẫu nhiên 1. Quá trình tạo tiếng nói a. Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.4: Bộ phận cung cấp làn hơi Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản: Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh có cao độ khác nhau.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.5: Dây thanh âm b. Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và miệng chủ yếu đóng vai trò truyền âm.

Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm đúng.

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.6: Cấu trúc cơ quan phát âm Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm d. Biễu diễn bộ phận phát âm: Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.

Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.8: Mô hình hóa cơ quan phát âm Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 1. Cơ quan thính giác Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20.

Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.10: Mô hình cơ quan thính giác Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz. Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém.

Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1. Trong mỗi băng con, con người không cảm nhận được sự khác biệt.11: Thang tần số Bark Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.12) và tần số (hình 1. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.12: Ngưỡng nghe Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau) Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nâng cao chất lượng tiếng nói có nhiễu

Phương pháp học máy trong xử lý tiếng nói

Đánh giá thực nghiệm các phương pháp

Tổng quan về tiếng nói và nhiễu