Phương Pháp Nâng Cao Chất Lượng Tiếng Nói Có Nhiễu Sử Dụng Học Máy GMM

Nghiên cứu phương pháp nâng cao chất lượng tiếng nói có nhiễu bằng học máy thống kê và mô hình pha trộn gaussian trong luận văn thạc sĩ.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI

1.1. Tổng quan về tiếng nói

1.2. Thông tin tiếng nói. Tín hiệu và tín hiệu tiếng nói

1.2.1. Tín hiệu tiếng nói

1.2.2. Nguồn tín hiệu

1.2.3. Hệ thống và xử lý tín hiệu

1.2.4. Phân loại tín hiệu

1.3. Quá trình tạo tiếng nói

1.3.1. Bộ phận cung cấp làn hơi

1.3.2. Bộ phận phát thanh

1.3.3. Bộ phận dẫn âm

1.3.4. Bộ phận phát âm

1.3.5. Biểu diễn bộ phận phát âm

1.4. Cơ quan thính giác

1.5. Nhiễu trong tiếng nói

1.5.1. Nguồn nhiễu

2. CHƯƠNG 2: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN GAUSSIAN

2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ

2.1.1. Thuật toán trừ phổ đối với phổ biên độ

2.1.2. Thuật toán trừ phổ đối với phổ công suất

2.1.3. Ưu nhược điểm của phương pháp

2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM

2.2.1. Phân bố Gauss

2.2.2. Mô hình Gaussian hỗn hợp

2.2.3. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất lượng tiếng nói có nhiễu

2.2.4. Phổ đường cảm thụ (PLSF)

2.2.5. Biến đổi phổ sử dụng mô hình GMM

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI

3.1. Ngữ âm tiếng Việt

3.2. Cơ sở dữ liệu tiếng nói tiếng Việt

3.2.1. Lựa chọn cơ sở dữ liệu

3.3. Cài đặt các phương pháp

3.3.1. Phương pháp trừ phổ

3.3.2. Phương pháp biến đổi sử dụng học máy thống kê GMM

3.4. Đánh giá kết quả thực nghiệm

3.4.1. Tiêu chí đánh giá chủ quan

3.4.2. Tiêu chí đánh giá khách quan

3.4.3. Kết quả đánh giá thực nghiệm

3.4.4. Nhận xét chung về kết quả

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Nâng Cao Chất Lượng Tiếng Nói Có Nhiễu Bằng Học Máy GMM

Nâng cao chất lượng tiếng nói có nhiễu là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin và truyền thông. Việc xử lý tiếng nói bị nhiễu không chỉ giúp cải thiện khả năng giao tiếp mà còn nâng cao hiệu quả trong các ứng dụng như nhận diện giọng nói và truyền thông. Mô hình GMM (Gaussian Mixture Model) đã được chứng minh là một phương pháp hiệu quả trong việc triệt nhiễu và cải thiện chất lượng âm thanh.

1.1. Giới Thiệu Về Tiếng Nói Và Nhiễu Trong Tiếng Nói

Tiếng nói là phương tiện giao tiếp tự nhiên của con người. Nhiễu trong tiếng nói có thể đến từ nhiều nguồn khác nhau như tiếng ồn môi trường, làm giảm độ rõ của âm thanh. Việc hiểu rõ về tiếng nói và các loại nhiễu là cần thiết để phát triển các phương pháp xử lý hiệu quả.

1.2. Tầm Quan Trọng Của Việc Nâng Cao Chất Lượng Tiếng Nói

Nâng cao chất lượng tiếng nói có nhiễu không chỉ giúp cải thiện trải nghiệm người dùng mà còn có ứng dụng rộng rãi trong các lĩnh vực như y tế, giáo dục và truyền thông. Việc sử dụng học máy để xử lý tiếng nói có nhiễu đang trở thành xu hướng mới trong nghiên cứu.

II. Vấn Đề Và Thách Thức Trong Xử Lý Tiếng Nói Có Nhiễu

Xử lý tiếng nói có nhiễu gặp nhiều thách thức, đặc biệt là trong môi trường có nhiều nguồn nhiễu khác nhau. Các phương pháp truyền thống thường không hiệu quả trong việc triệt nhiễu phức hợp. Việc phát triển các mô hình học máy như GMM giúp giải quyết những vấn đề này.

2.1. Các Loại Nhiễu Trong Tiếng Nói

Nhiễu có thể được phân loại thành nhiễu cộng và nhiễu nhân. Nhiễu cộng thường dễ xử lý hơn, trong khi nhiễu nhân đòi hỏi các phương pháp phức tạp hơn để triệt tiêu.

2.2. Thách Thức Trong Việc Triệt Nhiễu

Một trong những thách thức lớn nhất là khả năng phân biệt giữa tiếng nói và nhiễu. Các mô hình học máy cần được huấn luyện trên dữ liệu phong phú để có thể nhận diện và xử lý hiệu quả.

III. Phương Pháp Nâng Cao Chất Lượng Tiếng Nói Bằng Học Máy GMM

Mô hình GMM là một trong những phương pháp hiệu quả nhất trong việc nâng cao chất lượng tiếng nói có nhiễu. GMM cho phép mô hình hóa phân phối của tín hiệu tiếng nói và nhiễu, từ đó cải thiện độ chính xác trong việc triệt nhiễu.

3.1. Nguyên Tắc Hoạt Động Của Mô Hình GMM

Mô hình GMM sử dụng các thành phần Gaussian để mô hình hóa phân phối của tín hiệu. Điều này cho phép phân tích và tách biệt giữa tiếng nói và nhiễu một cách hiệu quả.

3.2. Quy Trình Huấn Luyện Mô Hình GMM

Quy trình huấn luyện mô hình GMM bao gồm việc thu thập dữ liệu tiếng nói và nhiễu, sau đó áp dụng các thuật toán học máy để tối ưu hóa các tham số của mô hình.

IV. Ứng Dụng Thực Tiễn Của Mô Hình GMM Trong Nâng Cao Chất Lượng Tiếng Nói

Mô hình GMM đã được áp dụng thành công trong nhiều lĩnh vực như nhận diện giọng nói, truyền thông và y tế. Việc cải thiện chất lượng tiếng nói có nhiễu giúp nâng cao trải nghiệm người dùng và hiệu quả giao tiếp.

4.1. Ứng Dụng Trong Nhận Diện Giọng Nói

Mô hình GMM giúp cải thiện độ chính xác trong nhận diện giọng nói, đặc biệt trong môi trường ồn ào. Điều này rất quan trọng trong các ứng dụng như trợ lý ảo và hệ thống điều khiển bằng giọng nói.

4.2. Ứng Dụng Trong Y Tế

Trong y tế, việc nâng cao chất lượng tiếng nói có nhiễu giúp cải thiện khả năng giao tiếp giữa bác sĩ và bệnh nhân, đặc biệt là trong các trường hợp bệnh nhân có vấn đề về phát âm.

V. Kết Luận Và Tương Lai Của Nghiên Cứu Về Nâng Cao Chất Lượng Tiếng Nói

Nghiên cứu về nâng cao chất lượng tiếng nói có nhiễu bằng học máy GMM đang mở ra nhiều hướng đi mới. Tương lai của lĩnh vực này hứa hẹn sẽ có nhiều tiến bộ với sự phát triển của công nghệ học sâu và trí tuệ nhân tạo.

5.1. Xu Hướng Nghiên Cứu Trong Tương Lai

Các nghiên cứu trong tương lai sẽ tập trung vào việc cải thiện độ chính xác và khả năng thích ứng của mô hình GMM trong các môi trường khác nhau.

5.2. Tiềm Năng Ứng Dụng Mới

Với sự phát triển của công nghệ, mô hình GMM có thể được áp dụng trong nhiều lĩnh vực mới, từ giáo dục đến giải trí, mở rộng khả năng giao tiếp của con người.

30/06/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tiếng nói là phương tiện giao tiếp tự nhiên và phổ biến nhất của con người, đóng vai trò quan trọng trong các hệ thống viễn thông hiện đại. Tuy nhiên, chất lượng tiếng nói thường bị suy giảm do các loại nhiễu khác nhau như nhiễu cộng (additive noise) và nhiễu nhân (convolutive noise). Theo ước tính, mức độ âm thanh của nhiễu trong các môi trường thực tế dao động từ 50 đến 75 dB SPL, trong khi mức độ tiếng nói thường nằm trong khoảng 60 đến 70 dB SPL, dẫn đến tỷ số tín hiệu trên nhiễu (SNR) có thể rất thấp, thậm chí gần 0 dB trong môi trường như tàu điện ngầm hay máy bay. Vấn đề xử lý nhiễu phức hợp, kết hợp cả nhiễu cộng và nhiễu nhân, là thách thức lớn trong lĩnh vực xử lý tiếng nói.

Mục tiêu của luận văn là nghiên cứu và phát triển phương pháp nâng cao chất lượng tiếng nói có nhiễu phức hợp bằng cách sử dụng học máy thống kê, đặc biệt là mô hình pha trộn Gaussian (Gaussian Mixture Model - GMM). Phạm vi nghiên cứu tập trung vào tín hiệu tiếng nói tiếng Việt, sử dụng cơ sở dữ liệu tiếng Việt có nhiễu được tổng hợp từ dữ liệu sạch và dữ liệu nhiễu chuẩn NOISEX-92. Nghiên cứu có ý nghĩa khoa học và thực tiễn lớn, góp phần cải thiện khả năng nghe hiểu tiếng nói trong các môi trường nhiễu phức tạp, đồng thời mở rộng ứng dụng của học máy trong xử lý tiếng nói tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: lý thuyết xử lý tín hiệu tiếng nói và mô hình học máy thống kê.

Lý thuyết xử lý tín hiệu tiếng nói: Tiếng nói được mô hình hóa như tín hiệu biến đổi theo thời gian với các đặc trưng như tần số cơ bản (F0), tần số cộng hưởng (formant), và phổ năng lượng. Quá trình tạo tiếng nói liên quan đến bộ phận phát âm và nguồn kích thích glottal. Các phương pháp truyền thống như thuật toán trừ phổ (Spectral Subtraction) dựa trên giả thiết nhiễu cộng tính và biến đổi chậm, giúp giảm nhiễu trong tín hiệu nhưng hạn chế khi gặp nhiễu nhân hoặc nhiễu phức hợp.
Mô hình pha trộn Gaussian (GMM): GMM là mô hình thống kê mô tả phân phối xác suất của dữ liệu bằng tổng các thành phần Gaussian với các tham số trọng số, trung bình và hiệp phương sai. GMM được huấn luyện bằng thuật toán lặp cực đại kỳ vọng (EM) để ước lượng tham số từ dữ liệu. Trong xử lý tiếng nói, GMM được sử dụng để mô hình hóa mối quan hệ giữa đặc trưng phổ của tiếng nói sạch và tiếng nói có nhiễu, từ đó thực hiện biến đổi phổ nhằm nâng cao chất lượng tiếng nói.

Các khái niệm chính bao gồm: tín hiệu tiếng nói, nhiễu cộng và nhiễu nhân, mô hình dự đoán tuyến tính (Linear Predictive - LP), phổ đường cảm thụ (Perceptual Linear Predictive - PLP), và biến đổi phổ sử dụng GMM.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu bao gồm cơ sở dữ liệu tiếng Việt sạch và dữ liệu nhiễu chuẩn NOISEX-92 với ba loại nhiễu chính: nhiễu trắng, nhiễu hồng và nhiễu nhà máy. Dữ liệu tiếng nói có nhiễu được tạo thành bằng cách thêm nhiễu vào dữ liệu sạch với mức SNR khoảng -10 dB.

Phương pháp phân tích sử dụng kỹ thuật học máy thống kê với mô hình GMM để huấn luyện và dự đoán biến đổi phổ từ tiếng nói có nhiễu sang tiếng nói sạch. Cỡ mẫu huấn luyện gồm hàng nghìn khung tín hiệu tiếng nói tiếng Việt, được lựa chọn ngẫu nhiên từ bộ dữ liệu. Phương pháp chọn mẫu đảm bảo tính đại diện cho các dạng nhiễu và đặc trưng tiếng nói.

Quá trình nghiên cứu được thực hiện theo timeline gồm: tổng quan lý thuyết và thu thập dữ liệu (3 tháng), xây dựng và huấn luyện mô hình GMM (4 tháng), đánh giá thực nghiệm và phân tích kết quả (3 tháng), hoàn thiện luận văn và đề xuất giải pháp (2 tháng).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp GMM trong nâng cao chất lượng tiếng nói có nhiễu phức hợp: Kết quả thực nghiệm trên bộ dữ liệu tiếng Việt cho thấy phương pháp GMM cải thiện đáng kể chất lượng tiếng nói so với phương pháp trừ phổ truyền thống. Điểm đánh giá khách quan MOS (Mean Opinion Score) tăng từ khoảng 2.1 lên 3.5, tương đương mức cải thiện 66%.
Khả năng xử lý nhiễu nhân và nhiễu phức hợp: Phương pháp GMM cho phép xử lý hiệu quả các loại nhiễu nhân như tiếng vang và nhiễu phức hợp kết hợp nhiễu cộng và nhân, trong khi phương pháp trừ phổ không thể ước lượng chính xác nhiễu nhân. Tỷ lệ giảm nhiễu (noise reduction rate) đạt khoảng 70% trong môi trường nhiễu phức hợp.
Ảnh hưởng của mức SNR đến chất lượng tiếng nói: Khi SNR giảm từ 0 dB xuống -10 dB, phương pháp GMM vẫn duy trì được chất lượng tiếng nói với điểm MOS trên 3.0, trong khi phương pháp truyền thống giảm xuống dưới 2.0, cho thấy tính ổn định và khả năng thích nghi tốt hơn của GMM.
Tác động của dữ liệu huấn luyện: Việc sử dụng bộ dữ liệu huấn luyện lớn và đa dạng giúp mô hình GMM thích nghi tốt với nhiều môi trường nhiễu khác nhau. Tuy nhiên, cần lưu ý rằng việc huấn luyện đòi hỏi thời gian và tài nguyên tính toán lớn.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện chất lượng tiếng nói khi sử dụng GMM là do mô hình này không dựa trên giả thiết nhiễu cộng tính đơn giản mà mô hình hóa trực tiếp mối quan hệ giữa tiếng nói sạch và tiếng nói có nhiễu trong không gian đặc trưng phổ. Điều này giúp xử lý hiệu quả cả nhiễu nhân và nhiễu phức hợp, vốn là thách thức lớn đối với các phương pháp truyền thống.

So sánh với các nghiên cứu quốc tế, kết quả của luận văn phù hợp với xu hướng ứng dụng học máy trong xử lý tiếng nói, đồng thời mở rộng ứng dụng cho tiếng Việt, một ngôn ngữ có đặc thù ngữ âm và thanh điệu riêng biệt. Việc đánh giá trên cơ sở dữ liệu tiếng Việt lớn là điểm mới và có giá trị thực tiễn cao.

Dữ liệu có thể được trình bày qua biểu đồ so sánh điểm MOS giữa các phương pháp và bảng thống kê tỷ lệ giảm nhiễu theo từng loại môi trường, giúp minh họa rõ ràng hiệu quả của phương pháp GMM.

Đề xuất và khuyến nghị

Triển khai ứng dụng mô hình GMM trong các hệ thống xử lý tiếng nói thực tế: Các đơn vị phát triển công nghệ xử lý tiếng nói nên tích hợp mô hình GMM để nâng cao chất lượng tiếng nói trong môi trường nhiễu phức hợp, đặc biệt trong viễn thông và trợ lý ảo. Thời gian thực hiện đề xuất này là 6-12 tháng.
Mở rộng bộ dữ liệu huấn luyện đa dạng và phong phú: Cần xây dựng thêm các bộ dữ liệu tiếng Việt có nhiễu đa dạng về môi trường và người nói để tăng cường khả năng thích nghi của mô hình. Chủ thể thực hiện là các viện nghiên cứu và trường đại học trong vòng 1-2 năm.
Phát triển các thuật toán thích nghi mô hình GMM theo người nói: Đề xuất nghiên cứu thêm các kỹ thuật thích nghi để mô hình GMM có thể cá nhân hóa cho từng người nói, nâng cao hiệu quả xử lý tiếng nói trong các ứng dụng cá nhân hóa. Thời gian nghiên cứu dự kiến 1-2 năm.
Kết hợp mô hình GMM với các kỹ thuật học sâu (Deep Learning): Khuyến nghị nghiên cứu kết hợp GMM với mạng nơ-ron sâu để khai thác ưu điểm của cả hai phương pháp, nhằm cải thiện hơn nữa chất lượng tiếng nói trong môi trường nhiễu phức tạp. Chủ thể thực hiện là các nhóm nghiên cứu chuyên sâu trong 2-3 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Xử lý tín hiệu: Luận văn cung cấp kiến thức chuyên sâu về xử lý tiếng nói và ứng dụng học máy, giúp phát triển các đề tài nghiên cứu mới.
Chuyên gia phát triển công nghệ viễn thông và trợ lý ảo: Các giải pháp nâng cao chất lượng tiếng nói có thể ứng dụng trực tiếp trong sản phẩm và dịch vụ, cải thiện trải nghiệm người dùng.
Các tổ chức đào tạo và giảng dạy tiếng Việt: Nghiên cứu giúp hiểu rõ đặc điểm tiếng nói tiếng Việt và cách xử lý nhiễu, hỗ trợ phát triển công nghệ giáo dục ngôn ngữ.
Doanh nghiệp phát triển phần mềm nhận dạng giọng nói và chuyển đổi giọng nói: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm để cải tiến thuật toán, nâng cao độ chính xác và chất lượng sản phẩm.

Câu hỏi thường gặp

Phương pháp GMM có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Việt không?
Có, GMM là mô hình thống kê phổ biến và có thể áp dụng cho nhiều ngôn ngữ khác nhau. Tuy nhiên, hiệu quả phụ thuộc vào bộ dữ liệu huấn luyện phù hợp với đặc điểm ngôn ngữ đó.
Phương pháp trừ phổ truyền thống có ưu điểm gì so với GMM?
Phương pháp trừ phổ đơn giản, dễ triển khai và không cần dữ liệu huấn luyện lớn. Tuy nhiên, nó chỉ hiệu quả với nhiễu cộng tính và không xử lý tốt nhiễu nhân hay nhiễu phức hợp.
Mức SNR nào là phù hợp để áp dụng phương pháp GMM?
Phương pháp GMM duy trì hiệu quả tốt trong khoảng SNR từ 0 dB đến -10 dB, phù hợp với nhiều môi trường nhiễu thực tế có mức độ nhiễu cao.
Có thể kết hợp GMM với các kỹ thuật học máy khác không?
Có, GMM có thể kết hợp với mạng nơ-ron sâu hoặc các kỹ thuật học máy khác để cải thiện khả năng xử lý và thích nghi với môi trường nhiễu đa dạng.
Thời gian huấn luyện mô hình GMM mất bao lâu?
Thời gian huấn luyện phụ thuộc vào kích thước dữ liệu và cấu hình phần cứng, thường mất từ vài giờ đến vài ngày trên các máy tính có cấu hình trung bình.

Kết luận

Luận văn đã nghiên cứu và phát triển phương pháp nâng cao chất lượng tiếng nói có nhiễu phức hợp sử dụng mô hình pha trộn Gaussian (GMM), đáp ứng được cả nhiễu cộng và nhiễu nhân.
Kết quả thực nghiệm trên cơ sở dữ liệu tiếng Việt cho thấy phương pháp GMM cải thiện đáng kể chất lượng tiếng nói so với phương pháp truyền thống, đặc biệt trong môi trường nhiễu phức tạp với SNR thấp.
Phương pháp GMM có tiềm năng ứng dụng rộng rãi trong các hệ thống viễn thông, trợ lý ảo và nhận dạng giọng nói tại Việt Nam.
Đề xuất mở rộng bộ dữ liệu huấn luyện, phát triển kỹ thuật thích nghi và kết hợp với học sâu để nâng cao hiệu quả xử lý tiếng nói trong tương lai.
Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng kết quả nghiên cứu để cải thiện chất lượng tiếng nói trong các sản phẩm và dịch vụ.

Triển khai thử nghiệm mô hình GMM trong các ứng dụng thực tế và mở rộng nghiên cứu về thích nghi mô hình để cá nhân hóa tiếng nói.

Trích đoạn nội dung tài liệu

CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU TRONG TIẾNG NÓI 1. Tổng quan về tiếng nói 1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.

Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1.

Tín hiệu và tín hiệu tiếng nói 1. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan 5 truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não.

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh 1.

Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 6 toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác. Chẳng hạn như, hàm: x(t )  20t 2 mô tả tín hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm: s( x, y)  3x  5xy  y 2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên.3: Tín hiệu tiếng nói Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên. Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó.

Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan 7 đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đến hệ thống được gọi là nguồn tín hiệu.

Như vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác. Hệ thống và xử lý tín hiệu Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong muốn.

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác. Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần cứng và phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm.

Khi xử lý bằng các bộ vi xử lý - hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó. Phân loại tín hiệu Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng dụng cụ thể.

Chúng ta có thể phân tín hiệu Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 8 thành các loại : - Tín hiệu nhiều hướng và tín hiệu đa kênh - Tín hiệu liên tục và tín hiệu rời rạc - Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc - Tín hiệu xác định và tín hiệu ngẫu nhiên 1. Quá trình tạo tiếng nói a. Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.4: Bộ phận cung cấp làn hơi Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản: Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh có cao độ khác nhau.

9 Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông.5: Dây thanh âm b. Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và miệng chủ yếu đóng vai trò truyền âm.

Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm đúng.

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.6: Cấu trúc cơ quan phát âm Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm d. Biễu diễn bộ phận phát âm: Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.

Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.8: Mô hình hóa cơ quan phát âm Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 1. Cơ quan thính giác Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20. Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.10: Mô hình cơ quan thính giác Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz. Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém. Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1.

Trong mỗi băng con, con người không cảm nhận được sự khác biệt.11: Thang tần số Bark Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.12) và tần số (hình 1.12: Ngưỡng nghe Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau) Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Nhiễu trong tiếng nói 1. Nguồn nhiễu Nhiễu tồn tại ở mọi nơi, trên đường phố, trên xe, trong văn phòng, trong nhà hàng, trong các toà nhà.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề "Nâng Cao Chất Lượng Tiếng Nói Có Nhiễu Bằng Học Máy GMM" tập trung vào việc cải thiện chất lượng âm thanh trong các tình huống có nhiễu bằng cách sử dụng mô hình học máy GMM (Gaussian Mixture Model). Tài liệu này trình bày các phương pháp và kỹ thuật để xử lý và phân tích tín hiệu âm thanh, giúp nâng cao độ chính xác trong nhận diện giọng nói. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các công nghệ tiên tiến này, không chỉ trong lĩnh vực nhận diện giọng nói mà còn trong các ứng dụng thực tiễn khác.

Nếu bạn muốn mở rộng kiến thức về các công nghệ liên quan, hãy tham khảo tài liệu "Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android", nơi bạn có thể tìm hiểu thêm về ứng dụng của học máy trong nhận diện giọng nói tiếng Việt.

Ngoài ra, tài liệu "Luận văn thạc sĩ khoa học máy tính xây dựng ứng dụng chatbot tư vấn khách hàng sử dụng mô hình học tăng cường" cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về việc áp dụng công nghệ học máy trong việc phát triển các ứng dụng tương tác với người dùng.

Cuối cùng, bạn có thể tham khảo tài liệu "Luận văn thạc sĩ hcmute phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách" để hiểu rõ hơn về các phương pháp phân tích dữ liệu thời gian và ứng dụng của chúng trong việc phát hiện bất thường. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực học máy và xử lý tín hiệu.

#xử lý tín hiệu âm thanh

#nâng cao chất lượng tiếng nói

#tiếng nói có nhiễu

#ứng dụng học máy trong âm thanh

#Học máy GMM

#Phương pháp xử lý tiếng nói

Chủ đề

Học máy và ứng dụng

Công nghệ xử lý tiếng nói

Nghiên cứu về tiếng nói

Phân tích và cải thiện âm thanh