Nghiên Cứu Phương Pháp Mã Hóa Tiếng Nói Sử Dụng Kỹ Thuật Phân Rã Ma Trận Không Âm

Luận văn thạc sĩ kỹ thuật nghiên cứu nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp

Trường đại học

Đại học Công nghệ Thông tin và Truyền thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1. Tổng quan về tiếng nói

1.2. Thông tin tiếng nói

1.3. Hệ thống và xử lý tín hiệu

1.4. Tổng quan về mã hóa tiếng nói

1.5. Mã hóa tiếng nói tốc độ bit thấp

1.6. Mục tiêu của luận văn

2. CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF

2.2. Khái niệm

2.3. Lịch sử

2.4. Nền tảng

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

3.1. Thu thập dữ liệu tiếng nói

3.2. Ngữ âm tiếng Việt. Cấu trúc âm tiết tiếng Việt

3.3. Thanh điệu tiếng Việt

3.4. Cơ sở dữ liệu tiếng nói tiếng Việt

3.4.1. Cơ sở dữ liệu tiếng nói phát thanh VOV

3.4.2. Cơ sở dữ liệu DEMEN567

3.4.3. Cơ sở dữ liệu MICA VNSpeech

3.5. Tổng hợp tiếng nói tiếng Việt

3.6. Cài đặt phương pháp mã hóa trên Matlab

3.7. Đánh giá khách quan, chủ quan và so sánh các phương pháp

3.7.1. Đánh giá khách quan và chủ quan

3.7.2. So sánh với các phương pháp khác. Phân tích, đánh giá ưu nhược điểm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Phương pháp mã hóa tiếng nói

Phương pháp mã hóa tiếng nói là một lĩnh vực nghiên cứu quan trọng trong xử lý tín hiệu số, đặc biệt trong các hệ thống viễn thông. Luận văn tập trung vào việc sử dụng kỹ thuật phân rã ma trận không âm (NMF) để mã hóa tiếng nói với tốc độ bit thấp. NMF là một phương pháp phân tích đa biến, trong đó ma trận dữ liệu được phân rã thành hai ma trận không âm, giúp tối ưu hóa việc mã hóa và nén dữ liệu âm thanh. Phương pháp này được đề xuất bởi Xue năm 2008 và tiếp tục phát triển trong những năm gần đây.

1.1. Tổng quan về tiếng nói

Tiếng nói là phương tiện giao tiếp cơ bản của con người và là loại thông tin phổ biến nhất trong các hệ thống viễn thông. Tín hiệu tiếng nói bao gồm hai dạng: hữu thanh và vô thanh. Âm hữu thanh có tính tuần hoàn, trong khi âm vô thanh tương tự nhiễu. Việc mã hóa tiếng nói đòi hỏi các kỹ thuật xử lý tín hiệu số để đảm bảo chất lượng và hiệu quả truyền dẫn.

1.2. Mã hóa tiếng nói tốc độ bit thấp

Mã hóa tiếng nói tốc độ bit thấp là một yêu cầu quan trọng trong các hệ thống viễn thông hiện đại, đặc biệt trong điều kiện tài nguyên hạn chế. Các phương pháp truyền thống như PCM (Pulse Code Modulation) có tốc độ bit cao (64 Kbps), gây lãng phí tài nguyên. Các phương pháp mã hóa tiên tiến như LPC (Linear Predictive Coding) và ADPCM (Adaptive Differential Pulse Code Modulation) đã được phát triển để giảm tốc độ bit mà vẫn đảm bảo chất lượng.

II. Kỹ thuật phân rã ma trận không âm NMF

Kỹ thuật phân rã ma trận không âm (NMF) là một phương pháp phân tích dữ liệu dựa trên việc phân rã ma trận thành hai ma trận không âm. Phương pháp này được ứng dụng rộng rãi trong các lĩnh vực như xử lý âm thanh, thị giác máy tính và khai thác dữ liệu. Trong mã hóa tiếng nói, NMF giúp phân tích và tái tạo tín hiệu âm thanh với độ chính xác cao, đồng thời giảm thiểu tốc độ bit.

2.1. Khái niệm và lịch sử

NMF được đề xuất bởi Lee và Seung vào cuối những năm 1990, dựa trên ý tưởng phân rã ma trận dữ liệu thành các thành phần không âm. Phương pháp này đã được ứng dụng trong nhiều lĩnh vực, bao gồm xử lý tín hiệu âm thanh và nhận dạng tiếng nói. NMF đặc biệt hiệu quả trong việc phân tích các tín hiệu có tính chất không âm, như tín hiệu âm thanh.

2.2. Ứng dụng trong mã hóa tiếng nói

Trong mã hóa tiếng nói, NMF được sử dụng để phân tích và tái tạo tín hiệu âm thanh với tốc độ bit thấp. Phương pháp này giúp giảm thiểu kích thước dữ liệu mà vẫn duy trì chất lượng âm thanh. Các nghiên cứu gần đây đã chứng minh hiệu quả của NMF trong việc mã hóa tiếng nói, đặc biệt trong các hệ thống thông tin di động và truyền thông đa phương tiện.

III. Đánh giá thực nghiệm

Luận văn tiến hành đánh giá thực nghiệm phương pháp mã hóa tiếng nói sử dụng kỹ thuật phân rã ma trận không âm (NMF). Các thử nghiệm được thực hiện trên cơ sở dữ liệu tiếng Việt, bao gồm các mẫu tiếng nói từ các nguồn khác nhau. Kết quả thực nghiệm cho thấy NMF đạt hiệu quả cao trong việc mã hóa tiếng nói với tốc độ bit thấp, đồng thời duy trì chất lượng âm thanh.

3.1. Thu thập dữ liệu

Dữ liệu tiếng nói được thu thập từ các nguồn khác nhau, bao gồm cơ sở dữ liệu VOV, DEMEN567 và MICA VNSpeech. Các mẫu tiếng nói được phân tích và xử lý để đánh giá hiệu quả của phương pháp mã hóa. Việc sử dụng cơ sở dữ liệu tiếng Việt giúp đảm bảo tính thực tiễn và khả năng ứng dụng của phương pháp.

3.2. Kết quả và phân tích

Kết quả thực nghiệm cho thấy NMF đạt hiệu quả cao trong việc mã hóa tiếng nói với tốc độ bit thấp. Phương pháp này giúp giảm thiểu kích thước dữ liệu mà vẫn duy trì chất lượng âm thanh. So sánh với các phương pháp truyền thống như LPC và ADPCM, NMF cho thấy ưu thế vượt trội trong việc xử lý tín hiệu tiếng nói.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Tiếng nói là phương tiện giao tiếp cơ bản và phổ biến nhất của con người, đồng thời là loại hình thông tin chủ yếu trong các hệ thống viễn thông. Tín hiệu tiếng nói có dải tần từ 300 Hz đến 3400 Hz, bao gồm các dạng hữu thanh và vô thanh. Với sự phát triển mạnh mẽ của mạng viễn thông và nhu cầu truyền tải thông tin ngày càng lớn, việc mã hóa tiếng nói tốc độ bit thấp trở thành một vấn đề cấp thiết nhằm tiết kiệm băng thông và tăng hiệu quả truyền dẫn. Phương pháp mã hóa theo dạng xung (PCM) với tốc độ 64 Kbps hiện nay được xem là tiêu tốn tài nguyên, không phù hợp với các hệ thống viễn thông hiện đại, đặc biệt là trong môi trường tài nguyên hạn chế như mạng di động.

Luận văn tập trung nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực sử dụng kỹ thuật phân rã ma trận không âm (Nonnegative Matrix Factorization - NMF). NMF là kỹ thuật phân tích đa biến, phân rã ma trận dữ liệu thành hai ma trận không âm với mục tiêu giảm kích thước dữ liệu và giữ lại cấu trúc tiềm ẩn. Phương pháp này được đánh giá cao về khả năng phân cụm và mô hình hóa tiếng nói, phù hợp cho việc mã hóa nén tiếng nói.

Phạm vi nghiên cứu bao gồm phân tích lý thuyết, cài đặt thực nghiệm trên cơ sở dữ liệu tiếng Việt và đánh giá hiệu quả phương pháp NMF trong mã hóa tiếng nói tốc độ bit thấp. Nghiên cứu có ý nghĩa khoa học và thực tiễn quan trọng, góp phần phát triển các hệ thống truyền thông hiện đại, đặc biệt trong bối cảnh tiếng Việt là ngôn ngữ có cấu trúc âm tiết và thanh điệu đặc thù.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính:

Lý thuyết mã hóa tiếng nói tốc độ bit thấp: Các phương pháp mã hóa truyền thống như mã hóa dự đoán tuyến tính (LPC), mã hóa thích nghi ADPCM, và các bộ mã hóa tham số nguồn được nghiên cứu để giảm tốc độ bit trong khi vẫn đảm bảo chất lượng tiếng nói. LPC là phương pháp phân tích dự đoán tuyến tính, mô hình hóa tín hiệu tiếng nói như một hệ thống thay đổi chậm theo thời gian, được kích thích bởi xung tuần hoàn và nhiễu ngẫu nhiên. LPC giúp ước lượng các tham số cơ bản như cao độ, phổ, formants, và đã được tiêu chuẩn hóa trong các hệ thống viễn thông.
Kỹ thuật phân rã ma trận không âm (NMF): NMF phân rã ma trận dữ liệu V thành tích của hai ma trận không âm W và H sao cho ( V \approx WH ). Tính không âm giúp ma trận kết quả dễ kiểm tra và phù hợp với dữ liệu âm thanh. NMF có tính chất phân cụm tự nhiên, giúp mô hình hóa các đặc trưng tiềm ẩn của tiếng nói. Thuật toán cập nhật nhân của Lee và Seung được sử dụng phổ biến để tìm W và H. NMF cũng có các biến thể như NMF tuần tự, NMF chính xác và các phương pháp tối ưu khác nhằm cải thiện hiệu quả và độ chính xác.

Các khái niệm chính bao gồm:

Ma trận cơ sở (W) và ma trận mã hóa (H) trong NMF
Hàm chi phí lỗi bình phương Frobenius
Thuật toán cập nhật nhân
Tính chất phân cụm và trực giao của NMF
Lượng tử hóa tham số LSF, cao độ và công suất trong mã hóa tiếng nói
Cấu trúc âm tiết và thanh điệu tiếng Việt

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu kết hợp giữa phân tích lý thuyết và thực nghiệm:

Nguồn dữ liệu: Ba bộ cơ sở dữ liệu tiếng nói tiếng Việt được sử dụng gồm:
- Cơ sở dữ liệu phát thanh VOV với 29.062 câu, 15 người nói giọng Hà Nội chuẩn, tần số lấy mẫu 16 KHz.
- Cơ sở dữ liệu DEMEN567 gồm 567 câu, ghi âm 1 nữ phát thanh viên, tần số lấy mẫu 11.025 Hz.
- Cơ sở dữ liệu MICA VNSpeech với 50 người nói đại diện ba phương ngữ miền Nam, Bắc, Trung, tần số lấy mẫu 16 KHz.
Phương pháp phân tích:
- Cài đặt thuật toán mã hóa tiếng nói dùng NMF trên môi trường MATLAB R2012.
- Áp dụng thuật toán NMF của Chien và Xue để phân rã tín hiệu tiếng nói thành các thành phần cơ sở và mã hóa.
- Lượng tử hóa các tham số LSF, cao độ, công suất và ma trận mã hóa H bằng các phương pháp lượng tử hóa vectơ đa giai đoạn và biến đổi cosine rời rạc (DCT).
- Đánh giá chất lượng mã hóa bằng các chỉ số khách quan như PESQ và đánh giá chủ quan theo phương pháp Scheffe.
Timeline nghiên cứu:
- Thu thập và chuẩn bị dữ liệu tiếng nói tiếng Việt.
- Nghiên cứu và cài đặt thuật toán NMF.
- Thực hiện các thí nghiệm mã hóa và lượng tử hóa.
- Đánh giá kết quả và so sánh với các phương pháp mã hóa truyền thống.
- Tổng hợp kết quả và đề xuất giải pháp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả lượng tử hóa LSF:
Lượng tử hóa vectơ ba giai đoạn dự đoán liên khung cho tham số LSF đạt độ méo phổ trung bình (ASD) 1,47 dB, tốt hơn so với phương pháp chia hai giai đoạn với ASD 1,55 dB. Tỷ lệ các khung có độ méo dưới 2 dB chiếm hơn 81%, cho thấy khả năng lượng tử hóa hiệu quả và ổn định.
Độ chính xác lượng tử hóa cao độ:
Thí nghiệm trên 39.044 khung cho thấy 95,73% khung có độ phân giải cao độ lượng tử dưới 3 mẫu, đảm bảo chất lượng tiếng nói tái tạo tốt. Phương pháp lượng tử hóa logarit cao độ kết hợp nhóm khung thành siêu khung giúp giảm bit cần thiết xuống còn 6 bit cho mỗi siêu khung.
Hiệu quả mã hóa ma trận H bằng DCT và lượng tử hóa ma trận:
Việc áp dụng biến đổi cosine rời rạc (DCT) để giảm chiều ma trận H và lượng tử hóa theo sơ đồ phân bổ bit ưu tiên cho các thành phần tần số thấp giúp giảm đáng kể kích thước dữ liệu mà vẫn giữ được chất lượng tiếng nói. Phân bổ bit cho ma trận thấp, trung bình và cao được tối ưu dựa trên đặc tính thính giác.
Đánh giá chất lượng tiếng nói mã hóa bằng NMF:
Kết quả đánh giá khách quan PESQ và đánh giá chủ quan theo phương pháp Scheffe cho thấy phương pháp mã hóa tiếng nói dùng NMF đạt chất lượng tốt ở các tỷ lệ nén từ 20 đến 46 lần. So sánh với các phương pháp truyền thống như LPC và MELP, NMF thể hiện ưu thế về khả năng nén và giữ chất lượng tiếng nói trong điều kiện tốc độ bit thấp.

Thảo luận kết quả

Nguyên nhân của hiệu quả mã hóa tiếng nói bằng NMF xuất phát từ khả năng phân rã tín hiệu thành các thành phần cơ sở không âm, phù hợp với đặc tính tự nhiên của tiếng nói. Tính chất phân cụm của NMF giúp mô hình hóa các đặc trưng âm thanh tiềm ẩn, từ đó giảm thiểu dữ liệu cần truyền mà vẫn giữ được thông tin quan trọng.

So với các nghiên cứu trước đây trên thế giới, kết quả thực nghiệm với tiếng Việt cho thấy phương pháp NMF có thể thích ứng tốt với ngôn ngữ có cấu trúc âm tiết và thanh điệu phức tạp. Việc sử dụng các bộ cơ sở dữ liệu tiếng Việt đa dạng về giọng nói và phương ngữ giúp đánh giá toàn diện hơn về hiệu quả của phương pháp.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh ASD giữa các phương pháp lượng tử hóa, biểu đồ phân bố độ phân giải cao độ, và bảng tổng hợp điểm PESQ ở các tỷ lệ nén khác nhau. Các biểu đồ này minh họa rõ ràng ưu điểm của NMF trong việc cân bằng giữa tốc độ bit và chất lượng tiếng nói.

Đề xuất và khuyến nghị

Phát triển thuật toán NMF tối ưu cho tiếng Việt
Tập trung nghiên cứu các biến thể thuật toán NMF phù hợp với đặc điểm ngữ âm và thanh điệu tiếng Việt nhằm nâng cao hiệu quả mã hóa và giảm độ trễ xử lý. Thời gian thực hiện trong vòng 1-2 năm, do các nhóm nghiên cứu chuyên sâu về xử lý tín hiệu và ngôn ngữ học thực hiện.
Xây dựng cơ sở dữ liệu tiếng nói tiếng Việt đa dạng và chuẩn hóa
Mở rộng và chuẩn hóa các bộ dữ liệu tiếng nói tiếng Việt với nhãn chính xác ở mức âm vị và thanh điệu để phục vụ cho việc huấn luyện và đánh giá các thuật toán mã hóa. Dự kiến hoàn thành trong 3 năm, phối hợp giữa các viện nghiên cứu và trường đại học.
Tích hợp mã hóa NMF vào hệ thống truyền thông di động
Áp dụng phương pháp mã hóa tiếng nói dùng NMF vào các hệ thống viễn thông di động để tiết kiệm băng thông và nâng cao chất lượng thoại trong điều kiện mạng hạn chế. Thời gian triển khai thử nghiệm thực tế khoảng 2 năm, do các doanh nghiệp viễn thông và nhà phát triển phần mềm thực hiện.
Phát triển công cụ đánh giá chất lượng tiếng nói tự động
Xây dựng các công cụ đánh giá khách quan và chủ quan tích hợp để đo lường chất lượng tiếng nói mã hóa theo tiêu chuẩn quốc tế, hỗ trợ quá trình nghiên cứu và phát triển. Thời gian phát triển 1 năm, do các nhóm nghiên cứu về xử lý tín hiệu và trí tuệ nhân tạo đảm nhiệm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Xử lý tín hiệu
Luận văn cung cấp kiến thức chuyên sâu về kỹ thuật NMF và ứng dụng trong mã hóa tiếng nói, hỗ trợ nghiên cứu và phát triển các thuật toán xử lý âm thanh.
Chuyên gia phát triển hệ thống viễn thông và truyền thông đa phương tiện
Các giải pháp mã hóa tiếng nói tốc độ bit thấp giúp tối ưu băng thông và nâng cao chất lượng dịch vụ thoại trong mạng di động và Internet.
Nhà phát triển phần mềm và kỹ sư âm thanh
Cung cấp hướng dẫn cài đặt, lượng tử hóa và đánh giá chất lượng tiếng nói, giúp phát triển các ứng dụng mã hóa, tổng hợp và nhận dạng tiếng nói.
Các tổ chức nghiên cứu ngôn ngữ và công nghệ tiếng Việt
Luận văn hỗ trợ nghiên cứu đặc điểm ngữ âm, thanh điệu tiếng Việt và ứng dụng công nghệ xử lý tiếng nói phù hợp với ngôn ngữ bản địa.

Câu hỏi thường gặp

Phân rã ma trận không âm (NMF) là gì và tại sao nó phù hợp với mã hóa tiếng nói?
NMF là kỹ thuật phân rã ma trận dữ liệu thành hai ma trận không âm nhằm giảm kích thước và giữ cấu trúc tiềm ẩn. Tính không âm phù hợp với dữ liệu âm thanh tự nhiên, giúp mô hình hóa các đặc trưng tiếng nói hiệu quả.
Phương pháp mã hóa tiếng nói dùng NMF có ưu điểm gì so với các phương pháp truyền thống?
NMF cho phép mã hóa tiếng nói tốc độ bit thấp với chất lượng cao nhờ khả năng phân cụm và mô hình hóa đặc trưng tiềm ẩn, đồng thời giảm độ phức tạp tính toán so với một số phương pháp tham số nguồn.
Cơ sở dữ liệu tiếng Việt được sử dụng trong nghiên cứu có đặc điểm gì nổi bật?
Ba bộ dữ liệu gồm VOV, DEMEN567 và MICA VNSpeech có độ đa dạng về giọng nói, phương ngữ và được chuẩn hóa ở mức âm tiết, âm vị, giúp đánh giá toàn diện hiệu quả mã hóa tiếng Việt.
Làm thế nào để đánh giá chất lượng tiếng nói sau khi mã hóa?
Sử dụng các chỉ số khách quan như PESQ và đánh giá chủ quan theo phương pháp Scheffe để đo lường chất lượng âm thanh, độ rõ ràng và sự tự nhiên của tiếng nói tái tạo.
Có thể áp dụng phương pháp này cho các ngôn ngữ khác không?
Có, tuy nhiên hiệu quả có thể khác nhau do đặc điểm ngữ âm và thanh điệu của từng ngôn ngữ. Nghiên cứu cho thấy cần điều chỉnh thuật toán để phù hợp với đặc trưng ngôn ngữ cụ thể.

Kết luận

Phương pháp mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma trận không âm (NMF) là hướng nghiên cứu mới mẻ và hiệu quả, đặc biệt phù hợp với tiếng Việt.
Thuật toán NMF giúp giảm kích thước dữ liệu mã hóa trong khi giữ được chất lượng tiếng nói cao, thể hiện qua các chỉ số ASD và PESQ.
Cơ sở dữ liệu tiếng Việt đa dạng và chuẩn hóa đóng vai trò quan trọng trong việc đánh giá và phát triển các phương pháp mã hóa.
Các giải pháp lượng tử hóa tham số LSF, cao độ và ma trận mã hóa H được tối ưu hóa giúp nâng cao hiệu quả mã hóa.
Đề xuất phát triển thuật toán, cơ sở dữ liệu và tích hợp vào hệ thống truyền thông thực tế nhằm ứng dụng rộng rãi trong tương lai.

Luận văn mở ra hướng nghiên cứu và ứng dụng công nghệ mã hóa tiếng nói hiện đại, góp phần nâng cao chất lượng truyền thông và tiết kiệm tài nguyên mạng. Độc giả và các nhà nghiên cứu được khuyến khích tiếp tục phát triển và ứng dụng các kết quả này trong các dự án thực tế.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 1. Tổng quan về tiếng nói 1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.

Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong viễn thông.

Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu. Dạng sóng tiếng nói một câu tiếng Việt Hình 1.Tiếng nói hữu thanh 1.

Tín hiệu Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác. Chẳng hạn như, hàm: x(t )  40t 2 mô tả tín hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm: s( x, y)  2 x  7 xy  y mô tả tín hiệu là hàm 2 theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.

7 Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên. Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian. Chẳng hạn khi ta phát âm câu “Cô ấy đang đi chơi”, dạng sóng của nó được biểu diễn như Hình 1.

Nguồn tín hiệu Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh âm. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm: môi, răng, lưỡi, còn kích thích là sự rung của dây thanh… 1.

Hệ thống và xử lý tín hiệu Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu. Ví dụ, bộ lọc nhiễu tiếng nói dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu tiếng nói mong muốn.

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác. Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng 8 các giải thuật mã hóa nén tiếng nói.

Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói. Để biến đổi tiếng nói, người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này. Một số ứng dụng của xử lý tiếng nói 1. Tổng quan về mã hóa tiếng nói Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại là một công cụ truyền tin hữu hiệu.

Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ dàng. Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọi điểm trên trái đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng. 9 Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh. Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng và bộ mã hoá tham số nguồn.

Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kế độc lập với nguồn tín hiệu (có nghĩa là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu điểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói, và các môi trường ồn khác nhau. Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương lai. Mã hóa tiếng nói tốc độ bit thấp Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ bit của một kênh thông tin số cơ bản chưa ghép kênh [2]. Khoảng 20 năm trở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch vụ viễn thông tích hợp thoại, hình, số liệu.

thì băng tần truyền dẫn ngày càng trở nên hạn chế. Khi đó, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản 64 Kbps là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa nguồn tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [1, 7, 9, 13]. Các phương pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [11], mã hóa thích nghi CELP [10],.

10 Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự đoán tuyến tính LPC [11]. Đây là phương pháp chọn trên phương pháp coi tín hiệu tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa tuần hoàn và nhiễu ngẫu nhiên.1) k 1 Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tiếng nói có thể xấp xỉ một cách tuyến tính với một mẫu trước đó. Một bộ dự đoán tuyến tính, với hệ số  k được định nghĩa như là một hệ thống mà đầu ra của nó có phương trình: p s ( n)    k s ( n  k ) (1.2) k 1 Sai số dự đoán định nghĩa là e(n) p e(n)   k s(n  k ) (1.3) k 1 Bằng việc tối thiểu hóa tổng bình phương sự khác nhau giữa mẫu thực và mẫu dự đoán được, các hệ số dự đoán sẽ quyết định việc truyền tới thiểu hoá này. Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số cơ bản của tiếng nói như cao độ, formants, phổ,… và mã hoá tốc độ bít thấp để truyền dẫn và lưu trữ.

Điều quan trọng của phương pháp này là khả năng thực hiện ước lượng các thông số này một cách chính xác và mối liên hệ trong việc tính toán tín hiệu tiếng nói. Phương pháp này cũng đã được tiêu chuẩn hóa trong các tiêu chuẩn của ITU-T. Mục tiêu của luận văn 11 Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma trận không âm hiện vẫn được tiếp tục phát triển trong những năm gần đây nhưng ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ. Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm dùng NMF.

Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh giá hiệu quả của phương pháp NMF, từ đó đưa ra các khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân rã ma trận không âm cho phù hợp với tiếng nói tiếng Việt. 12 CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 2. Tổng quan về kỹ thuật phân rã ma trận không âm NMF 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ mã hóa tiếng nói

Kỹ thuật phân rã ma trận

Nghiên cứu và ứng dụng âm thanh

Xử lý tín hiệu và học máy

Nghiên Cứu Phương Pháp Mã Hóa Tiếng Nói Sử Dụng Kỹ Thuật Phân Rã Ma Trận Không Âm

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1. Tổng quan về tiếng nói

1.2. Thông tin tiếng nói

1.3. Hệ thống và xử lý tín hiệu

1.4. Tổng quan về mã hóa tiếng nói

1.5. Mã hóa tiếng nói tốc độ bit thấp

1.6. Mục tiêu của luận văn

2. CHƯƠNG 2: PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF

2.2. Khái niệm

2.3. Lịch sử

2.4. Nền tảng

3. CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

3.1. Thu thập dữ liệu tiếng nói

3.2. Ngữ âm tiếng Việt. Cấu trúc âm tiết tiếng Việt

3.3. Thanh điệu tiếng Việt

3.4. Cơ sở dữ liệu tiếng nói tiếng Việt

3.4.1. Cơ sở dữ liệu tiếng nói phát thanh VOV

3.4.2. Cơ sở dữ liệu DEMEN567

3.4.3. Cơ sở dữ liệu MICA VNSpeech

3.5. Tổng hợp tiếng nói tiếng Việt

3.6. Cài đặt phương pháp mã hóa trên Matlab

3.7. Đánh giá khách quan, chủ quan và so sánh các phương pháp

3.7.1. Đánh giá khách quan và chủ quan

3.7.2. So sánh với các phương pháp khác. Phân tích, đánh giá ưu nhược điểm

TÀI LIỆU THAM KHẢO

I. Phương pháp mã hóa tiếng nói

1.1. Tổng quan về tiếng nói

1.2. Mã hóa tiếng nói tốc độ bit thấp

II. Kỹ thuật phân rã ma trận không âm NMF

2.1. Khái niệm và lịch sử

2.2. Ứng dụng trong mã hóa tiếng nói

III. Đánh giá thực nghiệm

3.1. Thu thập dữ liệu

3.2. Kết quả và phân tích

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Phạm Mạnh Cường

Người hướng dẫn: PGS. TS. Phùng Trung Nghĩa

Trường học: Đại học Công nghệ Thông tin và Truyền thông

Chuyên ngành: Khoa học máy tính

Đề tài: Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2020

Địa điểm: Thái Nguyên

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

SINH VIÊN CŨNG XEM