Luận văn thạc sĩ về ứng dụng FPGA cho nhận dạng tiếng nói tiếng Việt

Luận văn thạc sĩ trình bày ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt, khám phá công nghệ và giải pháp hiệu quả cho lĩnh vực này.

Trường đại học

Không có thông tin

Chuyên ngành

Không có thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn

2013

109

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM TẠ

TÓM TẮT LUẬN VĂN

MASTER ESSAY SUMMARRY

1. CHƯƠNG 1: TỔNG QUAN

1.1. TỔNG QUAN CHUNG VỀ LĨNH VỰC NGHIÊN CỨU

1.2. MỤC TIÊU, KHÁCH THỂ VÀ ĐỐI TƯỢNG NGHIÊN CỨU

1.3. NHIỆM VỤ CỦA ĐỀ TÀI VÀ PHẠM VI NGHIÊN CỨU

1.4. PHƯƠNG PHÁP NGHIÊN CỨU

1.5. NỘI DUNG ĐỀ TÀI

1.6. Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI

2. CHƯƠNG 2: ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

2.1. TỔNG QUAN VỀ TIẾNG NÓI

2.2. CÁC ĐẶC TRƯNG CƠ BẢN CỦA TIẾNG VIỆT

2.3. NGUYÊN ÂM VÀ PHỤ ÂM

3. CHƯƠNG 3: MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3.1. PHÂN LOẠI CÁC HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

3.2. NHẬN DẠNG TỪ LIÊN TỤC VÀ NHẬN DẠNG TỪ CÁCH BIỆT

3.3. NHẬN DẠNG PHỤ THUỘC NGƯỜI NÓI VÀ ĐỘC LẬP NGƯỜI NÓI

3.4. CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN KẾT QUẢ NHẬN DẠNG TIẾNG NÓI

3.5. CẤU TRÚC HỆ NHẬN DẠNG TIẾNG NÓI

3.6. GIẢI THUẬT HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MARKOV ẨN

3.7. PHƯƠNG PHÁP TRÍCH ĐẶC TRƯNG MFCC

3.7.1. BIẾN ĐỔI FFT

3.7.2. LỌC TẦN SỐ THEO THANG TẦN SỐ MEL

3.7.3. PHÂN TÍCH CEPSTRAL

3.7.4. TÍNH TOÁN NĂNG LƯỢNG

3.7.5. HỆ SỐ DELTA

3.8. LƯỢNG TỬ VECTOR

3.8.1. TỔNG QUAN VỀ LƯỢNG TỬ VECTOR (VQ)

3.8.2. CẤU TRÚC VÀ TẬP HUẤN LUYỆN VQ

3.8.3. PHÂN NHÓM CÁC VECTOR HUẤN LUYỆN

4. CHƯƠNG 4: MÔ HÌNH MARKOV ẨN HMM

4.1. QUÁ TRÌNH MARKOV

4.2. MÔ HÌNH MARKOV ẨN

4.3. GIẢI PHÁP TOÁN HỌC CHO BA BÀI TOÁN CƠ BẢN CỦA MÔ HÌNH MARKOV ẨN

4.4. CÁC LOẠI MÔ HÌNH MARKOV ẨN

5. CHƯƠNG 5: KIT DE2 CỦA HÃNG ALTERA

5.1. TỔNG QUAN KIT DE2

5.2. TỔNG QUAN VỀ SOPC TRÊN FPGA

5.3. THIẾT LẬP HỆ THỐNG NIOS TRÊN KIT DE2

6. CHƯƠNG 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG TRÊN KIT DE2 VÀ KẾT QUẢ ĐẠT ĐƯỢC

6.1. LẤY MẪU VÀ TÁCH KHOẢNG LẶNG

6.2. TRÍCH ĐẶC TRƯNG MFCC

6.3. LƯỢNG TỬ VECTOR VQ

6.4. HUẤN LUYỆN MÔ HÌNH HMM

6.5. LƯU ĐỒ GIẢI THUẬT NHẬN DẠNG

6.6. KẾT QUẢ THỰC HIỆN

6.7. KẾT QUẢ NHẬN DẠNG

6.7.1. KẾT QUẢ NHẬN DẠNG CỦA MÔ HÌNH 1

6.7.2. KẾT QUẢ NHẬN DẠNG CỦA MÔ HÌNH 2

6.7.3. KẾT QUẢ NHẬN DẠNG CỦA MÔ HÌNH 3

6.8. KẾT QUẢ ĐÁNH GIÁ SỐ XUNG CLOCK CỦA TỪNG MÔ HÌNH

6.9. NHẬN XÉT KẾT QUẢ

6.10. NHỮNG MỤC TIÊU ĐẠT ĐƯỢC

6.11. HẠN CHẾ CỦA ĐỀ TÀI

6.12. HƯỚNG PHÁT TRIỂN ĐỀ TÀI

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt

Nhận dạng tiếng nói tiếng Việt là một lĩnh vực nghiên cứu quan trọng, đặc biệt trong bối cảnh công nghệ ngày càng phát triển. FPGA (Field Programmable Gate Array) là một giải pháp hiệu quả cho việc xử lý tín hiệu số, giúp nâng cao độ chính xác và tốc độ trong nhận dạng tiếng nói. Việc ứng dụng FPGA trong lĩnh vực này không chỉ mang lại lợi ích về hiệu suất mà còn mở ra nhiều cơ hội mới cho các nghiên cứu và ứng dụng thực tiễn.

1.1. Khái niệm về FPGA và vai trò trong nhận dạng tiếng nói

FPGA là một loại vi mạch có thể lập trình được, cho phép người dùng tùy chỉnh cấu trúc phần cứng theo nhu cầu. Trong nhận dạng tiếng nói, FPGA giúp xử lý tín hiệu nhanh chóng và hiệu quả, từ đó cải thiện độ chính xác của các mô hình nhận dạng.

1.2. Tình hình nghiên cứu nhận dạng tiếng nói tiếng Việt

Nghiên cứu về nhận dạng tiếng nói tiếng Việt đã có nhiều tiến bộ, nhưng vẫn còn nhiều thách thức. Các phương pháp truyền thống thường gặp khó khăn trong việc đạt được độ chính xác cao. Việc ứng dụng FPGA có thể giải quyết một phần những vấn đề này.

II. Thách thức trong nhận dạng tiếng nói tiếng Việt

Nhận dạng tiếng nói tiếng Việt đối mặt với nhiều thách thức, bao gồm sự đa dạng trong cách phát âm, ngữ điệu và ngữ cảnh. Những yếu tố này làm cho việc phát triển các hệ thống nhận dạng trở nên phức tạp hơn. Đặc biệt, tiếng Việt có nhiều âm sắc và thanh điệu, điều này đòi hỏi các thuật toán phải được tối ưu hóa để xử lý chính xác.

2.1. Đặc điểm ngôn ngữ tiếng Việt ảnh hưởng đến nhận dạng

Tiếng Việt có nhiều âm sắc và thanh điệu khác nhau, điều này tạo ra sự khó khăn trong việc nhận diện chính xác các từ. Các hệ thống nhận dạng cần phải được thiết kế để nhận diện được sự khác biệt này.

2.2. Tốc độ và độ chính xác trong xử lý tín hiệu

Tốc độ xử lý tín hiệu là một yếu tố quan trọng trong nhận dạng tiếng nói. FPGA có khả năng xử lý song song, giúp tăng tốc độ nhận dạng mà vẫn đảm bảo độ chính xác cao.

III. Phương pháp trích chọn đặc trưng MFCC trong nhận dạng tiếng nói

Phương pháp trích chọn đặc trưng MFCC (Mel Frequency Cepstral Coefficients) là một trong những kỹ thuật phổ biến nhất trong nhận dạng tiếng nói. MFCC giúp chuyển đổi tín hiệu âm thanh thành các đặc trưng có thể sử dụng cho các mô hình học máy. Việc áp dụng MFCC trong môi trường FPGA giúp tối ưu hóa quá trình xử lý và nâng cao hiệu suất.

3.1. Nguyên lý hoạt động của MFCC

MFCC hoạt động bằng cách phân tích tín hiệu âm thanh thành các thành phần tần số, từ đó trích xuất các đặc trưng quan trọng. Điều này giúp cải thiện khả năng nhận diện của hệ thống.

3.2. Lợi ích của việc sử dụng MFCC trên FPGA

Việc triển khai MFCC trên FPGA cho phép xử lý nhanh chóng và hiệu quả hơn so với các phương pháp truyền thống. Điều này giúp giảm thiểu độ trễ trong nhận dạng tiếng nói.

IV. Mô hình Markov ẩn HMM trong nhận dạng tiếng nói

Mô hình Markov ẩn (HMM) là một trong những phương pháp mạnh mẽ nhất trong nhận dạng tiếng nói. HMM cho phép mô hình hóa các chuỗi tín hiệu âm thanh và dự đoán các từ dựa trên các đặc trưng đã trích xuất. Việc kết hợp HMM với FPGA có thể mang lại những cải tiến đáng kể về hiệu suất.

4.1. Cấu trúc và nguyên lý hoạt động của HMM

HMM sử dụng các trạng thái ẩn để mô hình hóa quá trình nhận dạng tiếng nói. Mỗi trạng thái tương ứng với một phần của tín hiệu âm thanh, giúp hệ thống nhận diện chính xác hơn.

4.2. Ứng dụng HMM trên FPGA

Việc triển khai HMM trên FPGA giúp tăng tốc độ xử lý và giảm thiểu độ trễ, từ đó cải thiện trải nghiệm người dùng trong các ứng dụng nhận dạng tiếng nói.

V. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu đã chỉ ra rằng việc ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt mang lại nhiều kết quả khả quan. Các mô hình thử nghiệm cho thấy độ chính xác cao và tốc độ xử lý nhanh. Điều này mở ra nhiều cơ hội cho việc phát triển các ứng dụng thực tiễn trong lĩnh vực này.

5.1. Đánh giá độ chính xác của mô hình

Các mô hình thử nghiệm cho thấy độ chính xác nhận dạng trung bình đạt trên 90%. Điều này chứng tỏ rằng việc ứng dụng FPGA có thể cải thiện đáng kể hiệu suất nhận dạng.

5.2. Ứng dụng thực tiễn của hệ thống nhận dạng

Hệ thống nhận dạng tiếng nói có thể được ứng dụng trong nhiều lĩnh vực như điều khiển giọng nói, trợ lý ảo, và nhiều ứng dụng khác trong đời sống hàng ngày.

VI. Kết luận và hướng phát triển tương lai

Nghiên cứu về ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt đã mở ra nhiều hướng đi mới cho các nghiên cứu tiếp theo. Việc cải thiện độ chính xác và tốc độ xử lý sẽ là mục tiêu hàng đầu trong tương lai. Các nghiên cứu tiếp theo có thể tập trung vào việc tối ưu hóa các thuật toán và mở rộng ứng dụng của hệ thống.

6.1. Những thành tựu đạt được

Nghiên cứu đã đạt được nhiều thành tựu quan trọng trong việc ứng dụng FPGA vào nhận dạng tiếng nói, từ đó nâng cao hiệu suất và độ chính xác.

6.2. Hướng phát triển trong tương lai

Các nghiên cứu tiếp theo có thể tập trung vào việc phát triển các mô hình mới, cải thiện thuật toán và mở rộng ứng dụng trong các lĩnh vực khác nhau.

18/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng fpga cho nhận dạng tiếng nói tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác Tp. Hồ Chí Minh, ngày 15 tháng 10 năm 2013 (Ký tên và ghi rõ họ tên) Trần Xuân Thiện GVHD: TS. Hoàng Trang Trang ii LỜI CẢM TẠ  Trong thời gian thực hiện đề tài,người thực hiện đã học hỏi được rất nhiều điều bổ ích từ Giáo Viên hướng dẫn và các anh chị trong lớp.

Nhân đây, người thực hiện xin được bày tỏ lòng biết ơn sâu sắc đến thầy Hoàng Trang trên cương vị là người hướng dẫn đề tài, đã tận tình hướng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi nhất cho học viên hoàn thành tốt đề tài. Người thực hiện cũng xin chân thành cảm ơn các thầy, các cô trong khoa Điện - Điện Tử, cùng bạn bè đã đóng góp ý kiến và kinh ngiệm qúy báu trong quá trình thực hiện đề tài này.HỒ CHÍ MINH, Ngày 15tháng 10 năm 2013 Người thực hiện Trần Xuân Thiện GVHD: TS. Hoàng Trang Trang iii TÓM TẮT LUẬN VĂN Vấn đề nhận dạng tiếng nói tiếng Việt đã đƣợc nghiên cứu và phát triển ở Việt Nam nhiều năm qua, với nhiều thuật toán khác nhau trên nền tảng các dòng vi điều khiển, DSP,… khác nhau. Tuy nhiên vấn đề nhận dạng chƣa đạt kết quả tối ƣu về mặc độ chính xác và tốc độ xử lý.

FPGA là một vi mạch có thể lập trình đƣợc, có tốc độ xử lý cao, hỗ trợ mạnh việc xử lý tín hiệu số,… đã đƣợc một số nơi trên thế giới ứng dụng để nhận dạng và xử lý tiếng nói. Phần luận văn sẽ đi tìm hiểu và nghiên cứu thuật toán trích chọn đặc trƣng MFCC, lƣợng tử vector VQ và mô hình Markov ẩn HMM để ứng dụng vào việc nhận dạng các từ đơn lẻ của tiếng nói tiếng Việt nhằm mục đích nâng cao tốc độ xử lý và độ chính xác khi nhận dạng. Việc nhận dạng đƣợc thực thi trên Nios của kit FPGA DE2 của hãng Altera, với bộ từ vựng gồm 10 ký tự số và 5 ký tự đơntheo ba mô hình nhận dạng với hai kích thƣớc codebook khác nhau. Độ chính xác nhận dạng trung bình của các mô hình khi thực hiện nhận dạng 100 lần cho mỗi từ là: - Với codebook 128: mô hình 1 có độ chính xác trung bình 56.5%, mô hình 2 có độ chính xác trung bình 94,73%, mô hình 3 có độ chính xác trung bình 96.87% - Với codebook 32: mô hình 1 có độ chính xác trung bình 49.2%, mô hình 2 có độ chính xác trung bình 94.8%, mô hình 3 có độ chính xác trung bình 91.

Từ khóa:trích đặc trƣng MFCC, mô hình Markov ẩn HMM, Lƣợng tử vector VQ, Kit DE2, Nios System, SoPC. Hoàng Trang Trang iv MASTER ESSAY SUMMARRY The matter of Vietnamese speech recognition has been researched and developed for many years in Viet Nam with a number of diffirent algorithm based on different families of micro – controller, DSP, etc. However, does not reach the best of the aspects of exact and speed of processing. FPGA is an integrate circuit that is able to be programable, high speed processing and strong on support to digital signal processing, etc, has been applied to recognition and voiceprocessing by lots of places in the world.

The Master Essay Summarry is going to study and research the algorithm of feature extraction method MFCC, vector quantization and the Hidden Markov Model to be applied to recognition single words of Vietnamese speech, in order to enhance the exact and speed of processing when being in the process of recognition. The system recognition is carried out on Nios of Kit FPGA DE2 of Altera companywith the vocabulary including 10 numbers and 5 single letters according to three recognition models with two different codebook sizes. The average exact of the models when being applied tothe recognizing process of 100 times for each word is: - In Codebook 128: the average exact of the model 1 is 56.5%, the average exact of the model 2 is 94.73%, the average exact of the model 3 is 96. - In Codebook 32: the average exact of the model 1 is 49.2%, the average exact of the model 2 is 94.8%, the average exact of the model 3 is 91.

Keyword:Feature extranction MFCC, Hidden Markov Model (HMM), vector quantization (VQ), Kit DE2, Nios System, SoPC. Hoàng Trang Trang v MỤC LỤC TRANG TRANG TỰA QUYẾT ĐỊNH GIAO ĐỀ TÀI XÁC NHẬN CỦA CÁN BỘ HƢỚNG DẪN LÝ LỊCH KHOA HỌC. i LỜI CAM ĐOAN .ii LỜI CẢM TẠ. iii TÓM TẮT LUẬN VĂN.

iv MASTER ESSAY SUMMARRY. vi DANH SÁCH CÁC CHỮ VIẾT TẮT. x DANH SÁCH CÁC HÌNH. xi DANH SÁCH CÁC BẢNG.

xiii Chƣơng 1. TỔNG QUAN CHUNG VỀ LĨNH VỰC NGHIÊN CỨU:. Tổng quan về nhận dạng tiếng nói:. Các kết quả nghiên cứu trong và ngoài nƣớc:.

MỤC TIÊU, KHÁCH THỂ VÀ ĐỐI TƢỢNG NGHIÊN CỨU:. Đối tƣợng nghiên cứu:. NHIỆM VỤ CỦA ĐỀ TÀI VÀ PHẠM VI NGHIÊN CỨU:. Phạm vi nghiên cứu:.

PHƢƠNG PHÁP NGHIÊN CỨU:. NỘI DUNG ĐỀ TÀI:. Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI: .8 ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT. Hoàng Trang Trang vi 2.

TỔNG QUAN VỀ TIẾNG NÓI:. Các đặc trƣng cơ bản của Tiếng Việt:. Nguyên âm và phụ âm: .12 MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT. Phân loại các hệ thống nhận dạng tiếng nói:.

Nhận dạng từ liên tục và nhận dạng từ cách biệt:. Nhận dạng phụ thuộc ngƣời nói và độc lập ngƣời nói:. Các yếu tố ảnh hƣởng đến kết quả nhận dạng tiếng nói:. Cấu trúc hệ nhận dạng tiếng nói:.

Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn:. Voice Acivation Detection (VAD):. Phƣơng pháp trích đặc trƣng tiếng nói MFCC:. Biến đổi FFT:.

Lọc tần số theo thang tần số Mel:. Phân tích cepstral:. Tính toán năng lƣợng:. Hệ số delta:.

Lƣợng tử vector:. Tổng quan về lƣợng tử vector (VQ):. Cấu trúc và tập huấn luyện VQ:. Phân nhóm các vector huấn luyện:.

Hoàng Trang Trang vii Chƣơng 4: .34 MÔ HÌNH MARKOV ẨN HMM. Quá trình Markov:. Mô hình Markov ẩn:. Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn:.

Các loại mô hình Markov ẩn:.48 KIT DE2 CỦA HÃNG ALTERA. Tổng quan kit DE2:. Tổng quan về SoPC trên FPGA:. Thiết lập hệ thống NIOS trên kit DE2: .54 THIẾT KẾ HỆ THỐNG NHẬN DẠNG TRÊN KIT DE2 VÀ KẾT QUẢ ĐẠT ĐƢỢC.

Lấy mẫu và tách khoảng lặng:. Trích đặc trƣng MFCC:. Lƣợng tử vetor VQ:. Huấn luyện mô hình HMM:.

Lƣu đồ giải thuật nhận dạng:. Trích đặc trƣng MFCC:. Huấn luyện mô hình HMM:. Giải thuật nhận dạng:.

Kết quả thực hiện:. Hoàng Trang Trang viii 6. Kết quả nhận dạng:. Kết quả nhận dạng của mô hình 1:.

Kết quả nhận dạng của mô hình 2:. Kết quả nhận dạng của mô hình 3:. Kết quả đánh giá số xung clock của từng mô hình:. Nhận xét kết quả:.

Những mục tiêu đạt đƣợc:. Hạn chế của đề tài :. Hƣớng phát triển đề tài:. 80 TÀI LIỆU THAM KHẢO.

Hoàng Trang Trang ix DANH SÁCH CÁC CHỮ VIẾT TẮT MFCC Mel Frequency Cepstrum Coefficients VQ Vector Quantization LPC Linear Predictive Coding DSP Digital Signal Proccesing HMM Hidden Markov Model CD-HMM Continuous Density – Hidden Markov Model VAD Voice Acivation Detection DFT Discrete Fourier Transform FFT Fast Fourier Transform DCT Discrete Cosin Transform FPGA Field Programmable Gate Array RAM Random Access Memory SRAM Static Random Access Memory SDRAM Synchronous Dynamic Random Access Memory PLL Phase Locked Loop JTAG Joint Test Action Group SD Secure Digital SPI Serial Peripheral Interface TV Television SoPC System on a Programmable Chip ADC Analog to Digial Converter DAC Digial to Analog Converter UART Universal Asynchronous Receiver/Transmitter BGA Ball Grid Array LEs Logic Elements DPDT Double Pole Double Throw LBG: Linde-Buzo-Gray GVHD: TS. Hoàng Trang Trang x DANH SÁCH CÁC HÌNH HÌNH TRANG Hình 3. 1: Ngƣời nói khác nhau sẽ phát âm khác nhau. 2: Mô hình nhận dạng tiếng nói bán độc lập ngƣời nói.

3: Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói. 4: Lƣu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn. 5: Đoạn mẫu âm thanh trƣớc khi VAD. 6: Đoạn mẫu âm thanh sau khi VAD.

7: Các bƣớc xử lý của phƣơng pháp trích đặc trƣng MFCC. 8: Đáp ứng tần số đƣợc chuẩn hóa của bộ lọc pre – emphasis. 9: Tín hiệu trƣớc và sau pre – emphasis trong miền thời gian. 10: Các frame trong phân tích tiếng nói.

11: Cửa sổ Hamming 160 điểm. 12: Tín hiệu trƣớc khi cửa sổ hóa. 13: Tín hiệu sau khi cửa sổ hóa. 14: Cửa sổ Hamming dùng trong phân tích tiếng nói.

15: Quá trình phân tích phổ tín hiệu. 16: Đồ thị biểu diễn mối quan hệ giữa tần số Mel và Hertz. 17: Băng bộ lọc, (a) trong thang đo Mel; (b) trong thang đo thông thƣờng 27 Hình 3. 18: Sơ đồ khối cấu trúc của VQ huấn luyện và phân lớp.

19: Lƣu đồ giải thuật VQ. 1: Xích Markov 5 trạng thái S1,S2,.S5 và các xác suất chuyển trạng thái. 2: Ví dụ một mô hình Markov ẩn sáu trạng thái. 3: Mô tả các dãy phép toán đƣợc thực hiện để tính αt(i).

4: Mô tả các dãy phép toán đƣợc thực hiện để tính biến βt(i). 1: KIT FPGA DE2 của hãng Altera. 2: Sơ đồ khối kit DE2. 3: Sơ đồ khối tổng quan của SoPC trên FPGA.

Hoàng Trang Trang xi Hình 5. 4: Thiết lập Nioss II processor. 5: Cấu hình cho khối Audio. 6: Cấu hình cho khối AV_Config.

7: SoPC đã đƣợc tạo hoàn chỉnh. 1: Sơ đồ khối hệ thống nhận dạng tiếng nói trên kit DE2. 2: Lƣu đồ giải thuật loại bỏ khoảng lặng. 3: Lƣu đồ giải thuật trích đặc trƣng MFCC của mô hình 1.

4: Lƣu đồ giải thuật lƣợng tử vector. 5: Lƣu đồ quá trình huấn luyện HMM theo mô hình 1. 6: Lƣu đồ giải thuật huấn luyện HMM. 7: Lƣu đồ giải thuật nhận dạng theo mô hình 1.

8: Lƣu đồ giải thuật trích đặc trƣng MFCC của mô hình 2. 9: Lƣu đồ giải thuật trích đặc trƣng MFCC theo mô hình 3. 10: Lƣu đồ huấn luyện HMM theo mô hình 3. 11: Lƣu đồ giải thuật nhận dạng theo mô hình 3.

Hoàng Trang Trang xii DANH SÁCH CÁC BẢNG BẢNG TRANG Bảng 2. 1: Cấu trúc tổng quát của một âm tiết tiếng Việt. 1: Độ chính xác nhận dạng khi sử dụng bộ lọc tam giác với số lƣợng các bộ lọc khác nhau. 1: Kết quả nhận dạng của mô hình 1 với kích thƣớc codebook 128 .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng FPGA trong công nghệ nhận dạng

Nghiên cứu nhận dạng tiếng nói tiếng Việt

Phương pháp trích chọn đặc trưng tiếng nói

Mô hình Markov trong nhận dạng tiếng nói