Luận văn thạc sĩ HCMUTE về ứng dụng FPGA cho nhận dạng tiếng nói tiếng Việt

Luận văn thạc sĩ HCMUTE nghiên cứu ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt, mang lại giải pháp công nghệ tiên tiến và hiệu quả.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2013

113

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM TẠ

TÓM TẮT LUẬN VĂN

MASTER ESSAY SUMMARRY

1. CHƯƠNG 1: TỔNG QUAN CHUNG VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Tổng quan về nhận dạng tiếng nói

1.2. Các kết quả nghiên cứu trong và ngoài nước

1.3. MỤC TIÊU, KHÁCH THỂ VÀ ĐỐI TƯỢNG NGHIÊN CỨU

1.3.1. Mục tiêu

1.3.2. Đối tượng nghiên cứu

1.4. NHIỆM VỤ CỦA ĐỀ TÀI VÀ PHẠM VI NGHIÊN CỨU

1.4.1. Nhiệm vụ

1.4.2. Phạm vi nghiên cứu

1.5. PHƯƠNG PHÁP NGHIÊN CỨU

2. TỔNG QUAN VỀ TIẾNG NÓI

2.1. Các đặc trưng cơ bản của Tiếng Việt

2.2. Nguyên âm và phụ âm

3. MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3.1. Phân loại các hệ thống nhận dạng tiếng nói

3.2. Nhận dạng từ liên tục và nhận dạng từ cách biệt

3.3. Nhận dạng phụ thuộc người nói và độc lập người nói

3.4. Các yếu tố ảnh hưởng đến kết quả nhận dạng tiếng nói

3.5. Cấu trúc hệ nhận dạng tiếng nói

3.6. Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn

3.7. Voice Activation Detection (VAD)

3.8. Phương pháp trích đặc trưng tiếng nói MFCC

3.8.1. Biến đổi FFT

3.8.2. Lọc tần số theo thang tần số Mel

3.8.3. Phân tích cepstral

3.8.4. Tính toán năng lượng

3.8.5. Hệ số delta

3.9. Lượng tử vector

3.9.1. Tổng quan về lượng tử vector (VQ)

3.9.2. Cấu trúc và tập huấn luyện VQ

3.9.3. Phân nhóm các vector huấn luyện

4. MÔ HÌNH MARKOV ẨN HMM

4.1. Quá trình Markov

4.2. Mô hình Markov ẩn

4.3. Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn

4.4. Các loại mô hình Markov ẩn

5. KIT DE2 CỦA HÃNG ALTERA

5.1. Tổng quan kit DE2

5.2. Tổng quan về SoPC trên FPGA

5.3. Thiết lập hệ thống NIOS trên kit DE2

6. THIẾT KẾ HỆ THỐNG NHẬN DẠNG TRÊN KIT DE2 VÀ KẾT QUẢ ĐẠT ĐƯỢC

6.1. Lấy mẫu và tách khoảng lặng

6.2. Trích đặc trưng MFCC

6.3. Lượng tử vector VQ

6.4. Huấn luyện mô hình HMM

6.5. Lưu đồ giải thuật nhận dạng

6.6. Kết quả thực hiện

7. KẾT QUẢ NHẬN DẠNG

7.1. Kết quả nhận dạng của mô hình 1

7.2. Kết quả nhận dạng của mô hình 2

7.3. Kết quả nhận dạng của mô hình 3

7.4. Kết quả đánh giá số xung clock của từng mô hình

7.5. Nhận xét kết quả

7.6. Những mục tiêu đạt được

7.7. Hạn chế của đề tài

7.8. Hướng phát triển đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói là một lĩnh vực quan trọng trong công nghệ thông tin, đặc biệt là trong việc phát triển các ứng dụng tương tác giữa con người và máy tính. FPGA đã được ứng dụng để cải thiện tốc độ và độ chính xác trong quá trình nhận dạng tiếng nói. Các nghiên cứu trước đây cho thấy rằng việc sử dụng các thuật toán như MFCC và HMM có thể nâng cao hiệu suất nhận dạng. Tuy nhiên, việc áp dụng các công nghệ này vào tiếng Việt vẫn còn nhiều thách thức do sự đa dạng trong cách phát âm và ngữ điệu của người nói. Theo nghiên cứu, việc nhận dạng tiếng nói không chỉ đơn thuần là phân loại âm thanh mà còn liên quan đến việc hiểu ngữ nghĩa và ngữ cảnh của câu nói. Điều này đòi hỏi một hệ thống có khả năng xử lý thông tin âm thanh một cách hiệu quả và chính xác.

1.1. Các phương pháp nhận dạng tiếng nói

Có nhiều phương pháp khác nhau được sử dụng trong nhận dạng tiếng nói, bao gồm mô hình Markov ẩn (HMM) và các phương pháp trích chọn đặc trưng như MFCC. Những phương pháp này đã được áp dụng thành công trong nhiều ngôn ngữ, nhưng việc áp dụng cho tiếng Việt vẫn còn hạn chế. Nghiên cứu cho thấy rằng việc sử dụng FPGA có thể giúp cải thiện tốc độ xử lý và độ chính xác của các mô hình nhận dạng. Hệ thống nhận dạng tiếng nói cần phải được thiết kế để có thể xử lý các biến thể trong cách phát âm và ngữ điệu của người nói. Điều này có thể đạt được thông qua việc sử dụng các thuật toán học máy và mạng nơ-ron để tối ưu hóa quá trình nhận dạng.

II. Ứng dụng công nghệ FPGA trong nhận dạng tiếng nói

Công nghệ FPGA đã mở ra nhiều cơ hội mới trong lĩnh vực nhận dạng tiếng nói. Với khả năng lập trình linh hoạt và tốc độ xử lý cao, FPGA cho phép xây dựng các hệ thống nhận dạng tiếng nói hiệu quả hơn so với các phương pháp truyền thống. Việc sử dụng hệ thống nhận dạng trên nền tảng FPGA giúp giảm thiểu độ trễ trong quá trình xử lý tín hiệu âm thanh. Nghiên cứu cho thấy rằng việc áp dụng công nghệ FPGA có thể cải thiện đáng kể độ chính xác của các mô hình nhận dạng tiếng nói, đặc biệt là trong môi trường có nhiều tiếng ồn. Hệ thống được thiết kế để nhận diện các từ đơn lẻ trong tiếng Việt, với bộ từ vựng bao gồm các ký tự số và ký tự đơn.

2.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng độ chính xác của các mô hình nhận dạng tiếng nói khi sử dụng FPGA là rất khả quan. Cụ thể, mô hình 1 đạt độ chính xác trung bình 56.5% với codebook 128, trong khi mô hình 2 và 3 đạt độ chính xác lần lượt là 94.73% và 96.87%. Những kết quả này cho thấy rằng việc áp dụng công nghệ FPGA trong nhận dạng tiếng nói tiếng Việt không chỉ giúp cải thiện tốc độ xử lý mà còn nâng cao độ chính xác của hệ thống. Điều này mở ra hướng đi mới cho việc phát triển các ứng dụng nhận dạng tiếng nói trong tương lai.

III. Ý nghĩa thực tiễn của nghiên cứu

Nghiên cứu về ứng dụng FPGA trong nhận dạng tiếng nói tiếng Việt có ý nghĩa quan trọng trong việc phát triển các ứng dụng công nghệ thông tin tại Việt Nam. Việc cải thiện độ chính xác và tốc độ xử lý trong nhận dạng tiếng nói sẽ giúp nâng cao trải nghiệm người dùng trong các ứng dụng như trợ lý ảo, hệ thống điều khiển bằng giọng nói và nhiều ứng dụng khác. Hệ thống nhận dạng tiếng nói hiệu quả sẽ góp phần thúc đẩy sự phát triển của các công nghệ mới trong lĩnh vực khoa học máy tính và kỹ thuật điện tử. Hơn nữa, nghiên cứu này cũng mở ra cơ hội cho việc phát triển các sản phẩm công nghệ cao, đáp ứng nhu cầu ngày càng tăng của thị trường.

3.1. Hướng phát triển tương lai

Hướng phát triển tương lai của nghiên cứu này có thể bao gồm việc mở rộng bộ từ vựng và cải thiện các thuật toán nhận dạng để phù hợp hơn với đặc điểm ngôn ngữ và văn hóa Việt Nam. Việc tích hợp các công nghệ mới như trí tuệ nhân tạo và học sâu vào hệ thống nhận dạng tiếng nói sẽ giúp nâng cao khả năng nhận diện và xử lý ngữ nghĩa. Ngoài ra, việc nghiên cứu và phát triển các ứng dụng thực tiễn từ hệ thống nhận dạng tiếng nói sẽ tạo ra nhiều cơ hội việc làm và thúc đẩy sự phát triển của ngành công nghệ thông tin tại Việt Nam.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute ứng dụng fpga cho nhận dạng tiếng nói tiếng việt

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói tiếng Việt là một lĩnh vực nghiên cứu quan trọng trong ngành kỹ thuật điện tử và xử lý tín hiệu số, với nhiều ứng dụng thực tiễn như điều khiển thiết bị, robot, và giao tiếp người-máy. Theo ước tính, các hệ thống nhận dạng tiếng nói hiện nay vẫn chưa đạt được độ chính xác và tốc độ xử lý tối ưu, đặc biệt khi áp dụng cho tiếng Việt với đặc thù ngôn ngữ riêng biệt. Luận văn tập trung nghiên cứu và ứng dụng FPGA (Field Programmable Gate Array) – một loại vi mạch lập trình được có tốc độ xử lý cao và khả năng hỗ trợ mạnh mẽ cho xử lý tín hiệu số – nhằm nâng cao hiệu quả nhận dạng tiếng nói tiếng Việt.

Mục tiêu cụ thể của nghiên cứu là xây dựng mô hình nhận dạng các từ đơn lẻ trong tiếng Việt sử dụng thuật toán trích chọn đặc trưng MFCC (Mel Frequency Cepstrum Coefficients), lượng tử vector VQ (Vector Quantization) và mô hình Markov ẩn HMM (Hidden Markov Model). Hệ thống được triển khai trên nền tảng Nios II của kit FPGA DE2 của hãng Altera, với bộ từ vựng gồm 10 ký tự số và 5 ký tự đơn như “tiến”, “lùi”, “trái”, “phải”, “dừng”. Phạm vi nghiên cứu kéo dài từ tháng 2/2012 đến tháng 10/2013 tại Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh.

Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện đáng kể tốc độ xử lý và độ chính xác nhận dạng tiếng nói, đồng thời cung cấp nền tảng kỹ thuật cho các ứng dụng thực tế trong điều khiển bằng giọng nói và giao tiếp người-máy. Kết quả thực nghiệm cho thấy độ chính xác nhận dạng trung bình của các mô hình đạt từ khoảng 49% đến gần 97% tùy theo kích thước codebook và mô hình sử dụng, góp phần nâng cao hiệu quả và tính khả thi của hệ thống nhận dạng tiếng nói tiếng Việt trên nền FPGA.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình chính trong lĩnh vực nhận dạng tiếng nói:

Thuật toán trích chọn đặc trưng MFCC: Đây là phương pháp trích xuất các hệ số đặc trưng âm học từ tín hiệu tiếng nói dựa trên thang tần số Mel, phản ánh đặc tính thính giác của con người. MFCC giúp chuyển đổi tín hiệu âm thanh thành các vector đặc trưng có ý nghĩa, giảm thiểu ảnh hưởng của nhiễu và biến đổi âm thanh.
Lượng tử vector VQ: Phương pháp này dùng để lượng tử hóa chuỗi vector đặc trưng MFCC thành các nhãn rời rạc, giảm số lượng dữ liệu cần xử lý và lưu trữ. Việc lựa chọn kích thước codebook (32 hoặc 128) ảnh hưởng đến độ chính xác và hiệu suất tính toán của hệ thống.
Mô hình Markov ẩn HMM: Mô hình thống kê này được sử dụng để mô phỏng quá trình phát âm tiếng nói, cho phép huấn luyện và nhận dạng các chuỗi đặc trưng dựa trên xác suất chuyển trạng thái và xác suất quan sát. HMM hỗ trợ nhận dạng các từ đơn lẻ trong tiếng Việt với độ chính xác cao.

Các khái niệm chuyên ngành quan trọng bao gồm: Voice Activation Detection (VAD) để loại bỏ khoảng lặng trong tín hiệu, Fast Fourier Transform (FFT) để phân tích phổ tín hiệu, và SoPC (System on a Programmable Chip) để tích hợp hệ thống trên FPGA.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các mẫu tiếng nói tiếng Việt được thu âm với tần số lấy mẫu 8kHz, mỗi lần thu khoảng 1 giây, bao gồm 10 ký tự số và 5 từ đơn. Cỡ mẫu thực nghiệm gồm 100 lần nhận dạng cho mỗi từ nhằm đánh giá độ chính xác và hiệu suất.

Phương pháp phân tích bao gồm:

Tiền xử lý tín hiệu: Sử dụng VAD để loại bỏ khoảng lặng, áp dụng bộ lọc pre-emphasis và cửa sổ Hamming để chuẩn bị tín hiệu cho trích đặc trưng.
Trích đặc trưng MFCC: Thực hiện các bước như biến đổi FFT, lọc theo thang Mel, phân tích cepstral, tính toán năng lượng và hệ số delta.
Lượng tử vector VQ: Áp dụng thuật toán K-means để xây dựng codebook với hai kích thước 32 và 128, phân nhóm các vector đặc trưng.
Huấn luyện và nhận dạng bằng HMM: Xây dựng ba mô hình nhận dạng khác nhau, huấn luyện trên tập dữ liệu đã lượng tử hóa, và đánh giá kết quả nhận dạng.

Timeline nghiên cứu được chia thành bốn giai đoạn chính: thu thập tài liệu (2/2012 – 3/2012), nghiên cứu lý thuyết và thuật toán (4/2012 – 6/2012), xây dựng và thử nghiệm mô hình trên kit FPGA DE2 (7/2012 – 6/2013), và hoàn thiện báo cáo luận văn (7/2013).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng theo mô hình và kích thước codebook:
- Với codebook 128, mô hình 1 đạt 56.5%, mô hình 2 đạt 94.73%, mô hình 3 đạt 96.87%.
- Với codebook 32, mô hình 1 đạt 49.2%, mô hình 2 đạt 94.8%, mô hình 3 đạt 91%.
  Kết quả cho thấy mô hình 3 với codebook 128 có độ chính xác cao nhất, gần 97%, trong khi mô hình 1 có độ chính xác thấp nhất.
Ảnh hưởng của kích thước codebook:
Codebook lớn hơn (128) giúp giảm sai số lượng tử và tăng độ chính xác nhận dạng, nhưng đồng thời tăng không gian lưu trữ và thời gian tính toán. Codebook nhỏ (32) giảm tải tính toán nhưng làm giảm độ chính xác nhận dạng.
Hiệu suất xử lý trên FPGA:
Số xung clock đánh giá cho thấy mô hình 3 tiêu thụ nhiều tài nguyên hơn nhưng bù lại cho độ chính xác cao. Mô hình 2 cân bằng giữa độ chính xác và hiệu suất xử lý.
Tác động của thuật toán trích đặc trưng MFCC và lượng tử vector VQ:
Việc sử dụng MFCC kết hợp với VQ giúp giảm đáng kể khối lượng dữ liệu đầu vào cho mô hình HMM, từ đó tăng tốc độ xử lý mà vẫn giữ được độ chính xác cao.

Thảo luận kết quả

Nguyên nhân chính dẫn đến sự khác biệt về độ chính xác giữa các mô hình là do cấu trúc và cách huấn luyện mô hình HMM, cũng như kích thước codebook ảnh hưởng đến khả năng biểu diễn đặc trưng tiếng nói. Mô hình 3 có cấu trúc phức tạp hơn, cho phép mô phỏng chính xác hơn các biến đổi trong tín hiệu tiếng nói, từ đó nâng cao độ chính xác nhận dạng.

So sánh với các nghiên cứu trước đây trong nước, kết quả của luận văn đạt độ chính xác tương đương hoặc cao hơn, đặc biệt khi áp dụng trên nền FPGA giúp tăng tốc độ xử lý so với các hệ thống dùng vi điều khiển hoặc DSP. Việc triển khai trên kit DE2 của Altera với Nios II cho thấy khả năng ứng dụng thực tế cao, phù hợp cho các hệ thống điều khiển bằng giọng nói trong môi trường tiếng Việt.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh độ chính xác của ba mô hình với hai kích thước codebook, cùng bảng số liệu chi tiết về số xung clock tiêu thụ, giúp minh họa rõ ràng hiệu quả và chi phí tài nguyên của từng mô hình.

Đề xuất và khuyến nghị

Tối ưu hóa kích thước codebook: Đề xuất sử dụng codebook kích thước 128 cho các ứng dụng yêu cầu độ chính xác cao, trong khi codebook 32 phù hợp với các hệ thống có hạn chế về tài nguyên và yêu cầu tốc độ xử lý nhanh. Thời gian thực hiện: 6 tháng; chủ thể: nhóm phát triển phần mềm và phần cứng.
Phát triển mô hình HMM phức tạp hơn: Nâng cấp mô hình nhận dạng bằng cách tăng số trạng thái hoặc áp dụng mô hình HMM hỗn hợp (CD-HMM) để cải thiện độ chính xác nhận dạng trong môi trường nhiễu. Thời gian thực hiện: 1 năm; chủ thể: nhóm nghiên cứu và phát triển.
Mở rộng bộ từ vựng và nhận dạng từ liên tục: Nghiên cứu mở rộng bộ từ vựng vượt quá 15 từ và phát triển khả năng nhận dạng câu nói liên tục thay vì từ đơn lẻ, nhằm tăng tính ứng dụng thực tế. Thời gian thực hiện: 1-2 năm; chủ thể: nhóm nghiên cứu.
Tích hợp hệ thống nhận dạng vào các thiết bị điều khiển thực tế: Áp dụng hệ thống nhận dạng tiếng nói trên FPGA vào các thiết bị điều khiển robot, thiết bị gia dụng thông minh, hoặc hệ thống giao tiếp người-máy. Thời gian thực hiện: 6-12 tháng; chủ thể: doanh nghiệp công nghệ và nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành Kỹ thuật Điện tử, Viễn thông: Luận văn cung cấp kiến thức chuyên sâu về nhận dạng tiếng nói, thuật toán MFCC, VQ và HMM, cũng như ứng dụng thực tế trên FPGA, hỗ trợ học tập và nghiên cứu.
Kỹ sư phát triển hệ thống nhúng và xử lý tín hiệu số: Tài liệu giúp hiểu rõ cách triển khai hệ thống nhận dạng tiếng nói trên nền FPGA, từ đó áp dụng vào thiết kế các sản phẩm công nghệ cao.
Nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo: Cung cấp cơ sở lý thuyết và thực nghiệm về mô hình nhận dạng tiếng nói tiếng Việt, phục vụ phát triển các ứng dụng AI liên quan.
Doanh nghiệp công nghệ phát triển sản phẩm điều khiển giọng nói: Tham khảo để xây dựng hoặc cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt với hiệu suất cao và độ chính xác tốt, phù hợp với thị trường trong nước.

Câu hỏi thường gặp

FPGA có ưu điểm gì so với vi điều khiển trong nhận dạng tiếng nói?
FPGA có tốc độ xử lý cao hơn và khả năng xử lý song song tốt, giúp tăng tốc độ nhận dạng tiếng nói so với vi điều khiển. Ví dụ, hệ thống trên kit DE2 xử lý nhanh hơn đáng kể so với các hệ thống dùng vi điều khiển phổ biến.
Tại sao chọn thuật toán MFCC để trích đặc trưng tiếng nói?
MFCC phản ánh đặc tính thính giác của con người và có khả năng trích xuất đặc trưng âm học hiệu quả, giúp tăng độ chính xác nhận dạng. Đây là phương pháp phổ biến và được chứng minh hiệu quả trong nhiều nghiên cứu.
Kích thước codebook ảnh hưởng thế nào đến kết quả nhận dạng?
Codebook lớn hơn giảm sai số lượng tử, tăng độ chính xác nhưng tốn nhiều tài nguyên tính toán và lưu trữ. Codebook nhỏ hơn tiết kiệm tài nguyên nhưng giảm độ chính xác. Cần cân nhắc tùy theo yêu cầu ứng dụng.
Mô hình Markov ẩn HMM hoạt động như thế nào trong nhận dạng tiếng nói?
HMM mô hình hóa quá trình phát âm như một chuỗi các trạng thái ẩn, sử dụng xác suất chuyển trạng thái và xác suất quan sát để huấn luyện và nhận dạng chuỗi đặc trưng tiếng nói, giúp phân biệt các từ hiệu quả.
Hệ thống có thể nhận dạng tiếng nói liên tục không?
Luận văn tập trung nhận dạng từ đơn lẻ với khoảng nghỉ rõ ràng. Nhận dạng tiếng nói liên tục phức tạp hơn và cần phát triển thêm các thuật toán tách từ và mô hình ngôn ngữ phức tạp hơn, là hướng nghiên cứu tiếp theo.

Kết luận

Luận văn đã xây dựng thành công mô hình nhận dạng tiếng nói tiếng Việt trên nền FPGA sử dụng thuật toán MFCC, lượng tử vector VQ và mô hình Markov ẩn HMM.
Độ chính xác nhận dạng đạt tới gần 97% với mô hình và codebook tối ưu, đồng thời cải thiện đáng kể tốc độ xử lý so với các nền tảng truyền thống.
Nghiên cứu cung cấp cơ sở kỹ thuật và dữ liệu thực nghiệm quan trọng cho việc phát triển các hệ thống nhận dạng tiếng nói tiếng Việt ứng dụng trong thực tế.
Hạn chế hiện tại là phạm vi từ vựng còn hạn chế và chưa hỗ trợ nhận dạng tiếng nói liên tục, cần được mở rộng trong các nghiên cứu tiếp theo.
Khuyến nghị tiếp tục tối ưu mô hình, mở rộng bộ từ vựng và tích hợp hệ thống vào các thiết bị điều khiển thực tế để nâng cao tính ứng dụng.

Để tiếp tục phát triển, các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng kết quả này vào các dự án thực tế, đồng thời mở rộng nghiên cứu sang nhận dạng tiếng nói liên tục và đa ngôn ngữ. Hãy bắt đầu ứng dụng công nghệ FPGA trong nhận dạng tiếng nói để nâng cao hiệu quả và trải nghiệm người dùng trong các sản phẩm công nghệ hiện đại.

Trích đoạn nội dung tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN XUÂN THIỆN ỨNG DỤNG FPGA CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 S KC 0 0 4 1 3 5 Tp. Hồ Chí Minh, tháng 10 năm 2013 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN XUÂN THIỆN ỨNG DỤNG FPGA CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Hướng dẫn khoa học: TS. HOÀNG TRANG Tp. Hồ Chí Minh, tháng 10 / 2013 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ TRẦN XUÂN THIỆN ỨNG DỤNG FPGA CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Hƣớng dẫn khoa học: TS.

HOÀNG TRANG GVHD: TS. Hoàng Trang Trang 1 Tp. Hồ Chí Minh, tháng 10 / 2013 Luan van LÝ LỊCH KHOA HỌC I. LÝ LỊCH SƠ LƢỢC: Họ & tên: Trần Xuân Thiện Giới tính: Nam Ngày, tháng, năm sinh:20/06/1984 Nơi sinh: Phú Yên Quê quán:Phú Yên Dân tộc: Kinh Chỗ ở riêng hoặc địa chỉ liên lạc: Số 26/3, đƣờng Tú Xƣơng – Tăng Nhơn Phú B – Quận 9 – Tp.

Điện thoại cơ quan: (0650).3774647 Điện thoại nhà riêng: 0908787761 Fax: (0650). QUÁ TRÌNH ĐÀO TẠO 1. Trung học chuyên nghiệp: Hệ đào tạo: Thời gian đào tạo từ ……/…… đến ……/ …… Nơi học (trƣờng, thành phố): Ngành học: 2. Đại học: Hệ đào tạo: Chính Quy Thời gian đào tạo từ08/2003đến 03/2008 Nơi học (trƣờng, thành phố): Trƣờng Đại Học Sƣ Phạm Kỹ Thuật Tp.HCM Ngành học: Kỹ Thuật Điện – Điện Tử Tên đồ án, luận án hoặc môn thi tốt nghiệp: NGHIÊN CỨU IC LAYOUT VÀ THIẾT KẾ MỘT SỐ ỨNG DỤNG Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: 20/01/2008 Ngƣời hƣớng dẫn: ThS.

Đậu Trọng Hiển III. QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Công việc đảm nhiệm 03/2008 – 8/2008 Công ty TNHH Micro Design Kỹ sƣ thiết kế Công ty Grey Stone Data 8/2008-12/2008 Kỹ sƣ thiết kế Logic System Vietnam Trƣờng Cao Đẳng Nghề Công Giảng viên bộ môn Điện Tử 1/2009 – nay Nghệ Cao Đồng An Công Nghiệp GVHD: TS. Hoàng Trang Trang i Luan van LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác Tp.

Hồ Chí Minh, ngày 15 tháng 10 năm 2013 (Ký tên và ghi rõ họ tên) Trần Xuân Thiện GVHD: TS. Hoàng Trang Trang ii Luan van LỜI CẢM TẠ  Trong thời gian thực hiện đề tài,người thực hiện đã học hỏi được rất nhiều điều bổ ích từ Giáo Viên hướng dẫn và các anh chị trong lớp. Nhân đây, người thực hiện xin được bày tỏ lòng biết ơn sâu sắc đến thầy Hoàng Trang trên cương vị là người hướng dẫn đề tài, đã tận tình hướng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi nhất cho học viên hoàn thành tốt đề tài. Người thực hiện cũng xin chân thành cảm ơn các thầy, các cô trong khoa Điện - Điện Tử, cùng bạn bè đã đóng góp ý kiến và kinh ngiệm qúy báu trong quá trình thực hiện đề tài này.HỒ CHÍ MINH, Ngày 15tháng 10 năm 2013 Người thực hiện Trần Xuân Thiện GVHD: TS.

Hoàng Trang Trang iii Luan van TÓM TẮT LUẬN VĂN Vấn đề nhận dạng tiếng nói tiếng Việt đã đƣợc nghiên cứu và phát triển ở Việt Nam nhiều năm qua, với nhiều thuật toán khác nhau trên nền tảng các dòng vi điều khiển, DSP,… khác nhau. Tuy nhiên vấn đề nhận dạng chƣa đạt kết quả tối ƣu về mặc độ chính xác và tốc độ xử lý. FPGA là một vi mạch có thể lập trình đƣợc, có tốc độ xử lý cao, hỗ trợ mạnh việc xử lý tín hiệu số,… đã đƣợc một số nơi trên thế giới ứng dụng để nhận dạng và xử lý tiếng nói. Phần luận văn sẽ đi tìm hiểu và nghiên cứu thuật toán trích chọn đặc trƣng MFCC, lƣợng tử vector VQ và mô hình Markov ẩn HMM để ứng dụng vào việc nhận dạng các từ đơn lẻ của tiếng nói tiếng Việt nhằm mục đích nâng cao tốc độ xử lý và độ chính xác khi nhận dạng.

Việc nhận dạng đƣợc thực thi trên Nios của kit FPGA DE2 của hãng Altera, với bộ từ vựng gồm 10 ký tự số và 5 ký tự đơntheo ba mô hình nhận dạng với hai kích thƣớc codebook khác nhau. Độ chính xác nhận dạng trung bình của các mô hình khi thực hiện nhận dạng 100 lần cho mỗi từ là: - Với codebook 128: mô hình 1 có độ chính xác trung bình 56.5%, mô hình 2 có độ chính xác trung bình 94,73%, mô hình 3 có độ chính xác trung bình 96.87% - Với codebook 32: mô hình 1 có độ chính xác trung bình 49.2%, mô hình 2 có độ chính xác trung bình 94.8%, mô hình 3 có độ chính xác trung bình 91. Từ khóa:trích đặc trƣng MFCC, mô hình Markov ẩn HMM, Lƣợng tử vector VQ, Kit DE2, Nios System, SoPC. Hoàng Trang Trang iv Luan van MASTER ESSAY SUMMARRY The matter of Vietnamese speech recognition has been researched and developed for many years in Viet Nam with a number of diffirent algorithm based on different families of micro – controller, DSP, etc.

However, does not reach the best of the aspects of exact and speed of processing. FPGA is an integrate circuit that is able to be programable, high speed processing and strong on support to digital signal processing, etc, has been applied to recognition and voiceprocessing by lots of places in the world. The Master Essay Summarry is going to study and research the algorithm of feature extraction method MFCC, vector quantization and the Hidden Markov Model to be applied to recognition single words of Vietnamese speech, in order to enhance the exact and speed of processing when being in the process of recognition. The system recognition is carried out on Nios of Kit FPGA DE2 of Altera companywith the vocabulary including 10 numbers and 5 single letters according to three recognition models with two different codebook sizes.

The average exact of the models when being applied tothe recognizing process of 100 times for each word is: - In Codebook 128: the average exact of the model 1 is 56.5%, the average exact of the model 2 is 94.73%, the average exact of the model 3 is 96. - In Codebook 32: the average exact of the model 1 is 49.2%, the average exact of the model 2 is 94.8%, the average exact of the model 3 is 91. Keyword:Feature extranction MFCC, Hidden Markov Model (HMM), vector quantization (VQ), Kit DE2, Nios System, SoPC. Hoàng Trang Trang v Luan van MỤC LỤC TRANG TRANG TỰA QUYẾT ĐỊNH GIAO ĐỀ TÀI XÁC NHẬN CỦA CÁN BỘ HƢỚNG DẪN LÝ LỊCH KHOA HỌC.

i LỜI CAM ĐOAN .ii LỜI CẢM TẠ. iii TÓM TẮT LUẬN VĂN. iv MASTER ESSAY SUMMARRY. vi DANH SÁCH CÁC CHỮ VIẾT TẮT.

x DANH SÁCH CÁC HÌNH. xi DANH SÁCH CÁC BẢNG. xiii Chƣơng 1. TỔNG QUAN CHUNG VỀ LĨNH VỰC NGHIÊN CỨU:.

Tổng quan về nhận dạng tiếng nói:. Các kết quả nghiên cứu trong và ngoài nƣớc:. MỤC TIÊU, KHÁCH THỂ VÀ ĐỐI TƢỢNG NGHIÊN CỨU:. Đối tƣợng nghiên cứu:.

NHIỆM VỤ CỦA ĐỀ TÀI VÀ PHẠM VI NGHIÊN CỨU:. Phạm vi nghiên cứu:. PHƢƠNG PHÁP NGHIÊN CỨU:. NỘI DUNG ĐỀ TÀI:.

Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI: .8 ĐẶC TRƢNG TIẾNG NÓI TIẾNG VIỆT. Hoàng Trang Trang vi Luan van 2. TỔNG QUAN VỀ TIẾNG NÓI:. Các đặc trƣng cơ bản của Tiếng Việt:.

Nguyên âm và phụ âm: .12 MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT. Phân loại các hệ thống nhận dạng tiếng nói:. Nhận dạng từ liên tục và nhận dạng từ cách biệt:. Nhận dạng phụ thuộc ngƣời nói và độc lập ngƣời nói:.

Các yếu tố ảnh hƣởng đến kết quả nhận dạng tiếng nói:. Cấu trúc hệ nhận dạng tiếng nói:. Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn:. Voice Acivation Detection (VAD):.

Phƣơng pháp trích đặc trƣng tiếng nói MFCC:. Biến đổi FFT:. Lọc tần số theo thang tần số Mel:. Phân tích cepstral:.

Tính toán năng lƣợng:. Hệ số delta:. Lƣợng tử vector:. Tổng quan về lƣợng tử vector (VQ):.

Cấu trúc và tập huấn luyện VQ:. Phân nhóm các vector huấn luyện:. Hoàng Trang Trang vii Luan van Chƣơng 4: .34 MÔ HÌNH MARKOV ẨN HMM. Quá trình Markov:.

Mô hình Markov ẩn:. Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn:. Các loại mô hình Markov ẩn:.48 KIT DE2 CỦA HÃNG ALTERA. Tổng quan kit DE2:.

Tổng quan về SoPC trên FPGA:. Thiết lập hệ thống NIOS trên kit DE2: .54 THIẾT KẾ HỆ THỐNG NHẬN DẠNG TRÊN KIT DE2 VÀ KẾT QUẢ ĐẠT ĐƢỢC. Lấy mẫu và tách khoảng lặng:. Trích đặc trƣng MFCC:.

Lƣợng tử vetor VQ:. Huấn luyện mô hình HMM:. Lƣu đồ giải thuật nhận dạng:. Trích đặc trƣng MFCC:.

Huấn luyện mô hình HMM:. Giải thuật nhận dạng:. Kết quả thực hiện:. Hoàng Trang Trang viii Luan van 6.

Kết quả nhận dạng:. Kết quả nhận dạng của mô hình 1:. Kết quả nhận dạng của mô hình 2:. Kết quả nhận dạng của mô hình 3:.

Kết quả đánh giá số xung clock của từng mô hình:. Nhận xét kết quả:. Những mục tiêu đạt đƣợc:. Hạn chế của đề tài :.

Hƣớng phát triển đề tài:. 80 TÀI LIỆU THAM KHẢO. Hoàng Trang Trang ix Luan van DANH SÁCH CÁC CHỮ VIẾT TẮT MFCC Mel Frequency Cepstrum Coefficients VQ Vector Quantization LPC Linear Predictive Coding DSP Digital Signal Proccesing HMM Hidden Markov Model CD-HMM Continuous Density – Hidden Markov Model VAD Voice Acivation Detection DFT Discrete Fourier Transform FFT Fast Fourier Transform DCT Discrete Cosin Transform FPGA Field Programmable Gate Array RAM Random Access Memory SRAM Static Random Access Memory SDRAM Synchronous Dynamic Random Access Memory PLL Phase Locked Loop JTAG Joint Test Action Group SD Secure Digital SPI Serial Peripheral Interface TV Television SoPC System on a Programmable Chip ADC Analog to Digial Converter DAC Digial to Analog Converter UART Universal Asynchronous Receiver/Transmitter BGA Ball Grid Array LEs Logic Elements DPDT Double Pole Double Throw LBG: Linde-Buzo-Gray GVHD: TS. Hoàng Trang Trang x Luan van DANH SÁCH CÁC HÌNH HÌNH TRANG Hình 3.

1: Ngƣời nói khác nhau sẽ phát âm khác nhau. 2: Mô hình nhận dạng tiếng nói bán độc lập ngƣời nói. 3: Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói. 4: Lƣu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn.

5: Đoạn mẫu âm thanh trƣớc khi VAD. 6: Đoạn mẫu âm thanh sau khi VAD. 7: Các bƣớc xử lý của phƣơng pháp trích đặc trƣng MFCC .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ HCMUTE về ứng dụng FPGA cho nhận dạng tiếng nói tiếng Việt" của tác giả Trần Xuân Thiện, dưới sự hướng dẫn của TS. Hoàng Trang, trình bày về việc ứng dụng công nghệ FPGA trong lĩnh vực nhận dạng tiếng nói tiếng Việt. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về công nghệ FPGA mà còn mở ra hướng đi mới cho việc phát triển các hệ thống nhận dạng tiếng nói, đặc biệt là trong ngữ cảnh tiếng Việt. Độc giả sẽ tìm thấy những lợi ích từ việc áp dụng công nghệ này trong các ứng dụng thực tiễn, từ đó nâng cao khả năng tương tác giữa con người và máy móc.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến công nghệ thông tin và ứng dụng trong giáo dục, hãy tham khảo thêm bài viết Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android. Bài viết này cũng đề cập đến công nghệ nhận dạng giọng nói, nhưng từ góc độ ứng dụng trong thiết bị thông minh.

Ngoài ra, bạn có thể tìm hiểu thêm về Ứng Dụng Thuật Toán Nhận Dạng Trong Điểm Danh Học Sinh, một nghiên cứu khác trong lĩnh vực công nghệ thông tin, nơi thuật toán nhận dạng được áp dụng để cải thiện quy trình điểm danh học sinh.

Cuối cùng, bài viết Vận dụng thuật toán nhận dạng ảnh để điểm danh học sinh trong lớp học cũng mang đến cái nhìn thú vị về việc ứng dụng công nghệ nhận dạng trong môi trường giáo dục, giúp bạn mở rộng thêm kiến thức về các ứng dụng thực tiễn của công nghệ trong giáo dục.

#Luận văn Thạc sĩ

#hệ thống nhúng

#nhận dạng tiếng nói

#xử lý tín hiệu

#công nghệ nhận dạng tiếng nói

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin

Hệ thống nhúng và ứng dụng

Nhận dạng tiếng nói