Nghiên Cứu Hệ Thống Nhận Dạng Giọng Nói Tiếng Việt Ứng Dụng Mô Hình DHMM

Luận văn thạc sĩ kỹ thuật nghiên cứu kỹ thuật điều khiển và tự động hóa nhận dạng tiếng nói ứng dụng trong điều khiển, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Kỹ thuật điều khiển và tự động hóa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CÁM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU VỀ ĐỀ TÀI

1.1. Giới thiệu về nhận dạng tiếng nói

1.2. Ý nghĩa khoa học và thực tiễn việc nghiên cứu đề tài

1.3. Tổng quan về các nghiên cứu liên quan

1.4. Mục tiêu luận văn và các phương pháp thực hiện

2. CHƯƠNG 2: GIỚI THIỆU VỀ XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI

2.1. Cơ bản về tín hiệu tiếng nói

2.2. Định nghĩa tiếng nói

2.3. Hệ thống tạo tiếng nói của con người

2.4. Đặc điểm chung lời nói

2.5. Các kỹ thuật xử lý tiếng nói

2.5.1. Kỹ thuật xử lý tín hiệu số lời nói ngắn hạn

2.5.2. Phân tích dự báo tuyến tính lời nói

2.5.3. Phân tích Cepstrum

2.5.4. Phân tích Mel-Cepstrum

2.6. Hệ thống nhận dạng tiếng nói tự động (ASR)

2.7. Hệ thống tự động nhận dạng giọng nói

2.8. Vấn đề ảnh hưởng đến ASR

2.9. Lượng tử đặc trưng

2.10. Mô hình Markov ẩn rời rạc

2.11. Huấn luyện và nhận dạng DHMM

2.12. Thuật toán huấn luyện DHMM Baum-Welch

2.13. Vấn đề nhận dạng

3. CHƯƠNG 3: PHÁT HIỆN TÍN HIỆU TIẾNG NÓI

3.1. Thuật toán phát hiện điểm kết thúc

3.2. Thủ tục tính toán ngưỡng

3.3. Thủ tục phát hiện khởi điểm và kết thúc điểm

3.4. Thuật toán phát hiện điểm bắt đầu

3.5. Thuật toán phát hiện điểm cuối

3.6. Thuật toán phát hiện tín hiệu tiếng nói

4. CHƯƠNG 4: TRÍCH XUẤT ĐẶC TRƯNG TÍN HIỆU TIẾNG NÓI

4.1. Thực hiện trích xuất đặc trưng tín hiệu tiếng nói

4.2. Mô tả chung

4.3. Thủ tục trích xuất đặc trưng

4.4. Quá trình đồng bộ hóa các thủ tục phát hiện điểm kết thúc và thủ tục trích xuất đặc trưng

5. CHƯƠNG 5: LƯỢNG TỬ HÓA ĐẶC TRƯNG LỌT NỐI

5.1. Thủ tục lượng tử hóa

5.2. Tập vector huấn luyện

5.3. Khoảng cách giữa hai vector

5.4. Nhân của một tập vector

5.5. Phần cụm các vector

6. CHƯƠNG 6: MÔ HÌNH MARKOV ẨN (HIDDEN MARKOV MODEL)

6.1. Các quá trình Markov

6.2. Mô hình Markov ẩn

6.3. Thành phần của mô hình Markov ẩn

6.4. Ba bài toán cơ bản của mô hình Markov ẩn

6.5. Ước lượng tham số của mô hình

6.6. Các loại mô hình Markov ẩn

6.7. Những vấn đề cần thực hiện đối với mô hình Markov ẩn

6.8. Huấn luyện nhiều dãy quan sát

7. CHƯƠNG 7: LƯU ĐỎ GIẢI THUẬT

7.1. Thu âm và ghi âm

7.2. Cắt tín hiệu tiếng nói

7.3. Trích xuất đặc trưng tín hiệu

7.4. Huấn luyện mô hình DHMM

7.5. Nhận dạng từ dùng mô hình DHMM

8. CHƯƠNG 8: THỰC NGHIỆM, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI

8.1. Thiết bị thực nghiệm

8.2. Kiểm tra tỉ lệ nhận dạng

8.3. Kết quả thực nghiệm

8.4. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về Hệ Thống Nhận Dạng Giọng Nói Tiếng Việt

Hệ thống nhận dạng giọng nói tiếng Việt dựa trên mô hình DHMM là một công nghệ tiên tiến, cho phép máy tính hiểu và xử lý ngôn ngữ nói của con người. Với sự phát triển của khoa học công nghệ, việc xây dựng một hệ thống nhận dạng giọng nói hiệu quả cho tiếng Việt trở nên cần thiết. Hệ thống này không chỉ giúp cải thiện giao tiếp giữa người và máy mà còn mở ra nhiều ứng dụng thực tiễn trong đời sống.

1.1. Tổng quan về công nghệ nhận dạng giọng nói

Công nghệ nhận dạng giọng nói đã phát triển mạnh mẽ trong những năm gần đây. Hệ thống này sử dụng các thuật toán phức tạp để chuyển đổi âm thanh thành văn bản, giúp người dùng tương tác dễ dàng hơn với máy tính.

1.2. Tầm quan trọng của tiếng Việt trong nhận dạng giọng nói

Tiếng Việt có những đặc điểm ngữ âm riêng biệt, điều này tạo ra thách thức lớn trong việc phát triển hệ thống nhận dạng giọng nói. Việc xây dựng một hệ thống phù hợp với ngữ âm tiếng Việt là rất quan trọng để đảm bảo độ chính xác cao.

II. Thách thức trong việc phát triển hệ thống nhận dạng giọng nói tiếng Việt

Việc phát triển hệ thống nhận dạng giọng nói tiếng Việt gặp nhiều thách thức do sự đa dạng về ngữ điệu và cách phát âm. Các yếu tố như tiếng ồn môi trường, sự khác biệt giữa các vùng miền cũng ảnh hưởng đến độ chính xác của hệ thống.

2.1. Đặc điểm ngữ âm của tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm, có nhiều thanh điệu khác nhau. Điều này làm cho việc nhận dạng giọng nói trở nên phức tạp hơn so với các ngôn ngữ khác.

2.2. Ảnh hưởng của tiếng ồn đến nhận dạng giọng nói

Môi trường ồn ào có thể làm giảm độ chính xác của hệ thống nhận dạng giọng nói. Việc phát triển các thuật toán chống ồn là cần thiết để cải thiện hiệu suất của hệ thống.

III. Phương pháp xây dựng hệ thống nhận dạng giọng nói tiếng Việt

Hệ thống nhận dạng giọng nói tiếng Việt dựa trên mô hình DHMM sử dụng các phương pháp trích xuất đặc trưng âm thanh như MFCC. Mô hình này cho phép nhận diện chính xác các từ trong tiếng Việt với một bộ từ vựng nhỏ.

3.1. Phương pháp trích xuất đặc trưng MFCC

MFCC là một trong những phương pháp phổ biến nhất để trích xuất đặc trưng âm thanh. Nó giúp chuyển đổi tín hiệu âm thanh thành các hệ số có thể sử dụng cho quá trình nhận dạng.

3.2. Mô hình DHMM trong nhận dạng giọng nói

Mô hình DHMM (Discrete Hidden Markov Model) là một trong những mô hình hiệu quả nhất trong nhận dạng giọng nói. Nó cho phép hệ thống học hỏi từ dữ liệu và cải thiện độ chính xác theo thời gian.

IV. Ứng dụng thực tiễn của hệ thống nhận dạng giọng nói tiếng Việt

Hệ thống nhận dạng giọng nói tiếng Việt có nhiều ứng dụng thực tiễn trong đời sống hàng ngày. Từ việc điều khiển thiết bị thông minh đến hỗ trợ người khuyết tật, công nghệ này đang dần trở thành một phần không thể thiếu.

4.1. Ứng dụng trong điều khiển thiết bị thông minh

Người dùng có thể điều khiển các thiết bị thông minh trong nhà bằng giọng nói, giúp tiết kiệm thời gian và nâng cao trải nghiệm sử dụng.

4.2. Hỗ trợ người khuyết tật

Hệ thống nhận dạng giọng nói giúp người khuyết tật có thể tương tác với công nghệ một cách dễ dàng hơn, mở ra nhiều cơ hội trong cuộc sống hàng ngày.

V. Kết luận và tương lai của hệ thống nhận dạng giọng nói tiếng Việt

Hệ thống nhận dạng giọng nói tiếng Việt dựa trên mô hình DHMM đang trên đà phát triển mạnh mẽ. Với những tiến bộ trong công nghệ, tương lai của hệ thống này hứa hẹn sẽ mang lại nhiều giá trị cho người dùng.

5.1. Triển vọng phát triển công nghệ

Công nghệ nhận dạng giọng nói sẽ tiếp tục phát triển, với nhiều cải tiến về độ chính xác và khả năng xử lý ngôn ngữ tự nhiên.

5.2. Tác động đến xã hội

Hệ thống nhận dạng giọng nói sẽ có tác động tích cực đến xã hội, giúp cải thiện giao tiếp và tạo ra nhiều cơ hội mới trong các lĩnh vực khác nhau.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa nhận dạng tiếng nói ứng dụng trong điều khiển

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của khoa học kỹ thuật và lý thuyết xử lý thông tin, việc xây dựng các hệ thống máy móc thông minh có khả năng thay thế con người trong các tác vụ nhận dạng và điều khiển ngày càng trở nên cấp thiết. Giao tiếp giữa người và máy qua giọng nói được xem là phương thức hiện đại, có ý nghĩa quan trọng trong nhiều ứng dụng thực tiễn như xe lăn điều khiển bằng giọng nói cho người khuyết tật, hệ thống thư thoại, thiết bị dịch thuật, và điều khiển thiết bị an ninh quốc phòng. Trên thế giới, nhiều hệ thống nhận dạng giọng nói tiếng Anh như ViaVoice, Dragon Naturally Speaking đã được ứng dụng hiệu quả. Tuy nhiên, do đặc thù ngữ âm tiếng Việt khác biệt, các hệ thống này không thể áp dụng trực tiếp cho tiếng Việt.

Luận văn tập trung xây dựng hệ thống nhận dạng giọng nói tiếng Việt với bộ từ vựng nhỏ gồm 18 từ lệnh phổ biến trong điều khiển: tới, lui, trái, phải, lên, xuống, bật, tắt, dừng, giữ, thả, đóng, mở, xoay, một, hai, ba. Mục tiêu chính là phát triển hệ thống nhận dạng từ riêng biệt (IWR) không phụ thuộc người nói, sử dụng phương pháp trích xuất đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficients) và mô hình Discrete Hidden Markov Model (DHMM). Nghiên cứu được thực hiện trong môi trường tiếng Việt đa dạng, với kỳ vọng đạt tỷ lệ nhận dạng chính xác từ 70% đến 90%. Kết quả nghiên cứu góp phần làm rõ ưu nhược điểm của phương pháp nhận dạng tiếng Việt dựa trên mô hình Markov ẩn, đồng thời cung cấp cơ sở lý thuyết và thực tiễn cho các nghiên cứu tiếp theo trong lĩnh vực kỹ thuật điều khiển và tự động hóa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Phương pháp trích xuất đặc trưng MFCC: MFCC là phương pháp trích xuất đặc trưng tín hiệu tiếng nói dựa trên tỷ lệ Mel, mô phỏng cách tai người cảm nhận tần số âm thanh. Quá trình bao gồm đóng khung tín hiệu, áp dụng cửa sổ Hamming, biến đổi Fourier nhanh (FFT), lọc qua bank bộ lọc Mel, tính logarit năng lượng và cuối cùng là biến đổi cosin rời rạc (DCT) để thu được các hệ số cepstral. MFCC được đánh giá là đặc trưng độc lập người nói và phù hợp cho nhận dạng tiếng nói với độ nhạy cao.
Mô hình Discrete Hidden Markov Model (DHMM): DHMM là mô hình Markov ẩn rời rạc, mô hình hóa chuỗi trạng thái ẩn với xác suất chuyển tiếp ngẫu nhiên và đầu ra là các vector đặc trưng đã được lượng tử hóa. DHMM được sử dụng để mô hình hóa các từ riêng biệt trong hệ thống nhận dạng từ vựng nhỏ. Thuật toán huấn luyện Baum-Welch được áp dụng để tối ưu hóa các tham số mô hình, trong khi thuật toán Viterbi hỗ trợ nhận dạng chuỗi quan sát.

Các khái niệm chính bao gồm: tín hiệu tiếng nói, đặc trưng MFCC, lượng tử hóa vector (VQ), mô hình Markov ẩn, thuật toán huấn luyện Baum-Welch, và nhận dạng từ riêng biệt (IWR).

Phương pháp nghiên cứu

Nguồn dữ liệu thu thập bao gồm các bản ghi âm tiếng Việt của 18 từ lệnh trong nhiều môi trường và từ nhiều người nói khác nhau nhằm đảm bảo tính đa dạng và độ tin cậy của mẫu. Cỡ mẫu cụ thể không được nêu rõ, tuy nhiên dữ liệu được xử lý kỹ lưỡng để loại bỏ nhiễu và chuẩn hóa.

Phương pháp phân tích gồm các bước:

Phát hiện tín hiệu tiếng nói: Sử dụng thuật toán năng lượng ngắn hạn (Short-Time Energy - STE) và tỷ lệ qua điểm zero (Zero Crossing Rate - ZCR) để xác định điểm bắt đầu và kết thúc của tín hiệu tiếng nói, loại bỏ khoảng im lặng và nhiễu.
Trích xuất đặc trưng MFCC: Tín hiệu sau khi cắt được đóng khung 256 mẫu (32 ms), chồng lấp 53%, áp dụng cửa sổ Hamming, FFT, lọc qua bank bộ lọc Mel gồm 24 bộ lọc tam giác, tính logarit năng lượng và DCT để thu được 14 hệ số MFCC.
Lượng tử hóa đặc trưng: Sử dụng thuật toán K-means để tạo codebook gồm 128 cụm, chuyển đổi các vector MFCC liên tục thành các mã rời rạc phục vụ cho huấn luyện và nhận dạng.
Huấn luyện và nhận dạng bằng DHMM: Mô hình DHMM 8 trạng thái được huấn luyện với thuật toán Baum-Welch trên dữ liệu lượng tử hóa. Nhận dạng dựa trên tính xác suất chuỗi quan sát với các mô hình từ riêng biệt.

Quá trình nghiên cứu được thực hiện và mô phỏng trên nền tảng Matlab, với timeline nghiên cứu từ thu thập dữ liệu, xử lý tín hiệu, huấn luyện mô hình đến đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện tín hiệu tiếng nói: Thuật toán STE kết hợp ZCR cho phép phát hiện điểm bắt đầu và kết thúc của tín hiệu tiếng nói chính xác, giảm thiểu sai sót do phụ âm có năng lượng thấp. Thời gian "im lặng" tối thiểu được xác định là 200 ms, phù hợp với đặc điểm phát âm tiếng Việt.
Chất lượng đặc trưng MFCC: Việc sử dụng 14 hệ số MFCC trích xuất từ khung 256 mẫu với chồng lấp 53% đảm bảo đặc trưng tín hiệu đầy đủ và ổn định, giúp mô hình DHMM nhận dạng chính xác các từ riêng biệt.
Tỷ lệ nhận dạng chính xác: Hệ thống nhận dạng từ riêng biệt với 18 từ lệnh đạt tỷ lệ nhận dạng chính xác trong khoảng 70% đến 90%, phù hợp với dự kiến ban đầu. Kết quả này được so sánh với các nghiên cứu quốc tế cho thấy mức độ cạnh tranh và khả năng ứng dụng thực tiễn.
Ảnh hưởng của môi trường và người nói: Hệ thống ASR người nói độc lập được huấn luyện trên nhiều người nói khác nhau, giúp tăng tính ổn định và khả năng nhận dạng trong môi trường đa dạng. Tuy nhiên, môi trường nhiễu vẫn ảnh hưởng đến hiệu suất, đòi hỏi cải tiến thêm về xử lý nhiễu.

Thảo luận kết quả

Kết quả cho thấy phương pháp kết hợp MFCC và DHMM là phù hợp để xây dựng hệ thống nhận dạng tiếng Việt với bộ từ vựng nhỏ. Việc phát hiện điểm bắt đầu và kết thúc chính xác nhờ STE và ZCR giúp giảm sai lệch trong trích xuất đặc trưng, từ đó nâng cao hiệu quả nhận dạng. So với các nghiên cứu trước đây sử dụng LPC hoặc AMDF, MFCC thể hiện ưu thế vượt trội về độ chính xác và khả năng kháng nhiễu.

Biểu đồ thể hiện tỷ lệ nhận dạng theo từng từ có thể minh họa sự khác biệt hiệu suất giữa các từ có âm vị dễ nhận dạng và các từ có âm vị tương tự, giúp xác định các từ cần cải tiến thêm. Bảng so sánh tỷ lệ nhận dạng giữa các mô hình cũng làm rõ ưu điểm của DHMM so với các mô hình khác.

Tuy nhiên, hạn chế của nghiên cứu là kích thước từ vựng còn nhỏ và chưa áp dụng cho nhận dạng lời nói liên tục. Ngoài ra, môi trường nhiễu phức tạp vẫn là thách thức lớn, cần nghiên cứu thêm các kỹ thuật nâng cao như mạng nơ-ron kết hợp HMM (NN-HMM) hoặc các phương pháp giảm nhiễu thích nghi.

Đề xuất và khuyến nghị

Mở rộng bộ từ vựng: Tăng kích thước từ vựng từ 18 lên khoảng 50-100 từ để nâng cao khả năng ứng dụng trong các hệ thống điều khiển phức tạp hơn. Thời gian thực hiện dự kiến 12-18 tháng, do các bước thu thập dữ liệu và huấn luyện mô hình cần mở rộng.
Cải tiến thuật toán phát hiện điểm cuối: Nâng cao độ chính xác của thuật toán STE và ZCR bằng cách kết hợp thêm các đặc trưng động như delta-MFCC, giúp phát hiện chính xác hơn các âm vị phụ âm yếu. Chủ thể thực hiện là nhóm nghiên cứu kỹ thuật điều khiển và xử lý tín hiệu, trong vòng 6 tháng.
Áp dụng kỹ thuật giảm nhiễu nâng cao: Sử dụng bộ lọc Wiener thích nghi hoặc các phương pháp học sâu để giảm thiểu ảnh hưởng của môi trường nhiễu, nâng cao tỷ lệ nhận dạng trong thực tế. Thời gian nghiên cứu và triển khai khoảng 9-12 tháng.
Phát triển hệ thống nhận dạng lời nói liên tục (CSR): Nghiên cứu mở rộng từ nhận dạng từ riêng biệt sang nhận dạng lời nói liên tục, áp dụng mô hình kết hợp âm vị và từ, đồng thời tích hợp hạn chế ngôn ngữ để tăng hiệu quả. Chủ thể thực hiện là nhóm nghiên cứu chuyên sâu về xử lý ngôn ngữ tự nhiên, thời gian dự kiến 18-24 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành kỹ thuật điều khiển và tự động hóa: Có thể sử dụng luận văn làm tài liệu tham khảo để phát triển các hệ thống điều khiển bằng giọng nói, đặc biệt trong các ứng dụng robot và thiết bị hỗ trợ người khuyết tật.
Chuyên gia phát triển phần mềm nhận dạng giọng nói tiếng Việt: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về trích xuất đặc trưng MFCC và mô hình DHMM, hỗ trợ phát triển các ứng dụng nhận dạng tiếng Việt hiệu quả.
Các tổ chức nghiên cứu về xử lý tín hiệu và trí tuệ nhân tạo: Có thể áp dụng kết quả nghiên cứu để cải tiến các thuật toán nhận dạng giọng nói, đặc biệt trong môi trường tiếng Việt đa dạng và phức tạp.
Doanh nghiệp công nghệ và sản xuất thiết bị điều khiển giọng nói: Tham khảo để phát triển sản phẩm điều khiển thiết bị thông minh, xe lăn, hoặc các thiết bị an ninh quốc phòng sử dụng lệnh giọng nói tiếng Việt.

Câu hỏi thường gặp

Hệ thống nhận dạng giọng nói tiếng Việt có thể áp dụng cho từ vựng lớn không?
Hiện tại, hệ thống được thiết kế cho bộ từ vựng nhỏ (18 từ). Việc mở rộng từ vựng đòi hỏi tăng cường dữ liệu huấn luyện và cải tiến mô hình, có thể áp dụng các kỹ thuật như mô hình âm vị hoặc mạng nơ-ron để xử lý từ vựng lớn hơn.
Phương pháp MFCC có ưu điểm gì so với các phương pháp khác?
MFCC mô phỏng cách tai người cảm nhận âm thanh, giúp trích xuất đặc trưng ổn định và ít phụ thuộc người nói. So với LPC hay AMDF, MFCC cho kết quả nhận dạng chính xác hơn, đặc biệt trong môi trường nhiễu.
Làm thế nào để hệ thống xử lý nhiễu môi trường?
Hệ thống sử dụng kỹ thuật phát hiện điểm cuối kết hợp STE và ZCR để loại bỏ nhiễu nền. Tuy nhiên, trong môi trường nhiễu phức tạp, cần áp dụng thêm các bộ lọc thích nghi hoặc kỹ thuật nâng cao như bộ lọc Wiener để cải thiện hiệu suất.
Hệ thống có phụ thuộc người nói không?
Luận văn xây dựng hệ thống nhận dạng người nói độc lập, huấn luyện trên nhiều người nói khác nhau để tăng tính ổn định và khả năng nhận dạng đa dạng giọng nói.
Có thể ứng dụng hệ thống này trong điều khiển thiết bị thực tế không?
Có thể, đặc biệt trong các ứng dụng điều khiển thiết bị bằng giọng nói với bộ lệnh nhỏ như xe lăn cho người khuyết tật hoặc thiết bị an ninh. Tuy nhiên, cần tích hợp thêm phần cứng và phần mềm điều khiển phù hợp để triển khai thực tế.

Kết luận

Luận văn đã xây dựng thành công hệ thống nhận dạng giọng nói tiếng Việt với bộ từ vựng nhỏ, sử dụng đặc trưng MFCC và mô hình DHMM, đạt tỷ lệ nhận dạng chính xác từ 70% đến 90%.
Phương pháp phát hiện điểm bắt đầu và kết thúc tín hiệu tiếng nói kết hợp STE và ZCR giúp cải thiện độ chính xác trích xuất đặc trưng.
Hệ thống ASR người nói độc lập được huấn luyện trên nhiều người nói, tăng khả năng ứng dụng trong môi trường đa dạng.
Kết quả nghiên cứu cung cấp cơ sở lý thuyết và thực tiễn cho các nghiên cứu tiếp theo về nhận dạng tiếng Việt và ứng dụng trong điều khiển tự động.
Đề xuất mở rộng bộ từ vựng, cải tiến thuật toán phát hiện điểm cuối, áp dụng kỹ thuật giảm nhiễu và phát triển nhận dạng lời nói liên tục là hướng nghiên cứu tiếp theo.

Các nhà nghiên cứu và phát triển công nghệ nên tiếp tục thử nghiệm mở rộng bộ từ vựng và tích hợp các kỹ thuật nâng cao để hoàn thiện hệ thống nhận dạng giọng nói tiếng Việt, hướng tới ứng dụng thực tiễn rộng rãi hơn.

Trích đoạn nội dung tài liệu

Chương I : Giới thiệu tới người đọc tổng quát về luận van, tình hình nghiên cứu liên quan đến luận văn, các phương pháp tiếp cận vấn đề về đối tượng nghiên cứu trong luận văn, mục tiêu và phương pháp thực hiện luận văn; và cudi cùng giới thiệu tông quát nội dung luận văn. - Chương 2 : Chương này giới thiệu tong quát về tín hiệu tiếng nói cũng như các bước tiến hành xử lý tiếng nói bao gồm: giới thiệu khát quát về tín hiệu tiếng nói, các phương pháp sử dụng trong xử lý tiếng nói, giới thiệu chung về hệ thống nhận dạng tiếng nói và những van dé liên quan. Chương này còn giới théu tổng quan các thuật toán sử dụng trong quá trình lượng tử hóa đặc trưng của tiếng nói, mô hình Markov ẩn, các thuật toán dùng trong huấn luyện và nhận dạng của mô hình Markov an. - Chương 3 : Chương này trình bày chi tiết về kỹ thuật cắt tin hiệu tiếng nói ra khỏi nền nhiễu; đó là áp dụng kỹ thuật xử lý năng lượng ngắn han (STE) và tỉ lệ qua điểm zero (ZCR).

Nội dung của chương trình bày theo thứ tự : tính toán ngưỡng cua tín hiệu thu được, từ giá trị ngưỡng này ta sẽ tim được điểm ban đầu và điểm kết thúc của tín hiệu tiếng nói, cuối cùng trình bay cách xử lý dé tín hiệu thu được chắc chan là tín hiệu tiéng nói chứ không phải là các xung nhiễu. - Chương 4 : Chương này trình bày chỉ tiết các bước dé trích xuất hệ số đặc trưng của tín hiệu tiếng nói, và van đề vé đồng bộ hóa thủ tục phát hiện điểm kết thúc và quá trình trích xuất đặc trưng. - Chương 5 : Nội dung chương này trình bày quá trình lượng tử hóa các hệ số đặc trưng tiếng nói để tạo ra các chỉ số dùng cho quá trình huấn luyện và nhận dạng mô hình HMM sau này. 9 HVTH: NGUYEN THANH THAO GVHD: TS.NGUYEN THIỆN THÀNH - Chương 6 : Chương này trình bày về mô hình DHMM, các bài toán liên quan đến mô hình và các thuật toán để giải quyết; chương cũng trình bày về các loại mô hình Markov, những van dé liên quan trong quả trình huấn luyện cho mô hình DHMM.

- Chương 7 : Chương này sẽ trình bay chi tiết các bước thực thi chương trình từ những lý thuyết bên trên. Chương này cũng sẽ trình bày các lưu dé giải thuật của từng bước xử lý tín hiệu tiêng nói. - Chương 8 : Chương này trình bày cách hoạt động của chương trình va các kết quả đánh giá hoạt động của chương trình. Kết thúc chương sẽ đánh giá kết quả thực hiện luận văn từ những kết quả thu được, sau đó đưa ra hướng khắc phục cũng như hướng phát triển cho tương lai.

10 HVTH: NGUYÊN THANH THẢO GVHD: TS.NGUYEN THIỆN THÀNH CHƯƠNG 2 GIỚI THIỆU VE XỬ LÝ VA NHAN DANG TIENG NÓI Hệ thông nhận dạng giọng nói tự động (ASR) bao gồm hai phân chính: xử lý và nhận dạng tiếng nói. Trong phần này, mô tả tóm tắt các vẫn đẻ chính liên quan đến hai thành phân này của một hệ thông ASR. Lời nói là một tín hiệu không dừng và quá trình xử lý thường được tiến hành trong các khung thời gian ngắn mà trong đó tính dừng có thé được giả định. Trong phân này giới thiệu các ý tưởng cơ bản đăng sau hệ thống tự động nhận dạng giọng nói (ASR) trong phạm vi từ độc lập và các ứng dụng nhận dạng giọng nói.

Sự xem xét thực hiện hệ thống ASR trong luận án này sẽ sử dụng lượng tử vector (VQ) để mã hóa các các đặc trưng tiếng nói nhằm loại bỏ các dư thừa có thé và cũng là một trong những bước cân thiết trong nguôn gốc phát triển của mô hình Markovấn rời rac (HDMM) thường được sử dụng trong các hệ thống ASR hiện nay. HDMM là một "cách tiếp cận ngẫu nhiên" được sử dụng trong luận án này để tạo mô hình của các “từ” khác nhau. Cơ bản về tín hiệu tiếng nói 2. Định nghĩa tiếng nói Tiêng nói là một cách cơ bản giao tiêp giữa con người với nhau, là một hành động cua con người.

Sự truyền đạt lời nói có thê được mô tả như một chuôi các sự kiện sau đây: - Não của người nói tạo ra một "ý nghĩ” - Não thể hiện những ý nghĩ trong một loạt các từ theo một quy tắc ngôn ngữ cụ thê. - Não đưa ra một loạt các lệnh để kích hoạt cơ chế tạo lời nói theo một cách cụ thê dé phát ra âm thanh đại diện cho những từ này. - Các cơ quan chê tạo lời nói hành động theo lệnh của não và tạo ra sóng âm thanh mong muôn. - Các sóng âm thanh chuyển động trong không khí.

- Các sóng âm thanh được ghi lại bởi hệ thống thính giác của người nghe và dịch ra các tín hiệu thân kinh - Não người nghe dịch các tín hiệu thần kinh thành các từ theo các quy tac ngôn ngữ được sử dung bởi người nói dé tạo thành ngôn ngữ. - Não người nghe sử dụng những từ này để tạo thành một "ý nghĩ". Những "ý nghĩ” này có thê sẽ giông như "ý nghĩ” ban đầu của người nói. II HVTH: NGUYÊN THANH THẢO GVHD: TS.NGUYEN THIỆN THÀNH Như vậy lời nói là một tín hiệu thay đối theo thời gian, và do đó một tin hiệu không dừng.

Ngoài ra, đặc điểm nói cũng bị ảnh hưởng bởi các yếu tô khác như cấu trúc các bộ phận của người nói, tudi tác và tình trạng thé chất hiện tại. Dé giảm thiêu những van đề này, xử lý tín hiệu lời nói có thé được mở rộng bao gồm việc nghiên cứu các cơ chế tao lời nói của con người. Hơn nữa, tìm hiểu hệ thông thính giác của con người là can thiết dé hiểu cách con người nhận thức và xử lý tín hiệu lời nói. Một mô tả chung về cơ chế tạo lời nói và các đặc điểm chính của lời nói sẽ trình bày bên dưới bên dưới.

Hệ thông tạo tiếng nói của con người Hình 2.1 cho thấy cấu trúc giải phẫu của bộ phận tạo tiếng nói của con người. Hai vùng chính có thê được phân biệt trong hình này, vùng dưới thanh môn và đường thanh trên thanh quản. * Vùng dưới thanh môn bao gồm: - Các cơ hoành. “+ Đường thanh trên thanh quản bao gồm ba khoang khác nhau: - Khoang hong.

- Khoang miéng - Khoang mui. | `\ ) KHOANG MUI \ j BO PHAN PHAT i ar _ \ VÒNG ai ÂM TRÊN THANH bề qgớ” ss} |“ KHOANG MIENG QUAN LưS—<NYÒMMIỆNG MEM la: \* /— HẬU, HỌNG ( l* É NAP THANH QUAN — ~~ Ì > _ ` a Ạ ST THANH QUAN > oie \ — ⁄ ị _—KHÍ QUAN \ HỆ THÓNG DƯỚI ˆ V / F4 VE | | LÊN "Si ` N saan \ _¬ THANH MÔN ma \ MM= =" \ a Bet : Xí | \{ CƠHOÀNH V Hình 2. Cau tạo cua bộ phận tạo tiêng nói cua con người I2 HVTH: NGUYÊN THANH THẢO GVHD: TS.NGUYEN THIỆN THÀNH Hệ thống dưới thanh môn có thể được coi như là nguồn kích thích tiếng nói, điều này có thể được xem như là đầu vào cho một bộ lọc. Hàm đặc trưng chuyển đổi của bộ lọc bị ảnh hưởng bởi ba khoang và các thành phần của nó như lưỡi, răng, môi và vòm miệng mềm.

Các thành phần này được gọi là bộ phận cau âm. Chuyên động của chúng ảnh hưởng đến kết quả hình dạng của sóng âm thanh phát ra từ người nói. Đặc điểm chung lời nói Có 2 dạng tiếng nói: lời nói phát ra tiếng (hữu thanh) và lời nói không có tiếng (vô thanh) xuât phát từ hai loại kích thích khác nhau. Am thanh có tiếng được tạo ra khi không khí từ phối đi qua thanh quản.

Thanh quản tạo dao động không khí theo một cách cụ thé. Tiếp theo, luéng không khí này đi qua khu vực thanh âm dẫn đến một âm thanh lời nói được gọi là giọng nói hoặc sự phát âm. Chu kỳ và tần số cơ bản đặc trưng cho sự phát âm có liên quan đến thời gian và tỷ lệ mở thanh quản tương ứng. Tân số cơ bản còn được gọi là cao độ khác nhau giữa mọi người là do sự khác biệt về cau tạo thanh quản của họ.

Phạm vi cao độ của nam giới thường năm trong khoảng từ 50 đến 250 Hz trong khi phụ nữ nằm giữa 120 và 500 Hz. Lời nói vô thanh được tạo ra băng không khí đi qua trực tiếp hệ thống thanh quản. Lời nói vô thanh, trái với lời nói có tiếng, không thé hiện tính chu kỳ, và được đặc trưng bởi một tín hiệu giống nhiễu. Thông thường, âm thanh lời nói vô thanh có tần số cao hơn và ít năng lượng hơn so với lời nói có tiếng.

Am vi đại diện cho các đơn vị ngôn ngữ học của ngôn ngữ nói. Âm vị được kết hợp để chuyển đôi các từ mà trong đó diễn tả "ý nghĩ" vào trong lời nói. Mỗi ngôn ngữ bao gdm một tập đặc trưng cua âm vi. Ngôn ngữ tiếng Việt bao gôm rất nhiều âm vị khác nhau (hiện nay còn tranh cãi rất nhiều).

Mỗi âm vị biểu thị một SỰ kết hợp đặc trưng của những biểu hiện của co quan cầu âm cũng như bao sồm cách thức kích thích. Dựa trên những biểu hiện của cơ quan cau âm và sự kích thích, các nhóm khác nhau của âm vị tồn tại như phụâm xát, nguyên âm, phụâm tắc, âm nước, nguyên âm đôi,âm lướt và âm mũi. Những âm thanh thực tế của âm vị được gọi là âm tỏ lời nói. Am vị là đơn vị rời rac và âm thanh thực tế của nó (âm tỏ lời nói) có thê dễ dang nhận ra khi chúng được đánh van một cách độc lập.

Ngược lại, sẽ khó khăn hơn nhiều trong các tình huống lời nói liên tục, bởi vì các co quan tạo lời nói không thé ngay lập tức chuyển từ một biểu hiện này sang biếu hiện khác. Hiện tượng nay được gọi là sự cùng phatâm rõ ràng và nó là một trong những thông so ảnh hưởng đến hiệu suất hệ thống ASR. Ngoài ra, băng thông tín hiệu tiếng nói chủ yêu là giới hạn 4-5 KHz do hạn chế về cau tạo của bộ phận cau âm. HVTH: NGUYÊN THANH THẢO GVHD: TS.NGUYEN THIỆN THÀNH Cac từ vựng được sử dụng trong luận án nay bao gôm : “tới”, “luÏ”, “trái”, “phải”, “lên”, “xuống”, “bật, “tat”, “ban”, “dừng”, “oil”, “thả”, “đóng”, “mở”, “xoay”, “một”, “hai”, ba”.

Trong phan tiếp theo, các phương pháp xử lý kỹ thuật số tín hiệu tiếng nói ngắn hạn được phân tích bao gồm cả các dự đoán tuyến tính (LP) và phân tích Real Cepstrum (RC). Các kỹ thuật xử lý tiếng nói 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Hệ Thống Nhận Dạng Giọng Nói Tiếng Việt Dựa Trên Mô Hình DHMM trình bày một hệ thống tiên tiến sử dụng mô hình DHMM (Định Hình Ẩn Markov) để nhận diện giọng nói tiếng Việt. Hệ thống này không chỉ cải thiện độ chính xác trong việc nhận diện mà còn tối ưu hóa tốc độ xử lý, mang lại trải nghiệm người dùng tốt hơn. Đặc biệt, tài liệu nhấn mạnh tầm quan trọng của việc phát triển công nghệ nhận diện giọng nói trong bối cảnh ngày càng nhiều ứng dụng yêu cầu tương tác bằng giọng nói.

Để mở rộng kiến thức về các công nghệ liên quan, bạn có thể tham khảo tài liệu Nghiên cứu công nghệ IoT và ứng dụng trong hệ thống giám sát chất lượng không khí Hà Nội, nơi khám phá cách công nghệ hiện đại có thể cải thiện môi trường sống. Ngoài ra, tài liệu Luận án tiến sĩ nghiên cứu thuật toán và xây dựng chương trình xử lý số liệu GNSS cũng cung cấp cái nhìn sâu sắc về các ứng dụng công nghệ định vị, có thể liên quan đến việc phát triển các hệ thống nhận diện giọng nói. Cuối cùng, bạn có thể tìm hiểu thêm về Giải pháp cảnh báo kiểu tấn công an ninh mạng Deface, một lĩnh vực quan trọng trong bảo mật thông tin, có thể liên quan đến việc bảo vệ các hệ thống nhận diện giọng nói khỏi các mối đe dọa.

Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá thêm nhiều khía cạnh thú vị trong lĩnh vực công nghệ hiện đại.

#công nghệ nhận diện giọng nói