Đại học Giao thông Vận tải Hà Nội: Nghiên cứu và Ứng dụng Công nghệ Mới

Chuyên khảo phân tích Luận văn nhận dạng tiếng việt sử dụng biến đổi wavelet và mô hình markov ẩn, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Đại học Giao thông Vận tải Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn

2006

133

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1. Nhận dạng

1.2. Nhận dạng phụ thuộc người nói và độ lập người nói

1.3. Hệ thống nhận dạng tiếng nói tự động

1.4. Lý thuyết nhận dạng tiếng nói

2. CHƯƠNG 2: MÔ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI

2.1. Mô hình Markov ẩn

2.2. Ứng dụng mô hình Markov ẩn vào nhận dạng tiếng nói

3. CHƯƠNG 3: BIẾN ĐỔI WAVELET VÀ ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI

3.1. Mục đích và ứng dụng của phân tích wavelet

3.2. Biến đổi Fourier

3.3. Biến đổi wavelet

3.4. Các loại biến đổi wavelet

3.5. Ứng dụng biến đổi wavelet trong xử lý nhiễu và nâng cao chất lượng tiếng nói

4. CHƯƠNG 4: PHƯƠNG PHÁP KHỬ NHIỄU KẾT HỢP KỸ THUẬT TRỪ PHỔ VÀ WAVELET

4.1. Phương pháp khử nhiễu kết hợp kỹ thuật trừ phổ và wavelet

4.2. Ứng dụng biến đổi wavelet trong nhận dạng tiếng nói

4.3. Nhận dạng tiếng nói dùng WT

4.4. Nhận dạng tiếng nói dùng DWT

5. CHƯƠNG 5: KHẢO SÁT VỀ NGỮ ÂM TIẾNG VIỆT ỨNG DỤNG XÂY DỰNG HỆ THỐNG NHẬN DẠNG THANH ĐIỆU TIẾNG VIỆT

5.1. Một số đặc trưng ngữ âm tiếng Việt

5.2. Một số khảo sát về thanh điệu tiếng Việt

5.3. Giải pháp nhận dạng theo mô hình âm vị

5.4. Xây dựng mô hình nhận dạng thanh điệu tiếng Việt

5.5. Huấn luyện mô hình

5.6. Kết quả nhận dạng thanh điệu

6. CHƯƠNG 6: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN TỪ RỜI RẠC HOÀN CHỈNH

6.1. Huấn luyện mẫu

6.2. Xây đặt hệ thống nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh

6.3. Bộ từ dùng cho hệ thống

6.4. Huấn luyện và nhận dạng

6.5. Mô hình HMM cho nhận dạng

6.6. Kết quả đạt được của luận văn

TÀI LIỆU THAM KHẢO

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng Quan Nghiên Cứu Nhận Dạng Tiếng Nói Tại UTT 55 ký tự

Thông tin tiếng nói là một loại hình thông tin phổ biến trong các hệ thống viễn thông hiện nay. Do vậy, lĩnh vực nghiên cứu về tiếng nói và xử lý tiếng nói được rất nhiều nhà nghiên cứu trong ngành điện tử viễn thông quan tâm. Về cơ bản, tiếng nói là một loại tín hiệu một chiều điển hình nên các kiến thức về xử lý tín hiệu hoàn toàn có thể áp dụng với tín hiệu tiếng nói. Đó cũng là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý thuyết và công nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được ứng dụng rộng rãi trong thời gian gần đây. Xử lý tiếng nói bao gồm nhiều lĩnh vực như triệt nhiễu và nâng cao chất lượng tiếng nói, mã hóa và nén tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói. Theo tài liệu gốc, lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều khiển (thiết bị, robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản, dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay số điện thoại bằng tiếng nói, hộp thư thoại tự động.

1.1. Xử Lý Âm Thanh Nền Tảng Của Nhận Dạng Tiếng Nói

Khi âm thanh được máy vi tính hỗ trợ thì nhu cầu xử lý âm thanh đã xuất hiện. Các nhu cầu này đã tạo ra nhiều lĩnh vực ứng dụng trong thực tế. Chẳng hạn như: tổng hợp âm thanh (synthesis), nén âm thanh (compression), nhận dạng người nói (speaker recognition), nhận dạng tiếng nói (speech recognition). Xử lý âm thanh đóng một vai trò quan trọng trong quá trình nhận dạng tiếng nói, nó cần trong việc lọc nhiễu tín hiệu, biến đổi tín hiệu, rút trích vector đặc trưng. Xử lý âm thanh đóng vai trò quan trọng trong việc lọc nhiễu, biến đổi tín hiệu và rút trích đặc trưng.

1.2. Phân Biệt Nhận Dạng Liên Tục và Rời Rạc

Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ. Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trong một chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn được đọc bởi người dùng. Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá trình này. Trái lại, đối với mô hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình loại này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, quay số bằng giọng nói…, với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi đối với mô hình trên.

1.3. So Sánh Nhận Dạng Phụ Thuộc và Độc Lập Người Nói

Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được huấn luyện lại từ đầu. Do đó, hệ thống nhận dạng người nói khó được chấp nhận rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn luyện hệ thống. Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng. Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra. Nhưng không may là hệ thống lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống. Trong thực tế, mỗi người có một giọng nói khác nhau. Điều này ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận dạng xuống nhiều lần.

II. Cách UTT Ứng Dụng Biến Đổi Wavelet Nhận Dạng 59 ký tự

Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực xử lý tín hiệu, biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier truyền thống trong rất nhiều hệ thống xử lý tín hiệu. Trong lĩnh vực xử lý, nhận dạng tiếng nói, biến đổi wavelet cũng có nhiều ứng dụng. Trên thế giới đã có những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ chính xác rất cao. Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên những nghiên cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương pháp mới trong nhận dạng tiếng Việt chứ chưa xây dựng được một hệ thống nhận dạng tiếng Việt hoàn chỉnh hiệu quả.

2.1. Rút Trích Đặc Trưng Tiếng Việt Bằng Wavelet

Các nghiên cứu tại UTT tập trung vào việc sử dụng biến đổi Wavelet để trích xuất các đặc trưng quan trọng từ tín hiệu tiếng Việt. Điều này giúp cải thiện khả năng phân biệt giữa các âm vị và thanh điệu, từ đó nâng cao độ chính xác của hệ thống nhận dạng. Tuy nhiên, đây vẫn là một lĩnh vực mới và cần nhiều nghiên cứu hơn để đạt được hiệu quả tối ưu.

2.2. Hạn Chế Của Nghiên Cứu Wavelet Hiện Tại Ở Việt Nam

Các nghiên cứu hiện tại chủ yếu dừng lại ở việc kiểm chứng phương pháp mới, chưa xây dựng được hệ thống hoàn chỉnh. Cần có sự đầu tư và phát triển hơn nữa để biến các nghiên cứu này thành các ứng dụng thực tế.

III. Phương Pháp Phân Lớp và Huấn Luyện Mẫu Tiếng Nói UTT 60 ký tự

Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận dạng là độc lập người nói, ít phụ thuộc vào môi trường và điều kiện khi nói (bản chất của tiếng nói là cùng một từ có thể được phát âm khác nhau đối với mỗi người và với bản thân một người trong các điều kiện khác nhau) cũng như tăng số lượng từ nhận dạng thì công việc phân lớp và huấn luyện mẫu là rất quan trọng. Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng mạng Neural nhân tạo (ANN), mô hình Markov ẩn (HMM), mô hình SVM. Đối với hầu hết các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được xem là mô hình hiệu quả nhất, hầu hết các nghiên cứu hiện nay về nhận dạng tiếng Việt sử dụng phương pháp ANN [1, 2, 5, 7,11], một số khác đi theo hướng tiếp cận dùng HMM [4, 13].

3.1. Ưu Điểm Của Mô Hình Markov Ẩn HMM

Mô hình HMM được đánh giá cao về khả năng mô hình hóa các chuỗi tín hiệu có tính chất thay đổi theo thời gian, phù hợp với đặc điểm của tiếng nói. Các nghiên cứu tại UTT có thể tập trung vào việc cải tiến và áp dụng HMM để đạt được hiệu quả tốt hơn.

3.2. So Sánh Với Mạng Neural Nhân Tạo ANN

Mặc dù ANN được sử dụng rộng rãi, HMM vẫn có những ưu điểm riêng trong việc xử lý các tín hiệu có cấu trúc thời gian. Việc so sánh và kết hợp hai phương pháp này có thể mang lại kết quả tốt hơn.

IV. Nhận Dạng Thanh Điệu Tiếng Việt Nghiên Cứu Tại UTT 58 ký tự

Tiếng Việt là ngôn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng Việt so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu. So với các ngôn ngữ thanh điệu khác như tiếng Thái, tiếng Hoa, tiếng Việt lại có các đặc điểm ngữ âm của thanh điệu riêng. Bài toán nhận dạng thanh điệu là một bài toán đã được nghiên cứu nhiều trong nhận dạng tiếng Việt [2, 12, 16]. Một sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ âm của âm vị. Do sự khác biệt này, mô hình nhận dạng theo âm vị trong tiếng Việt cũng có những điểm khác biệt so với các hệ thống nhận dạng khác.

4.1. Đặc Điểm Ngữ Âm Của Thanh Điệu Tiếng Việt

Các nghiên cứu tại UTT tập trung vào việc phân tích và mô hình hóa các đặc điểm ngữ âm riêng biệt của thanh điệu tiếng Việt. Điều này bao gồm việc xác định các tham số như cao độ, độ dài và cường độ của âm thanh.

4.2. Ứng Dụng Mô Hình Âm Vị Trong Nhận Dạng

Việc sử dụng mô hình âm vị có thể giúp cải thiện khả năng nhận dạng các từ có thanh điệu khác nhau. Tuy nhiên, cần có sự điều chỉnh và tối ưu hóa để phù hợp với đặc điểm của tiếng Việt.

4.3. Đề Xuất Phương Pháp Nhận Dạng Thanh Điệu Theo Chu Kỳ Pitch

Luận văn đề xuất một phương pháp nhận dạng thanh điệu tiếng Việt theo chu kỳ pitch và xây dựng hệ thống nhận dạng thanh điệu theo chu kỳ pitch. Kết quả nhận dạng thanh điệu thu được là 95 %.

V. Xây Dựng Hệ Thống Nhận Dạng Tiếng Việt Hoàn Chỉnh 57 ký tự

Luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh. Phương pháp này sử dụng mô hình nhận dạng thanh điệu đã tiếng Việt đã khảo sát để phân lớp và sử dụng vector đặc trưng là các hệ số SເWT biến đổi sang miền cepstral. Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận dạng tiếng nói trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng cao chất lượng tiếng nói dùng một phương pháp triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu dùng biến đổi wavelet. Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém hơn một chút so với các hệ thống nhận dạng truyền thống dùng MFCC và ANN.

5.1. Kết Hợp Nhận Dạng Thanh Điệu và Âm Vị

Hệ thống kết hợp cả thông tin về thanh điệu và âm vị để cải thiện độ chính xác. Điều này đặc biệt quan trọng đối với tiếng Việt, một ngôn ngữ có thanh điệu.

5.2. Tiền Xử Lý Tín Hiệu Âm Thanh

Bộ tiền xử lý sử dụng các kỹ thuật triệt nhiễu để loại bỏ tiếng ồn và cải thiện chất lượng tín hiệu. Điều này giúp hệ thống hoạt động tốt hơn trong môi trường ồn ào.

5.3. So Sánh Với Phương Pháp Truyền Thống

Mặc dù độ chính xác của hệ thống mới thấp hơn một chút so với các phương pháp truyền thống, nó vẫn là một bước tiến quan trọng trong việc phát triển các hệ thống nhận dạng tiếng Việt hiệu quả.

VI. Tương Lai Nghiên Cứu Nhận Dạng Tiếng Việt Tại UTT 56 ký tự

Mặc dù đã có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC và ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ chính xác của hệ thống nhận dạng không tăng được nhiều. Trong hoàn cảnh đó, việc xây dựng một hệ thống nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có ý nghĩa. Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng Việt dùng SເWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một phương pháp hứa hẹn có khả năng nâng cao được độ chính xác của hệ thống nhận dạng và có thể ứng dụng trong thực tiễn.

6.1. Đầu Tư Nghiên Cứu SເWT và HMM

Cần có sự đầu tư và hỗ trợ tài chính để tiếp tục nghiên cứu và phát triển các phương pháp nhận dạng tiếng Việt mới, đặc biệt là SເWT và HMM.

6.2. Ứng Dụng Thực Tế

Mục tiêu cuối cùng là đưa các nghiên cứu này vào ứng dụng thực tế, giúp cải thiện khả năng tương tác giữa con người và máy tính bằng tiếng Việt.

05/06/2025

Bạn đang xem trước tài liệu:

Luận văn nhận dạng tiếng việt sử dụng biến đổi wavelet và mô hình markov ẩn

Tải đầy đủ

Tài liệu "Đại học Giao thông Vận tải Hà Nội: Nghiên cứu và Ứng dụng Công nghệ Mới" cung cấp cái nhìn sâu sắc về các nghiên cứu và ứng dụng công nghệ tiên tiến trong lĩnh vực giao thông vận tải. Tài liệu nhấn mạnh tầm quan trọng của việc áp dụng công nghệ mới để cải thiện hiệu quả và an toàn trong ngành giao thông, đồng thời mở ra cơ hội cho sinh viên và các nhà nghiên cứu tham gia vào các dự án đổi mới sáng tạo.

Để mở rộng kiến thức của bạn về các ứng dụng công nghệ trong lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận án tiến sĩ nghiên cứu thuật toán và xây dựng chương trình xử lý số liệu gnss dạng rinex nhằm phát triển ứng dụng công nghệ định vị vệ tinh ở Việt Nam, nơi khám phá các công nghệ định vị hiện đại. Ngoài ra, tài liệu Luận văn thạc sĩ nghiên cứu công nghệ IoT và ứng dụng trong hệ thống giám sát chất lượng không khí Hà Nội sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ IoT trong các lĩnh vực khác nhau. Cuối cùng, tài liệu Luận văn thạc sĩ kỹ thuật cơ điện tử điều khiển robot leo bên ngoài ống xúc tác lò reformer cũng là một nguồn tài liệu quý giá cho những ai quan tâm đến công nghệ tự động hóa trong ngành công nghiệp.

Những tài liệu này không chỉ cung cấp thông tin bổ ích mà còn mở ra nhiều hướng nghiên cứu và ứng dụng mới cho bạn.

#phát triển bền vững

#đổi mới sáng tạo

#nghiên cứu khoa học

#giáo dục đại học

#khoa học và công nghệ

#Đại học Giao thông Vận tải

Chủ đề

Nghiên cứu và phát triển công nghệ

Xu hướng công nghệ trong giáo dục đại học

Giáo dục và đào tạo trong lĩnh vực giao thông

Tác động của công nghệ đến giao thông vận tải