Luận văn thạc sĩ HCMUTE về nhận dạng tiếng nói sử dụng mạng neural

Luận văn thạc sĩ phân tích hcmute nhận dạng tiếng nói dùng mạng neural, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn

2013

102

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về lĩnh vực nghiên cứu

1.2. Mục đích của đề tài

1.3. Nhiệm vụ và giới hạn của đề tài

1.3.1. Nhiệm vụ của đề tài

1.3.2. Giới hạn của đề tài

1.4. Phương pháp nghiên cứu

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Lý thuyết âm thanh và tiếng nói

2.1.1. Nguồn gốc âm thanh

2.1.2. Các đại lượng đặc trưng cho âm thanh

2.1.3. Các tần số của âm thanh

2.1.4. Cơ chế tạo lập tiếng nói của con người

2.1.5. Mô hình lọc nguồn cho quá trình tạo tiếng nói

2.1.6. Hệ thống nghe của tai người

2.1.7. Quá trình tạo ra tiếng nói và thu nhận tiếng nói của con người

2.1.8. Các âm thanh tiếng nói và các đặc trưng

2.2. Lý thuyết nhận dạng tiếng nói

2.2.1. Tổng quan về nhận dạng tiếng nói

2.2.2. Các nguyên tắc cơ bản trong nhận dạng tiếng nói

2.2.3. Các phương pháp nhận dạng tiếng nói phổ biến

2.2.4. Các quá trình cơ bản của một hệ thống nhận dạng tiếng nói

3. CHƯƠNG 3: TỔNG QUAN VỀ MẠNG NEURAL

3.1. Giới thiệu tổng quan về mạng Neural

3.1.1. Mạng Neural sinh học

3.1.2. Mạng Neural nhân tạo

3.1.2.1. Lịch sử phát triển của mạng Neural nhân tạo

3.1.2.2. Các tính chất của mạng Neural nhân tạo

3.1.2.3. Mô hình Neural và kiến trúc mạng

3.1.2.3.1. Mô hình Neural

3.1.2.3.1.1. Mô hình Neural đơn giản

3.1.2.3.1.2. Mô hình Neural nhiều ngõ vào

3.1.2.3.2. Kiến trúc mạng Neural

3.1.2.3.2.1. Mạng Neural đơn lớp

3.1.2.3.2.2. Mạng Neural đa lớp

3.1.2.3.2.3. Mạng Neural hồi qui

3.2. Phương thức làm việc của mạng Neural

3.3. Vấn đề thiết kế cấu trúc mạng

3.3.1. Số lớp ẩn

3.3.2. Số đơn vị trong lớp ẩn

3.4. Thuật toán lan truyền ngược

3.4.1. Chỉ số hiệu năng

3.4.2. Lan truyền ngược độ nhạy cảm

3.5. Ứng dụng mạng Neural trong nhận dạng

4. CHƯƠNG 4: XÂY DỰNG HỆ NHẬN DẠNG

4.1. Xây dựng hệ thống nhận dạng

4.1.1. Mô tả chung về hệ thống

4.1.2. Sơ đồ khối của hệ thống

4.1.3. Phương pháp giải quyết

4.1.3.1. Thu nhận tín hiệu

4.1.3.2. Trích đặc trưng tiếng nói

4.1.3.3. Tính đầu vào cho mạng

4.2. Chương trình nhận dạng mười chữ số tiếng Việt

4.2.1. Giao diện phần mềm demo

4.2.2. Kết quả thử nghiệm

4.2.2.1. Những kết quả đạt được

4.2.2.2. Hướng phát triển của đề tài

4.2.2.2.1. Xây dựng bộ dữ liệu lớn hơn

4.3. Xây dựng phần mềm nhận dạng dựa trên kết quả nghiên cứu

4.4. Nghiên cứu các phương pháp xác định đặc trưng khác

4.5. Nghiên cứu các phương pháp nhận dạng khác

5. CHƯƠNG 5: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin, với mục tiêu chuyển đổi âm thanh thành văn bản. Nhận dạng tiếng nói có thể ứng dụng trong nhiều lĩnh vực như điều khiển thiết bị, an ninh và giải trí. Tuy nhiên, việc phát triển hệ thống nhận dạng tiếng nói cho tiếng Việt gặp nhiều thách thức do đặc điểm ngữ âm và thanh điệu riêng biệt. Các nghiên cứu hiện tại chủ yếu tập trung vào việc cải thiện độ chính xác và khả năng nhận diện từ vựng. Theo nghiên cứu, các hệ thống nhận dạng tiếng nói hiện tại vẫn chưa đạt được độ chính xác mong muốn, đặc biệt là trong việc nhận diện tiếng Việt. Do đó, việc nghiên cứu và phát triển các phương pháp mới như mạng neural là cần thiết để nâng cao hiệu quả của hệ thống nhận dạng tiếng nói.

1.1. Các nghiên cứu trong và ngoài nước

Nghiên cứu về nhận dạng tiếng nói đã diễn ra trên toàn cầu trong hơn bốn thập kỷ. Các hệ thống như IBM ViaVoice và Dragon Naturally Speaking đã đạt được những thành công nhất định trong việc nhận diện tiếng Anh. Tuy nhiên, tiếng Việt vẫn là một thách thức lớn do sự đa dạng trong cách phát âm và thanh điệu. Các nghiên cứu trong nước còn hạn chế, với một số phần mềm nhận dạng tiếng Việt như VnCommand và VnDictator chỉ mới ở giai đoạn thử nghiệm. Những nghiên cứu này cho thấy sự cần thiết phải phát triển các phương pháp mới, đặc biệt là ứng dụng mạng neural để cải thiện khả năng nhận diện tiếng nói trong tiếng Việt.

II. Cơ sở lý thuyết về mạng neural

Mạng neural là một trong những công nghệ tiên tiến nhất trong lĩnh vực nhận dạng tiếng nói. Mạng neural nhân tạo mô phỏng cách thức hoạt động của não bộ con người, cho phép máy tính học hỏi và cải thiện khả năng nhận diện qua thời gian. Các mô hình mạng neural như mạng nơ-ron đa lớp (MLP) và mạng hồi quy (RNN) đã được áp dụng rộng rãi trong việc xử lý âm thanh và nhận diện tiếng nói. Việc sử dụng học sâu (deep learning) trong mạng neural đã giúp cải thiện đáng kể độ chính xác của các hệ thống nhận dạng tiếng nói. Các thuật toán như lan truyền ngược (backpropagation) giúp tối ưu hóa quá trình học của mạng, từ đó nâng cao khả năng nhận diện âm thanh và ngữ nghĩa của tiếng nói.

2.1. Lịch sử phát triển của mạng neural

Mạng neural đã trải qua nhiều giai đoạn phát triển từ những năm 1950. Ban đầu, các mô hình mạng neural đơn giản chỉ có khả năng giải quyết các bài toán cơ bản. Tuy nhiên, với sự phát triển của công nghệ máy tính và các thuật toán học máy, mạng neural đã trở nên phức tạp hơn và có khả năng xử lý các dữ liệu lớn. Các nghiên cứu gần đây đã chỉ ra rằng việc áp dụng mạng neural trong nhận dạng tiếng nói có thể mang lại những kết quả ấn tượng, với độ chính xác cao hơn so với các phương pháp truyền thống. Điều này mở ra nhiều cơ hội cho việc phát triển các ứng dụng thực tiễn trong cuộc sống hàng ngày.

III. Xây dựng hệ thống nhận dạng tiếng nói

Quá trình xây dựng hệ thống nhận dạng tiếng nói bao gồm nhiều bước quan trọng, từ thu thập dữ liệu âm thanh đến xử lý và nhận diện. Đầu tiên, việc thu thập dữ liệu âm thanh cần được thực hiện trong môi trường yên tĩnh để đảm bảo chất lượng tín hiệu. Sau đó, các đặc trưng âm thanh sẽ được trích xuất bằng phương pháp MFCC (Mel-Frequency Cepstral Coefficients), một kỹ thuật phổ biến trong nhận dạng tiếng nói. Cuối cùng, dữ liệu sẽ được đưa vào mạng neural để huấn luyện và nhận diện. Hệ thống này không chỉ giúp nhận diện các chữ số tiếng Việt mà còn có thể mở rộng để nhận diện các từ và câu phức tạp hơn trong tương lai.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy hệ thống nhận dạng tiếng nói sử dụng mạng neural có khả năng nhận diện chính xác các chữ số tiếng Việt. Các thử nghiệm được thực hiện trên môi trường Matlab, cho thấy độ chính xác đạt được là khá cao, mặc dù vẫn còn một số hạn chế cần khắc phục. Việc cải thiện độ chính xác và khả năng nhận diện trong các điều kiện khác nhau là một thách thức lớn. Tuy nhiên, những kết quả ban đầu này cho thấy tiềm năng lớn của việc ứng dụng mạng neural trong lĩnh vực nhận dạng tiếng nói tại Việt Nam.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute nhận dạng tiếng nói dùng mạng neural

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng trong ngành kỹ thuật điện tử và công nghệ thông tin, với ứng dụng rộng rãi trong điều khiển thiết bị, an ninh quốc phòng, và giao tiếp người-máy. Theo báo cáo của ngành, các hệ thống nhận dạng tiếng Anh hiện nay đạt độ chính xác khoảng 90-95%, tuy nhiên đối với tiếng Việt, lĩnh vực này còn khá mới mẻ và chưa có phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường. Tiếng Việt có nhiều đặc điểm riêng biệt như thanh điệu và biến đổi âm thanh theo ngữ cảnh, gây khó khăn cho việc nhận dạng chính xác.

Mục tiêu của luận văn là nghiên cứu và xây dựng hệ thống nhận dạng tiếng nói tiếng Việt sử dụng mạng Neural nhân tạo, thử nghiệm trên môi trường Matlab. Phạm vi nghiên cứu tập trung vào nhận dạng 11 chữ số tiếng Việt, với dữ liệu thu thập và xử lý trong khoảng thời gian thực hiện luận văn tại Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh năm 2013. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao độ chính xác nhận dạng tiếng Việt, góp phần phát triển các ứng dụng điều khiển bằng giọng nói và giao tiếp người-máy phù hợp với đặc thù ngôn ngữ Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: lý thuyết âm thanh và tiếng nói, cùng với mô hình mạng Neural nhân tạo.

Lý thuyết âm thanh và tiếng nói: Âm thanh được xem là sóng cơ học truyền qua môi trường đàn hồi, với các đại lượng đặc trưng như tần số, chu kỳ, cường độ và âm sắc. Tiếng nói của con người được tạo ra bởi các cơ quan phát âm như phổi, thanh quản, miệng và mũi, với các loại âm thanh hữu thanh, vô thanh và bán nguyên âm. Mô hình lọc nguồn (source-filter model) được sử dụng để mô phỏng quá trình tạo tiếng nói, trong đó tín hiệu nguồn được lọc qua bộ lọc biến thiên theo thời gian đại diện cho bộ phận phát âm.
Mạng Neural nhân tạo: Mạng Neural là mô hình toán học mô phỏng hoạt động của tế bào thần kinh sinh học, gồm các neuron nhân tạo kết nối với nhau qua các trọng số. Mạng Neural có khả năng học và thích nghi, xử lý phi tuyến và song song, phù hợp cho các bài toán nhận dạng mẫu phức tạp như nhận dạng tiếng nói. Luận văn tập trung vào mạng Neural đa lớp (Multilayer Perceptron) với thuật toán học lan truyền ngược (Backpropagation) để huấn luyện mạng.

Các khái niệm chính bao gồm: đặc trưng MFCC (Mel-Frequency Cepstral Coefficients) dùng để trích xuất đặc trưng âm thanh, mô hình mạng Neural đa lớp, hàm kích hoạt sigmoid, và thuật toán lan truyền ngược để tối ưu trọng số mạng.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là tập tín hiệu tiếng nói gồm 11 chữ số tiếng Việt được thu thập và xử lý trên môi trường Matlab. Cỡ mẫu cụ thể không được nêu rõ, tuy nhiên dữ liệu được chuẩn hóa và cắt bỏ khoảng lặng để đảm bảo chất lượng.

Phương pháp phân tích bao gồm:

Trích xuất đặc trưng tiếng nói bằng phương pháp MFCC, mô phỏng quá trình cảm nhận âm thanh của tai người.
Xây dựng và huấn luyện mạng Neural đa lớp sử dụng thuật toán lan truyền ngược để nhận dạng các chữ số.
Đánh giá hiệu năng mạng dựa trên độ chính xác nhận dạng từng chữ số.

Timeline nghiên cứu kéo dài trong quá trình học cao học tại Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh, với các bước chính: nghiên cứu lý thuyết, xây dựng mô hình, huấn luyện và thử nghiệm trên Matlab.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả trích xuất đặc trưng MFCC: Phương pháp MFCC cho phép trích xuất các đặc trưng âm thanh quan trọng, phù hợp với đặc điểm tiếng Việt, giúp phân biệt các chữ số với độ chính xác cao. Tín hiệu sau xử lý có độ ổn định và giảm nhiễu nền đáng kể.
Mạng Neural đa lớp đạt độ chính xác cao trong nhận dạng: Kết quả huấn luyện mạng Neural trên Matlab cho thấy độ chính xác nhận dạng các chữ số dao động trong khoảng 85-95%, với một số chữ số đạt trên 90%. Bảng tổng hợp kết quả nhận dạng cho thấy mạng có khả năng phân biệt tốt các mẫu đầu vào.
Khả năng nhận dạng độc lập người nói: Hệ thống được thiết kế để nhận dạng không phụ thuộc người nói, giúp mở rộng ứng dụng trong thực tế. Độ chính xác duy trì ổn định khi thử nghiệm với các mẫu từ nhiều người khác nhau.
Giới hạn về bộ dữ liệu và phạm vi từ vựng: Do giới hạn về thời gian và nguồn lực, hệ thống chỉ nhận dạng được 11 chữ số tiếng Việt, chưa mở rộng được bộ từ vựng lớn hơn. Điều này ảnh hưởng đến khả năng ứng dụng trong các lĩnh vực phức tạp hơn.

Thảo luận kết quả

Nguyên nhân chính giúp mạng Neural đạt hiệu quả cao là do việc sử dụng đặc trưng MFCC phù hợp với đặc điểm âm học của tiếng Việt, kết hợp với thuật toán lan truyền ngược giúp tối ưu trọng số mạng hiệu quả. So với các nghiên cứu trước đây trong nước, kết quả này có sự cải thiện rõ rệt về độ chính xác và khả năng nhận dạng độc lập người nói.

So sánh với các hệ thống nhận dạng tiếng Anh thương mại, độ chính xác của hệ thống còn thấp hơn một chút, chủ yếu do đặc thù ngôn ngữ tiếng Việt phức tạp hơn và bộ dữ liệu còn hạn chế. Tuy nhiên, kết quả này là bước tiến quan trọng trong nghiên cứu nhận dạng tiếng Việt, mở ra hướng phát triển các ứng dụng điều khiển bằng giọng nói và giao tiếp người-máy phù hợp với ngôn ngữ bản địa.

Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện độ chính xác nhận dạng từng chữ số, hoặc bảng tổng hợp kết quả huấn luyện và nhận dạng để minh họa hiệu năng mạng Neural.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu tiếng nói: Thu thập và xây dựng bộ dữ liệu lớn hơn, đa dạng về người nói, môi trường thu âm và từ vựng để nâng cao độ chính xác và khả năng tổng quát của hệ thống. Thời gian thực hiện dự kiến 1-2 năm, do các trung tâm nghiên cứu và trường đại học phối hợp thực hiện.
Phát triển phần mềm nhận dạng tiếng Việt hoàn chỉnh: Dựa trên kết quả nghiên cứu, xây dựng phần mềm nhận dạng tiếng nói ứng dụng trong điều khiển thiết bị và giao tiếp người-máy. Mục tiêu đạt độ chính xác trên 90% với bộ từ vựng mở rộng trong vòng 2 năm, do các công ty công nghệ và nhóm nghiên cứu phát triển.
Nghiên cứu các phương pháp trích đặc trưng mới: Thử nghiệm các kỹ thuật trích đặc trưng khác như PLP (Perceptual Linear Prediction) hoặc kết hợp đa đặc trưng để cải thiện khả năng nhận dạng trong môi trường nhiễu. Thời gian nghiên cứu khoảng 1 năm, do các nhóm nghiên cứu chuyên sâu về xử lý tín hiệu thực hiện.
Ứng dụng các mô hình nhận dạng khác: Nghiên cứu và áp dụng các mô hình mạng Neural tiên tiến như mạng hồi quy (Recurrent Neural Networks - RNN), mạng LSTM để mô hình hóa tốt hơn sự biến thiên theo thời gian của tiếng nói. Mục tiêu nâng cao độ chính xác và khả năng nhận dạng liên tục, thời gian thực hiện 1-2 năm, do các nhóm nghiên cứu AI và xử lý ngôn ngữ tự nhiên đảm nhiệm.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành kỹ thuật điện tử, công nghệ thông tin: Nghiên cứu về xử lý tín hiệu, mạng Neural và nhận dạng tiếng nói có thể học hỏi phương pháp và kết quả thực nghiệm để phát triển đề tài liên quan.
Các nhà phát triển phần mềm và kỹ sư AI: Tham khảo để ứng dụng mạng Neural trong xây dựng hệ thống nhận dạng tiếng Việt, phát triển các sản phẩm điều khiển giọng nói và giao tiếp người-máy.
Các tổ chức nghiên cứu và doanh nghiệp công nghệ: Sử dụng kết quả nghiên cứu để phát triển các giải pháp nhận dạng tiếng nói phù hợp với đặc thù ngôn ngữ Việt Nam, nâng cao hiệu quả ứng dụng trong thực tế.
Giảng viên và nhà quản lý giáo dục: Áp dụng nội dung luận văn trong giảng dạy, đào tạo chuyên sâu về xử lý tín hiệu và trí tuệ nhân tạo, đồng thời định hướng nghiên cứu cho sinh viên.

Câu hỏi thường gặp

Mạng Neural nhân tạo là gì và tại sao được chọn cho nhận dạng tiếng nói?
Mạng Neural nhân tạo là mô hình toán học mô phỏng hoạt động của tế bào thần kinh sinh học, có khả năng học và phân lớp dữ liệu phi tuyến phức tạp. Nó được chọn vì khả năng xử lý tốt các đặc trưng âm thanh đa chiều và thích nghi với biến đổi của tiếng nói.
Phương pháp MFCC có ưu điểm gì trong trích xuất đặc trưng tiếng nói?
MFCC mô phỏng cách tai người cảm nhận tần số âm thanh, giúp trích xuất các đặc trưng quan trọng và ổn định, giảm ảnh hưởng của nhiễu và biến đổi môi trường, từ đó nâng cao độ chính xác nhận dạng.
Hệ thống nhận dạng tiếng nói có thể áp dụng cho những lĩnh vực nào?
Ứng dụng trong điều khiển robot, thiết bị điện tử, trợ giúp người khuyết tật, an ninh quốc phòng, nhập liệu bằng giọng nói, và giao tiếp người-máy trong các thiết bị thông minh.
Độ chính xác nhận dạng của hệ thống hiện tại đạt mức nào?
Hệ thống thử nghiệm đạt độ chính xác nhận dạng các chữ số tiếng Việt trong khoảng 85-95%, tùy thuộc vào chữ số và điều kiện thử nghiệm.
Làm thế nào để nâng cao độ chính xác nhận dạng tiếng Việt trong tương lai?
Cần mở rộng bộ dữ liệu, áp dụng các mô hình mạng Neural tiên tiến như RNN, kết hợp đa đặc trưng âm thanh, và phát triển phần mềm nhận dạng hoàn chỉnh phù hợp với đặc thù tiếng Việt.

Kết luận

Luận văn đã nghiên cứu và xây dựng thành công hệ thống nhận dạng 11 chữ số tiếng Việt sử dụng mạng Neural đa lớp trên môi trường Matlab với độ chính xác cao.
Phương pháp trích xuất đặc trưng MFCC kết hợp mạng Neural cho kết quả nhận dạng ổn định và hiệu quả.
Hệ thống có khả năng nhận dạng độc lập người nói, phù hợp với ứng dụng thực tế.
Giới hạn hiện tại là bộ dữ liệu nhỏ và phạm vi từ vựng hạn chế, cần mở rộng trong nghiên cứu tiếp theo.
Đề xuất phát triển phần mềm nhận dạng tiếng Việt hoàn chỉnh và nghiên cứu các mô hình mạng Neural tiên tiến để nâng cao hiệu quả nhận dạng trong tương lai.

Để tiếp tục phát triển lĩnh vực này, các nhà nghiên cứu và doanh nghiệp công nghệ được khuyến khích hợp tác mở rộng bộ dữ liệu và ứng dụng các kỹ thuật mới nhằm nâng cao chất lượng nhận dạng tiếng Việt.

Trích đoạn nội dung tài liệu

Chương 1: TỔNG QUAN 1.1 Tổng quan về lĩnh vực nghiên cứu – Các kết quả nghiên cứu trong và ngoài nước đã công bố Ngay khi phát minh ra máy tính, con ngƣời đã mơ ƣớc máy tính có thể nói chuyện với mình. Yêu cầu đơn giản nhất là máy có thể xác định đƣợc từ ngữ mà chúng ta nói với máy. Đó là mục tiêu của ngành nhận dạng tiếng nói. Đối với con ngƣời, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá đơn giản.

Còn đối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát âm của một từ nào hoàn toàn không đơn giản. Hệ thống nhận dạng tiếng nói (Speech Recognition ) sẽ có những ứng dụng tuyệt vời trong tất cả các lĩnh vực của đời sống, nếu đƣợc áp dụng thành công sẽ là một cuộc cách mạng trong giao tiếp ngƣời máy (Human Machine Interface ), các ứng dụng của nó bao trùm trên nhiều lĩnh vực nhƣ công nghiệp, an ninh và giải trí. Lĩnh vực nhận dạng tiếng nói đã đƣợc nghiên cứu hơn 4 thập kỉ và hiện nay mới chỉ có một số thành công. Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ: phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp của OfficeXP…).

Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 - 95%) nhƣng còn xa mới đạt đến mức mơ ƣớc của chúng ta: có một hệ thống có thể nghe chính xác và hiểu hoàn toàn những điều ta nói. Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ. Chƣa hề thấy xuất hiện một phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trƣờng. Số công trình nghiên cứu về nhận dạng tiếng nói tiếng Việt đƣợc công bố rất hiếm hoi, và kết quả còn hạn chế về bộ từ vựng, độ chính xác….

Tiếng Việt có nhiều đặc tính khác với các ngôn ngữ đã đƣợc nghiên cứu nhận dạng nhiều nhƣ tiếng Anh, tiếng Pháp. Do đó việc nghiên cứu nhận dạng tiếng Việt là rất cần thiết. Trang 1 Luan van Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói dùng mạng Neural”, nhằm nghiên cứu các phƣơng pháp nhận dạng tiếng nói đối với tiếng Việt và thử nghiệm xây dựng một hệ thống nhận dạng cỡ nhỏ.1 Các kết quả nghiên cứu ngoài nước. Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con ngƣời vào máy tính và tổng hợp tiếng nói nhằm tự động tạo ra tiếng ngƣời nói bằng máy tính.

Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một xu hƣớng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều thuật toán đƣợc đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thƣơng mại dành cho tiếng Anh nhƣ IBM ViaVoice, Dragon Naturally Speaking, L&H Voice Xpress. Những phần mềm này cung cấp các chức năng chủ yếu nhƣ: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói.

Gần đây nhất hãng Microsoft đã công bố việc tích hợp VUI (Voice User Interface) thay cho GUI (Graphic User Interface) truyền thống vào phiên bản hệ điều hành Windows thế hệ mới với mật danh Whistler. Kết quả này có ý nghĩa rất lớn trong giao tiếp ngƣời-máy: thay vì giao tiếp với máy tính qua những biểu tƣợng và cửa sổ, các máy tính trong tƣơng lai chỉ giao tiếp với con ngƣời bằng những mệnh lệnh đơn giản.2 Các kết quả nghiên cứu trong nước. Trƣớc hết đây là vấn đề khó, vì một số khó khăn do bản thân đối tƣợng mà nó nhắm đến, tiếng nói hay âm thanh, là một đối tƣợng không ổn định. Các khó khăn có thể kể đến như:  Sự biến động của ngƣời nói trong việc phát âm: - Tiếng nói thay đổi theo thời gian, theo độ tuổi.

- Tình trạng sức khỏe. Một ngƣời khi khỏe mạnh sẽ phát âm khác hẳn so với khi đau ốm, ví dụ nhƣ cảm cúm chẳng hạn. Trang 2 Luan van - Với một ngƣời trong một khoảng thời gian ngắn, việc phát âm một từ trong nhiều lần khác nhau có thể khác nhau.  Ảnh hƣởng của ngoại cảnh: - Nhiễu, tiếng ồn của môi trƣờng xung quanh.

Ví dụ một ngƣời nói trong không gian yên tĩnh sẽ dễ nghe hơn là ở ngoài đƣờng phố. - Handset để thu âm có thể khác nhau trong những tình huống khác nhau. Điều kiện lý tƣởng cho việc thực hiện nhận dạng tiếng nói nói chung và âm thanh nói riêng là tiếng nói sẽ ổn định kể cả trong lúc huấn luyện và lúc nhận dạng. Tiếng nói của mỗi ngƣời là duy nhất, không trùng lẫn với những ngƣời khác.

Do đó, cho đến thời điểm hiện tại, việc nhận dạng âm thanh, tiếng nói là một công việc rất khó khăn. Trong thời gian qua, các nghiên cứu còn tản mạn, các kết quả tập trung chủ yếu vào thử nghiệm bƣớc đầu tổng hợp tiếng Việt dựa trên một số kỹ thuật cơ bản, và giải quyết các ứng dụng điều khiển bằng giọng nói với lƣợng từ vựng nhỏ để có thể triển khai nhanh, để minh họa và thực tế là chƣa khai thác đặc điểm riêng của ngữ âm tiếng Việt. Trong đề tài KC-01-10, các nội dung về tổng hợp và nhận dạng tiếng Việt mới đƣợc tiến hành nghiên cứu ở hai năm cuối (1999-2000). Vì thế chƣa có sản phẩm có khả năng ứng dụng rộng rãi chẳng hạn cho các ứng dụng văn phòng hay các ứng dụng trong viễn thông.

Một số phần mềm nhận dạng tiếng Việt:  Chƣơng trình nhận dạng lệnh VnCommand: Nhận dạng lệnh, trình diễn khả năng điều khiển chƣơng trình ứng dụng trên Windows. - Mục tiêu: Phần mềm nhận dạng lệnh ứng dụng trong điều khiển thay thế cho ngƣời dùng nhấn chuột hoặc gõ lệnh từ bản phím. CSDL gồm tập các lệnh nhỏ (dƣới 100 lệnh). - Kết quả của sản phẩm: chỉ ra khả năng tạo ra một hệ thống nhận dạng lệnh tiếng Việt, độc lập ngƣời nói với độ chính xác rât cao trên một tập lệnh với độ đồng âm giữa các lệnh thấp.

Trang 3 Luan van  Chƣơng trình nhận dạng lệnh 10 chữ số tiếng Việt liên tục qua điện thoại: Xây dựng hệ thống nhận dạng mƣời chữ số tiếng Việt liên tục qua mạng điện thoại, dùng hệ thống nhận dạng lai ghép giữa mạng nơ ron nhân tạo và mô hình Markov ẩn (ANN/HMM).  Chƣơng trình đọc chính tả VnDictator: Nghiên cứu, đề xuất các cách tiếp cận nhận dạng tiếng nói rời rạc hoặc liên tục, phụ thuộc hoặc không phụ thuộc ngƣời nói với lƣợng từ vựng lớn (là toàn bộ từ điển âm tiết, từ tiếng Việt).2 Mục đích của đề tài Đề tài này nghiên cứu một hƣớng nhận dạng tiếng nói dựa trên việc trích đặc trƣng của tiếng nói bằng phƣơng pháp MFCC (Mel - Frequency Ceptrums Coefficients), và nhận dạng bằng mạng neural trên môi trƣờng Matlab.3 Nhiệm vụ và giới hạn của đề tài.1 Nhiệm vụ của đề tài  Thiết kế và mô phỏng hệ thống nhận dạng tiếng nói (nhận dạng 11 chữ số tiếng Việt) dùng mạng neural trên môi trƣờng Matlab.  Một hệ thống nhận dạng tiếng nói nói chung thƣờng bao gồm hai phần: - Phần huấn luyện (training phase): là quá trình hệ thống “học” những mẫu chuẩn, để từ đó hình thành bộ từ vựng của hệ thống. - Phần nhận dạng (recognition phase): là quá trình quyết định xem từ nào đƣợc đọc căn cứ vào bộ từ vựng đã đƣợc huấn luyện.2 Giới hạn của đề tài Do thời gian thực hiện có hạn, ngƣời thực hiện chỉ giới hạn nghiên cứu, thiết kế cho một hệ thống nhận dạng tiếng nói (nhận dạng 11 chữ số tiếng Việt) dùng mạng neural mô phỏng trên môi trƣờng Matlab.4 Phương pháp nghiên cứu  Phƣơng pháp phân tích: nghiên cứu, tìm hiểu về các phƣơng pháp trích đặc trƣng tiếng nói, tìm hiểu về mạng neural, lựa chọn mạng và thuật toán cho hệ thống nhận dạng, phân tích các kết quả nhận đƣợc từ mô hình nhận dạng… Trang 4 Luan van  Phƣơng pháp mô phỏng: nghiên cứu về phần mềm Matlab, mạng neural trên môi trƣờng Matlab từ đó xây dựng chƣơng trình huấn luyện và nhận dạng cho hệ thống.

Trang 5 Luan van Chương 2: CƠ SỞ LÝ THUYẾT 2.1 Lý thuyết âm thanh và tiếng nói 2.1 Nguồn gốc âm thanh. Âm thanh là do vật thể dao động cơ học mà phát ra. Âm thanh phát ra dƣới dạng sóng âm. Sóng âm là sự biến đổi các tính chất của môi trƣờng đàn hồi khi năng lƣợng âm truyền qua.

Âm thanh truyền đƣợc đến tai ngƣời là do môi trƣờng dẫn âm. Sóng âm có thể truyền đƣợc trong chất rắn, chất lỏng, không khí. Có chất dẫn âm rất kém gọi là chất hút âm nhƣ: len,da, chất xốp… Sóng âm không thể truyền trong môi trƣờng chân không. Khi kích thích dao động âm trong mối trƣờng không khí thì những lớp khí sẽ bị nén và dãn.

Trạng thái nén dãn lần lƣợt đƣợc lan truyền từ nguồn âm dƣới dạng sóng dọc tới nơi thu âm. Nếu cƣờng độ nguồn âm càng lớn thì âm thanh truyền đi càng xa.2 Các đại lượng đặc trưng cho âm thanh.  Tần số của âm thanh: là số lần dao động của phần tử khí trong một giây. Đơn vị là Hz , kí hiệu: f.

 Chu kì của âm thanh: là thời gian mà âm thanh đó thực hiện một dao động hoàn toàn. Đơn vị là thời gian, kí hiệu là T.  Tốc độ truyền âm: là tốc độ truyền năng lƣợng âm từ nguồn tới nơi thu. Tốc độ truyền âm trong không khí ở nhiệt độ từ 0- 200C thƣờng là 331 – 340 m/s.

 Cường độ âm thanh: là năng lƣợng đƣợc sóng âm truyền trong một đơn vị thời gian qua một đơn vị diện tích đặt vuông góc với phƣơng truyền âm.  Thanh áp: là lực tác dụng vào tai ngƣời nghe hoặc tại một điểm nào đó của trƣờng âm thanh. Đơn vị : 1pa=1 N/m2 hoặc 1bar = 1dyn/cm2.  Âm sắc: Trong thành phần của âm thanh, ngoài tần số cơ bản còn có các sóng hài, số lƣợng sóng hài biểu diễn sắc thái của âm.

Âm sắc là một đặc tính của Trang 6 Luan van âm, nhờ đó mà ta phân biệt đƣợc tiếng trầm, bổng khác nhau, phân biệt đƣợc tiếng nhạc cụ, tiếng nam nữ ,tiếng ngƣời này với ngƣời khác.  Âm lượng: là mức độ to nhỏ của nguồn.3 Các tần số của âm thanh. F0 gọi là tần số cơ bản của âm thanh. Nam giới f0 = 150 Hz.

Nữ giới : f0 = 250 Hz. Giọng nam trầm 80 – 320 Hz.  Giọng nam trung 100 – 400 Hz.  Giọng nam cao 130 – 480 Hz.

 Giọng nữ thấp 160 – 600 Hz.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ HCMUTE về nhận dạng tiếng nói sử dụng mạng neural" của tác giả Đinh Thị Thanh Hoa, dưới sự hướng dẫn của PGS.TS Dương Hoài Nghĩa, trình bày về ứng dụng mạng neural trong lĩnh vực nhận dạng tiếng nói. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về công nghệ nhận dạng tiếng nói mà còn nêu bật những thách thức và giải pháp trong việc cải thiện độ chính xác của hệ thống. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà mạng neural có thể được áp dụng để phát triển các ứng dụng thực tiễn trong cuộc sống hàng ngày.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến nhận dạng tiếng nói và ứng dụng công nghệ trong lĩnh vực máy tính, bạn có thể tham khảo thêm bài viết Luận văn thạc sĩ: Nghiên cứu về nhận dạng tiếng nói ứng dụng trong điều khiển xe lăn. Bài viết này cũng khám phá cách nhận dạng tiếng nói có thể được ứng dụng trong việc điều khiển thiết bị, mở rộng khả năng của công nghệ này.

Ngoài ra, bạn cũng có thể tìm hiểu về Luận văn thạc sĩ về rút trích luật từ mạng nơron trong khoa học máy tính, nơi mà các phương pháp học máy, bao gồm mạng neural, được áp dụng để rút trích thông tin từ dữ liệu lớn, một khía cạnh quan trọng trong nghiên cứu hiện đại.

Cuối cùng, bài viết Luận văn thạc sĩ: Giải pháp tăng tốc AI trong các hệ thống dựa trên RISC-V cũng sẽ cung cấp cho bạn cái nhìn về cách tối ưu hóa hiệu suất của các hệ thống AI, liên quan mật thiết đến công nghệ nhận dạng tiếng nói và mạng neural. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của công nghệ trong lĩnh vực này.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#nhận dạng tiếng nói

#công nghệ âm thanh

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực AI

Mạng neural và ứng dụng

Giáo dục và nghiên cứu tại HCMUTE

Công nghệ nhận dạng tiếng nói