Luận văn thạc sĩ: Nghiên cứu và phát triển hệ thống nhận dạng tiếng Việt phát âm liên tục

Luận văn thạc sĩ nghiên cứu vnu uet nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ, đánh giá hiện trạng, phân tích vấn đề, đề xuất

Trường đại học

Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI

1.1. Tổng quan về nhận dạng tiếng nói

1.2. Các vấn đề trong nhận dạng tiếng nói

1.3. Giới thiệu hệ thống nhận dạng tiếng nói

1.3.1. Các thành phần chính trong hệ thống nhận dạng tiếng nói

1.3.2. Đặc trưng của tiếng nói

1.3.3. Mô hình âm học

1.3.4. Mô hình ngôn ngữ

1.4. Tình hình nghiên cứu trong và ngoài nước

2. CHƯƠNG 2: NHẬN DẠNG TIẾNG VIỆT PHÁT ÂM LIÊN TỤC

2.1. Tổng quan về tiếng Việt

2.1.1. Âm tiết và đặc điểm của âm tiết

2.1.2. Âm vị tiếng Việt

2.2. Mô hình Markov ẩn

2.2.1. Mô hình Markov

2.2.2. Mô hình Markov ẩn

2.2.3. Ba bài toán cơ bản của mô hình Markov ẩn và giải pháp

2.3. Các phương pháp trích chọn đặc trưng và xử lý tiếng nói

2.3.1. Mel Frequency Cepstral Coefficients (MFCC)

2.3.2. Perceptual Linear Prediction (PLP)

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN TỤC SỬ DỤNG HTK

3.1. Giới thiệu về HTK

3.2. Chuẩn bị dữ liệu

3.3. Huấn luyện âm đơn

3.4. Huấn luyện âm buộc

3.5. Tạo mạng từ nhận dạng

3.6. Mô hình ngôn ngữ bigram

3.7. Đánh giá kết quả nhận dạng

3.8. Chương trình nhận dạng mười chữ số tiếng Việt phát âm liên tục

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu hệ thống nhận dạng tiếng Việt phát âm liên tục

Nghiên cứu hệ thống nhận dạng tiếng Việt phát âm liên tục là một lĩnh vực quan trọng trong công nghệ thông tin. Hệ thống này cho phép máy tính nhận diện và chuyển đổi tiếng nói thành văn bản, giúp cải thiện khả năng tương tác giữa con người và máy móc. Đặc biệt, tiếng Việt với đặc trưng ngữ âm và thanh điệu phức tạp đòi hỏi các phương pháp nhận dạng tiên tiến. Việc phát triển hệ thống này không chỉ giúp nâng cao hiệu quả giao tiếp mà còn mở ra nhiều ứng dụng thực tiễn trong đời sống.

1.1. Định nghĩa và vai trò của nhận dạng tiếng nói

Nhận dạng tiếng nói là quá trình chuyển đổi tín hiệu âm thanh thành văn bản. Vai trò của nó ngày càng trở nên quan trọng trong các ứng dụng như trợ lý ảo, hệ thống điều khiển bằng giọng nói và nhiều lĩnh vực khác. Hệ thống nhận dạng tiếng nói giúp cải thiện khả năng giao tiếp giữa con người và máy móc, tạo ra trải nghiệm người dùng tốt hơn.

1.2. Tình hình nghiên cứu nhận dạng tiếng nói tại Việt Nam

Tại Việt Nam, nghiên cứu về nhận dạng tiếng nói còn nhiều hạn chế so với các nước phát triển. Các hệ thống hiện có chủ yếu tập trung vào tiếng Anh, trong khi tiếng Việt với đặc điểm ngữ âm riêng biệt cần được nghiên cứu sâu hơn. Việc phát triển hệ thống nhận dạng tiếng Việt sẽ giúp nâng cao khả năng giao tiếp và ứng dụng công nghệ trong nhiều lĩnh vực.

II. Các thách thức trong nghiên cứu hệ thống nhận dạng tiếng Việt

Việc phát triển hệ thống nhận dạng tiếng Việt gặp nhiều thách thức do đặc điểm ngôn ngữ và môi trường âm thanh. Các yếu tố như sự đa dạng trong cách phát âm, tiếng ồn xung quanh và sự khác biệt giữa các vùng miền làm cho việc nhận dạng trở nên khó khăn. Để giải quyết những vấn đề này, cần có các phương pháp nghiên cứu và công nghệ tiên tiến.

2.1. Đặc điểm ngôn ngữ tiếng Việt và ảnh hưởng đến nhận dạng

Tiếng Việt là ngôn ngữ đơn âm với nhiều thanh điệu, điều này tạo ra sự phức tạp trong việc nhận dạng. Các âm vị và cách phát âm khác nhau giữa các vùng miền có thể dẫn đến sai sót trong quá trình nhận dạng. Do đó, việc xây dựng mô hình âm học phù hợp là rất cần thiết.

2.2. Ảnh hưởng của tiếng ồn và môi trường đến nhận dạng

Môi trường xung quanh có thể ảnh hưởng lớn đến chất lượng tín hiệu âm thanh. Tiếng ồn từ các nguồn khác nhau có thể làm giảm độ chính xác của hệ thống nhận dạng. Cần có các phương pháp xử lý tín hiệu để lọc bỏ tiếng ồn và cải thiện độ chính xác của hệ thống.

III. Phương pháp nghiên cứu và phát triển hệ thống nhận dạng tiếng Việt

Để phát triển hệ thống nhận dạng tiếng Việt, cần áp dụng các phương pháp nghiên cứu hiện đại như mô hình Markov ẩn (HMM) và các thuật toán học máy. Việc sử dụng các đặc trưng âm thanh như MFCC và PLP sẽ giúp cải thiện độ chính xác của hệ thống. Ngoài ra, việc thu thập và xử lý dữ liệu huấn luyện cũng rất quan trọng.

3.1. Mô hình Markov ẩn trong nhận dạng tiếng nói

Mô hình Markov ẩn (HMM) là một trong những phương pháp phổ biến trong nhận dạng tiếng nói. Nó cho phép mô hình hóa mối quan hệ giữa tín hiệu âm thanh và các âm vị trong ngôn ngữ. Việc áp dụng HMM giúp cải thiện độ chính xác và khả năng nhận diện của hệ thống.

3.2. Các phương pháp trích chọn đặc trưng âm thanh

Trích chọn đặc trưng âm thanh là bước quan trọng trong quá trình nhận dạng. Các phương pháp như MFCC và PLP giúp chuyển đổi tín hiệu âm thanh thành các vector đặc trưng, từ đó cải thiện khả năng nhận diện của hệ thống. Việc lựa chọn phương pháp phù hợp sẽ ảnh hưởng lớn đến kết quả cuối cùng.

IV. Ứng dụng thực tiễn của hệ thống nhận dạng tiếng Việt

Hệ thống nhận dạng tiếng Việt phát âm liên tục có nhiều ứng dụng thực tiễn trong đời sống. Từ việc hỗ trợ giao tiếp cho người khuyết tật đến việc cải thiện trải nghiệm người dùng trong các thiết bị thông minh, công nghệ này đang ngày càng trở nên phổ biến. Các ứng dụng trong lĩnh vực giáo dục, y tế và giao thông cũng đang được phát triển.

4.1. Ứng dụng trong giáo dục và đào tạo

Trong lĩnh vực giáo dục, hệ thống nhận dạng tiếng nói có thể hỗ trợ việc học ngôn ngữ, giúp người học cải thiện kỹ năng phát âm và giao tiếp. Các ứng dụng này giúp tạo ra môi trường học tập tương tác và hiệu quả hơn.

4.2. Ứng dụng trong lĩnh vực y tế

Trong y tế, nhận dạng tiếng nói có thể được sử dụng để ghi chép thông tin bệnh nhân, giúp giảm thiểu thời gian và công sức cho bác sĩ. Điều này không chỉ nâng cao hiệu quả làm việc mà còn cải thiện chất lượng dịch vụ y tế.

V. Kết luận và triển vọng tương lai của hệ thống nhận dạng tiếng Việt

Nghiên cứu và phát triển hệ thống nhận dạng tiếng Việt phát âm liên tục là một lĩnh vực đầy tiềm năng. Với sự phát triển của công nghệ và nhu cầu ngày càng cao trong việc giao tiếp giữa con người và máy móc, hệ thống này sẽ tiếp tục được cải thiện và mở rộng ứng dụng. Tương lai của nhận dạng tiếng nói tiếng Việt hứa hẹn sẽ mang lại nhiều giá trị cho xã hội.

5.1. Tương lai của công nghệ nhận dạng tiếng nói

Công nghệ nhận dạng tiếng nói sẽ tiếp tục phát triển với sự hỗ trợ của trí tuệ nhân tạo và học máy. Các hệ thống sẽ ngày càng chính xác và linh hoạt hơn, đáp ứng tốt hơn nhu cầu của người dùng.

5.2. Khuyến nghị cho nghiên cứu và phát triển

Cần tiếp tục đầu tư vào nghiên cứu và phát triển hệ thống nhận dạng tiếng nói, đặc biệt là trong việc thu thập dữ liệu và cải thiện các thuật toán. Việc hợp tác giữa các nhà nghiên cứu và doanh nghiệp cũng sẽ giúp thúc đẩy sự phát triển của công nghệ này.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu và phát triển hệ thống nhận dạng tiếng việt phát âm liên tục trên bộ từ vựng nhỏ và trung bình luận văn ths máy tính 60 48 01

Tải đầy đủ

Trích đoạn nội dung tài liệu

phần mở đầu và kết thúc, luận văn đƣợc chia làm ba chƣơng: - Chƣơng 1: Tổng quan vấn đề nghiên cứu và các vấn đề cơ bản của nhận dạng tiếng nói - Chƣơng 2:Nhận dạng giọng nói tiếng Việt phát âm liên tục - Chƣơng 3: Xây dựng hệ thống nhận dạng tiếng Việt liên tục sử dụng HTK LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU VÀ CÁC VẤN ĐỀ CƠ BẢN CỦA NHẬN DẠNG TIẾNG NÓI 1.1 Tổng quan về nhận dạng tiếng nói 1.1 Giới thiệu Nhận dạng tiếng nói là một lĩnh vực liên ngành của ngôn ngữ học tính toán nhằm phát triển các phƣơng pháp và công nghệ cho phép nhận dạng và chuyển lời nói thành văn bản bằng máy tính. Nó còn đƣợc gọi là “Nhận dạng tiếng nói tự động” (Automatic Speech Recognition), “Nhận dạng tiếng nói băng máy tính” (Computer Speech Recognition) hay chỉ là “Tiếng nói thành văn bản” (Speech To Text). Nó kết hợp kiễn thức và nghiên cứu giữa các lĩnh vực ngôn ngữ học, khoa học máy tính và kỹ thuậtđiện. Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đƣợc học trƣớc đó và lƣu trữ trong bộ nhớ.

Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Tuy nhiên khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.

Một số hệ thống nhận dạng tiếng nói đòi hỏi phảiđƣợc “huấn luyện” bằng cách một ngƣời sẽđọc cácđoạn văn bản hoặc các từ vựng đơn lẻ và nhập vào hệ thống. Hệ thống sẽ phân tích tiếng nói của ngƣờiđó và sử dụng những dữ liệu phân tích đƣợc cho việc nhận dạng tiếng nói của ngƣờiđó, dẫn đến độ chính xác sẽ cao hơn. Các hệ thống không sử dụng việc “huấn luyện” này đƣợc gọi là các hệ thống “độc lập ngƣời nói”. Còn các hệ thống sử dụng việc “huấn luyện” đƣợc gọi là “phụ thuộc ngƣời nói”.

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [7]: - Tín hiệu tiếng nói đƣợc biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. - Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣợc bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.

- Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.2 Ứng dụng Trong thờiđại công nghệ ngày càng phát triển nhƣ hiện nay thì nhận dạng tiếng nói ngày càng có nhiềuứng dụng vào thực tế. Trong đó, có thể liệt kệ một sốứng dụng nổi bật sau: - Các hệ thống trong xe hơi: Giờ đây, thay vì việc phải thao tác bằng tay để thực hiện một số chức năng nhƣ gọi điện, dẫn đƣờng, nghe nhạc,…thì nhận dạng tiếng nói đã đƣợc áp dụng vào để thực hiện các lệnh bằng tiếng nói giúp cho ngƣời lái xe có thể tập trung hơn, đảm bảo an toàn hơn. - Trong lĩnh vực chăm sóc sức khỏe: Nhận dạng tiếng nói có thể đƣợc áp dụng ở phần đầu hoặc cuối của quá trình tạo hồ sơ y tế bằng cách ghi lại lời nói của bệnh nhân và chuyển thành văn bản lƣu vào bệnh lý chữa trị của ngƣời bệnh.

Hay nhƣ có làm đơn giản hóa việc tƣơng tác giữa ngƣời bệnh với các hệ thống chuẩn đoán bênh tự động để đƣa ra những giải đáp cơ bản cho ngƣời bệnh một cách thân thiện và trực quan hơn. - Trong quân đội: Một số nƣớc nhƣ Mỹ, Pháp, Anh đã áp dụng nhận dạng tiếng nói trong việc điều khiển các máy bay chiến đấu, giúp cho phi công giảm bớt các thao tác điều khiển nhƣ: cài đặt tần số vô tuyến, điều khiển hệ thống lái tự động, cài đặt các tọa độ, các thông số cho việc sử dụng các vũ khí trên máy bay. - Trong viễn thông và các lĩnh vực giải trí: Hiện nay, tự động nhận dạng tiếng nói rất phổ biến trong lĩnh vực viễn thông và đang lan rộng sang các lĩnh vực khác nhƣ mô phỏng và trò chơi máy tính, nhằm làm cho tƣơng tác mô phỏng cũng nhƣ trò chơi trở nên sinh động và thật hơn. Ngoài ra, sự chạy đua về cấu hình của điện thoại đã giúp cho các điện thoại trở nên mạnh và thông minh hơn và các trợ lý ảo sử dụng nhận dạng tiếng nói đã ra đời nhƣ Siri của Apple, Google Now, Cortana,… để giúp ngƣời sử dụng tƣơng tác với thiết bị thuận tiện hơn.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 - Trong lĩnh vực giáo dục: Nhƣ đối với việc học ngôn ngữ, nhận dạng tiếng nói có thể có ích cho việc học ngôn ngữ nƣớc ngoài. Nó có thể dạy và kiểm tra cách phát âm cũng nhƣ giúp ngƣời học phát triển thành thạo hơn kỹ năng nói của họ. - Đối với người khuyết tật: Nhận dạng tiếng nói có thể giúp cho những ngƣời bị điếc hoặc khiếm thính có thể hiểu đƣợc các cuộc trò chuyện nhƣ thảo luận trong phòng họp, các bài giảng trên lớp, hay giao tiếp với ngƣời khác. Nó cũng giúp cho những ngƣời gặp khó khăn trong việc sử dụng tay của họ để soạn thảo hay điều khiển các thiết bị điện tử.

Và còn rất nhiều ứng dụng hữuích khác mà nó mang lại nhƣ: Nhà thông minh, robot, tự động tạo phụ đề,… 1.3 Các vấn đề trong nhận dạng tiếng nói 1.1 Sự phụ thuộc người nói Lời nói đƣợc nói ra có thể theo phong cách khác nhau theo từng ngƣời. Nócòn phụ thuộc vào độ tuổi, giới tính của ngƣời nói. Hay mỗi vùng miền sẽ có tiếng nói, cách phátâm khác nhau. Nhận dạng tiếng nói thƣờng đƣợc xây dựng để chỉ nhận làm việc với một hoặc một số ngƣời nhấtđịnh, những hệ thống nhƣ vậy gọi là phụ thuộc ngƣời nói.

Còn một loại là độc lập ngƣời nói, tức là hệ thống có thể nhận dạng cho bất cứ ngƣời nói nào, tuy nhiên tỷ lệ lỗi sẽ cao hơn.2 Kích thước bộ từ điển Kích thƣớc của bộ từđiển là lƣợng tự vựng mà nó chứa để phục vụ khả năng nhận dạng của hệ thống. Kích thƣớc này càng lớn thì việc tính toán để nhận dạng càng phức tạp và tỷ lệ lỗi cũng sẽ tăng lên.3 Tốc độ nói và hiện tượng đồng phát âm Ngƣời nói có thể nói với tốc độ khác nhau ở những thời điểm, hoàn cảnh khác nhau. Nếu ngƣời nói căng thẳng, lời nói sẽ đƣợc đẩy nhanh hơn, còn ngƣời nói nếu mệt mỏi, tốc độ sẽ có xu hƣớng giảmđi. Hay hiện tƣợng đồngâm là để chỉ những từ có cùngâm nhƣng cách viết lại khác nhau vàý nghĩa cũng khác nhau.

Có thể thấy rất khó để nhận dạng đƣợc những từ nhƣ vậy và nhất là khi chúng đƣợc nói trong một ngữ cảnh rộng.4 Sự biến đổi trong lời nói LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 Ngoài ra, nó còn do tiếngồn xung quanh thay đổi theo thời gian, và có thể từ các vị trí đặt micro khác nhau dẫn đếnảnh hƣởng tớiâm thanh của ngƣời nói, hiện tƣợng này đƣợc gọi là sự thay đổi kênh.5 Điều kiện môi trường (nhiễu) Tiếng nói bị lẫn trọng môi trƣờng có nhiềuâm thanh khác nhƣ tiếng đồng hồ, tiếngồn từ máy tính, đang mởđài hoặc tiếng của những ngƣời khác, v.v… Chúng thƣờng đƣợc gọi là nhiễu, những tính hiệuâm thanh không mong muốn. Trong nhận dạng tiếng nói, chúng ta phải xácđịnh và lọc bỏ những tạpâm này ra khỏi tính hiệu tiếng nói.Một loại tiếng nhiễu khác là hiệu ứng tiếng vang, đó là tín hiệu tiếng nói bị vang vọng xung quanh, và đến microphone vài mili giây sau đó. Nếu ở mộtvị trí mà trong khi nói âm thanh đƣợc tạo ra vang lên rõ rệt, thì nó gọi là hiện tƣợng hồi âm và có thể kéo dài tới vài giây.6 Giới hạn về ngôn ngữ Các hệ thốngnhận dạng có thể làm việc tốt với các câu có ngữ pháp, phátâm rõ ràng trong các chƣơng trình cụ thể, tuy nhiên mỗi ngôn ngữ có những đặc điểm riêng làm cho việc phátâm khác nhau hay cách sử dụng ngữ pháp tự do sẽ khiến cho việc nhận dạng trở nên khó khăn hơn.2 Giới thiệuhệ thống nhận dạng tiếng nói 1.1 Các thành phần chính trong hệ thống nhận dạng tiếng nói Hình 1.1đƣa ra một cấu trúc cơ bản của hệ thống nhận dạng tiếng nói. Đầu tiên, tiến trình trích chọn đặc trƣng sẽ chuyển tín hiệu tiếng nói dạng sóng thành các vector đặc trƣng.

Vector đặc trƣng nàyđại diện cho thông tin âm thanh, nó là đầu vào quan trọng của hệ thống nhận dạng. Các vector đặc trƣng này đƣợc chia làm hai nhóm, một nhóm dùng để huấn luyện mô hìnhâm học và nhóm còn lại dùng cho việcnhận dạng. Sau đó, mô hình ngôn ngữ dựa trên HMM và từ điển ngữâm là tập danh sách các từ xuất hiện trong dữ liệu huấn luyện và phiên âm tƣơng ứng của nó sẽ đƣợc kết hợp để giải mã ra văn bản của tiếng nói ban đầu. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Các thành phần trong hệ thống nhận dạng tiếng nói 1.2 Đặc trƣng của tiếng nói Đặc trƣng tiếng nói là các vectortham sốđại diện cho thông tin củaâm thanh đƣợc chuyển từ tín hiệu tiếng nói trƣớc khi đƣợcđƣa tới công cụ nhận dạng.

Vector đặc trƣng này lƣu lại các thông tin riêng biệt trong các lớp của tín hiệu tiếng nói bất kể trong môi trƣờng có nhiều loại tiếngồn hay mức độ nhiễuâm khác nhau. Để tạo ra đặc trƣng, tín hiệu tiếng nói đƣợc chia thành các khung thƣờng có độ dài từ 20ms đến 40ms để mã hóa thành các thông tin nhằm giảm lƣợng dữ liệu cao của tín hiệu tiếng nói gốc[8].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Hệ thống thông tin

Công nghệ nhận dạng giọng nói

Xử lý tiếng nói và âm thanh