Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho người khiếm thính

Tài liệu nghiên cứu Hcmute thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

Chuyên ngành

Khoa Điện – Điện Tử

Người đăng

Ẩn danh

Thể loại

báo cáo tổng kết đề tài KH&CN cấp trường

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: NHẬN DẠNG GIỌNG NÓI

1.1. Giói thiệu

1.2. Trích rút đặc trưng tín hiệu lời nói

1.3. Các mô hình nhận dạng giọng nói

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Hệ thống nhận dạng giọng nói và chuyển đổi sang ngôn ngữ cử chỉ

Nghiên cứu tập trung vào hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho người khiếm thính. Hệ thống này bao gồm hai giai đoạn chính: nhận dạng giọng nói và chuyển đổi sang ngôn ngữ cử chỉ. Giai đoạn đầu tiên sử dụng các kỹ thuật nhận dạng giọng nói, cụ thể là trích xuất đặc trưng MFCC (Mel-Frequency Cepstral Coefficients) từ tín hiệu âm thanh. Các đặc trưng này được đưa vào mô hình âm học và mô hình ngôn ngữ để xác định các từ hoặc câu. Công nghệ nhận dạng giọng nói hiện đại, như DeepSpeech hoặc các dịch vụ nhận dạng giọng nói của Google, có thể được tích hợp. Giai đoạn thứ hai chuyển đổi văn bản nhận dạng được sang ngôn ngữ cử chỉ. Ngôn ngữ cử chỉ được biểu diễn dưới dạng ảnh hoặc video, cần mối quan hệ ngữ nghĩa rõ ràng giữa từ hoặc câu và biểu đạt cử chỉ tương ứng. Hệ thống này sử dụng phần mềm xử lý chuyên dụng và có thể tích hợp các thư viện mã nguồn mở. AI hỗ trợ người khiếm thính thông qua việc cung cấp giải pháp giao tiếp trực quan hơn.

1.1. Mô hình nhận dạng giọng nói

Mô hình nhận dạng giọng nói đóng vai trò quan trọng trong hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ. Phần mềm chuyển đổi giọng nói sang ngôn ngữ ký hiệu dựa trên mô hình âm học (Acoustic Model) và mô hình ngôn ngữ (Language Model). Acoustic Model ánh xạ các đặc trưng âm thanh (MFCC) thành các đơn vị ngữ âm. Language Model sử dụng xác suất để dự đoán chuỗi từ có ý nghĩa nhất từ chuỗi ngữ âm. Nghiên cứu này so sánh các mô hình mạng nơ-ron học sâu, như DeepSpeech và ConvNet, cùng với dịch vụ nhận dạng giọng nói của Google, để lựa chọn mô hình tối ưu cho ngôn ngữ Việt Nam. Việc chọn lựa phụ thuộc vào độ chính xác, tốc độ xử lý, và khả năng hoạt động trên các thiết bị có cấu hình thấp. Tập dữ liệu huấn luyện cần đủ lớn và đa dạng để đảm bảo độ chính xác cao. Thực tế ảo và người khiếm thính có thể được kết hợp để nâng cao hiệu quả huấn luyện. Cải thiện giao tiếp cho người khiếm thính là mục tiêu chính của nghiên cứu.

1.2. Chuyển đổi sang ngôn ngữ cử chỉ

Sau khi nhận dạng giọng nói, giai đoạn tiếp theo là chuyển đổi văn bản thành ngôn ngữ cử chỉ. Phần mềm xử lý cần tạo ra các hình ảnh hoặc video thể hiện ngôn ngữ cử chỉ tương ứng với văn bản. Đây đòi hỏi cơ sở dữ liệu lớn về ngôn ngữ ký hiệu với độ phân giải cao và chính xác. Thiết kế phần mềm cần xem xét khả năng hiển thị trên nhiều loại màn hình và thiết bị khác nhau. Tích hợp ngôn ngữ ký hiệu vào ứng dụng hỗ trợ người khiếm thính là một thách thức lớn. Nghiên cứu về ngôn ngữ cử chỉ đóng vai trò then chốt trong việc đảm bảo sự chính xác và tự nhiên của cử chỉ tạo ra. Hệ thống cần xử lý các câu phức tạp và đa dạng, đảm bảo giải pháp giao tiếp cho người khiếm thính hiệu quả. Phát triển ứng dụng cho người khiếm thính đòi hỏi sự phối hợp giữa nhiều chuyên gia.

1.3. Đánh giá hiệu quả hệ thống

Đánh giá hiệu quả hệ thống dựa trên hai tiêu chí chính: tốc độ đáp ứng và độ chính xác. Tốc độ đáp ứng được đo bằng thời gian cần thiết để chuyển đổi giọng nói thành ngôn ngữ cử chỉ. Độ chính xác được đánh giá bằng tỷ lệ các cử chỉ được tạo ra khớp với văn bản. Các thử nghiệm thực tế trên người khiếm thính cần được thực hiện để đánh giá khả năng sử dụng và hiệu quả của hệ thống trong môi trường thực tế. Ứng dụng thực tế tăng cường cho người khiếm thính cần được xem xét. Thử nghiệm hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho thấy sự cần thiết của việc tối ưu hóa thuật toán và cải thiện cơ sở dữ liệu. Cải thiện giao tiếp của người khiếm thính được đo lường bằng phản hồi từ người dùng thực tế. Thực tiễn đào tạo và người khiếm thính cần được xem xét trong quá trình đánh giá.

01/02/2025

Bạn đang xem trước tài liệu:

Hcmute thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 NHẬN DẠNG GIỌNG NÓI 1. Giói thiệu Nhận dạng giọng nói (speech recogntion) là một tác vụ khá quan trọng trong việc phát triển các công nghệ liên quan đến trí tuệ nhân tạo. Các hệ thống robot, các hệ thống ứng dụng trí tuệ nhân tạo luôn cố gắng thực hiện các tác vụ của bộ não sinh học. Ví dụ các mô hình thị giác máy tính (computer vision) và học sâu (deep learning) cho phép thực hiện các tác vụ như nhận dạng hình ảnh và suy luận.

Các tác vụ nhận dạng tiếng nói và chuyển tiếng nói sang văn bản cho phép bắt chước khả năng nghe và phân tích của bộ não sinh học. So với các lĩnh vực khác như thị giác máy tính, nhận dạng phân loại hình ảnh, xử lý ngôn ngữ tự nhiên thì nhận dạng tiếng nói có độ phức tạp cao hơn do đặc tính của tiếng nói phụ thuộc vào các yêu tố như tuổi tác, giới tính, sức khỏe, và cảm tâm trạng người nói. Hơn nữa tiếng nói luôn bị ảnh hưởng nhiều bởi nhiễu và tạp âm của môi trường xung quanh. Do đó, để các mô hình nhận dạng giọng nói có độ chính xác cao, các mô hình này cần được huấn luyện với tập dữ liệu khá đầy đủ và thời gian huấn luyện khá dài.

Mô hình nhận dạng giọng nói hay chuyển đổi gọng nói sang văn bản được mô tả như hình 1.1 Mô hình âm học Acoustic models Trích đặc trưng Giải mã Văn bản Feature extraction Decoder Mô hình ngôn ngữ Language models Hình 1.1: Mô hình một hệ thống chuyển đổi lời nói sang văn bản Một hệ thống chuyển đổi lời nói sang văn bản bao gồm trích rút đặc trưng của tín hiệu lời nói và bộ giải mã. Tín hiệu âm thanh trong miền thời gian được biểu diễn bởi mức âm lượng hay năng lượng theo thời gian được xử lý để trích ra các đặc trưng của lời nói. Thông thường, các tín hiệu sẽ được chuyển đổi qua miền tần số để phục vụ cho quá 4 Luan van trình xử lý và trích rút đặc trưng. Một trong những phương pháp trích đặc trưng của lời nói được sử dụng phổ biến là sử dụng các hệ số phổ tần số của ngôn ngữ, Mel-Frequence Cepstral Coefficient (sau đây gọi tắt là MFCC).

Bộ giải mã sử dụng mô hình âm học và mô hình ngôn ngữ để tạo ra ngõ ra văn bản tương ứng từ các đặc trưng của tín hiệu lời nói. Mô hình âm học thể hiện mối quan hệ giữa các tín hiệu lời nói và các âm vị. Mô hình âm học giúp cho bộ giải mã xác định các âm vị trong tín hiệu lời nói. Các âm vị được ghép lại với nhau nhờ các mô hình ngôn ngữ.

Một số mô hình truyền thống được sử dụng cho bộ giải mã như mô hình Gaussian (Gaussian Model), mô hình Markov ẩn (Hidden Markov Model). Hiện nay các mạng học sâu có thể được sử dụng hiệu quả cho các bộ giải mã trong mô hình chuyển đổi lời nói sang văn bản. Các mạng học sâu được thiết kế để thực hiện một phần hoặc cả mô hình ngôn ngữ và mô hình ngữ âm trong bộ giải mã của hệ thống chuyển đổi lời nói sang văn bản 1. Trích rút đặc trưng tín hiệu lời nói MFCC (Mel- Frequency Cepstral Coefficient) là kỹ thuật được sử dụng phổ biến để trích rút đặc trưng của các tín hiệu lời nói trong các hệ thống nhận dạng giọng nói hoặc chuyển giọng nói thành văn bản.

MFCC là một quá trình xử lý và chuyển đổi tín hiệu lời nói từ miền thời gian sang miền tần số để thu được các giá trị đặc trưng của lời nói. Mục đích của MFCC là rút trích được các thông số tốt nhất diễn tả cho các tín hiệu âm vị. MFCC được thực hiện quá trình rút trích đặc trưng thông qua một số bước xử lý được mô tả trong hình 1.2 Pre- Framming Windowing Emphasis DFT Mel Spectrum Mel Spectrum Delta Energy and Discrete Cosine Mel filter Output Spectrum Transform Bank Hình 1.2: Sơ đồi khối của quá trình tính MFCC của lời nói Bước đầu tiên là đưa các tín hiệu qua các bộ lọc để khuếch đại các tín hiệu có tần số cao (Pre-emphasis). Các bộ lọc có tác dụng cân bằng phổ của tín hiệu bởi vì tần số cao 5 Luan van thường có mức năng lượng thấp hơn so với các tần số khác trong phổ của tín hiệu lời nói.

Mặt khác, các bộ lọc còn có tác dụng cải thiện các hệ số của tín hiệu trên nhiễu (Signal- to-Noise Ratio). Các tín hiệu được đưa qua bộ lọc với phương trình sau: 𝑌[𝑛] = 𝑥 [𝑛] − 𝛼𝑋[𝑛 − 1] (1.1) Trong đó x[n], y[n] là các tín hiệu rời rạc của tín hiệu lời nói. α là hệ số tiền khuếch đại. Tiếp theo các tín hiệu được phân thành các đoạn nhỏ với thời gian cho mỗi đoạn từ 20 đến 40 ms.

Áp dụng cửa sổ hóa các đoạn nhỏ sử dụng cửa sổ Hamming để làm giảm sự không liên tục của tín hiệu ở điểm bắt đầu và kết thúc của các đoạn. Quá trình cửa sổ hóa sử dụng cửa sổ Hamming được minh họa trong phương trình 6.46𝑐𝑜𝑠 ( ) ;0 < 𝑛 ≤ 𝑁 − 1 𝑁−1 Trong đó N là số mẫu trong mỗi đoạn. Các tín hiệu trong miền thời gian được chuyển sang miền tần số sử dụng phép biến đổi Fourier. Kết quả của phép biến đổi ta thu được phổ năng lượng của tín hiệu.

Các tần số trong phổ năng lượng của quá trình chuyển đổi Fourier rất rộng, trong khi đó đặc điểm tần số của lời nói là tập trung ở dãy tần số thấp (dưới 1Khz và không tuyến tính). Một trong những giải pháp chia năng lượng trong phổ năng lượng của tín hiệu lời nói là sử dụng bộ lọc Mel.3: Các bộ lọc trong thang Mel Tín hiệu được đưa qua các bộ lọc với dãy tần khác nhau. Tại vị trí tần số thấp, chúng ta dùng các bộ lọc với dải tần số hẹp hơn vì tín hiệu lời nói tập trung nhiều ở tần số thấp. Ngược lại ở dải tần số cao, tín hiệu lời nói tập trung ít nên chúng ta có thể sử dụng các bộ lọc với dãy tần rộng hơn.

Các bộ lọc với các dải tần không tuyến tính và trùng lặp nhau 6 Luan van như trong hình 6.16 được gọi là các bộ lọc trong thang Mel. Việc chuyển các tần số sang thang tần số Mel được thực hiện bởi công thức sau: 𝐹 (𝑀𝑒𝑙) = [2595 ∗ 𝑙𝑜𝑔10[1 + 𝑓]700 (1.3) Bước cuối cùng là đi tính mức năng lượng trong dải tần số mới, sử dụng phép biến đổi Cosin và tính năng lượng để thu được các hệ số MFCC 1. Các mô hình nhận dạng giọng nói Các hệ thống nhận dạng gióng nói thường được thiết kế với 2 khối cơ bản bao gồm khối tách đặc trưng (feature extraction) và khối giải mã (decoder). Mặc dù một số hệ thống nhận dạng tiếng nói hiện đại có khả năng nhận dạng giọng nói thô mà không dựa trên các đặc trưng tách ra, tuy nhiên, sử dụng các đặc trưng thay cho việc sử dụng dữ liệu thô cho đến thời điểm hiện nay vẫn có nhiều ưu điểm.

Bộ giải mã sử dụng 2 mô hình cơ bản là mô hình âm học (acoustic model) và mô hình ngôn ngữ (language model). Một hệ thống nhận dạng giọng nói có các thành phần được mô tả trong hình 1.4 Speech Feature Recognized Decoder extraction words Acoustic Language model model Adaptation Hình 1. Sơ đồi khối hệ thống nhận dạng giọng nói [9] Tín hiệu âm thanh nhận được từ thiết bị đầu vào như microphone được đưa qua các khối xử lý tín hiệu và trích rút đặc trưng. Quá trình xử lý tín hiệu được trình bày ở phần trước.

Quá trình xử lý tín hiệu được thực hiện đơn giản hay phức tạp tuỳ thuộc vào mỗi hệ thống. Các đặc trưng được trích rút và đưa đến khối giải mã để thu được các chuỗi ký tự hoặc các chuỗi từ tương ứng với tín hiệu âm thanh nhận được. 2 mô hình quan trọng trong bộ giải mã là mô hình âm học (acoustic model) và mô hình ngôn ngữ (language). Một mô hình kênh – nguồn cho hệ thống nhận dạng tiếng nói được minh hoạ trong hình 1.

7 Luan van Hình 1. Mô hình kên truyền thông bằng giọng nói [10] Để mô hình toán cho hệ thống nhận dạng tiếng nói, chúng ta giả định hệ thống truyền nhận tiếng nói được minh hoạ bằng sơ đồ khối trong hình 1.5, người nói đưa ra quyết định chuỗi từ nối tiếp cho câu nói, W và chuỗi từ này được chuyển sang dạng âm thanh thông qua hệ thống tạo âm (speech generator). Tín hiệu âm hay dạng sóng âm được tiếp nhận ở đầu thu của thiết bị nhận, tại đây tín hiệu được xử lý và trích rút các đặc trưng biểu diễn cho tín hiệu âm thanh nhận được. Các đặc trưng của tín hiệu âm thanh, X, được đưa đến bộ giải mã âm tiếng nói (speech decoder) để tạo ra các chuỗi ̂.

Trường hợp lý tưởng hệ thống nhận dạng ký tự hoặc từ tương ứng, được ký hiệu là 𝑊 khôi phục tín hiệu âm thành chuỗi ký tự hoặc từ trùng vơi chuỗi ký tự hoặc từ của nguồn ̂ = 𝑊. phát, 𝑊 Mộ hệ thống nhận dạng tiếng nói thực tế thường bao gồm các thành phần chính như khối xử lý tín hiêu và trích rút đặc trưng, mô hình âm học và mô hình ngôn ngữ như được giơi thiệu ở hình số 1. Mô hình âm học bao gồm biểu diễn của âm học, ngữ âm, sự biến đổi của âm do môi trường, và có thể tồn tại sự khác biệt của giới tính và ngữ điệu của những người nói. Mô hình ngôn ngữ biểu diễn mối liên hệ giữa các từ nối tiếp để tạo ra ngữ nghĩa của câu hoặc cụm từ.

Ngữ nghĩa và chức năng liên quan mà người nói mong muốn cũng có thể được thể hiện trong mô hình ngôn ngữ. Như vậy có thể hiểu đơn giản là mô hình âm học cho phép nhận dạng các âm riêng lẽ thông qua việc giải mã các âm thành các ký tự hoặc các từ. Mô hình ngôn ngữ cho phép chuyển các từ hoặc các ký tự nhận dạng được thành các cụm từ hoặc các câu có nghĩa. Trong lĩnh vực nhận dạng tiếng nói tồn tại rất nhiều rũi ro làm cho quá trình nhận dạng không chính xác.

Đó là các yếu tố liên quan đến đặc tính của người nói, phong cách nói và tốc độ nói, các từ không rõ nghĩa, tên riêng, nhiễu môi trường, các thay đổi về giọng điệu. Một hệ thống nhận dạng tiếng nói tốt phải đảm bảo hạn chế ảnh hưởng của các yếu tố trên. Các yếu tố của giọng nói phải được xử lý trong mô hình âm học và mô hình ngôn ngữ. 8 Luan van Trong hình 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho người khiếm thính" trình bày một giải pháp công nghệ tiên tiến nhằm hỗ trợ giao tiếp cho người khiếm thính thông qua việc chuyển đổi giọng nói thành ngôn ngữ cử chỉ. Hệ thống này không chỉ giúp cải thiện khả năng giao tiếp mà còn tạo ra cơ hội cho người khiếm thính hòa nhập tốt hơn vào xã hội. Các điểm nổi bật của bài viết bao gồm cách thức hoạt động của hệ thống, lợi ích cho người dùng và tiềm năng ứng dụng trong thực tế.

Để tìm hiểu sâu hơn về các công nghệ hỗ trợ người khiếm thính, bạn có thể tham khảo bài viết Nghiên cứu và thiết kế ứng dụng chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ, nơi cung cấp cái nhìn chi tiết về quy trình phát triển ứng dụng này. Ngoài ra, bài viết Luận văn thạc sĩ ứng dụng cảm biến 3d kinect trong nhận diện ngôn ngữ cử chỉ tiếng việt hỗ trợ việc giao tiếp với người khuyết tật khiếm thính sẽ giúp bạn hiểu rõ hơn về công nghệ cảm biến trong việc nhận diện ngôn ngữ cử chỉ. Cuối cùng, bài viết Luận văn thạc sĩ hcmute nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh sẽ mở rộng thêm về các giải pháp robot hỗ trợ cho người khiếm thính, mang đến cái nhìn toàn diện về các công nghệ hiện có.

#trí tuệ nhân tạo

#công nghệ hỗ trợ

#phát triển phần mềm

#chuyển đổi giọng nói

#ngôn ngữ cử chỉ

#giao tiếp không lời

Chủ đề

Giao tiếp và ngôn ngữ

Thiết kế hệ thống thông minh

Công nghệ hỗ trợ người khuyết tật

Trí tuệ nhân tạo trong cuộc sống

Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho người khiếm thính

MỞ ĐẦU

1. CHƯƠNG 1: NHẬN DẠNG GIỌNG NÓI

1.1. Giói thiệu

1.2. Trích rút đặc trưng tín hiệu lời nói

1.3. Các mô hình nhận dạng giọng nói

TÀI LIỆU THAM KHẢO

I. Hệ thống nhận dạng giọng nói và chuyển đổi sang ngôn ngữ cử chỉ

1.1. Mô hình nhận dạng giọng nói

1.2. Chuyển đổi sang ngôn ngữ cử chỉ

1.3. Đánh giá hiệu quả hệ thống

THÔNG TIN CHI TIẾT

Tác giả: Trương Ngọc Sơn

Người hướng dẫn: TS. Trương Ngọc Sơn

Trường học: Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

Chuyên ngành: Khoa Điện – Điện Tử

Đề tài: Hệ Thống Chuyển Đổi Giọng Nói Sang Ngôn Ngữ Cử Chỉ Ứng Dụng Cho Người Khiếm Thính

Loại tài liệu: báo cáo tổng kết đề tài KH&CN cấp trường

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ cho người khiếm thính

MỞ ĐẦU

1. CHƯƠNG 1: NHẬN DẠNG GIỌNG NÓI

1.1. Giói thiệu

1.2. Trích rút đặc trưng tín hiệu lời nói

1.3. Các mô hình nhận dạng giọng nói

TÀI LIỆU THAM KHẢO

I. Hệ thống nhận dạng giọng nói và chuyển đổi sang ngôn ngữ cử chỉ

1.1. Mô hình nhận dạng giọng nói

1.2. Chuyển đổi sang ngôn ngữ cử chỉ

1.3. Đánh giá hiệu quả hệ thống

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Trương Ngọc Sơn

Người hướng dẫn: TS. Trương Ngọc Sơn

Trường học: Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

Chuyên ngành: Khoa Điện – Điện Tử

Đề tài: Hệ Thống Chuyển Đổi Giọng Nói Sang Ngôn Ngữ Cử Chỉ Ứng Dụng Cho Người Khiếm Thính

Loại tài liệu: báo cáo tổng kết đề tài KH&CN cấp trường

Năm xuất bản: 2021

Địa điểm: Thành phố Hồ Chí Minh

Có thể bạn quan tâm