I. Tổng Quan Về Hệ Thống Chuyển Đổi Giọng Nói Cho Khiếm Thính
Chuyển đổi giọng nói sang ngôn ngữ cử chỉ là một lĩnh vực nghiên cứu quan trọng, đặc biệt đối với cộng đồng người khiếm thính. Theo thống kê của Tổ chức Y tế Thế giới, khoảng 5% dân số gặp khó khăn về thính giác, và rào cản giao tiếp là một trong những thách thức lớn nhất của họ. Các nghiên cứu đã tập trung vào việc cải thiện giao tiếp cho người khiếm thính thông qua nhận dạng ngôn ngữ cử chỉ. Một số nghiên cứu đề xuất phương pháp chuyển đổi từ ngôn ngữ cử chỉ sang giọng nói dựa trên thị giác máy tính, sử dụng camera để ghi lại chuyển động tay và chuyển đổi thành giọng nói. Kết quả thực nghiệm cho thấy độ chính xác trên 95%. Để nâng cao độ chính xác, các phương pháp phân đoạn ảnh và mạng nơ-ron nhân tạo cũng được sử dụng. Hệ thống chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ bao gồm hệ thống nhận dạng tiếng nói tự động, mô-đun dịch và mô-đun tạo hoạt hình. Ứng dụng di động chuyển giọng nói sang ngôn ngữ cử chỉ cũng được nghiên cứu, sử dụng mô-đun nhận dạng giọng nói và hiển thị ngôn ngữ cử chỉ trên màn hình. Các ứng dụng trí tuệ nhân tạo như ELSA hỗ trợ dạy phát âm tiếng Anh. Tuy nhiên, vẫn còn thiếu các nghiên cứu và giải pháp ứng dụng trí tuệ nhân tạo trong hỗ trợ giao tiếp cho người khiếm thính.
1.1. Tầm Quan Trọng Của Ngôn Ngữ Ký Hiệu Cho Người Khiếm Thính
Ngôn ngữ ký hiệu không chỉ là ngôn ngữ hình thể hỗ trợ giao tiếp, mà còn là hệ thống ký hiệu được tạo ra bằng chuyển động tay và ngón tay theo quy ước. Nó là công cụ truyền thông giúp người khiếm thính tiếp cận thế giới bên ngoài. Nghiên cứu này xây dựng hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ, nhận dạng giọng nói và tự động chuyển sang ngôn ngữ cử chỉ hiển thị trên màn hình. Mục tiêu là phát triển thiết bị hỗ trợ giao tiếp giữa người bình thường và người khiếm thính, tự động chuyển đổi sang ngôn ngữ cử chỉ trong các kênh truyền hình.
1.2. Các Nghiên Cứu Tiên Phong Về Chuyển Đổi Ngôn Ngữ Cho Khiếm Thính
Các nghiên cứu trên thế giới đã tập trung vào chuyển đổi giọng nói sang ngôn ngữ cử chỉ và ngược lại. Một số nghiên cứu sử dụng thị giác máy tính để nhận dạng ngôn ngữ cử chỉ và chuyển đổi thành giọng nói. Các hệ thống chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ thường bao gồm hệ thống nhận dạng tiếng nói tự động, mô-đun dịch và mô-đun tạo hoạt hình. Ứng dụng di động cũng được phát triển để chuyển giọng nói sang ngôn ngữ cử chỉ trên màn hình.
II. Thách Thức Giải Pháp Trong Thiết Kế Hệ Thống Cho Khiếm Thính
Cuộc cách mạng công nghiệp 4.0 mang lại nhiều thay đổi, với IoT và AI là những nền tảng nổi bật. Các công nghệ IoT đã được ứng dụng rộng rãi, trong khi các hệ thống ứng dụng trí tuệ nhân tạo cũng được đầu tư phát triển. Các ứng dụng AI cơ bản như nhận dạng ảnh trong mạng xã hội, và các ứng dụng trong y học như chuẩn đoán hình ảnh, đang dần được áp dụng. Tuy nhiên, việc thiết kế thiết bị hỗ trợ cho người khuyết tật, đặc biệt là người khiếm thính, vẫn là một thách thức. Sự hạn chế lớn nhất của người khiếm thính là khó khăn trong giao tiếp. Đa phần họ sử dụng ngôn ngữ cử chỉ để giao tiếp, một tập các ký hiệu được tạo ra bằng chuyển động tay và ngón tay theo quy ước. Nghiên cứu này tập trung vào xây dựng hệ thống chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ, nhận dạng giọng nói và tự động chuyển sang ngôn ngữ cử chỉ hiển thị ra màn hình. Nghiên cứu chỉ tiến hành nhận dạng, chuyển đổi một số từ, câu đơn giản với hy vọng đây là tiền đề cho việc phát triển các thiết bị hỗ trợ cho người khiếm thính.
2.1. Ứng Dụng Trí Tuệ Nhân Tạo Trong Hỗ Trợ Người Khuyết Tật
Trí tuệ nhân tạo (AI) đang được ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm cả y học và hỗ trợ người khuyết tật. Các ứng dụng AI trong y học như hệ thống chuẩn đoán hình ảnh có độ chính xác cao. Nhiều hướng nghiên cứu được vạch ra như điều khiển thiết bị bằng suy nghĩ, áp dụng cho người khuyết tật, hay các thiết bị hỗ trợ cho người khuyết tật, từ đơn giản đến phức tạp.
2.2. Vấn Đề Giao Tiếp Của Người Khiếm Thính Và Vai Trò Của VSL
Sự hạn chế lớn nhất của người khiếm thính là khó khăn trong giao tiếp. Đa phần họ sử dụng ngôn ngữ cử chỉ (sign language), hoặc còn gọi là thủ ngữ để giao tiếp. Ngôn ngữ cử chỉ, không chỉ đơn giản là những ngôn ngữ hình thể (body language) nhằm hỗ trợ trong quá trình giao tiếp, mà nó là một tập các ký hiệu được tạo ra bằng việc chuyển động, thay đổi của bàn tay và các ngón tay theo một quy ước nhất định. Ngôn ngữ ký hiệu được quan tâm không chỉ là một công cụ giao tiếp, mà nó còn là một công cụ truyền thông giúp người khiếm thính có thể tiếp cận được thế giới bên ngoài.
2.3. Mục Tiêu Phát Triển Hệ Thống Chuyển Đổi Giọng Nói Sang Cử Chỉ
Trong nghiên cứu này, tác giả xây dựng một hệ thống chuyển đổi từ giọng nói sang ngôn ngữ cử chỉ. Bước đầu, hệ thống sẽ thực hiện nhận dạng giọng nói, và tự động chuyển sang ngôn ngữ cử chỉ và hiển thị ra màn hình. Nghiên cứu chỉ tiến hành nhận dạng, chuyển đổi một số từ, câu đơn giản với hy vọng đây là tiền đề cho việc phát triển các thiết bị hỗ trợ cho người khiếm thính.
III. Phương Pháp Nhận Dạng Giọng Nói Chuyển Đổi Sang Cử Chỉ
Hệ thống nhận dạng giọng nói bao gồm khối tách đặc trưng và khối giải mã. Mặc dù một số hệ thống hiện đại có khả năng nhận dạng giọng nói thô, việc sử dụng các đặc trưng vẫn có nhiều ưu điểm. Bộ giải mã sử dụng mô hình âm học và mô hình ngôn ngữ. Mô hình âm học thể hiện mối quan hệ giữa tín hiệu lời nói và âm vị, giúp bộ giải mã xác định âm vị. Mô hình ngôn ngữ ghép các âm vị lại với nhau. Các mô hình truyền thống như Gaussian và Markov ẩn được sử dụng, hiện nay các mạng học sâu cũng được sử dụng hiệu quả. MFCC là kỹ thuật phổ biến để trích rút đặc trưng của tín hiệu lời nói, chuyển đổi tín hiệu từ miền thời gian sang miền tần số để thu được các giá trị đặc trưng. MFCC rút trích các thông số tốt nhất diễn tả cho các tín hiệu âm vị.
3.1. Mô Hình Âm Học Và Mô Hình Ngôn Ngữ Trong Nhận Dạng Giọng Nói
Bộ giải mã sử dụng 2 mô hình cơ bản là mô hình âm học (acoustic model) và mô hình ngôn ngữ (language model). Một hệ thống nhận dạng giọng nói có các thành phần được mô tả trong hình 1.4 Speech Feature Recognized Decoder extraction words Acoustic Language model model Adaptation Hình 1. Sơ đồi khối hệ thống nhận dạng giọng nói [9] Tín hiệu âm thanh nhận được từ thiết bị đầu vào như microphone được đưa qua các khối xử lý tín hiệu và trích rút đặc trưng.
3.2. Kỹ Thuật MFCC Để Trích Rút Đặc Trưng Tín Hiệu Lời Nói
MFCC (Mel- Frequency Cepstral Coefficient) là kỹ thuật được sử dụng phổ biến để trích rút đặc trưng của các tín hiệu lời nói trong các hệ thống nhận dạng giọng nói hoặc chuyển giọng nói thành văn bản. MFCC là một quá trình xử lý và chuyển đổi tín hiệu lời nói từ miền thời gian sang miền tần số để thu được các giá trị đặc trưng của lời nói. Mục đích của MFCC là rút trích được các thông số tốt nhất diễn tả cho các tín hiệu âm vị.
IV. Thiết Kế Phần Cứng Phần Mềm Hệ Thống Chuyển Đổi Cử Chỉ
Hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ bao gồm thiết kế phần cứng và phần mềm xử lý. Phần cứng có thể là thiết bị nhúng, máy tính hoặc thiết bị di động. Phần mềm xử lý bao gồm các mô-đun nhận dạng giọng nói, dịch sang ngôn ngữ cử chỉ và hiển thị. Các mô-đun này có thể sử dụng các thư viện và công cụ có sẵn hoặc được phát triển riêng. Việc thiết kế giao diện người dùng thân thiện cũng rất quan trọng để người khiếm thính có thể dễ dàng sử dụng hệ thống.
4.1. Lựa Chọn Nền Tảng Phần Cứng Phù Hợp Cho Hệ Thống
Phần cứng có thể là thiết bị nhúng, máy tính hoặc thiết bị di động. Việc lựa chọn nền tảng phần cứng phụ thuộc vào yêu cầu về hiệu năng, kích thước và chi phí của hệ thống. Các thiết bị nhúng có ưu điểm về kích thước nhỏ gọn và tiêu thụ điện năng thấp, phù hợp cho các ứng dụng di động.
4.2. Phát Triển Phần Mềm Xử Lý Ngôn Ngữ Cử Chỉ Hiệu Quả
Phần mềm xử lý bao gồm các mô-đun nhận dạng giọng nói, dịch sang ngôn ngữ cử chỉ và hiển thị. Các mô-đun này có thể sử dụng các thư viện và công cụ có sẵn hoặc được phát triển riêng. Việc phát triển phần mềm cần đảm bảo hiệu năng và độ chính xác cao.
V. Kết Quả Nghiên Cứu Đánh Giá Hiệu Quả Hệ Thống Cử Chỉ
Kết quả nghiên cứu bao gồm việc thực hiện mô hình, đánh giá tốc độ đáp ứng và độ chính xác của hệ thống. Tốc độ đáp ứng cần đảm bảo thời gian trễ nhỏ để người dùng có thể giao tiếp một cách tự nhiên. Độ chính xác cần đạt mức cao để đảm bảo thông tin được truyền tải chính xác. Các thử nghiệm thực tế với người khiếm thính cũng cần được thực hiện để đánh giá hiệu quả của hệ thống trong điều kiện thực tế.
5.1. Đánh Giá Tốc Độ Đáp Ứng Của Hệ Thống Chuyển Đổi
Tốc độ đáp ứng cần đảm bảo thời gian trễ nhỏ để người dùng có thể giao tiếp một cách tự nhiên. Thời gian trễ lớn có thể gây khó khăn cho người dùng trong việc theo dõi cuộc trò chuyện.
5.2. Kiểm Tra Độ Chính Xác Của Hệ Thống Nhận Dạng Cử Chỉ
Độ chính xác cần đạt mức cao để đảm bảo thông tin được truyền tải chính xác. Sai sót trong nhận dạng có thể dẫn đến hiểu lầm và gây khó khăn cho người dùng.
VI. Kết Luận Hướng Phát Triển Hệ Thống Hỗ Trợ Khiếm Thính
Nghiên cứu đã đạt được kết quả nhất định trong việc thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ. Tuy nhiên, vẫn còn nhiều hướng nghiên cứu để cải thiện hệ thống, như tăng cường khả năng nhận dạng giọng nói trong môi trường ồn ào, mở rộng vốn từ vựng và ngữ pháp của ngôn ngữ cử chỉ, và phát triển các giao diện người dùng thân thiện hơn. Việc hợp tác với cộng đồng người khiếm thính cũng rất quan trọng để đảm bảo hệ thống đáp ứng được nhu cầu thực tế của họ.
6.1. Các Hướng Nghiên Cứu Để Cải Thiện Hệ Thống Chuyển Đổi
Vẫn còn nhiều hướng nghiên cứu để cải thiện hệ thống, như tăng cường khả năng nhận dạng giọng nói trong môi trường ồn ào, mở rộng vốn từ vựng và ngữ pháp của ngôn ngữ cử chỉ, và phát triển các giao diện người dùng thân thiện hơn.
6.2. Tầm Quan Trọng Của Phản Hồi Từ Cộng Đồng Người Khiếm Thính
Việc hợp tác với cộng đồng người khiếm thính cũng rất quan trọng để đảm bảo hệ thống đáp ứng được nhu cầu thực tế của họ. Phản hồi từ người dùng giúp cải thiện tính khả dụng và hiệu quả của hệ thống.