Nghiên cứu robot hỗ trợ người khiếm thính bằng công nghệ xử lý ảnh

I. Giới thiệu đề tài

Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh là một trong những giải pháp quan trọng nhằm cải thiện khả năng giao tiếp cho người khiếm thính. Theo thống kê của Tổ chức Y tế Thế giới (WHO), có khoảng 278 triệu người khiếm thính trên toàn cầu, trong đó Việt Nam có khoảng 2 triệu người. Việc giao tiếp giữa người khiếm thính và người bình thường gặp nhiều khó khăn do sự khác biệt trong ngôn ngữ. Đề tài này nhằm phát triển một robot hỗ trợ có khả năng nhận diện ngôn ngữ ký hiệu và chuyển đổi thành ngôn ngữ nói, đồng thời nhận diện giọng nói và chuyển đổi thành ngôn ngữ ký hiệu. Điều này không chỉ giúp người khiếm thính giao tiếp dễ dàng hơn mà còn tạo ra một cầu nối giữa họ và cộng đồng.

II. Tổng quan hoạt động của robot hỗ trợ người khiếm thính

Robot hỗ trợ người khiếm thính thực hiện hai nhiệm vụ chính: nhận diện ngôn ngữ ký hiệu và nhận dạng giọng nói. Để thực hiện nhiệm vụ đầu tiên, robot sử dụng công nghệ xử lý ảnh để nhận diện vị trí và cử chỉ của bàn tay, từ đó chuyển đổi thành âm thanh. Nhiệm vụ thứ hai liên quan đến việc nhận dạng giọng nói, sử dụng micro để thu âm và xử lý thông qua các thuật toán điện toán đám mây. Việc sử dụng hệ thống nhận diện hình ảnh và công nghệ AI giúp robot có thể hoạt động hiệu quả trong thời gian thực, tạo điều kiện thuận lợi cho việc giao tiếp giữa người khiếm thính và người bình thường.

III. Công nghệ xử lý ảnh trong nhận diện ngôn ngữ ký hiệu

Công nghệ xử lý ảnh đóng vai trò quan trọng trong việc nhận diện ngôn ngữ ký hiệu. Robot sử dụng camera cảm biến chiều sâu để thu thập dữ liệu về cử chỉ của bàn tay và cánh tay. Các thuật toán như DTW (Dynamic Time Warping) được áp dụng để so sánh và nhận diện các cử chỉ. Việc nhận diện chính xác các cử chỉ không chỉ phụ thuộc vào công nghệ mà còn vào việc xây dựng cơ sở dữ liệu phong phú về ngôn ngữ ký hiệu. Điều này giúp robot có thể hiểu và chuyển đổi các cử chỉ thành âm thanh một cách chính xác, từ đó hỗ trợ người khiếm thính trong giao tiếp.

IV. Nhận dạng tiếng nói và chuyển đổi thành ngôn ngữ ký hiệu

Nhận dạng tiếng nói là một phần quan trọng trong hệ thống robot hỗ trợ người khiếm thính. Hệ thống sử dụng các công nghệ tiên tiến như Google Cloud Speech API để nhận diện giọng nói. Sau khi giọng nói được nhận diện và chuyển đổi thành văn bản, robot sẽ hiển thị ngôn ngữ ký hiệu tương ứng trên màn hình. Việc này không chỉ giúp người khiếm thính hiểu được thông điệp mà còn tạo ra một trải nghiệm giao tiếp tự nhiên hơn. Sự kết hợp giữa nhận diện giọng nói và ngôn ngữ ký hiệu là một bước tiến lớn trong việc hỗ trợ người khiếm thính trong cuộc sống hàng ngày.

V. Giá trị và ứng dụng thực tiễn của nghiên cứu

Nghiên cứu này không chỉ mang lại giá trị lý thuyết mà còn có ứng dụng thực tiễn cao. Việc phát triển robot hỗ trợ người khiếm thính có thể giúp cải thiện chất lượng cuộc sống cho hàng triệu người. Nó mở ra cơ hội cho người khiếm thính giao tiếp hiệu quả hơn với cộng đồng, từ đó giảm bớt sự cô lập và nâng cao khả năng hòa nhập xã hội. Hơn nữa, nghiên cứu này cũng góp phần vào sự phát triển của công nghệ thông minh trong lĩnh vực hỗ trợ người khuyết tật, tạo ra những giải pháp sáng tạo và thiết thực cho các vấn đề xã hội.

Tổng quan nghiên cứu

Theo thống kê của Tổ Chức Y Tế Thế Giới (WHO), trên thế giới có khoảng 278 triệu người câm điếc các dạng, chiếm 4,5% dân số toàn cầu. Ở Việt Nam, con số này khoảng 2 triệu người, chiếm 13,5% dân số, trong đó có khoảng 400 ngàn người đang trong độ tuổi đi học. Tại thành phố Hồ Chí Minh, số người khiếm thính được ghi nhận khoảng 3.550 người, nhưng chỉ có không quá 20 người có khả năng thông dịch ngôn ngữ ký hiệu, và chưa đến 7 người có thể thông dịch tại các hội nghị quốc tế. Đây là một thách thức lớn trong việc hỗ trợ giao tiếp và hòa nhập xã hội cho người khiếm thính.

Vấn đề nghiên cứu tập trung vào việc phát triển một hệ thống robot hỗ trợ người khiếm thính, ứng dụng công nghệ xử lý ảnh nhằm nhận dạng ngôn ngữ ký hiệu và chuyển đổi sang ngôn ngữ nói, đồng thời nhận dạng giọng nói của người bình thường để chuyển đổi sang ngôn ngữ ký hiệu hiển thị trên màn hình. Mục tiêu cụ thể là xây dựng giải thuật nhận dạng vị trí các khớp ngón tay và cánh tay trong không gian ba chiều dựa trên dữ liệu cảm biến chiều sâu Kinect, từ đó truy bắt các ký hiệu ngôn ngữ ký hiệu và chuyển đổi thành âm thanh.

Phạm vi nghiên cứu tập trung tại thành phố Hồ Chí Minh, nơi có số lượng người khiếm thính chiếm phần lớn trong tổng số người khiếm thính cả nước, với dữ liệu thu thập và xử lý trong khoảng thời gian từ năm 2016 đến 2017. Ý nghĩa nghiên cứu thể hiện qua việc cải thiện khả năng giao tiếp giữa người khiếm thính và người bình thường, góp phần nâng cao chất lượng cuộc sống và hỗ trợ hòa nhập xã hội cho người khiếm thính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: lý thuyết ngôn ngữ ký hiệu và công nghệ xử lý ảnh 3D.

Lý thuyết ngôn ngữ ký hiệu: Ngôn ngữ ký hiệu là hệ thống giao tiếp sử dụng các cử chỉ của bàn tay, điệu bộ cơ thể và biểu cảm khuôn mặt thay cho âm thanh. Ngôn ngữ này có cấu trúc ngữ pháp riêng biệt, mang tính giản lược và nhấn mạnh, khác biệt rõ rệt so với ngôn ngữ nói thông thường. Việc nhận dạng ngôn ngữ ký hiệu đòi hỏi hiểu biết sâu sắc về cấu trúc và cú pháp của ngôn ngữ này, đặc biệt là các ký hiệu được sử dụng tại thành phố Hồ Chí Minh.
Công nghệ xử lý ảnh 3D và cảm biến chiều sâu: Sử dụng cảm biến Kinect để thu nhận dữ liệu chiều sâu, cung cấp thông tin vị trí theo ba trục x, y, z. Nguyên lý tam giác và ánh sáng cấu trúc được áp dụng để tái tạo hình ảnh 3D của bàn tay và cánh tay. Thuật toán nhận dạng dựa trên việc phát hiện các khớp nối và cử chỉ bàn tay trong không gian ba chiều, sử dụng bộ lọc Kalman để truy bắt chuyển động liên tục.

Các khái niệm chuyên ngành quan trọng bao gồm: ngôn ngữ ký hiệu (NNKH), cảm biến chiều sâu (depth sensor), thuật toán Dynamic Time Warping (DTW) trong nhận dạng cử chỉ, bộ lọc Kalman trong truy bắt chuyển động, và công nghệ nhận dạng tiếng nói dựa trên Google Cloud Speech API.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hình ảnh và dữ liệu chiều sâu thu thập từ cảm biến Kinect, cùng với dữ liệu âm thanh thu nhận qua micro. Cỡ mẫu nghiên cứu bao gồm các đoạn đối thoại ngắn sử dụng ngôn ngữ ký hiệu tại thành phố Hồ Chí Minh, với dữ liệu thu thập trong thời gian thực.

Phương pháp phân tích gồm:

Xử lý ảnh chiều sâu để nhận dạng vị trí và cử chỉ bàn tay, sử dụng thuật toán lọc nhiễu (spatial filter, morphological operations) và phân nhóm chuyển động dựa trên đa thức hồi quy để xác định kích thước bàn tay.
Truy bắt các khớp ngón tay và cánh tay trong không gian ba chiều bằng bộ lọc Kalman, dựa trên mô hình động học bàn tay với 26 bậc tự do.
Nhận dạng cử chỉ bàn tay dựa trên so sánh với cơ sở dữ liệu ký hiệu, sử dụng thuật toán DTW để đối chiếu chuỗi chuyển động.
Nhận dạng tiếng nói sử dụng Google Cloud Speech API, chuyển đổi giọng nói thành văn bản và hiển thị ngôn ngữ ký hiệu tương ứng trên màn hình.

Timeline nghiên cứu kéo dài từ tháng 5/2016 đến tháng 10/2017, bao gồm các giai đoạn thu thập dữ liệu, phát triển thuật toán, thử nghiệm và đánh giá hiệu quả hệ thống.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng cử chỉ bàn tay đạt khoảng 85% trong môi trường thử nghiệm với dữ liệu thu thập từ Kinect, cho thấy khả năng nhận dạng vị trí và cử chỉ bàn tay trong không gian ba chiều là khả thi và hiệu quả.
Thuật toán lọc nhiễu và phân nhóm chuyển động giúp giảm sai số nhận dạng xuống dưới 10%, nhờ áp dụng bộ lọc trung vị và các phép toán hình thái học, cải thiện đáng kể chất lượng dữ liệu đầu vào.
Nhận dạng tiếng nói qua Google Cloud Speech API đạt tỷ lệ chính xác trên 90% trong điều kiện môi trường yên tĩnh, giúp chuyển đổi giọng nói thành văn bản nhanh chóng và chính xác, hỗ trợ việc hiển thị ngôn ngữ ký hiệu cho người khiếm thính.
Hệ thống robot hỗ trợ giao tiếp hai chiều giữa người khiếm thính và người bình thường hoạt động ổn định, với khả năng chuyển đổi ngôn ngữ ký hiệu sang âm thanh và ngược lại, tạo điều kiện thuận lợi cho giao tiếp hàng ngày.

Thảo luận kết quả

Nguyên nhân của độ chính xác cao trong nhận dạng cử chỉ bàn tay là do việc sử dụng cảm biến chiều sâu Kinect cung cấp dữ liệu ba chiều chính xác, kết hợp với thuật toán lọc nhiễu hiệu quả và bộ lọc Kalman trong truy bắt chuyển động. So sánh với các nghiên cứu trước đây chỉ sử dụng camera 2D hoặc găng tay cảm biến, hệ thống này có ưu điểm không xâm lấn, tiện lợi và bao quát được nhiều cử chỉ phức tạp hơn.

Tỷ lệ nhận dạng tiếng nói cao nhờ tận dụng công nghệ điện toán đám mây của Google, tuy nhiên vẫn còn hạn chế trong môi trường nhiều tiếng ồn hoặc giọng nói không chuẩn. Việc kết hợp hai chiều giao tiếp giúp giảm thiểu rào cản ngôn ngữ giữa người khiếm thính và người bình thường, góp phần nâng cao hiệu quả giao tiếp và hòa nhập xã hội.

Dữ liệu có thể được trình bày qua biểu đồ tỷ lệ nhận dạng chính xác của các từ và cử chỉ, bảng so sánh hiệu quả giữa các phương pháp lọc nhiễu, cũng như sơ đồ hoạt động của robot hỗ trợ người khiếm thính.

Đề xuất và khuyến nghị

Phát triển thêm cơ sở dữ liệu ngôn ngữ ký hiệu phong phú hơn, mở rộng phạm vi ký hiệu và cử chỉ để tăng khả năng nhận dạng, hướng tới hỗ trợ giao tiếp đa dạng hơn. Chủ thể thực hiện: các trung tâm nghiên cứu và cộng đồng người khiếm thính, timeline 12-18 tháng.
Tối ưu hóa thuật toán nhận dạng trong môi trường nhiều tiếng ồn, kết hợp các kỹ thuật lọc tiếng ồn và nâng cao khả năng nhận dạng giọng nói không chuẩn. Chủ thể thực hiện: nhóm phát triển phần mềm, timeline 6-12 tháng.
Thiết kế giao diện người dùng thân thiện, dễ sử dụng cho người khiếm thính và người bình thường, bao gồm màn hình hiển thị ngôn ngữ ký hiệu và âm thanh đầu ra rõ ràng. Chủ thể thực hiện: nhà phát triển giao diện, timeline 6 tháng.
Mở rộng ứng dụng robot hỗ trợ vào các trung tâm giáo dục và cộng đồng người khiếm thính, nhằm tăng cường khả năng giao tiếp và hòa nhập xã hội. Chủ thể thực hiện: các tổ chức xã hội, cơ quan giáo dục, timeline 12 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành kỹ thuật cơ điện tử, xử lý ảnh và trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng cảm biến chiều sâu và thuật toán nhận dạng cử chỉ trong robot hỗ trợ giao tiếp.
Chuyên gia và tổ chức hỗ trợ người khiếm thính: Tham khảo giải pháp công nghệ mới giúp cải thiện giao tiếp và hòa nhập xã hội cho người khiếm thính.
Nhà phát triển phần mềm và thiết bị y tế trợ giúp: Áp dụng các thuật toán nhận dạng ngôn ngữ ký hiệu và nhận dạng tiếng nói để phát triển sản phẩm hỗ trợ giao tiếp.
Cơ quan giáo dục và đào tạo đặc biệt: Sử dụng kết quả nghiên cứu để xây dựng chương trình đào tạo và hỗ trợ học tập cho người khiếm thính.

Câu hỏi thường gặp

Robot hỗ trợ người khiếm thính hoạt động như thế nào?
Robot sử dụng cảm biến chiều sâu để nhận dạng cử chỉ bàn tay và cánh tay, chuyển đổi ngôn ngữ ký hiệu thành âm thanh. Đồng thời, nhận dạng giọng nói của người bình thường và hiển thị ngôn ngữ ký hiệu tương ứng trên màn hình, tạo giao tiếp hai chiều hiệu quả.
Độ chính xác của hệ thống nhận dạng ngôn ngữ ký hiệu là bao nhiêu?
Hệ thống đạt khoảng 85% độ chính xác trong nhận dạng cử chỉ bàn tay trong môi trường thử nghiệm, nhờ sử dụng cảm biến Kinect và thuật toán lọc nhiễu hiệu quả.
Hệ thống có thể áp dụng cho ngôn ngữ ký hiệu ở các vùng khác không?
Hiện tại, hệ thống tập trung vào ngôn ngữ ký hiệu tại thành phố Hồ Chí Minh. Tuy nhiên, với việc mở rộng cơ sở dữ liệu và điều chỉnh thuật toán, có thể áp dụng cho các ngôn ngữ ký hiệu khác trong tương lai.
Robot có thể hoạt động trong môi trường nhiều tiếng ồn không?
Nhận dạng tiếng nói qua Google Cloud Speech API hoạt động tốt trong môi trường yên tĩnh, nhưng hiệu quả giảm khi có nhiều tiếng ồn. Cần tối ưu thêm thuật toán lọc tiếng ồn để cải thiện khả năng này.
Lợi ích thực tế của robot hỗ trợ người khiếm thính là gì?
Robot giúp người khiếm thính giao tiếp dễ dàng hơn với người bình thường, giảm rào cản ngôn ngữ, hỗ trợ học tập và sinh hoạt hàng ngày, góp phần nâng cao chất lượng cuộc sống và hòa nhập xã hội.

Kết luận

Luận văn đã phát triển thành công hệ thống robot hỗ trợ người khiếm thính, ứng dụng công nghệ xử lý ảnh và cảm biến chiều sâu Kinect để nhận dạng ngôn ngữ ký hiệu và chuyển đổi sang ngôn ngữ nói.
Thuật toán nhận dạng cử chỉ bàn tay đạt độ chính xác khoảng 85%, trong khi nhận dạng tiếng nói qua Google Cloud Speech API đạt trên 90% trong điều kiện lý tưởng.
Hệ thống hỗ trợ giao tiếp hai chiều giữa người khiếm thính và người bình thường, góp phần giảm thiểu rào cản ngôn ngữ và nâng cao khả năng hòa nhập xã hội.
Đề xuất mở rộng cơ sở dữ liệu ký hiệu, tối ưu thuật toán nhận dạng trong môi trường thực tế và phát triển giao diện thân thiện để ứng dụng rộng rãi hơn.
Các bước tiếp theo bao gồm thử nghiệm thực tế tại các trung tâm người khiếm thính, hoàn thiện phần mềm và triển khai ứng dụng trong cộng đồng.

Hành động ngay hôm nay: Các nhà nghiên cứu và tổ chức hỗ trợ người khiếm thính nên phối hợp để phát triển và ứng dụng công nghệ robot hỗ trợ giao tiếp, nhằm cải thiện chất lượng cuộc sống cho người khiếm thính trên toàn quốc.

Luận văn thạc sĩ HCMUTE: Nghiên cứu robot hỗ trợ người khiếm thính với công nghệ xử lý ảnh

LÝ LỊCH KHOA HỌC

LỜI CAM ĐOAN

LỜI CẢM ƠN

ABSTRACT

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giới thiệu đề tài

1.2. Mục tiêu đề tài

1.3. Tổng quan hoạt động của robot hỗ trợ người khiếm thính

1.4. Nội dung nghiên cứu trong luận văn

2. CHƯƠNG 2: TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU

2.1. Khiếm thính

2.2. Nguồn gốc và lịch sử phát triển ngôn ngữ ký hiệu

2.3. Đặc điểm ngôn ngữ ký hiệu

2.4. Ngôn ngữ và cuộc sống

2.5. Chuẩn hóa và phổ biến ngôn ngữ ký hiệu

2.6. Một số điểm khác biệt về cú pháp của NNKH ở Việt Nam so với ngôn ngữ thông thường - tiếng Việt

3. CHƯƠNG 3: NHẬN DẠNG NGÔN NGỮ KÝ HIỆU DỰA TRÊN XỬ LÝ ẢNH

3.1. Nguyên lý hoạt động camera cảm biến chiều sâu

3.2. Nhận dạng bàn tay dựa trên thông tin về chiều sâu

3.3. Giải thuật nhận dạng

3.4. Nhận dạng và định nghĩa cử chỉ bàn tay

4. CHƯƠNG 4: NHẬN DẠNG TIẾNG NÓI

4.1. Hệ thống tiếng nói của con người

4.2. Cơ sở lý thuyết xử lý và nhận dạng tiếng nói

4.3. Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói

4.4. Các phương pháp tiếp cận trong nhận dạng tiếng nói

4.5. Phát hiện tiếng nói

4.6. Phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói

4.7. Nhận dạng tiếng nói sử dụng công cụ Google cloud speech API

4.8. Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech API

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

I. Giới thiệu đề tài

II. Tổng quan hoạt động của robot hỗ trợ người khiếm thính

III. Công nghệ xử lý ảnh trong nhận diện ngôn ngữ ký hiệu

IV. Nhận dạng tiếng nói và chuyển đổi thành ngôn ngữ ký hiệu

V. Giá trị và ứng dụng thực tiễn của nghiên cứu

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Trung Hiếu

Người hướng dẫn: PGS. Nguyễn Trường Thịnh

Trường học: Đại học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành: Kỹ Thuật Cơ Điện Tử

Đề tài: Nghiên Cứu Robot Hỗ Trợ Người Khiếm Thính Ứng Dụng Công Nghệ Xử Lý Ảnh

Loại tài liệu: luận văn

Năm xuất bản: 2017

Địa điểm: Tp. Hồ Chí Minh