I. Tổng quan
Nghiên cứu này tập trung vào việc ứng dụng cảm biến 3D Kinect trong việc nhận diện ngôn ngữ cử chỉ tiếng Việt, đặc biệt là cho người khiếm thính. Mục tiêu chính là phát triển một hệ thống có khả năng nhận diện các tư thế bàn tay trong không gian ba chiều (3D) từ dữ liệu thu được từ cảm biến Kinect. Hệ thống này không chỉ giúp cải thiện khả năng giao tiếp không lời mà còn mở rộng khả năng tương tác cho người khuyết tật. Việc nhận diện ngôn ngữ cử chỉ tiếng Việt đòi hỏi sự kết hợp giữa nhận diện tư thế bàn tay và các chuyển động của cánh tay, khẩu hình. Các nghiên cứu trước đây đã chỉ ra rằng việc sử dụng công nghệ nhận diện hiện đại có thể nâng cao độ chính xác trong việc thông dịch ngôn ngữ cử chỉ.
1.1 Mục tiêu và đối tượng nghiên cứu
Mục tiêu của nghiên cứu là phát triển một hệ thống nhận diện tư thế bàn tay trong không gian 3D, sử dụng cảm biến 3D Kinect. Đối tượng nghiên cứu là các tư thế tay trong ngôn ngữ cử chỉ tiếng Việt. Hệ thống này sẽ giúp người khiếm thính giao tiếp hiệu quả hơn. Việc nhận diện các tư thế bàn tay không chỉ dừng lại ở việc nhận diện các ký tự trong bảng ngôn ngữ ký hiệu mà còn có thể mở rộng sang các ứng dụng thực tế ảo và điều khiển thiết bị. Nghiên cứu này sẽ cung cấp một cái nhìn tổng quan về các phương pháp hiện có và những thách thức trong việc nhận diện ngôn ngữ cử chỉ.
II. Mô hình bàn tay
Chương này trình bày về mô hình động học của bàn tay và cách xây dựng mô hình 3D từ các khối hình học cơ bản. Mô hình bàn tay được xây dựng dựa trên cấu trúc giải phẫu học, với 27 xương và 26 bậc tự do. Việc xác định mô hình bàn tay từ cảm biến Kinect là một phần quan trọng trong quá trình nhận diện. Các khối hình học cơ bản được sử dụng để mô phỏng các tư thế tay, từ đó tạo ra một mô hình 3D chính xác. Hệ thống sẽ sử dụng thông tin từ cảm biến để xác định vị trí và tư thế của bàn tay trong không gian. Điều này giúp cải thiện khả năng nhận diện và giảm thiểu sai số trong quá trình xử lý.
2.1 Mô hình động học của bàn tay
Mô hình động học của bàn tay bao gồm 27 xương, trong đó có 8 xương ở cổ tay và 19 xương cho lòng bàn tay và ngón tay. Các khớp nối giữa các xương cho phép bàn tay có nhiều bậc tự do, với tổng cộng 26 bậc tự do. Cổ tay có 6 bậc tự do, trong khi mỗi ngón tay có 4 bậc tự do. Việc mô phỏng chính xác các bậc tự do này là rất quan trọng trong việc nhận diện tư thế bàn tay. Hệ thống sẽ sử dụng các thông số này để tối ưu hóa quá trình nhận diện, từ đó nâng cao độ chính xác và hiệu quả trong việc giao tiếp với người khiếm thính.
III. Giải thuật nhận diện
Giải thuật nhận diện được xây dựng dựa trên phương pháp tối ưu bầy đàn (PSO) để tìm kiếm các tham số tối ưu cho mô hình bàn tay. Hệ thống sẽ so sánh ảnh quan sát từ cảm biến Kinect với ảnh mô hình 3D để xác định tư thế bàn tay. Việc sử dụng PSO giúp cải thiện tốc độ và độ chính xác của quá trình nhận diện. Hệ thống cũng sẽ áp dụng các kỹ thuật xử lý song song trên GPU để tăng tốc độ xử lý, đáp ứng yêu cầu thời gian thực trong các ứng dụng tương tác. Kết quả thực nghiệm cho thấy hệ thống có khả năng nhận diện 26 bậc tự do của bàn tay với độ chính xác cao.
3.1 Xây dựng hàm mục tiêu
Hàm mục tiêu được xây dựng để tối thiểu hóa sự sai khác giữa ảnh mô hình và ảnh quan sát từ cảm biến 3D. Việc tối ưu hóa hàm mục tiêu là một phần quan trọng trong quá trình nhận diện, giúp hệ thống tìm ra tư thế bàn tay chính xác nhất. Giải thuật PSO sẽ được áp dụng để tìm kiếm các tham số tối ưu cho mô hình, từ đó nâng cao khả năng nhận diện. Kết quả cho thấy giải thuật có thể nhận diện các tư thế tay trong thời gian thực, đáp ứng yêu cầu của người dùng.