I. Nhận dạng cử chỉ và Hệ thống nhận dạng tại HCMUTE
Nghiên cứu này, thực hiện tại Trường Đại học Sư phạm Kỹ thuật TP.HCM (HCMUTE), tập trung vào thiết kế và phát triển một hệ thống nhận dạng cử chỉ bàn tay sử dụng mạng nơ-ron chập (CNN). Đề tài tập trung vào việc xây dựng một hệ thống nhận dạng có khả năng phân loại chính xác các cử chỉ bàn tay, đóng góp cho lĩnh vực tầm nhìn máy tính và trí tuệ nhân tạo (AI). Việc sử dụng mạng nơ-ron chập (CNN) cho phép hệ thống học hỏi từ dữ liệu hình ảnh, trích xuất đặc trưng và phân loại các cử chỉ bàn tay với độ chính xác cao. Nghiên cứu này có ý nghĩa quan trọng trong việc phát triển các ứng dụng thực tế, nhất là trong giao diện người máy (Human-Computer Interaction - HCI), thực tế ảo (VR) và thực tế tăng cường (AR).
1.1 Thuật toán nhận dạng cử chỉ và Xử lý ảnh
Hệ thống dựa trên thuật toán nhận dạng sử dụng mạng nơ-ron chập (CNN - Convolutional Neural Network). Mô hình CNN được huấn luyện trên một tập dữ liệu lớn gồm 27,600 mẫu ảnh, bao gồm 6 loại cử chỉ bàn tay khác nhau. Quá trình xử lý ảnh bao gồm các bước tiền xử lý, trích xuất đặc trưng và phân loại. Phát hiện đối tượng được thực hiện thông qua việc sử dụng các mô hình phát hiện đối tượng như R-CNN hoặc SSD, giúp hệ thống tập trung vào vùng chứa bàn tay trong ảnh. Phân tích ảnh và phân loại ảnh là những bước then chốt trong quá trình nhận dạng cử chỉ. Kết quả cho thấy hệ thống đạt độ chính xác cao (98%) trong việc nhận dạng cử chỉ bàn tay từ ảnh tĩnh. Các thư viện mã nguồn mở như OpenCV, TensorFlow, và PyTorch được sử dụng để hỗ trợ việc xây dựng và triển khai hệ thống. Python được chọn làm ngôn ngữ lập trình chính.
1.2 Tích hợp hệ thống và Ứng dụng thực tế
Ngoài việc nhận dạng cử chỉ từ ảnh tĩnh, nghiên cứu còn tập trung vào việc phát triển một hệ thống hoạt động thời gian thực sử dụng dữ liệu từ camera. Đây là một thách thức lớn hơn, đòi hỏi phải xử lý dữ liệu nhanh chóng và hiệu quả. Tích hợp hệ thống bao gồm việc kết hợp các mô-đun phát hiện bàn tay và nhận dạng cử chỉ. Trong phiên bản thời gian thực, hệ thống được thiết kế để nhận dạng 3 cử chỉ bàn tay đơn giản. Việc sử dụng mạng nơ-ron chập trong hệ thống nhận dạng cử chỉ cho phép hệ thống có khả năng thích ứng với những thay đổi nhỏ trong tư thế bàn tay. Ứng dụng di động là một hướng phát triển tiềm năng, cho phép người dùng tương tác với thiết bị một cách trực quan và tiện lợi. Nghiên cứu cũng đề cập đến các ứng dụng thực tế của hệ thống, bao gồm điều khiển bằng cử chỉ, giao diện người máy (HCI), và các ứng dụng trong lĩnh vực thực tế ảo (VR) và thực tế tăng cường (AR). Học máy (Machine Learning) đóng vai trò quan trọng trong việc huấn luyện và cải thiện độ chính xác của hệ thống.
1.3 Đánh giá hệ thống và Nghiên cứu khoa học
Nghiên cứu tiến hành đánh giá hệ thống dựa trên các chỉ số như độ chính xác, tốc độ xử lý và khả năng hoạt động trong điều kiện thực tế. Độ chính xác nhận dạng là chỉ tiêu quan trọng nhất, đạt được 98% đối với ảnh tĩnh và kết quả khả quan với ảnh thời gian thực. Dữ liệu huấn luyện đóng vai trò then chốt trong việc đảm bảo độ chính xác. Kết quả nghiên cứu được trình bày trong một báo cáo khoa học và một bài báo được chấp nhận đăng trên tạp chí Khoa học và Công nghệ. Nghiên cứu này góp phần vào sự phát triển của nghiên cứu khoa học trong lĩnh vực công nghệ nhận dạng. Việc sử dụng mạng nơ-ron chập và các kỹ thuật học sâu (Deep Learning) đã cho thấy hiệu quả trong việc giải quyết bài toán nhận dạng cử chỉ bàn tay. Hệ thống này có thể được ứng dụng rộng rãi trong nhiều lĩnh vực, mang lại giá trị thực tiễn cao.