I. Cách thu nhận cử chỉ người bằng thị giác máy không cần đánh dấu
Thu nhận cử chỉ người bằng thị giác máy là một lĩnh vực then chốt trong computer vision và tương tác người-máy. Phương pháp nổi bật được trình bày trong luận văn của Nguyễn Mạnh Hùng sử dụng camera đơn (monoscopic vision) để ghi nhận chuyển động cơ thể mà không cần thiết bị đeo hay marker. Điều này giúp giảm chi phí và tăng tính tự nhiên trong thu thập dữ liệu. Hệ thống dựa trên việc recalage (đăng ký lại) mô hình cơ thể người 3D có khớp lên chuỗi ảnh đã được phân đoạn theo màu da. Quá trình này tuân thủ các ràng buộc sinh học (biomechanical constraints), đảm bảo cử chỉ tái tạo gần với thực tế. Việc xử lý ảnh thời gian thực được hỗ trợ nhờ thư viện chuyên biệt như OpenCV và sức mạnh GPU qua OpenGL, cho phép tối ưu hóa hiệu năng mà vẫn giữ độ chính xác cao. Nghiên cứu nhấn mạnh rằng khả năng hoạt động real-time là yếu tố then chốt để ứng dụng trong trò chơi, y tế hoặc điều khiển từ xa.
1.1. Cơ sở kỹ thuật của hệ thống thu nhận cử chỉ không marker
Hệ thống dựa trên phân đoạn ảnh theo màu da trong không gian HSV, sau đó áp dụng các phép toán tập hợp để loại nhiễu. Mô hình cơ thể 3D có khớp (articulated model) được căn chỉnh liên tục vào vùng ảnh đã phân đoạn. Việc không yêu cầu kiến thức tiên nghiệm về cử chỉ giúp hệ thống linh hoạt hơn so với các phương pháp truyền thống.
1.2. Vai trò của ràng buộc sinh học trong tái tạo cử chỉ
Các ràng buộc sinh học quy định giới hạn góc xoay tại từng khớp (bảng 1 trong luận văn). Chúng đảm bảo mô hình không sinh ra cử chỉ phi tự nhiên. Đây là yếu tố then chốt giúp tăng độ tin cậy của kết quả tái tạo, đặc biệt khi dữ liệu đầu vào bị nhiễu hoặc thiếu chi tiết.
II. Thách thức chính trong thị giác máy nhận diện cử chỉ người
Mặc dù tiềm năng lớn, thu nhận cử chỉ người bằng thị giác máy đối mặt nhiều thách thức kỹ thuật. Đầu tiên là vấn đề che khuất (occlusion): khi tay che mặt hoặc hai tay giao nhau, hệ thống khó phân biệt các bộ phận cơ thể. Thứ hai, ánh sáng môi trường thay đổi làm sai lệch phân đoạn màu da, dẫn đến lỗi trong bước tiền xử lý. Thứ ba, việc tái tạo mô hình 3D từ ảnh 2D đơn camera là bài toán ngược không ổn định, dễ gây nhiễu nếu không có ràng buộc phù hợp. Ngoài ra, tốc độ xử lý phải đủ nhanh để đạt real-time—yêu cầu tối ưu mã nguồn và tận dụng phần cứng đồ họa. Luận văn của Nguyễn Mạnh Hùng đề xuất giải pháp kết hợp OpenCV cho xử lý ảnh và OpenGL cho render 3D, giúp giảm đáng kể thời gian tính toán. Tuy nhiên, độ chính xác vẫn phụ thuộc lớn vào chất lượng phân đoạn ban đầu và mức độ phức tạp của cử chỉ.
2.1. Ảnh hưởng của điều kiện ánh sáng đến phân đoạn ảnh
Phân đoạn dựa trên màu da trong không gian HSV (Phương trình 1 trong luận văn) nhạy cảm với ánh sáng. Khi nền quá sáng hoặc quá tối, ngưỡng màu thay đổi, dẫn đến mất vùng da hoặc bao gồm nhiễu. Giải pháp đề xuất là cập nhật động ngưỡng dựa trên histogram vùng trung tâm khuôn mặt.
2.2. Khó khăn khi suy diễn 3D từ ảnh 2D đơn
Với chỉ một camera, độ sâu không trực tiếp đo được. Hệ thống phải dựa vào mô hình khớp 3D chuẩn và tối ưu hóa vị trí khớp sao cho khớp với biên ảnh 2D. Quá trình này dùng thuật toán descente du simplexe (đơn hình xuống dốc) để tìm nghiệm gần đúng nhanh chóng.
III. Phương pháp tái tạo cử chỉ dựa trên mô hình khớp 3D
Phương pháp trung tâm trong luận văn là recalage mô hình cơ thể người 3D có khớp lên chuỗi ảnh đã phân đoạn. Mô hình này gồm 23 bậc tự do (degrees of freedom), tương ứng với các khớp vai, khuỷu, cổ tay… Mỗi khớp tuân theo bảng ràng buộc sinh học (Bảng 1). Quá trình tái tạo bắt đầu bằng việc phát hiện khuôn mặt—làm mốc định vị đầu—sau đó mở rộng sang vai và tay. Hệ thống dùng tối ưu hóa dựa trên gradient xấp xỉ (simplex descent) để điều chỉnh tham số khớp sao cho tỷ lệ không trùng lấp (non-overlapping rate – Phương trình 3) giữa mô hình chiếu và vùng da là nhỏ nhất. Hiệu suất được cải thiện nhờ render mô hình 3D bằng OpenGL (Bảng 2) và xử lý ảnh bằng OpenCV (Bảng 3). Kết quả cuối cùng được xuất dưới định dạng MPEG-4/BAP (Bảng 4), chuẩn quốc tế cho biểu diễn cử chỉ.
3.1. Cấu trúc mô hình cơ thể người 3D có khớp
Mô hình gồm các đoạn xương nối các khớp, mỗi khớp có giới hạn góc xoay cụ thể. Ví dụ: khớp vai cho phép xoay ±90° theo trục ngang, nhưng chỉ ±30° theo trục dọc. Các giới hạn này được lập bảng rõ ràng để tránh cử chỉ bất thường.
3.2. Quy trình tối ưu hóa tham số khớp theo thời gian thực
Thuật toán descente du simplexe (Phụ lục) khởi tạo đơn hình trong không gian tham số, rồi lặp lại các phép biến đổi (phản xạ, co giãn) để tiến tới cực tiểu hàm mục tiêu—ở đây là tỷ lệ không trùng lấp giữa mô hình và ảnh thực.
IV. Ứng dụng thực tiễn và kết quả thử nghiệm hệ thống
Hệ thống đã được triển khai thử nghiệm tại phòng thí nghiệm EEN, Institut National des Télécommunications. Kết quả (Bảng 5) cho thấy tốc độ xử lý đạt 15–20 khung hình/giây trên CPU Intel Pentium 4 và GPU NVIDIA GeForce FX. Độ chính xác trung bình đạt 85–90% với cử chỉ tay đơn giản như vẫy tay, chỉ tay. Hệ thống hoạt động tốt trong điều kiện ánh sáng trong nhà ổn định. Các ứng dụng tiềm năng bao gồm: điều khiển giao diện không chạm trong y tế, tương tác trong thực tế ảo, và hỗ trợ người khuyết tật. Đặc biệt, việc xuất kết quả theo chuẩn MPEG-4/BAP cho phép tích hợp dễ dàng với các hệ thống hoạt hình hoặc tổng hợp cử chỉ. Tuy nhiên, hiệu suất giảm đáng kể khi xuất hiện che khuất nặng hoặc cử chỉ phức tạp như vỗ tay liên tục. Nghiên cứu khuyến nghị cải tiến bằng cách kết hợp thông tin chuyển động (optical flow) hoặc mạng thần kinh trong tương lai.
4.1. Đánh giá hiệu năng theo thống kê thực nghiệm
Bảng 5 trong luận văn liệt kê thời gian xử lý trung bình cho từng module: phân đoạn (40ms), tái tạo 3D (30ms), tối ưu (20ms). Tổng cộng ~90ms/khung, tương đương ~11 FPS—gần đạt real-time trên phần cứng năm 2004.
4.2. Khả năng tích hợp với chuẩn MPEG 4 BAP
Hệ thống ánh xạ 23 tham số khớp sang Body Animation Parameters (BAP) của MPEG-4. Điều này cho phép sử dụng kết quả trong các ứng dụng đa phương tiện tiêu chuẩn, mở rộng phạm vi ứng dụng vượt khỏi phòng thí nghiệm.
V. Tương lai của nghiên cứu thu nhận cử chỉ bằng thị giác máy
Nghiên cứu của Nguyễn Mạnh Hùng đặt nền móng cho các hệ thống thị giác máy không marker thời gian thực. Tuy nhiên, xu hướng hiện đại đã chuyển sang sử dụng mạng nơ-ron sâu (deep learning) và cảm biến chiều sâu (depth sensors) như Kinect hoặc LiDAR. Dù vậy, phương pháp dựa trên mô hình hình học vẫn có giá trị khi dữ liệu huấn luyện hạn chế hoặc yêu cầu giải thích được (explainable AI). Hướng phát triển tiếp theo bao gồm: (1) kết hợp phân đoạn ngữ nghĩa thay vì chỉ dựa trên màu da; (2) sử dụng GPU hiện đại để tăng tốc render và tối ưu; (3) mở rộng sang toàn thân thay vì chỉ nửa trên. Ngoài ra, việc áp dụng học tăng cường (reinforcement learning) để điều chỉnh mô hình theo phản hồi thời gian thực cũng là một tiềm năng. Dù công nghệ thay đổi, nguyên lý tôn trọng ràng buộc sinh học và tái tạo hình học chính xác vẫn là cốt lõi của mọi hệ thống thu nhận cử chỉ người đáng tin cậy.
5.1. So sánh với phương pháp học sâu hiện đại
Các mô hình như MediaPipe hay OpenPose dùng CNN để phát hiện keypoint, nhanh và chính xác hơn. Tuy nhiên, chúng không đảm bảo tính sinh học trừ khi được huấn luyện đặc biệt. Phương pháp hình học vẫn ưu việt khi cần độ tin cậy cao trong môi trường an toàn như y tế.
5.2. Đề xuất cải tiến cho hệ thống gốc
Có thể nâng cấp hệ thống bằng cách thay thế phân đoạn màu bằng U-Net segmentation, và thay simplex descent bằng Levenberg-Marquardt để hội tụ nhanh hơn. Đồng thời, tích hợp dự đoán chuyển động (motion prediction) giúp xử lý gián đoạn do che khuất.