I. Tối ưu hóa thời gian thực thi
Tối ưu hóa thời gian thực thi là một trong những mục tiêu chính của nghiên cứu này. Bài toán ước lượng tư thế người trong khoa học máy tính đòi hỏi độ chính xác cao nhưng cũng cần đảm bảo thời gian xử lý nhanh để ứng dụng trong các hệ thống thời gian thực. Hiện tại, các mô hình như HRNet có chi phí tính toán lớn (> 75 MACs), gây khó khăn cho việc triển khai trên các thiết bị di động hoặc hệ thống đòi hỏi tốc độ cao. Nghiên cứu này tập trung vào việc giảm thiểu chi phí tính toán bằng cách tối ưu hóa các thuật toán và mô hình hiện có, đồng thời duy trì độ chính xác cần thiết.
1.1. Phương pháp tiếp cận
Nghiên cứu sử dụng hai hướng tiếp cận chính: Top-down và Bottom-up. Trong đó, Top-down tập trung vào việc phát hiện từng người trong ảnh trước khi ước lượng tư thế, trong khi Bottom-up xác định các điểm keypoint trước và nhóm chúng lại thành từng người. Hướng tiếp cận Bottom-up được đánh giá là phù hợp hơn cho các ứng dụng thời gian thực do giảm thiểu được chi phí tính toán.
1.2. Tối ưu hóa hiệu suất
Nghiên cứu đề xuất việc loại bỏ các nhánh dư thừa trong mô hình HRNet, chuyển từ kiến trúc đa nhánh sang đơn nhánh. Điều này giúp giảm đáng kể số lượng tham số tính toán mà vẫn duy trì được độ chính xác. Kết quả thử nghiệm cho thấy chi phí tính toán giảm xuống còn 5 MACs, một bước tiến lớn trong việc áp dụng vào các hệ thống thời gian thực.
II. Ước lượng tư thế người
Ước lượng tư thế người là bài toán quan trọng trong khoa học máy tính, với mục tiêu dự đoán các điểm keypoint trên cơ thể người từ ảnh 2D. Các điểm này đại diện cho các bộ phận quan trọng như đầu, tay, chân, và được sử dụng để xây dựng khung xương biểu diễn tư thế. Bài toán này có nhiều ứng dụng thực tế, từ theo dõi hành vi con người đến phát hiện bạo lực hoặc hỗ trợ tập luyện thể thao.
2.1. Ứng dụng thực tế
Bài toán ước lượng tư thế người được áp dụng rộng rãi trong các lĩnh vực như huấn luyện thể thao, hoạt hình, và giám sát an ninh. Ví dụ, ứng dụng Zenia sử dụng kỹ thuật này để hướng dẫn người dùng tập yoga, trong khi các hệ thống giám sát sử dụng nó để phát hiện hành vi bạo lực. Những ứng dụng này đòi hỏi độ chính xác cao và khả năng xử lý nhanh.
2.2. Thách thức
Một trong những thách thức lớn của bài toán là việc xử lý các ảnh có nhiều người chồng chéo hoặc người có kích thước nhỏ so với khung hình. Các mô hình hiện tại thường tập trung vào độ chính xác mà chưa tối ưu hóa được chi phí tính toán, gây khó khăn cho việc triển khai trong các hệ thống thời gian thực.
III. Mô hình ước lượng tư thế
Nghiên cứu này tập trung vào việc xây dựng và tối ưu hóa các mô hình ước lượng tư thế để giảm chi phí tính toán mà vẫn duy trì độ chính xác. Các mô hình được thử nghiệm trên bộ dữ liệu COCO và CrowdPose, hai bộ dữ liệu phổ biến trong lĩnh vực này.
3.1. Xây dựng mô hình
Nghiên cứu đề xuất một mô hình dựa trên kiến trúc MobileNet, một mô hình nhẹ và hiệu quả, kết hợp với việc loại bỏ các nhánh dư thừa trong HRNet. Kết quả là một mô hình có chi phí tính toán thấp hơn đáng kể mà vẫn đảm bảo độ chính xác cần thiết.
3.2. Thực nghiệm và đánh giá
Mô hình được thử nghiệm trên hai bộ dữ liệu COCO và CrowdPose. Kết quả cho thấy mô hình cải tiến giảm được chi phí tính toán xuống còn 5 MACs, đồng thời duy trì độ chính xác cao. Điều này mở ra khả năng áp dụng rộng rãi hơn trong các hệ thống thời gian thực.