Phát hiện, phân đoạn và theo dõi tay từ tầm nhìn egocentric

Tài liệu nghiên cứu Hand detetion segmentation and traking from egoentri vision, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Hanoi University of Science and Technology

Chuyên ngành

Information System and Communication

Người đăng

Ẩn danh

Thể loại

Thesis

2020

Phí lưu trữ

35 Point

Mục lục chi tiết

Acknowledgments

1. Overview of object recognition and tracking from video

1.1. Object recognition

1.2. Object tracking

2. Context and scope of the thesis

2.1. Egocentric vision

2.2. Background project and motivation

2.3. Video object recognition and tracking challenges

Tóm tắt

I. Tổng Quan Phát Hiện Phân Đoạn Theo Dõi Tay Egocentric

Bài toán phát hiện, phân đoạn và theo dõi tay từ tầm nhìn egocentric đang ngày càng trở nên quan trọng. Tầm nhìn egocentric computer vision, hay còn gọi là tầm nhìn thứ nhất (first-person vision), mang đến góc nhìn độc đáo, tái tạo lại cách con người cảm nhận thế giới. Trong bối cảnh này, tay đóng vai trò then chốt trong tương tác với môi trường. Hand detection egocentric vision cung cấp dữ liệu quan trọng để hiểu hành động, dự đoán ý định và hỗ trợ các ứng dụng thực tế tăng cường và robot hỗ trợ. Nghiên cứu này tập trung vào việc xây dựng hệ thống tự động, có khả năng xác định vị trí, phân loại và theo dõi tay trong video egocentric. Hệ thống kết hợp các mô hình dò tìm hiện đại từ các họ RCNN và YOLO với các thuật toán theo dõi SORT hoặc DeepSORT. Một trong những mục tiêu chính là đánh giá mối tương quan giữa hiệu suất của thuật toán dò tìm đối tượng và hiệu suất tổng thể của hệ thống tracking by detection. Ngoài ra, nghiên cứu xem xét ảnh hưởng của việc sử dụng các mô tả trực quan DeepSORT trong giai đoạn theo dõi của hệ thống.

1.1. Ứng dụng thực tiễn của Hand Tracking Egocentric Vision

Các ứng dụng của hand tracking egocentric vision rất đa dạng. Trong lĩnh vực y tế, nó có thể hỗ trợ giám sát bệnh nhân, phân tích phục hồi chức năng. Trong thể thao, nó giúp phân tích kỹ thuật vận động viên. Trong giáo dục, nó tạo ra trải nghiệm thực tế ảo tương tác. Wearable hand interaction cho phép điều khiển thiết bị thông minh, tương tác với môi trường ảo một cách tự nhiên. Nhờ đó, những người khuyết tật có thể tương tác với thế giới một cách dễ dàng hơn. Hand gesture recognition egocentric mở ra khả năng điều khiển thiết bị bằng cử chỉ tay, mang lại trải nghiệm liền mạch và trực quan. Tóm lại, đây là lĩnh vực đầy tiềm năng, hứa hẹn mang lại nhiều đột phá trong tương lai.

1.2. Các thách thức trong Phát hiện tay từ góc nhìn Egocentric

Việc phát hiện tay từ góc nhìn egocentric đặt ra nhiều thách thức. Thứ nhất, hình ảnh thường bị ảnh hưởng bởi chuyển động của người dùng, dẫn đến mờ (motion blur) và biến dạng. Thứ hai, tay thường xuyên bị che khuất bởi các vật thể khác, gây khó khăn cho việc nhận diện. Thứ ba, sự đa dạng về hình dạng, kích thước và tư thế của tay đòi hỏi các thuật toán phải có khả năng thích ứng cao. Các thuật toán cần phải hoạt động hiệu quả trong thời gian thực để đáp ứng nhu cầu của các ứng dụng tương tác. Theo tài liệu gốc, các thuật toán dò tìm đối tượng không phải lúc nào cũng hoàn hảo, điều này ảnh hưởng trực tiếp đến hiệu suất của hệ thống theo dõi. Để giải quyết các thách thức này, cần có các phương pháp dò tìm và theo dõi mạnh mẽ, có khả năng xử lý sự biến động và nhiễu trong hình ảnh.

II. Phương Pháp Tracking By Detection cho Tay Egocentric

Phương pháp tracking by detection là một giải pháp phổ biến cho bài toán theo dõi đối tượng. Cách tiếp cận này chia bài toán thành hai giai đoạn: hand detection egocentric vision và hand tracking egocentric vision. Đầu tiên, thuật toán dò tìm đối tượng (object detection) xác định vị trí của các đối tượng quan tâm trong mỗi khung hình. Sau đó, thuật toán theo dõi (tracking algorithm) liên kết các đối tượng được dò tìm trong các khung hình liên tiếp để tạo thành quỹ đạo di chuyển của đối tượng. Việc lựa chọn thuật toán dò tìm và theo dõi phù hợp là rất quan trọng để đảm bảo hiệu suất của hệ thống. Theo tài liệu, hiệu suất của thuật toán dò tìm có ảnh hưởng lớn đến hiệu suất tổng thể của hệ thống tracking by detection. Do đó, cần phải lựa chọn thuật toán dò tìm có độ chính xác cao và khả năng hoạt động ổn định trong các điều kiện khác nhau.

2.1. Ứng dụng mô hình RCNN trong Hand Detection Egocentric

Các mô hình thuộc họ RCNN (Region-based Convolutional Neural Networks) là một trong những lựa chọn phổ biến cho bài toán hand detection egocentric vision. RCNN, Fast RCNN, và Faster RCNN là những biến thể khác nhau của kiến trúc này, mỗi biến thể đều có những ưu điểm và nhược điểm riêng. RCNN sử dụng selective search để tạo ra các vùng đề xuất, sau đó sử dụng CNN để trích xuất đặc trưng từ các vùng này. Fast RCNN cải thiện tốc độ bằng cách trích xuất đặc trưng một lần duy nhất cho toàn bộ hình ảnh. Faster RCNN giới thiệu Region Proposal Network (RPN) để tạo ra các vùng đề xuất một cách hiệu quả hơn. Mask R-CNN là một mở rộng của Faster RCNN, có khả năng thực hiện đồng thời việc dò tìm đối tượng và phân đoạn (segmentation). Các mô hình RCNN thường đạt độ chính xác cao, nhưng tốc độ chậm hơn so với các mô hình khác.

2.2. YOLO Giải pháp cho Phát Hiện Tay Egocentric Thời Gian Thực

YOLO (You Only Look Once) là một kiến trúc dò tìm đối tượng khác, nổi tiếng với tốc độ xử lý nhanh. YOLO chia hình ảnh thành các ô lưới và dự đoán các hộp giới hạn và độ tin cậy cho mỗi ô. YOLOv3 và YOLOv4 là những phiên bản phổ biến, với nhiều cải tiến về kiến trúc và kỹ thuật huấn luyện. YOLO có thể xử lý hình ảnh trong thời gian thực, làm cho nó phù hợp với các ứng dụng đòi hỏi phản hồi nhanh. Tuy nhiên, YOLO có thể gặp khó khăn trong việc dò tìm các đối tượng nhỏ hoặc bị che khuất. Theo tài liệu gốc, YOLO là một lựa chọn tốt khi tốc độ là ưu tiên hàng đầu, nhưng cần cân nhắc kỹ lưỡng về độ chính xác trong các tình huống phức tạp.

2.3. Kết hợp SORT DeepSORT để Theo Dõi Tay trong Tầm Nhìn Người Thứ Nhất

SORT (Simple Online and Realtime Tracking) và DeepSORT là các thuật toán theo dõi phổ biến. SORT sử dụng Kalman filter để dự đoán vị trí của đối tượng trong các khung hình tiếp theo và Hungarian algorithm để gán các đối tượng được dò tìm với các quỹ đạo hiện có. DeepSORT cải tiến SORT bằng cách kết hợp thông tin về đặc trưng trực quan của đối tượng, giúp giảm thiểu hiện tượng chuyển đổi ID (ID switching). Theo tài liệu, việc sử dụng các mô tả trực quan trong giai đoạn theo dõi có thể cải thiện hiệu suất của hệ thống bằng cách giảm số lượng chuyển đổi ID. Tuy nhiên, việc trích xuất đặc trưng trực quan đòi hỏi thêm tài nguyên tính toán, có thể ảnh hưởng đến tốc độ của hệ thống.

III. Ứng Dụng Xây Dựng Bộ Dữ Liệu Micand32 cho Hand Tracking

Để đánh giá hiệu quả của các phương pháp hand detection egocentric vision và hand tracking egocentric vision, cần có một bộ dữ liệu phù hợp. Nghiên cứu này giới thiệu bộ dữ liệu Micand32, được thu thập trong bối cảnh dự án nghiên cứu về phân tích hoạt động hàng ngày của con người từ tầm nhìn thứ nhất. Bộ dữ liệu này chứa các video quay từ góc nhìn người thứ nhất, ghi lại các hoạt động tương tác của bệnh nhân với các vật thể trong quá trình phục hồi chức năng. Bộ dữ liệu Micand32 được chú thích kỹ lưỡng với thông tin về vị trí và danh tính của tay trong mỗi khung hình. Dữ liệu này được sử dụng để huấn luyện và đánh giá các mô hình deep learning hand detection egocentric và hand tracking egocentric vision.

3.1. Chi tiết về cấu trúc và nội dung của bộ dữ liệu Micand32

Bộ dữ liệu Micand32 bao gồm hai phần: Micand32S (short-term) và Micand32E (long-term). Micand32S chứa các đoạn video ngắn, tập trung vào các hoạt động cụ thể. Micand32E chứa các đoạn video dài hơn, ghi lại các hoạt động phức tạp hơn. Các video được quay với độ phân giải cao và được chú thích với thông tin về vị trí của tay trong mỗi khung hình. Các chú thích được thực hiện bằng tay để đảm bảo độ chính xác. Bộ dữ liệu Micand32 cung cấp một nguồn tài nguyên quý giá cho các nhà nghiên cứu trong lĩnh vực egocentric computer vision.

3.2. Quy trình tạo và chú thích bộ dữ liệu để đảm bảo chất lượng

Quy trình tạo bộ dữ liệu Micand32 bao gồm các bước sau: thu thập video, tiền xử lý video, chú thích video và kiểm tra chất lượng. Video được thu thập từ nhiều nguồn khác nhau, bao gồm cả video quay từ camera gắn trên người và video quay từ camera cố định. Video được tiền xử lý để loại bỏ nhiễu và ổn định hình ảnh. Chú thích video được thực hiện bằng tay bởi các chuyên gia. Kiểm tra chất lượng được thực hiện để đảm bảo độ chính xác của các chú thích. Một công cụ đã được phát triển để đẩy nhanh quá trình chú thích theo dõi bằng cách sử dụng kết quả phân đoạn tự động.

IV. Kết Quả Đánh Giá Hiệu Suất Các Mô Hình trên Micand32

Nghiên cứu này đã đánh giá hiệu suất của nhiều mô hình hand detection egocentric vision và hand tracking egocentric vision trên bộ dữ liệu Micand32. Các mô hình được đánh giá bao gồm các biến thể của RCNN (Faster RCNN, Mask R-CNN) và YOLO (YOLOv3, YOLOv4), kết hợp với các thuật toán theo dõi SORT và DeepSORT. Các kết quả cho thấy rằng các mô hình dựa trên DeepSORT thường đạt hiệu suất tốt hơn so với các mô hình dựa trên SORT, đặc biệt là trong các tình huống có nhiều vật thể che khuất hoặc có sự thay đổi nhanh chóng về hình dạng của tay. Theo tài liệu, khả năng của thuật toán dò tìm đối tượng là một chỉ số quan trọng về hiệu suất tổng thể của hệ thống tracking by detection.

4.1. So sánh độ chính xác và tốc độ của các mô hình Object Detection

Các mô hình object detection được so sánh dựa trên các chỉ số như Average Precision (AP) và Average Recall (AR). Các mô hình RCNN thường đạt độ chính xác cao hơn so với các mô hình YOLO, nhưng tốc độ chậm hơn. YOLOv4 thường nhanh hơn YOLOv3, nhưng độ chính xác có thể thấp hơn trong một số trường hợp. Sự lựa chọn mô hình phụ thuộc vào sự cân bằng giữa độ chính xác và tốc độ. Bảng thống kê chi tiết về độ chính xác và tốc độ của từng mô hình được cung cấp trong tài liệu.

4.2. Phân tích ảnh hưởng của thuật toán Detection đến Tracking

Các kết quả cho thấy rằng hiệu suất của thuật toán detection có ảnh hưởng lớn đến hiệu suất của thuật toán tracking. Một thuật toán detection có độ chính xác cao sẽ cung cấp thông tin chính xác cho thuật toán tracking, giúp cải thiện độ chính xác của việc theo dõi. Tuy nhiên, một thuật toán detection có tốc độ chậm có thể làm giảm tốc độ của toàn bộ hệ thống. Do đó, cần phải lựa chọn một thuật toán detection phù hợp với yêu cầu của ứng dụng.

4.3. Đánh giá ưu điểm của DeepSORT so với SORT trong môi trường Egocentric

DeepSORT cho thấy ưu điểm vượt trội so với SORT trong môi trường egocentric, đặc biệt là trong các tình huống phức tạp. DeepSORT sử dụng thông tin về đặc trưng trực quan của đối tượng để giảm thiểu hiện tượng chuyển đổi ID, trong khi SORT chỉ dựa vào thông tin về vị trí và vận tốc của đối tượng. Trong môi trường egocentric, nơi tay thường xuyên bị che khuất hoặc có sự thay đổi nhanh chóng về hình dạng, thông tin về đặc trưng trực quan là rất quan trọng để duy trì tính nhất quán của các quỹ đạo.

V. Thách Thức và Hướng Phát Triển cho Hand Tracking Egocentric

Mặc dù đã có nhiều tiến bộ trong lĩnh vực hand tracking egocentric vision, vẫn còn nhiều thách thức cần được giải quyết. Các thách thức bao gồm việc xử lý sự che khuất, biến dạng và mờ trong hình ảnh. Ngoài ra, cần có các phương pháp mạnh mẽ hơn để xử lý sự đa dạng về hình dạng, kích thước và tư thế của tay. Trong tương lai, nghiên cứu sẽ tập trung vào việc phát triển các mô hình deep learning hand detection egocentric có khả năng thích ứng cao và hoạt động hiệu quả trong thời gian thực.

5.1. Các yếu tố ảnh hưởng đến độ chính xác trong môi trường thực tế

Nhiều yếu tố có thể ảnh hưởng đến độ chính xác của các mô hình hand tracking egocentric vision trong môi trường thực tế. Các yếu tố này bao gồm điều kiện ánh sáng, góc nhìn của camera, tốc độ di chuyển của tay và sự phức tạp của môi trường xung quanh. Để cải thiện độ chính xác, cần phải phát triển các mô hình có khả năng chống chịu tốt với các yếu tố này.

5.2. Các hướng nghiên cứu tiềm năng để cải thiện hiệu suất hệ thống

Có nhiều hướng nghiên cứu tiềm năng để cải thiện hiệu suất của hệ thống hand tracking egocentric vision. Một hướng nghiên cứu là phát triển các mô hình deep learning hand detection egocentric mới có khả năng học các đặc trưng quan trọng của tay từ dữ liệu. Một hướng nghiên cứu khác là kết hợp thông tin từ nhiều nguồn khác nhau, chẳng hạn như thông tin về âm thanh hoặc thông tin về ngữ cảnh của môi trường, để cải thiện độ chính xác của việc theo dõi. Ngoài ra, việc sử dụng các attention mechanisms egocentric hand detection có thể giúp tập trung vào các vùng quan trọng của hình ảnh.

VI. Kết Luận Tầm Quan Trọng của Hand Tracking Egocentric Vision

Nghiên cứu về hand tracking egocentric vision đóng vai trò quan trọng trong việc phát triển các ứng dụng tương tác giữa người và máy. Khả năng tự động phát hiện, phân đoạn và theo dõi tay trong video quay từ góc nhìn người thứ nhất mở ra nhiều cơ hội trong các lĩnh vực như y tế, thể thao, giáo dục và robot. Bộ dữ liệu Micand32 cung cấp một nguồn tài nguyên quý giá cho các nhà nghiên cứu trong lĩnh vực này. Trong tương lai, nghiên cứu sẽ tiếp tục tập trung vào việc phát triển các mô hình mạnh mẽ và hiệu quả hơn để đáp ứng nhu cầu ngày càng tăng của các ứng dụng thực tế.

6.1. Tổng kết các kết quả đạt được và đóng góp của nghiên cứu

Nghiên cứu này đã đạt được những kết quả đáng kể trong việc phát triển các phương pháp hand detection egocentric vision và hand tracking egocentric vision. Nghiên cứu đã giới thiệu bộ dữ liệu Micand32, đánh giá hiệu suất của nhiều mô hình khác nhau và xác định các thách thức và hướng phát triển trong tương lai. Các kết quả của nghiên cứu có thể được sử dụng để phát triển các ứng dụng tương tác giữa người và máy trong nhiều lĩnh vực khác nhau.

6.2. Triển vọng và ứng dụng tiềm năng của công nghệ trong tương lai

Công nghệ hand tracking egocentric vision có triển vọng lớn trong tương lai. Các ứng dụng tiềm năng bao gồm việc hỗ trợ người khuyết tật, cải thiện hiệu suất làm việc, tạo ra trải nghiệm giải trí tương tác và phát triển các hệ thống robot thông minh. Khi công nghệ tiếp tục phát triển, chúng ta có thể mong đợi thấy nhiều ứng dụng sáng tạo hơn của hand interaction recognition egocentric và hand-object interaction egocentric.

23/05/2025

Bạn đang xem trước tài liệu:

Hand detetion segmentation and traking from egoentri vision

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Theo ước tính, việc theo dõi đa đối tượng trong video ngày càng trở nên quan trọng trong các ứng dụng như giám sát, tương tác người-máy và y tế. Đặc biệt, trong lĩnh vực thị giác người thứ nhất (egocentric vision), việc phát hiện, phân đoạn và theo dõi bàn tay đóng vai trò then chốt trong việc nhận dạng hành động và đánh giá hoạt động của người dùng. Luận văn tập trung vào phát triển một hệ thống tự động theo dõi bàn tay từ video egocentric, sử dụng các mô hình phát hiện đối tượng hiện đại thuộc họ RCNN và YOLO kết hợp với thuật toán theo dõi SORT và DeepSORT. Mục tiêu chính là đánh giá mối quan hệ giữa hiệu suất phát hiện đối tượng và hiệu quả tổng thể của hệ thống theo dõi, đồng thời khảo sát tác động của việc sử dụng đặc trưng hình ảnh trong giai đoạn theo dõi. Nghiên cứu được thực hiện trên bộ dữ liệu Micand32, một bộ dữ liệu mới về theo dõi bàn tay egocentric được xây dựng trong khuôn khổ dự án nghiên cứu về phân tích hoạt động hàng ngày của con người qua thị giác người thứ nhất. Bộ dữ liệu bao gồm hơn 11.000 khung hình với độ phân giải cao 1920x1440, ghi lại các hành động thực tế của bệnh nhân trong môi trường phục hồi chức năng. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao độ chính xác và hiệu quả của các hệ thống theo dõi bàn tay, góp phần phát triển các ứng dụng hỗ trợ y tế, thể thao và tương tác người-máy.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình phát hiện đối tượng dựa trên CNN: Bao gồm các kiến trúc hai giai đoạn như R-CNN, Fast R-CNN, Faster R-CNN và Mask R-CNN, cũng như các mô hình một giai đoạn như YOLO (phiên bản 3 và 4). Các mô hình này sử dụng mạng nơ-ron tích chập để trích xuất đặc trưng hình ảnh và dự đoán vị trí, nhãn của đối tượng trong ảnh hoặc video.
Thuật toán theo dõi đối tượng đa mục tiêu (MOT): Sử dụng phương pháp "tracking by detection" gồm hai bước chính: phát hiện đối tượng trong từng khung hình và liên kết các đối tượng qua các khung hình liên tiếp. Hai thuật toán theo dõi chính được áp dụng là SORT (Simple Online and Realtime Tracking) và DeepSORT, trong đó DeepSORT bổ sung đặc trưng hình ảnh để giảm thiểu hiện tượng đổi ID.
Khái niệm và thuật ngữ chính:
- Egocentric vision: Thị giác người thứ nhất, ghi lại hình ảnh từ góc nhìn của người đeo camera.
- Phân đoạn đối tượng (segmentation): Gán nhãn cho từng pixel thuộc đối tượng cụ thể.
- Tracking by detection: Phương pháp theo dõi dựa trên phát hiện đối tượng từng khung hình.
- MOTA (Multiple Object Tracking Accuracy) và IDF1: Các chỉ số đánh giá hiệu quả theo dõi đa đối tượng.

Phương pháp nghiên cứu

Nguồn dữ liệu:
- Bộ dữ liệu chính là Micand32, gồm 32 chuỗi video với tổng cộng khoảng 11.000 khung hình, ghi lại các hành động thực tế của bệnh nhân trong môi trường phục hồi chức năng.
- Ngoài ra, các bộ dữ liệu GTEA family và EgoHands cũng được sử dụng để huấn luyện và đánh giá mô hình.
Phương pháp phân tích:
- Huấn luyện các mô hình phát hiện và phân đoạn bàn tay dựa trên các kiến trúc RCNN (Faster R-CNN, Mask R-CNN) và YOLO (YOLOv3, YOLOv4).
- Huấn luyện mô hình đặc trưng hình ảnh cho thuật toán DeepSORT trên bộ dữ liệu Micand32S để phù hợp với đặc điểm bàn tay egocentric.
- Áp dụng thuật toán theo dõi SORT và DeepSORT để liên kết các đối tượng bàn tay qua các khung hình.
- Đánh giá hiệu suất phát hiện theo chuẩn COCO (Average Precision, Average Recall) và hiệu suất theo dõi theo chuẩn MOT16 (MOTA, IDF1, số lần đổi ID).
Timeline nghiên cứu:
- Giai đoạn chuẩn bị dữ liệu và xây dựng bộ dữ liệu Micand32 kéo dài khoảng 6 tháng.
- Huấn luyện và tinh chỉnh mô hình trong 4 tháng tiếp theo.
- Thực hiện đánh giá và phân tích kết quả trong 2 tháng cuối cùng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phát hiện đối tượng ảnh hưởng mạnh đến hiệu quả theo dõi:
- Mô hình Faster R-CNN kết hợp với DeepSORT đạt MOTA trung bình khoảng 75% trên bộ dữ liệu Micand32E, cao hơn 12% so với khi sử dụng YOLOv3 kết hợp SORT.
- Độ chính xác phát hiện (Average Precision) của Faster R-CNN đạt khoảng 82%, trong khi YOLOv3 đạt khoảng 70%.
DeepSORT giảm đáng kể số lần đổi ID so với SORT:
- Số lần đổi ID (ID switches) giảm từ khoảng 150 xuống còn khoảng 60 trên cùng bộ dữ liệu khi sử dụng DeepSORT thay vì SORT, tương đương giảm 60%.
- Việc sử dụng đặc trưng hình ảnh giúp duy trì nhận dạng bàn tay ổn định hơn trong các tình huống che khuất và chuyển động nhanh.
Tốc độ xử lý và độ phức tạp của mô hình:
- YOLOv4 có tốc độ xử lý nhanh hơn Faster R-CNN khoảng 30%, nhưng độ chính xác thấp hơn khoảng 8%.
- Mô hình Mask R-CNN cung cấp kết quả phân đoạn chính xác hơn Faster R-CNN, với độ chính xác phân đoạn (Average Recall) tăng khoảng 10%.
Độ khó của các hành động và ảnh hưởng đến theo dõi:
- Các hành động có nhiều sự can thiệp của tay người khác hoặc chuyển động nhanh như "thực hành với bóng" có tỷ lệ mất dấu (miss rate) cao hơn 15% so với các hành động đơn giản như "thực hành với chai nước".

Thảo luận kết quả

Kết quả cho thấy rằng chất lượng của mô hình phát hiện đối tượng là yếu tố quyết định đến hiệu quả tổng thể của hệ thống theo dõi bằng phương pháp tracking by detection. Việc sử dụng DeepSORT với đặc trưng hình ảnh giúp giảm thiểu hiện tượng đổi ID, đặc biệt trong các tình huống phức tạp như che khuất hoặc thay đổi hình dạng bàn tay. So với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng ứng dụng học sâu trong theo dõi đa đối tượng, đồng thời mở rộng ứng dụng cho thị giác người thứ nhất. Các biểu đồ so sánh MOTA và IDF1 giữa các tổ hợp mô hình được trình bày rõ ràng trong luận văn, minh họa sự khác biệt về hiệu suất. Tuy nhiên, tốc độ xử lý của các mô hình phức tạp như Faster R-CNN và Mask R-CNN còn hạn chế, cần cân nhắc khi ứng dụng thực tế. Ngoài ra, độ phức tạp của hành động và sự xuất hiện của nhiều bàn tay trong khung hình cũng làm tăng độ khó cho việc theo dõi chính xác, đòi hỏi các giải pháp nâng cao hơn trong tương lai.

Đề xuất và khuyến nghị

Tối ưu hóa mô hình phát hiện đối tượng:
- Áp dụng kỹ thuật tăng cường dữ liệu và huấn luyện chuyển giao để nâng cao độ chính xác phát hiện bàn tay, hướng tới mục tiêu tăng Average Precision lên trên 85% trong vòng 12 tháng.
- Chủ thể thực hiện: nhóm nghiên cứu AI và phát triển phần mềm.
Phát triển mô hình theo dõi kết hợp đặc trưng hình ảnh nâng cao:
- Nghiên cứu và tích hợp các mạng nơ-ron sâu chuyên biệt cho đặc trưng bàn tay egocentric, giảm số lần đổi ID xuống dưới 30% so với hiện tại trong 6 tháng tới.
- Chủ thể thực hiện: nhóm nghiên cứu thị giác máy tính.
Cải thiện tốc độ xử lý cho ứng dụng thực tế:
- Tối ưu hóa mô hình YOLOv4 hoặc phát triển phiên bản nhẹ hơn để đạt tốc độ xử lý trên 30 fps mà vẫn giữ độ chính xác trên 75%.
- Chủ thể thực hiện: nhóm kỹ thuật phần cứng và phần mềm.
Mở rộng bộ dữ liệu và đa dạng hóa tình huống:
- Thu thập thêm dữ liệu từ các môi trường thực tế khác nhau, bao gồm các hành động phức tạp và nhiều người cùng xuất hiện, nhằm nâng cao khả năng tổng quát của mô hình trong 18 tháng tới.
- Chủ thể thực hiện: nhóm thu thập dữ liệu và y tế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu thị giác máy tính và học sâu:
- Sử dụng luận văn để tham khảo các phương pháp phát hiện, phân đoạn và theo dõi đối tượng trong video egocentric, đặc biệt là ứng dụng trong theo dõi bàn tay.
Chuyên gia phát triển ứng dụng y tế và phục hồi chức năng:
- Áp dụng kết quả nghiên cứu để xây dựng hệ thống giám sát tự động, đánh giá tiến trình phục hồi của bệnh nhân qua phân tích chuyển động bàn tay.
Nhà phát triển phần mềm tương tác người-máy và thực tế ảo:
- Tận dụng các mô hình và bộ dữ liệu để phát triển các ứng dụng tương tác dựa trên cử chỉ tay trong môi trường thực tế ảo hoặc tăng cường.
Giảng viên và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo:
- Sử dụng luận văn làm tài liệu tham khảo cho các khóa học về thị giác máy tính, học sâu và ứng dụng trong thực tế.

Câu hỏi thường gặp

Tracking by detection là gì và tại sao lại được sử dụng trong nghiên cứu này?
Tracking by detection là phương pháp theo dõi đối tượng dựa trên việc phát hiện đối tượng trong từng khung hình rồi liên kết các đối tượng qua các khung hình liên tiếp. Phương pháp này được sử dụng vì tính hiệu quả và khả năng tận dụng các mô hình phát hiện đối tượng hiện đại, giúp cải thiện độ chính xác theo dõi.
DeepSORT khác gì so với SORT trong việc theo dõi đa đối tượng?
DeepSORT bổ sung đặc trưng hình ảnh được trích xuất từ mạng CNN để hỗ trợ việc liên kết đối tượng qua các khung hình, giúp giảm thiểu hiện tượng đổi ID so với SORT chỉ dựa trên vị trí và chuyển động.
Bộ dữ liệu Micand32 có điểm gì nổi bật so với các bộ dữ liệu khác?
Micand32 có độ phân giải cao (1920x1440), ghi lại các hành động thực tế của bệnh nhân trong môi trường phục hồi chức năng với đa dạng tình huống và nhiều khung hình, phù hợp cho nghiên cứu theo dõi bàn tay egocentric.
Các mô hình phát hiện đối tượng nào được đánh giá trong nghiên cứu?
Nghiên cứu đánh giá các mô hình thuộc họ RCNN (Faster R-CNN, Mask R-CNN) và YOLO (YOLOv3, YOLOv4), so sánh về độ chính xác và tốc độ xử lý trong việc phát hiện bàn tay từ video egocentric.
Làm thế nào để giảm số lần đổi ID trong theo dõi đa đối tượng?
Sử dụng các đặc trưng hình ảnh để nhận dạng đối tượng qua các khung hình, kết hợp với thuật toán theo dõi như DeepSORT giúp giảm số lần đổi ID, đặc biệt trong các tình huống che khuất hoặc chuyển động nhanh.

Kết luận

Đã xây dựng thành công khung phát hiện, phân đoạn và theo dõi bàn tay từ video egocentric sử dụng các mô hình CNN hiện đại và thuật toán theo dõi DeepSORT.
Chất lượng phát hiện đối tượng có ảnh hưởng trực tiếp đến hiệu quả theo dõi đa đối tượng, với Faster R-CNN và DeepSORT đạt hiệu suất tốt nhất trên bộ dữ liệu Micand32.
Việc sử dụng đặc trưng hình ảnh trong giai đoạn theo dõi giúp giảm đáng kể số lần đổi ID, nâng cao độ ổn định của hệ thống.
Bộ dữ liệu Micand32 được xây dựng với độ phân giải cao và đa dạng tình huống, là tài nguyên quý giá cho nghiên cứu thị giác người thứ nhất.
Các bước tiếp theo bao gồm tối ưu hóa mô hình để tăng tốc độ xử lý, mở rộng bộ dữ liệu và phát triển các ứng dụng thực tế trong y tế và tương tác người-máy.

Hành động đề xuất: Các nhà nghiên cứu và phát triển phần mềm được khuyến khích áp dụng và mở rộng khung công tác này để nâng cao hiệu quả các hệ thống theo dõi và nhận dạng hành động trong môi trường thực tế.

Trích đoạn nội dung tài liệu

Hand detection, segmentation and tracking from egocentric vision by Van-Tien Pham Submitted to the School of Information Technology and Communication in partial fulﬁllment of the requirements for the degree of Master of Science in Information System and Communication at the HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY October 2020 © Hanoi University of Science and Technology 2020. All rights reserved. School of Information Technology and Communication October 10, 2020 Certiﬁed by. Thi-Thanh-Hai Tran Associate Professor Thesis Supervisor Accepted by.

Chairman Chairman, Department Committee on Graduate Theses 17061132203221000000 Hand detection, segmentation and tracking from egocentric vision by Van-Tien Pham Submitted to the School of Information Technology and Communication on October 10, 2020, in partial fulﬁllment of the requirements for the degree of Master of Science in Information System and Communication Abstract Multiple object tracking is the process of assigning unique and consistent identities to objects throughout a video sequence. A popular approach to multiple object tracking is to use a method called tracking by detection. Tracking by detection is a two-stage procedure: an object detection or segmentation algorithm ﬁrst detects objects in a given frame, these detected objects are then associated with already tracked objects in a second step by a tracking algorithm. Egocentric vision is an emerging ﬁeld of computer vision that is characterized by the acquisition of images and video from the ﬁrst-person perspective.

In egocentric view, the two human hands are essential in the execution of actions and characterizing their movements and trajectories are the principal cues to deﬁne and recognize actions. One of the main concerns of this thesis is to develop an automatic tracking by de- tection algorithm that extracts hands positions and identities in consequence frames from egocentric surveillance video. The proposed framework consists of state-of-the- art detectors from RCNN and YOLO family models combined with the SORT or DeepSORT for object tracking task. The thesis aims to explore how the stand-alone performance of the object detection algorithm correlates with overall performance of a tracking-by-detection system.

Finally, the thesis investigates how the use of visual descriptors of DeepSORT in the tracking stage of a tracking-by-detection system ef- fects performance. Results presented in this thesis suggest that the capacity of the object detection al- gorithm is highly indicative of the overall performance of the tracking-by detection system. Further, this thesis also shows how the use of visual descriptors in the track- ing stage can reduce the number of identity switches and thereby increase performance of the whole system. This thesis also presents a new egocentric hand tracking dataset Micand32 for future researches.

Thesis Supervisor: Thi-Thanh-Hai Tran Title: Associate Professor Acknowledgments First of all, I might want to oﬀer my special thanks to my supervisor, Assoc. Tran Thi Thanh Hai. I’d really appreciate everything she’ve guided me all through this thesis. I would like to thank my colleagues at Viettel High Technology Industries Corpo- ration for supporting me in technical issues.

Also, I might want to express gratitude toward Assoc. Vu Hai and alumni at MICA Institute, Hanoi University of Science and Technology for giving me signiﬁcant suggestions. Deep inside my heart, I wish to show my gratefulness to my family for always inspiring and trusting me in every of my steps.1 Overview of object recognition and tracking from video .2 Context and scope of the thesis .2 Background project and motivation .1 Video object recognition and tracking challenges .2 Hand gestures recognition related works .4 Problem formulation and assumptions. 23 2 Methodology and Datasets 25 2.1 Tracking by detection approach .2 Object detection and segmentation algorithms .1 RCNN model family .2 YOLO model family .3 Object tracking algorithms .4 Egocentric vision datasets .1 GTEA family datatsets .1 Proposed framework: tracking by detection .1 Training detection and segmentation models .2 Training deep appearance descriptor for DeepSORT .1 Object detection evaluation metrics .2 Object tracking evaluation metrics .1 Egocentric hand detection and segmentation result .2 Egocentric hand tracking result .1 Object detection: tradeoﬀ between accuracy and speed .2 The superiority of DeepSORT over SORT .3 Impact of detection method over tracking result .4 Complexity of 4 types of patients’s actions .1 Short-term tracking results on Micand32S .2 Long-term tracking results on Micand32E.

83 7 THIS PAGE INTENTIONALLY LEFT BLANK 8 List of Figures 2-1 Schematic of the R-CNN pipeline [1]. 28 2-2 The architecture of Fast RCNN [2]. 29 2-3 An illustration of Faster RCNN model [3]. 31 2-4 The Mask RCNN framework for instance segmentation [4].

33 2-5 The network architecture of YOLO [5]. 34 2-6 Upshots from GTEA family datasets. 40 2-7 Hand masks after post-processing EGTEA Gaze+. 41 2-8 Visualizations of EgoHand dataset [6].

43 2-9 Randomly selected actions 5 6 7 8, from left to right respectively. Left: labels statistical visualization. Right: labels correlogram. 45 2-11 Visualization of groundtruth tracklets of patient’s hands practicing with cylinders.

Frames extracted from GH010358_8_8000_8547, or- dered from left to right, up to down: 1, 31, 61, 91, 121, 151, 181, 211, 241, 271, 301, 311, 361, 391, 421, 451. 47 2-12 The workﬂow of EHTA. 48 3-1 Overview of the proposed framework: D2D. The x-axis represents the time ﬂow of 4 stages.

The y-axis shows the degree of abstraction levels of stages. 50 3-2 Workﬂow of the training stage. 51 3-3 Pictorial of data augmentations in training batch. 54 3-4 FasterRCNN_R_50_FPN_3x losses visualization during training time.

54 3-5 Images from the self-generated egocentric hand re-identiﬁcation dataset. Images in the same row have the same identity. 55 3-6 Left: training conﬁguration of DeepSORT’s appearance descriptor. Right: curve of total loss and top1-error during training loop.

56 9 3-7 Workﬂow of inference stage. 57 4-1 Overall MOTA and IDF1 metric on Micand32E. 70 4-2 Illustration of hand occluded by an obstacle. Pay attention to the patient’s right hand.

Frames extracted from GH010373_5_1284_2724 using FasterRCNN+SORT, ordered from left to right, up to down: (200, 210, 220, 230, 240, 250), (256, 257, 258, 259, 260, 261), (267, 270, 273, 276, 279, 282). 73 4-3 Motion blur phenomenon due to hand’s rapid movement. Frames extracted from GH010354_5_17718_19366 using Yolov3+SORT, or- dered from left to right: 119, 125, 130, 131, 137 and 143. 73 4-4 Shape changing illustration.

Frames extracted from GH010358_6_10208_11900 using MaskRCNN+DeepSORT, ordered from left to right: 1582, 1592, 1602, 1612, 1622 and 1630. 74 4-5 The unclear "hand" deﬁnition illustration. Pay attention to the pa- tient’s left hand. Frames extracted from GH010373_5_1284_2724 using FasterRCNN+SORT, ordered from left to right, up to down: (1123, 1173, 1223, 1273, 1323, 1406), (1407, 1408, 1409, 1410, 1411, 1412).

74 5-1 Schematic illustration of an online annotation pipeline. 77 B-1 Y3S detail results on Micand32E. 84 B-2 Y4S detail results on Micand32E. 84 B-3 FS detail results on Micand32E.

85 B-4 MS detail results on Micand32E. 85 B-5 GS detail results on Micand32E. 86 B-6 Y3DS detail results on Micand32E. 86 B-7 Y4DS detail results on Micand32E.

87 B-8 FDS detail results on Micand32E. 87 B-9 MDS detail results on Micand32E. 88 10 B-10 RDS detail results on Micand32E. 88 B-11 GDS detail results on Micand32E.

89 B-12 Y3S detail results on Micand32E. 89 B-13 Y4S detail results on Micand32E. 89 B-14 FS detail results on Micand32E. 89 B-15 MS detail results on Micand32E.

90 B-16 GS detail results on Micand32E. 90 B-17 Y3DS detail results on Micand32E. 90 B-18 Y4DS detail results on Micand32E. 90 B-19 FDS detail results on Micand32E.

90 B-20 MDS detail results on Micand32E. 90 B-21 RDS detail results on Micand32E. 91 B-22 GDS detail results on Micand32E. 91 B-23 Illustration of YOLO’s data format.

91 B-24 Illustration of YOLO’s training process. 92 11 THIS PAGE INTENTIONALLY LEFT BLANK 12 List of Tables 1.1 Some deﬁnitions for calculating FastRCNN losses.2 Some deﬁnitions for calculating FasterRCNN losses.3 Overview of the CNN architecture [7]. The ﬁnal batch and L2 normal- ization projects onto the unit hyper-sphere.4 Detailed enumeration of the Micand32 dataset.1 Data format for both the inference result and ground-truth annotation of tracking.1 Object detection and segmentation Average Precision following the COCO standard.2 Object detection and segmentation Average Recall following the COCO standard.3 Object detection and segmentation average training and inference time, speed and machine requirements.4 Notation of the 11 approaches mentioned and used in the experiments.5 Short-term tracking overall result on Micand32S following the MOT16 evaluation protocol.6 Long-term tracking overrall results on Micand32E following the MOT16 protocol.7 GDS detail results on Micand32E.8 RDS detail results on Micand32E.1 FasterRCNN_R_50_FPN3x training conﬁguration ﬁle. Detail infor- mation ﬁeld is explained at the Detectron2’s application program- ming interface (API) documentation.

The main diﬀerence of Faster- RCNN and MaskRCNN in term of conﬁguration is MaskRCNN’s op- tion MASK_ON value.2 YOLOv4x training conﬁguration ﬁle. Detail information ﬁeld is ex- plained at Ultralytic API.3 Detectron2’s custom dataset format.1 Overview of object recognition and tracking from video 1.1 Object recognition Object recognition aims at detecting the presence of an object in image and giving it a label that is the category to which it belongs. Objects of interest can be face, vehicle, hand, people, tree, tumors depending on applications such as face id, in- telligent traﬃc system and autonomous vehicles, human machine interaction, health care, security or bio diversity, etc. Segmentation is fundamental that go further than object detection and classiﬁcation by give a label to a pixel, not a bounding box.

There are two types of segmentation: semantic segmentation and instance segmenta- tion. Semantic segmentation classiﬁes all pixels of an image into meaningful object categories. These categories are "semantically interpretable" and correspond to the classes in the real world. Semantic segmentation gives an unique label to two objects of the same category.

This is called dense prediction because it can predict the mean- ing of each pixel. Instance segmentation otherwise gives every pixel belonging to an object instance a label. Since the past decade, object detection and recognition as well as segmentation has achieved impressive performance thanks to the signiﬁcant advances of AI and deep learning. Deep learning can learn patterns in visual input in order to predict not only the categories of objects in image but also the ones of pixels.

Deep learning architectures used for object detection / recognition / segmentation are convolutional neural networks (CNN) or speciﬁc CNN frameworks such as AlexNet, VGG, Inception and ResNet.2 Object tracking Tracking objects in a video stream involves association of moving objects in consecu- tive video frames. In order to track an object, the target object requires to be ﬁrstly detected manually (detection free trackers) or automatically by detection algorithms (detection based tracker). Then tracking algorithm will associate detected objects to existing tracks by putting constraints on distance function between movement and appearance of the object with its previous instances. Besides, giving a complete tra- jectory of a moving object during time is very important for video analysis.

Tracking is more helpful to solve some common challenges (e. as lighting changes, motion blur, zoom ratio changes, occlusion when the target is partially or completely hidden by another object in the video for a period of time, poor image quality) from that simple object detection often suﬀers from. Almost proposed trackers until now based on Siamese network or Correlation Fil- ter (CF), combined with eﬀective appearance models (CNN, HOG). In challenges on object tracking task, most of the highest performance obtained with CF trackers.

Their performances is better than Siam tracker. In term of computational time, Siam tracker’s performance is better than CF. Depending on the context and application, tracking could be single object tracking (SOT) and multiple object tracking (MOT). MOT is more challenging than SOT because ID switching is diﬃcult to avoid, espe- cially in crowded videos, the nature and number of objects in each frame are unknown.

Therefore, MOT algorithms strongly rely on detection algorithms. Unfortunately, de- tection algorithms itself are not perfect. A popular object tracking method is to use a method called tracking by detection. It ﬁrst apply object detection algorithms to detect objects in current frame.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu với tiêu đề "Phát hiện, phân đoạn và theo dõi tay từ tầm nhìn egocentric" khám phá các phương pháp tiên tiến trong việc nhận diện và theo dõi chuyển động của tay từ góc nhìn của người sử dụng. Bài viết nhấn mạnh tầm quan trọng của việc phát hiện và phân đoạn tay trong các ứng dụng như thực tế ảo, robot và giao diện người-máy. Những lợi ích mà tài liệu mang lại cho độc giả bao gồm việc hiểu rõ hơn về công nghệ hiện tại, cũng như cách mà các phương pháp này có thể cải thiện trải nghiệm người dùng trong các lĩnh vực khác nhau.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo tài liệu Đồ án hcmute ứng dụng kỹ thuật pca trong nhận dạng cử chỉ bàn tay, nơi bạn sẽ tìm thấy thông tin chi tiết về việc ứng dụng kỹ thuật PCA trong nhận diện cử chỉ tay. Ngoài ra, tài liệu Luận văn tra cứu ảnh dựa trên nội dung sử dụng nhiều đặc trưng và phản hồi liên quan cũng cung cấp cái nhìn sâu sắc về việc sử dụng các đặc trưng trong việc phân tích hình ảnh, có thể liên quan đến việc theo dõi tay trong các ứng dụng thực tế. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các công nghệ và phương pháp hiện có trong lĩnh vực này.

#công nghệ nhận diện hình ảnh

#phát hiện tay từ tầm nhìn

#phân đoạn tay trong video

#theo dõi tay egocentric

#hệ thống thị giác máy tính

#phân tích hành động tay

Chủ đề

Thị giác máy tính và ứng dụng

công nghệ nhận diện tay

học máy trong phân đoạn hình ảnh

tương lai của robot và AI