I. Tổng Quan Nghiên Cứu Học Sâu Nhận Diện Hành Động Người
Nhận diện hành động người (HAR) là một lĩnh vực nghiên cứu quan trọng, sử dụng các kỹ thuật machine learning để xác định và phân loại các hành động từ dữ liệu thu thập được. Dữ liệu có thể đến từ nhiều nguồn khác nhau, bao gồm cảm biến đeo được, cảm biến quán tính trên điện thoại thông minh, camera Microsoft Kinect và camera giám sát CCTV. HAR có nhiều ứng dụng thực tế, như tương tác người-máy, giám sát an ninh, trò chơi điện tử, chăm sóc người cao tuổi và thực tế ảo/tăng cường. Mặc dù đã có nhiều nỗ lực nghiên cứu, nhận diện hành động vẫn còn nhiều thách thức do sự đa dạng, biến thể trong lớp và tương đồng giữa các lớp hành động. Các phương pháp tiếp cận dựa trên dữ liệu xương người đang ngày càng trở nên phổ biến nhờ tính hiệu quả về mặt tính toán và lưu trữ, cũng như khả năng bất biến đối với ngoại hình. Nghiên cứu này tập trung vào việc sử dụng kỹ thuật học sâu để giải quyết các thách thức trong nhận diện hành động người từ dữ liệu xương.
1.1. Ứng Dụng Thực Tế Của Nhận Diện Hành Động Người HAR
HAR có nhiều ứng dụng quan trọng trong đời sống và công nghiệp. Trong lĩnh vực chăm sóc sức khỏe, HAR có thể được sử dụng để theo dõi bệnh nhân, phát hiện các hành vi bất thường như té ngã hoặc đột quỵ. Trong tương tác người-máy, HAR cho phép máy tính hiểu và phản ứng với hành động của con người một cách tự nhiên hơn. Trong giám sát an ninh, HAR có thể giúp phát hiện các hành vi đáng ngờ trong khu vực công cộng. Ngoài ra, HAR còn được ứng dụng trong trò chơi điện tử để tạo ra trải nghiệm tương tác chân thực hơn, và trong robotics để điều khiển robot thực hiện các tác vụ phức tạp. Theo [10], các chuyên gia y tế có thể đưa ra lời khuyên về chế độ ăn uống, tập thể dục và thuốc men bằng cách xác định những thay đổi trong các hành động hàng ngày.
1.2. Ưu Điểm Của Dữ Liệu Xương Trong Nhận Diện Hành Động
Dữ liệu xương có nhiều ưu điểm so với các loại dữ liệu khác như hình ảnh và video. Thứ nhất, dữ liệu xương có tính compact và hiệu quả về mặt tính toán và lưu trữ. Thứ hai, dữ liệu xương ít bị ảnh hưởng bởi các yếu tố như ánh sáng, góc nhìn và trang phục. Thứ ba, dữ liệu xương có thể được thu thập từ nhiều nguồn khác nhau, bao gồm cảm biến độ sâu và các hệ thống theo dõi chuyển động. Tuy nhiên, dữ liệu xương cũng có những hạn chế nhất định, như độ chính xác của ước tính tư thế và khả năng xử lý dữ liệu nhiễu. Theo một nghiên cứu năm 1973 [2], các nhà tâm lý học Thụy Điển chỉ ra rằng các hành động của con người như đi bộ và chạy có thể được phân biệt bằng 10-12 điểm đánh dấu trên các khớp cơ thể.
II. Thách Thức Trong Nhận Diện Hành Động Người Từ Dữ Liệu Xương
Mặc dù có nhiều ưu điểm, việc nhận diện hành động người từ dữ liệu xương vẫn đối mặt với nhiều thách thức. Một trong những thách thức lớn nhất là sự đa dạng và biến thể trong cách con người thực hiện các hành động. Ví dụ, cùng một hành động chạy có thể được thực hiện với tốc độ khác nhau, với các kiểu vung tay khác nhau. Ngoài ra, sự tương đồng giữa các lớp hành động khác nhau cũng gây khó khăn cho việc phân loại. Ví dụ, hành động chạy và đi bộ có nhiều điểm tương đồng về mặt chuyển động. Thêm vào đó, dữ liệu xương thường bị ảnh hưởng bởi nhiễu và sai sót trong quá trình thu thập và xử lý. Cuối cùng, việc thu thập và gán nhãn dữ liệu xương là một quá trình tốn kém và mất thời gian.
2.1. Biến Thể Trong Lớp Và Tương Đồng Giữa Các Lớp Hành Động
Sự biến thể trong lớp (intra-class variation) và tương đồng giữa các lớp (inter-class similarity) là hai trong số những thách thức lớn nhất trong nhận diện hành động. Sự biến thể trong lớp đề cập đến sự khác biệt trong cách con người thực hiện cùng một hành động. Ví dụ, một người có thể chạy nhanh hoặc chậm, với các kiểu vung tay khác nhau. Sự tương đồng giữa các lớp đề cập đến sự giống nhau giữa các hành động khác nhau. Ví dụ, hành động chạy và đi bộ có nhiều điểm tương đồng về mặt chuyển động, khiến cho việc phân biệt chúng trở nên khó khăn. Các biến thể này sẽ trở nên nghiêm trọng hơn trong các triển khai thực tế. Tuy nhiên, việc dán nhãn dữ liệu rất tẻ nhạt, tốn thời gian và tốn kém. Các bộ dữ liệu quy mô lớn là cần thiết để chuyển mô hình nhận dạng hành động sang các ứng dụng trong thế giới thực.
2.2. Vấn Đề Nhiễu Và Sai Sót Trong Dữ Liệu Xương
Dữ liệu xương thường bị ảnh hưởng bởi nhiễu và sai sót trong quá trình thu thập và xử lý. Nhiễu có thể đến từ nhiều nguồn khác nhau, bao gồm lỗi cảm biến, sự che khuất và các yếu tố môi trường. Sai sót có thể xảy ra trong quá trình ước tính tư thế, đặc biệt là khi đối tượng bị che khuất hoặc di chuyển nhanh. Việc xử lý dữ liệu nhiễu và sai sót là một thách thức quan trọng trong nhận diện hành động. Các kỹ thuật tiền xử lý dữ liệu, như lọc nhiễu và điền khuyết, có thể được sử dụng để cải thiện chất lượng dữ liệu xương. Hình 6 cho thấy nhiễu trong dữ liệu xương của MSR-Action3D được đánh dấu bằng các hộp màu đỏ.
III. Phương Pháp Chọn Lọc Tập Hợp Khớp Tối Ưu Cho Nhận Diện
Một trong những phương pháp để giải quyết các thách thức trong nhận diện hành động là chọn lọc tập hợp khớp (Joint Subset Selection - JSS). Ý tưởng cơ bản là không phải tất cả các khớp trên cơ thể đều quan trọng như nhau đối với việc nhận diện một hành động cụ thể. Bằng cách chọn lọc các khớp quan trọng nhất, có thể giảm thiểu ảnh hưởng của nhiễu và cải thiện hiệu suất nhận diện. Nghiên cứu này đề xuất hai phương pháp JSS: JSS đặt trước (Preset JSS) và lựa chọn MIJ tự động (automatic MIJ selection). Phương pháp Preset JSS sử dụng các quy tắc được xác định trước để chọn các khớp quan trọng. Phương pháp lựa chọn MIJ tự động sử dụng các thuật toán để tự động xác định các khớp quan trọng nhất dựa trên dữ liệu.
3.1. JSS Đặt Trước Preset JSS Sử Dụng DTW Và FTP
Phương pháp JSS đặt trước (Preset JSS) sử dụng các quy tắc được xác định trước để chọn các khớp quan trọng. Trong nghiên cứu này, phương pháp Preset JSS sử dụng thuật toán Dynamic Time Warping (DTW) và Fourier Temporal Pyramid (FTP) để xác định các khớp quan trọng. DTW là một thuật toán được sử dụng để so sánh các chuỗi thời gian có độ dài khác nhau. FTP là một phương pháp được sử dụng để phân tích các tín hiệu thời gian trong miền tần số. Bằng cách kết hợp DTW và FTP, phương pháp Preset JSS có thể xác định các khớp quan trọng nhất cho việc nhận diện hành động. Hình 4 cho thấy một tập hợp con gồm 13 khớp màu xanh lam được chọn từ mô hình xương 20 khớp.
3.2. Lựa Chọn MIJ Tự Động Sử Dụng Covariance Descriptors
Phương pháp lựa chọn MIJ tự động (automatic MIJ selection) sử dụng các thuật toán để tự động xác định các khớp quan trọng nhất dựa trên dữ liệu. Trong nghiên cứu này, phương pháp lựa chọn MIJ tự động sử dụng Covariance Descriptors được trích xuất từ vị trí và vận tốc khớp. Covariance Descriptors là một phương pháp được sử dụng để mô tả sự tương quan giữa các biến khác nhau. Bằng cách sử dụng Covariance Descriptors, phương pháp lựa chọn MIJ tự động có thể xác định các khớp quan trọng nhất cho việc nhận diện hành động một cách tự động. AAGCN (Attention-enhanced Adaptive Convolutional Network) được sử dụng làm mô hình cơ sở.
IV. Đề Xuất Mô đun Kết Hợp Đặc Trưng Feature Fusion Cho AAGCN
Nghiên cứu này đề xuất một mô-đun kết hợp đặc trưng (Feature Fusion - FF) để kết hợp các đặc trưng không gian và thời gian cho mạng Attention-enhanced Adaptive Graph Convolutional Network (AAGCN). Mô-đun FF sử dụng vị trí khớp tương đối (Relative Joint Position) và vận tốc khớp để trích xuất các đặc trưng không gian và thời gian. Sau đó, các đặc trưng này được kết hợp lại để tạo thành một biểu diễn đặc trưng mạnh mẽ hơn. Hiệu suất của FF-AAGCN được đánh giá trên bộ dữ liệu NTURGB+D và CMDFALL. Kết quả đánh giá cho thấy phương pháp đề xuất có khả năng chống nhiễu và bất biến đối với phép tịnh tiến xương.
4.1. Kết Hợp Đặc Trưng Không Gian Và Thời Gian
Mô-đun FF kết hợp các đặc trưng không gian và thời gian để tạo ra một biểu diễn đặc trưng mạnh mẽ hơn. Các đặc trưng không gian mô tả vị trí của các khớp trên cơ thể tại một thời điểm nhất định. Các đặc trưng thời gian mô tả sự thay đổi của vị trí khớp theo thời gian. Bằng cách kết hợp các đặc trưng này, mô-đun FF có thể nắm bắt được cả thông tin về hình dạng và chuyển động của cơ thể. Vị trí khớp tương đối (RJP) và vận tốc khớp được sử dụng để trích xuất các đặc trưng không gian và thời gian.
4.2. Đánh Giá Hiệu Suất Trên NTURGB D Và CMDFALL
Hiệu suất của FF-AAGCN được đánh giá trên bộ dữ liệu NTURGB+D và CMDFALL. NTURGB+D là một bộ dữ liệu lớn chứa dữ liệu xương của hơn 60.000 hành động khác nhau. CMDFALL là một bộ dữ liệu thách thức chứa dữ liệu xương bị nhiễu. Kết quả đánh giá cho thấy FF-AAGCN đạt được kết quả đáng kể trên các bộ dữ liệu này. Đặc biệt, FF-AAGCN cho thấy khả năng chống nhiễu và bất biến đối với phép tịnh tiến xương. Kết quả đánh giá cho thấy phương pháp đề xuất có khả năng chống nhiễu và bất biến đối với phép tịnh tiến xương.
V. Xây Dựng Mô Hình Học Sâu Nhẹ Cho Nhận Diện Hành Động
Do khả năng tính toán của các thiết bị biên có hạn, một mô hình học sâu nhẹ được kỳ vọng cho việc triển khai ứng dụng. Nghiên cứu này đề xuất một mô hình nhẹ LW-FF-AAGCN với số lượng tham số mô hình ít hơn nhiều so với phương pháp cơ sở với hiệu suất cạnh tranh trong nhận diện hành động. LW-FF-AAGCN phù hợp cho việc phát triển ứng dụng trên các thiết bị biên với khả năng tính toán hạn chế.
5.1. Kiến Trúc Của Mô Hình LW FF AAGCN
LW-FF-AAGCN (Lightweight Feature Fusion AAGCN) là một mô hình nhẹ được thiết kế để giảm số lượng tham số và chi phí tính toán so với AAGCN ban đầu. Mô hình này sử dụng các kỹ thuật như giảm kích thước lớp, chia sẻ tham số và sử dụng các phép toán hiệu quả hơn để đạt được hiệu suất tương đương với ít tài nguyên hơn. Hình 2 mô tả sơ đồ hệ thống của LW-FF-AAGCN được đề xuất.
5.2. So Sánh Hiệu Suất Với Các Phương Pháp Khác
Hiệu suất của LW-FF-AAGCN được so sánh với các phương pháp khác trên bộ dữ liệu NTURGB+D. Kết quả cho thấy LW-FF-AAGCN đạt được hiệu suất cạnh tranh với các phương pháp khác, trong khi có số lượng tham số mô hình ít hơn đáng kể. Điều này cho thấy LW-FF-AAGCN là một lựa chọn phù hợp cho việc triển khai ứng dụng trên các thiết bị biên. Bảng 10 so sánh các tham số mô hình, FLOP và độ chính xác (%) trên NTURGB+D.
VI. Kết Luận Và Hướng Nghiên Cứu Tương Lai Về HAR Dữ Liệu Xương
Nghiên cứu này đã trình bày các kỹ thuật học sâu để nhận diện hành động người từ dữ liệu xương. Các phương pháp đề xuất đã đạt được kết quả đáng khích lệ trên các bộ dữ liệu khác nhau. Trong tương lai, có nhiều hướng nghiên cứu tiềm năng trong lĩnh vực này. Một hướng là phát triển các phương pháp để xử lý dữ liệu xương bị nhiễu và sai sót tốt hơn. Một hướng khác là phát triển các mô hình học sâu có khả năng khái quát hóa tốt hơn cho các hành động mới và các môi trường khác nhau. Cuối cùng, việc nghiên cứu các ứng dụng thực tế của nhận diện hành động người là một hướng đi quan trọng.
6.1. Hướng Nghiên Cứu Về Xử Lý Dữ Liệu Nhiễu Và Sai Sót
Một trong những hướng nghiên cứu quan trọng trong tương lai là phát triển các phương pháp để xử lý dữ liệu xương bị nhiễu và sai sót tốt hơn. Các phương pháp này có thể bao gồm các kỹ thuật lọc nhiễu, điền khuyết và ước tính tư thế mạnh mẽ hơn. Việc cải thiện khả năng xử lý dữ liệu nhiễu và sai sót sẽ giúp tăng độ chính xác và độ tin cậy của các hệ thống nhận diện hành động.
6.2. Phát Triển Mô Hình Khái Quát Hóa Tốt Hơn Cho HAR
Một hướng nghiên cứu khác là phát triển các mô hình học sâu có khả năng khái quát hóa tốt hơn cho các hành động mới và các môi trường khác nhau. Các mô hình này có thể sử dụng các kỹ thuật như học chuyển giao (transfer learning), học không giám sát (unsupervised learning) và học bán giám sát (semi-supervised learning) để tận dụng dữ liệu từ các nguồn khác nhau và giảm sự phụ thuộc vào dữ liệu được gán nhãn. Việc cải thiện khả năng khái quát hóa sẽ giúp các hệ thống nhận diện hành động hoạt động tốt hơn trong các tình huống thực tế.