I. Giới thiệu chung
Nhận diện hoạt động con người (HAR) là một bài toán quan trọng trong lĩnh vực thị giác máy tính. Bài toán này tập trung vào việc xây dựng hệ thống có khả năng phát hiện và phân loại các hành động của con người từ dữ liệu đầu vào, chủ yếu là hình ảnh từ camera. Học sâu và machine learning đã đóng góp đáng kể vào việc cải thiện độ chính xác của các mô hình HAR. Khung xương được sử dụng như một phương pháp hiệu quả để biểu diễn dữ liệu, giúp giảm chi phí tính toán và tăng tính ổn định trước các yếu tố bên ngoài như ánh sáng và góc quay.
1.1. Mục tiêu và nhiệm vụ
Mục tiêu chính của luận văn là xây dựng hệ thống nhận dạng hoạt động con người dựa trên khung xương sử dụng học sâu. Nhiệm vụ bao gồm nghiên cứu các phương pháp cải thiện độ chính xác của mô hình, thực nghiệm và đánh giá kết quả. Phân tích hình ảnh và deep learning là các công cụ chính được sử dụng để đạt được mục tiêu này.
II. Kiến thức nền tảng
Luận văn cung cấp kiến thức nền tảng về các mô hình học sâu như mạng nơ-ron nhân tạo, mạng nơ-ron tích chập (CNN), và mạng nơ-ron hồi quy (RNN). Đặc biệt, mạng nơ-ron đồ thị (GNN) được nhấn mạnh như một phương pháp hiệu quả để xử lý dữ liệu khung xương. Các khái niệm về đồ thị và cách biểu diễn dữ liệu dưới dạng đồ thị cũng được trình bày chi tiết.
2.1. Mạng nơ ron đồ thị
Mạng nơ-ron đồ thị (GNN) là một phương pháp tiên tiến trong học sâu, đặc biệt phù hợp cho việc xử lý dữ liệu khung xương. GNN biểu diễn chuỗi khung xương dưới dạng đồ thị và áp dụng các cơ chế học sâu để trích xuất đặc trưng. Phương pháp này đã chứng minh hiệu quả trong việc cải thiện độ chính xác của các mô hình nhận dạng hoạt động con người.
III. Công trình nghiên cứu liên quan
Luận văn tổng quan các nghiên cứu trước đây về nhận dạng hoạt động con người dựa trên khung xương. Các phương pháp sử dụng CNN, RNN, và GNN được phân tích và so sánh. Đặc biệt, ST-GCN (Spatial-Temporal Graph Convolutional Networks) được đề cập như một mô hình tiên tiến, sử dụng đồ thị không gian-thời gian để xử lý chuỗi khung xương.
3.1. Phương pháp dựa trên GNN
Các mô hình dựa trên GNN như ST-GCN và HD-GCN (Hierarchically Decomposed Graph Convolutional Networks) đã đạt được kết quả ấn tượng trong việc nhận dạng hoạt động con người. Các mô hình này tập trung vào việc tối ưu hóa cấu trúc đồ thị và trích xuất đặc trưng từ các khung xương, giúp cải thiện độ chính xác và hiệu suất của hệ thống.
IV. Mô hình đề xuất
Luận văn đề xuất một mô hình mới dựa trên GNN, tập trung vào việc đánh giá mức độ quan trọng của từng khung xương trong chuỗi dữ liệu. Mô hình này sử dụng cơ chế temporal attention để lọc thông tin nhiễu và tăng cường các đặc trưng quan trọng, giúp cải thiện độ chính xác của hệ thống nhận dạng hoạt động con người.
4.1. Cơ chế Temporal Attention
Cơ chế temporal attention được sử dụng để đánh giá mức độ đóng góp của từng khung xương trong chuỗi dữ liệu. Bằng cách gán trọng số khác nhau cho các khung xương, mô hình có thể tập trung vào các khung chứa thông tin quan trọng, loại bỏ các khung nhiễu, từ đó cải thiện hiệu suất nhận dạng hoạt động con người.
V. Kết quả và đánh giá
Luận văn trình bày kết quả thực nghiệm của mô hình đề xuất trên các bộ dữ liệu NTU-RGB+D60 và NTU-RGB+D120. Mô hình đạt được độ chính xác cao hơn so với các phương pháp truyền thống, chứng minh hiệu quả của việc sử dụng temporal attention và GNN trong nhận dạng hoạt động con người.
5.1. So sánh với các phương pháp tiên tiến
Kết quả thực nghiệm cho thấy mô hình đề xuất vượt trội so với các phương pháp tiên tiến như ST-GCN và HD-GCN trên cả hai bộ dữ liệu NTU-RGB+D60 và NTU-RGB+D120. Điều này khẳng định giá trị thực tiễn của mô hình trong việc ứng dụng vào các hệ thống giám sát và phân tích hình ảnh.