Tổng quan nghiên cứu
Nhận dạng hành động của con người (Human Action Recognition - HAR) dựa trên khung xương là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong thị giác máy tính và trí tuệ nhân tạo. Theo ước tính, việc ứng dụng các hệ thống HAR trong giám sát an ninh, y tế, và phân tích thể thao ngày càng gia tăng, góp phần nâng cao chất lượng cuộc sống và an toàn xã hội. Bài toán này tập trung vào việc xây dựng hệ thống tự động nhận diện các hành động của con người thông qua dữ liệu khung xương thu thập từ camera hoặc cảm biến, với ưu điểm vượt trội về chi phí tính toán và khả năng chống chịu với các yếu tố môi trường như ánh sáng, góc quan sát, và nhiễu nền so với dữ liệu hình ảnh RGB truyền thống.
Mục tiêu chính của nghiên cứu là phát triển một mô hình học sâu dựa trên mạng nơ-ron đồ thị (Graph Neural Networks - GNN) để nhận dạng chính xác các hành động của con người dựa trên chuỗi dữ liệu khung xương. Nghiên cứu tập trung vào việc khai thác mức độ quan trọng của từng khung xương trong chuỗi nhằm cải thiện hiệu suất phân loại hành động. Phạm vi nghiên cứu được giới hạn trong việc sử dụng các bộ dữ liệu mô phỏng khung xương 3D phổ biến như NTU-RGB+D60, NTU-RGB+D120 và NW-UCLA, với thời gian thực hiện từ tháng 01 đến tháng 05 năm 2024 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.
Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác nhận dạng hành động, giảm thiểu sai số trong các ứng dụng thực tế như phát hiện té ngã người già, giám sát an ninh đô thị, và phân tích hành vi trong thể thao. Việc cải tiến mô hình không chỉ giúp tăng hiệu quả nhận dạng mà còn giảm thiểu chi phí tính toán và tăng khả năng ứng dụng trong các hệ thống giám sát thời gian thực.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên ba lý thuyết và mô hình chính:
Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN): Là nền tảng cho các mô hình học sâu, ANN mô phỏng hoạt động của nơ-ron sinh học, bao gồm các tầng đầu vào, tầng ẩn và tầng đầu ra. Các hàm kích hoạt phi tuyến như Sigmoid, ReLU, và Tanh được sử dụng để tăng khả năng học các mối quan hệ phi tuyến trong dữ liệu.
Mạng nơ-ron đồ thị (Graph Neural Networks - GNN): GNN là mô hình học sâu chuyên xử lý dữ liệu có cấu trúc đồ thị, phù hợp với dữ liệu khung xương người được biểu diễn dưới dạng các nút (khớp) và các cạnh (liên kết vật lý). GNN cho phép tổng hợp thông tin từ các nút láng giềng, giúp mô hình hóa mối quan hệ không gian và thời gian trong chuỗi khung xương.
Cơ chế Attention (Self-Attention và Multihead-Attention): Cơ chế này giúp mô hình tập trung vào các phần quan trọng của chuỗi dữ liệu, đặc biệt là các khung xương có mức độ đóng góp cao trong việc nhận dạng hành động. Việc tích hợp cơ chế Attention vào GNN giúp lọc bỏ thông tin nhiễu và nâng cao độ chính xác phân loại.
Các khái niệm chuyên ngành quan trọng bao gồm: khung xương 3D, ma trận kề (adjacency matrix), mạng tích chập đồ thị (Graph Convolutional Networks - GCN), mạng nơ-ron hồi quy (Recurrent Neural Networks - RNN), và các biến thể như LSTM (Long Short-Term Memory).
Phương pháp nghiên cứu
Nguồn dữ liệu chính được sử dụng là các bộ dữ liệu công khai mô phỏng khung xương người trong không gian 3D, gồm NTU-RGB+D60, NTU-RGB+D120 và NW-UCLA. Các bộ dữ liệu này cung cấp chuỗi tọa độ 3D của 25 khớp trên cơ thể người, được thu thập từ nhiều góc camera và trong các điều kiện môi trường khác nhau.
Phương pháp phân tích bao gồm:
Tiền xử lý dữ liệu: Chuẩn hóa và làm sạch dữ liệu khung xương, loại bỏ nhiễu và chuẩn hóa tọa độ để đảm bảo tính nhất quán.
Xây dựng mô hình học sâu: Dựa trên mô hình HD-GCN (Hierarchically Decomposed Graph Convolutional Networks) làm mô hình cơ sở, nghiên cứu đề xuất tích hợp mô-đun Temporal Attention nhằm đánh giá mức độ quan trọng của từng khung xương trong chuỗi.
Huấn luyện và đánh giá: Mô hình được huấn luyện trên tập huấn luyện của các bộ dữ liệu, sử dụng hàm mất mát Cross Entropy và thuật toán tối ưu Adam. Độ chính xác (Accuracy) được sử dụng làm chỉ số đánh giá hiệu suất.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng 5 tháng, từ tháng 01 đến tháng 05 năm 2024, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và phát triển hệ thống nhận dạng hành động thời gian thực.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Cải thiện độ chính xác nhận dạng: Mô hình đề xuất tích hợp Temporal Attention trên cơ sở HD-GCN đạt độ chính xác trung bình trên 85% trên bộ dữ liệu NTU-RGB+D120, cao hơn khoảng 5% so với mô hình cơ sở HD-GCN không có cơ chế Attention.
Tăng khả năng phân biệt các hành động phức tạp: Các lớp hành động khó phân biệt như "Kicking other person" và "Hugging" được mô hình đề xuất nhận dạng chính xác hơn với tỷ lệ tăng từ 65% lên 75% so với mô hình cơ sở.
Giảm thời gian dự đoán: Mô hình đề xuất có thời gian dự đoán trung bình khoảng 12 ms cho một mẫu dữ liệu, nhanh hơn 10% so với mô hình cơ sở, phù hợp với yêu cầu xử lý thời gian thực.
Khả năng lọc nhiễu hiệu quả: Cơ chế Temporal Attention giúp mô hình tập trung vào các khung xương có thông tin quan trọng, giảm ảnh hưởng của các khung xương nhiễu hoặc không liên quan, từ đó nâng cao độ ổn định của mô hình trong các điều kiện môi trường khác nhau.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện hiệu suất là do việc tích hợp cơ chế Temporal Attention giúp mô hình đánh giá và trọng số hóa các khung xương trong chuỗi dữ liệu, tương tự như việc lọc thông tin nhiễu và tăng cường các đặc trưng quan trọng. So với các nghiên cứu trước đây chỉ sử dụng GNN thuần túy, việc bổ sung Attention giúp mô hình có khả năng học sâu hơn về mối quan hệ thời gian giữa các khung xương.
Kết quả này phù hợp với xu hướng hiện đại trong học sâu, khi các mô hình Transformer và Attention được áp dụng rộng rãi trong nhiều lĩnh vực, từ xử lý ngôn ngữ tự nhiên đến thị giác máy tính. Việc áp dụng thành công cơ chế này trong bài toán HAR dựa trên khung xương mở ra hướng phát triển mới cho các nghiên cứu tiếp theo.
Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa mô hình cơ sở và mô hình đề xuất trên các bộ dữ liệu khác nhau, cũng như bảng confusion matrix thể hiện hiệu suất phân loại từng lớp hành động. Các biểu đồ thời gian dự đoán cũng minh họa hiệu quả tính toán của mô hình.
Đề xuất và khuyến nghị
Triển khai hệ thống nhận dạng hành động thời gian thực: Xây dựng và tích hợp mô hình đề xuất vào hệ thống giám sát video để phát hiện các hành vi bất thường như té ngã, leo rào trong vòng 6 tháng tới, nhằm nâng cao an ninh và an toàn trong cộng đồng.
Mở rộng bộ dữ liệu huấn luyện: Thu thập và bổ sung thêm dữ liệu khung xương từ các môi trường thực tế đa dạng để tăng khả năng tổng quát hóa của mô hình, dự kiến thực hiện trong 12 tháng tiếp theo.
Tối ưu hóa mô hình cho thiết bị di động: Nghiên cứu và phát triển phiên bản mô hình nhẹ, giảm thiểu tài nguyên tính toán để ứng dụng trên các thiết bị di động hoặc camera thông minh, hướng đến việc triển khai rộng rãi trong 18 tháng tới.
Kết hợp đa nguồn dữ liệu: Đề xuất tích hợp dữ liệu RGB, dữ liệu âm thanh hoặc cảm biến khác để nâng cao độ chính xác và khả năng nhận dạng hành động phức tạp, với kế hoạch nghiên cứu thử nghiệm trong 24 tháng.
Các giải pháp trên cần sự phối hợp giữa các nhà nghiên cứu, kỹ sư phần mềm và các đơn vị ứng dụng thực tế để đảm bảo tính khả thi và hiệu quả.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Luận văn cung cấp kiến thức nền tảng và các phương pháp học sâu tiên tiến trong nhận dạng hành động dựa trên khung xương, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống giám sát an ninh: Các giải pháp và mô hình đề xuất giúp cải thiện khả năng phát hiện hành vi bất thường, hỗ trợ xây dựng các hệ thống giám sát thông minh và cảnh báo kịp thời.
Nhà phát triển ứng dụng y tế và chăm sóc người cao tuổi: Hệ thống nhận dạng hành động có thể ứng dụng trong phát hiện té ngã và theo dõi sức khỏe người già, giúp nâng cao chất lượng chăm sóc và giảm thiểu rủi ro.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI: Luận văn cung cấp cơ sở để phát triển các sản phẩm ứng dụng trí tuệ nhân tạo trong nhận dạng hành động, mở rộng thị trường và nâng cao giá trị sản phẩm.
Câu hỏi thường gặp
Tại sao chọn dữ liệu khung xương thay vì dữ liệu hình ảnh RGB?
Dữ liệu khung xương giảm thiểu ảnh hưởng của các yếu tố môi trường như ánh sáng, góc nhìn và nền phức tạp, đồng thời giảm chi phí tính toán và lưu trữ so với dữ liệu hình ảnh RGB, giúp mô hình ổn định và hiệu quả hơn.Mô hình GNN có ưu điểm gì so với CNN và RNN trong bài toán này?
GNN tận dụng cấu trúc đồ thị tự nhiên của khung xương, mô hình hóa mối quan hệ không gian giữa các khớp và mối quan hệ thời gian giữa các khung xương, từ đó trích xuất đặc trưng hiệu quả hơn so với CNN và RNN.Cơ chế Temporal Attention hoạt động như thế nào?
Temporal Attention đánh giá mức độ quan trọng của từng khung xương trong chuỗi, gán trọng số cao cho các khung chứa thông tin hữu ích và trọng số thấp cho các khung nhiễu, giúp mô hình tập trung vào dữ liệu quan trọng để cải thiện độ chính xác.Mô hình có thể áp dụng trong các điều kiện thực tế khác nhau không?
Với khả năng xử lý dữ liệu khung xương và cơ chế Attention, mô hình có độ bền cao trước các biến đổi môi trường như ánh sáng và góc nhìn, phù hợp với nhiều điều kiện thực tế khác nhau.Thời gian dự đoán của mô hình có đáp ứng yêu cầu thời gian thực không?
Mô hình đề xuất có thời gian dự đoán trung bình khoảng 12 ms cho một mẫu, đủ nhanh để ứng dụng trong các hệ thống giám sát thời gian thực, hỗ trợ phát hiện và cảnh báo kịp thời.
Kết luận
- Đã xây dựng thành công mô hình nhận dạng hành động dựa trên khung xương sử dụng mạng nơ-ron đồ thị kết hợp cơ chế Temporal Attention, cải thiện độ chính xác nhận dạng lên trên 85%.
- Mô hình đề xuất vượt trội hơn mô hình cơ sở HD-GCN về cả độ chính xác và tốc độ dự đoán, phù hợp với ứng dụng thời gian thực.
- Nghiên cứu đã chứng minh hiệu quả của việc trọng số hóa các khung xương trong chuỗi dữ liệu nhằm lọc nhiễu và tăng cường thông tin quan trọng.
- Hệ thống nhận dạng hành động thời gian thực được phát triển dựa trên mô hình đề xuất, có tiềm năng ứng dụng trong giám sát an ninh, y tế và các lĩnh vực khác.
- Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu hóa mô hình cho thiết bị di động và tích hợp đa nguồn dữ liệu để nâng cao hiệu quả và khả năng ứng dụng thực tế.
Để tiếp tục phát triển và ứng dụng mô hình, các nhà nghiên cứu và doanh nghiệp được khuyến khích hợp tác triển khai thử nghiệm trong các môi trường thực tế, đồng thời cập nhật mô hình với dữ liệu mới nhằm duy trì hiệu suất cao.