Luận văn: Biểu diễn và Nhận dạng Hành động Người dựa trên Khung xương

Luận văn về biểu diễn và nhận dạng hành động người dựa trên skeleton. Nghiên cứu phương pháp tiếp cận mới, hiệu quả trong việc phân tích chuyển động.

Chuyên ngành

Information System

Người đăng

Ẩn danh

Thể loại

Master of Science Thesis

2019

75
2
0

Phí lưu trữ

30 Point

Mục lục chi tiết

List of Acronymtypes

1. Introduction

1.1. Motvatian

1.2. Challenges and open issues ¡n skeleton-based HAR

1.3. Objectives and Contributions

1.4. Outline of the thesis

2. State of the Art

2.1. Overview of skeletal dala and skelelon-based human action recognition

2.2. Pre-processing techniques

2.3. Hand-crafted features-based apprcach

2.3.1. Spatial-temporal descriptors

2.4. Deep learaing based approaches

3. The proposed approach

3.1. The most informative joznts detection

3.1.1. Stralegy 1 (MT) for most information joints delsctlon

3.1.1.1. Detect candidate joints foreach action
3.1.1.2. Select the most informalive joints of each action

3.2. Stralegy 2 (AM) far most information joints deleclon

3.3. Action representation by covariance descriptor

3.3.1. Temporal covariance descriplor with position infrmation

3.3.2. Temporal covariance descriptor with velocity information

3.3.3. Temporal hierarchy covariance descriptor

3.4. Classification wilh support vector mavhine

3.4.1. Linear separable training

3.4.2. Non linear separable (raining

4. Experimental results

4.1. Evalualion metric

4.2. Experiment Environments

4.3. Evaluation of features used for joint representation

4.4. Results on MSRAction3D dataset

4.4.1. Results on CMDFall dalascl

4.5. Evaluation of the most intormative joints selection

4.5.1. The effect of the number of most informative somnts

4.5.2. Comparison between two strategies

4.6. Comparison with state-of-the-art methods

4.7. Time compulalion

5. Conclusions

5.1. Conclusions

5.2. Publications

Referenecs

Tóm tắt

I. Tổng Quan Về Skeleton Based Human Activity Recognition

Bài toán nhận dạng hành động người đang thu hút sự chú ý lớn từ các nhà nghiên cứu thị giác máy tính. Ứng dụng của nó rất rộng rãi trong nhiều lĩnh vực như tương tác người-máy, camera giám sát, robot, và chăm sóc sức khỏe. Sự ra đời của các camera chiều sâu giá cả phải chăng như Microsoft Kinect và Asus Xtion PROLIVE đã mở ra những cơ hội mới cho HAR (Human Activity Recognition), cung cấp thông tin phong phú hơn về cảnh. Bên cạnh hình ảnh màu, thông tin về chiều sâu và bộ xương cũng có sẵn. Các kết quả nghiên cứu gần đây về ước tính tư thế người trong video RGB cho thấy tư thế và bộ xương có thể được ước tính chính xác ngay cả trong các cảnh phức tạp. Sử dụng thông tin bộ xương cho nhận dạng hành động người có nhiều ưu điểm so với sử dụng thông tin màu và chiều sâu. Do đó, một loạt các phương pháp cho HAR sử dụng thông tin bộ xương đã được giới thiệu. Các phương pháp được đề xuất cho HAR dựa trên bộ xương có thể được chia thành hai nhóm: các đặc trưng được thiết kế thủ công và học sâu. Mỗi nhóm đều có ưu và nhược điểm riêng. Các kỹ thuật dựa trên học sâu đạt được kết quả ấn tượng trên một số tập dữ liệu chuẩn. Tuy nhiên, chúng thường yêu cầu tập dữ liệu lớn và phần cứng máy tính hiệu năng cao. Trong số các bộ mô tả được thiết kế thủ công để biểu diễn hành động, Cov3DJ với ma trận hiệp phương sai của vị trí khớp 3D chứng tỏ hiệu quả và hiệu suất tính toán của nó [2]. Để tính đến sự thay đổi thời lượng của hành động, một biểu diễn phân cấp thời gian được giới thiệu với nhiều lớp. Tuy nhiên, nhược điểm của Cov3DJ là nó sử dụng tất cả các khớp trong bộ xương, gây ra gánh nặng tính toán và có thể trở nên không hiệu quả vì mỗi khớp có một mức độ tham gia nhất định vào một hành động. Hơn nữa, các tác giả chỉ sử dụng vị trí khớp làm đặc trưng khớp. Có vẻ như không đủ tốt để biểu diễn hành động. Vì vậy, các đặc trưng khác trong biểu diễn hành động được nghiên cứu (vận tốc khớp), kết hợp với vị trí khớp để tạo ra đặc trưng phân biệt hơn của mỗi hành động. Luận văn này cải thiện phương pháp Cov3DJ được trình bày [2] bằng hai cải tiến: (1) đề xuất hai lược đồ khác nhau để chọn các khớp có nhiều thông tin nhất để biểu diễn hành động và (2) kết hợp thông tin vận tốc với vị trí của các khớp để biểu diễn hành động. Để đánh giá tính hiệu quả của phương pháp đề xuất, các thí nghiệm mở rộng đã được thực hiện trên hai tập dữ liệu công khai (MSRAction3D [3] và CMDFall [4]). Trên MSRAction3D, kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được 6,17% cải thiện so với phương pháp ban đầu và vượt trội so với nhiều phương pháp hiện đại. Trên tập dữ liệu CMDFall, phương pháp đề xuất với điểm F1 là 9,64 vượt trội so với các mạng học sâu ResTCN (điểm F1: 0,39) [4] và LSTM (điểm F1: 0). Đóng góp của luận văn đã được công bố trong một hội nghị quốc tế.

1.1. Ứng Dụng Tiềm Năng của Nhận Dạng Hành Động

Ứng dụng của nhận dạng hành động người là rất rộng rãi. Trong lĩnh vực tương tác người-máy, nó cho phép máy tính hiểu và phản ứng với hành động của người dùng một cách tự nhiên hơn. Trong giám sát an ninh, nó có thể được sử dụng để phát hiện các hành vi bất thường hoặc nguy hiểm. Trong robot, nó giúp robot có thể tương tác và làm việc cùng con người một cách an toàn và hiệu quả. Trong chăm sóc sức khỏe, nó có thể được sử dụng để theo dõi hoạt động của bệnh nhân và cảnh báo về các tình huống khẩn cấp. Nó còn được ứng dụng trong lĩnh vực gait recognition.

1.2. Ưu Điểm của Dữ Liệu Skeleton Trong HAR là gì

Sử dụng dữ liệu skeleton cho HAR có nhiều ưu điểm so với sử dụng hình ảnh màu hoặc dữ liệu chiều sâu. Dữ liệu skeleton ít bị ảnh hưởng bởi sự thay đổi về ánh sáng, góc nhìn và trang phục. Nó cũng có thể biểu diễn hành động một cách khái quát hơn, giúp giảm thiểu sự phức tạp của bài toán nhận dạng hành động.

1.3. Các Hướng Tiếp Cận Chính Trong Skeleton Based HAR

Có hai hướng tiếp cận chính trong skeleton-based HAR: sử dụng các đặc trưng được thiết kế thủ công và sử dụng học sâu. Các phương pháp dựa trên đặc trưng được thiết kế thủ công thường đơn giản và hiệu quả về mặt tính toán, nhưng có thể gặp khó khăn trong việc nắm bắt các đặc trưng phức tạp của hành động. Các phương pháp dựa trên học sâu có khả năng học các đặc trưng phức tạp một cách tự động, nhưng yêu cầu lượng dữ liệu lớn và chi phí tính toán cao.

II. Thách Thức Vấn Đề Trong Skeleton Based HAR Hiện Nay

Mặc dù đã có nhiều tiến bộ trong skeleton-based HAR, vẫn còn nhiều thách thức và vấn đề cần giải quyết. Một trong những thách thức lớn nhất là sự thay đổi về tốc độ và phong cách thực hiện hành động của mỗi người. Một người có thể thực hiện một hành động nhanh hơn hoặc chậm hơn so với người khác, và có thể có những phong cách thực hiện khác nhau. Điều này gây khó khăn cho việc xây dựng các mô hình nhận dạng hành động có khả năng tổng quát hóa tốt. Một vấn đề khác là sự nhiễu từ các yếu tố bên ngoài, chẳng hạn như ánh sáng, tiếng ồn và che khuất. Những yếu tố này có thể làm giảm chất lượng của dữ liệu skeleton và ảnh hưởng đến hiệu suất của các mô hình nhận dạng hành động. Ngoài ra, việc lựa chọn các khớp quan trọng nhất cho biểu diễn hành động vẫn còn là một vấn đề mở. Không phải tất cả các khớp đều đóng vai trò quan trọng như nhau trong việc phân biệt giữa các hành động khác nhau. Do đó, việc xác định các khớp quan trọng nhất có thể giúp cải thiện hiệu suất và hiệu quả của các mô hình nhận dạng hành động.

2.1. Vấn Đề Thay Đổi Tốc Độ và Phong Cách Hành Động

Sự thay đổi về tốc độ và phong cách thực hiện hành động là một trong những thách thức lớn nhất trong HAR. Để giải quyết vấn đề này, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác nhau, chẳng hạn như sử dụng các đặc trưng bất biến với thời gian, sử dụng các mô hình động và sử dụng transfer learning.

2.2. Ảnh Hưởng Của Nhiễu Đến Hiệu Suất Nhận Dạng Hành Động

Nhiễu từ các yếu tố bên ngoài có thể làm giảm chất lượng của dữ liệu skeleton và ảnh hưởng đến hiệu suất của các mô hình nhận dạng hành động. Để giảm thiểu ảnh hưởng của nhiễu, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác nhau, chẳng hạn như sử dụng các bộ lọc nhiễu, sử dụng các mô hình mạnh mẽ và sử dụng các kỹ thuật data augmentation.

2.3. Tầm Quan Trọng của Việc Lựa Chọn Các Khớp Quan Trọng

Việc lựa chọn các khớp quan trọng nhất cho biểu diễn hành động có thể giúp cải thiện hiệu suất và hiệu quả của các mô hình nhận dạng hành động. Các khớp quan trọng nhất thường là các khớp có sự thay đổi lớn nhất trong quá trình thực hiện hành động. Để xác định các khớp quan trọng nhất, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác nhau, chẳng hạn như sử dụng phân tích phương sai, sử dụng thông tin tương hỗ và sử dụng các thuật toán lựa chọn đặc trưng.

III. Phương Pháp Mới Chọn Lọc Khớp Kết Hợp Vận Tốc

Luận văn này đề xuất một phương pháp mới để cải thiện hiệu suất của Cov3DJ bằng cách chọn lọc các khớp quan trọng nhất và kết hợp thông tin vận tốc. Phương pháp này dựa trên hai cải tiến chính: (1) đề xuất hai lược đồ khác nhau để chọn các khớp có nhiều thông tin nhất cho biểu diễn hành động và (2) kết hợp thông tin vận tốc với vị trí của các khớp để biểu diễn hành động. Bằng cách chọn lọc các khớp quan trọng nhất, phương pháp này có thể giảm thiểu gánh nặng tính toán và cải thiện khả năng tổng quát hóa của mô hình. Bằng cách kết hợp thông tin vận tốc, phương pháp này có thể nắm bắt các đặc trưng động của hành động một cách tốt hơn.

3.1. Lược Đồ 1 MT Để Chọn Khớp Nhiều Thông Tin Nhất

Lược đồ MT (Most Trajectory) chọn các khớp có quỹ đạo chuyển động lớn nhất trong quá trình thực hiện hành động. Lược đồ này dựa trên giả định rằng các khớp có quỹ đạo chuyển động lớn nhất đóng vai trò quan trọng nhất trong việc phân biệt giữa các hành động khác nhau. Để tính toán quỹ đạo chuyển động của một khớp, ta có thể sử dụng khoảng cách Euclidean giữa vị trí của khớp ở các khung hình liên tiếp.

3.2. Lược Đồ 2 AM Để Chọn Khớp Nhiều Thông Tin Nhất

Lược đồ AM (Action Meaning) chọn các khớp có ý nghĩa quan trọng nhất đối với hành động. Lược đồ này dựa trên giả định rằng các khớp có ý nghĩa quan trọng nhất đóng vai trò quan trọng nhất trong việc phân biệt giữa các hành động khác nhau. Để xác định ý nghĩa của một khớp, ta có thể sử dụng kiến thức về giải phẫu học và sinh học vận động.

3.3. Biểu Diễn Hành Động Bằng Mô Tả Hiệp Phương Sai Cải Tiến

Sau khi chọn lọc các khớp quan trọng nhất và kết hợp thông tin vận tốc, ta có thể sử dụng mô tả hiệp phương sai để biểu diễn hành động. Mô tả hiệp phương sai là một ma trận hiệp phương sai của vị trí và vận tốc của các khớp quan trọng nhất. Mô tả hiệp phương sai có thể nắm bắt các đặc trưng tĩnh và động của hành động một cách hiệu quả.

IV. Kết Quả Thực Nghiệm Đánh Giá Phương Pháp Mới Này

Để đánh giá tính hiệu quả của phương pháp đề xuất, các thí nghiệm mở rộng đã được thực hiện trên hai tập dữ liệu công khai: MSRAction3D và CMDFall. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được kết quả tốt hơn so với phương pháp Cov3DJ ban đầu và các phương pháp hiện đại khác. Trên tập dữ liệu MSRAction3D, phương pháp đề xuất đạt được độ chính xác 6,17% cao hơn so với phương pháp Cov3DJ ban đầu. Trên tập dữ liệu CMDFall, phương pháp đề xuất đạt được điểm F1 là 9,64, cao hơn so với các mạng học sâu ResTCN và LSTM.

4.1. Kết Quả Trên Tập Dữ Liệu MSRAction3D Chi Tiết

Trên tập dữ liệu MSRAction3D, phương pháp đề xuất đạt được độ chính xác cao hơn 6,17% so với phương pháp Cov3DJ ban đầu. Kết quả này cho thấy việc chọn lọc các khớp quan trọng nhất và kết hợp thông tin vận tốc có thể cải thiện đáng kể hiệu suất của Cov3DJ. Phương pháp này còn cho thấy khả năng cạnh tranh so với các phương pháp deep learning for skeleton-based action recognition khác.

4.2. Đánh Giá Trên Tập Dữ Liệu CMDFall Nghiên Cứu Phát Hiện Ngã

Trên tập dữ liệu CMDFall, phương pháp đề xuất đạt được điểm F1 là 9,64, cao hơn so với các mạng học sâu ResTCN (0,39) và LSTM (0). Điều này cho thấy phương pháp đề xuất có thể hoạt động tốt trong các bài toán nhận dạng hành động phức tạp, chẳng hạn như phát hiện ngã.

4.3. So Sánh Với Các Phương Pháp Hiện Đại Khác

Phương pháp đề xuất đã được so sánh với nhiều phương pháp hiện đại khác trên hai tập dữ liệu MSRAction3D và CMDFall. Kết quả so sánh cho thấy phương pháp đề xuất có khả năng cạnh tranh với các phương pháp hiện đại khác, đặc biệt là trong các bài toán nhận dạng hành động phức tạp.

V. Kết Luận Hướng Phát Triển Trong Nhận Dạng Hành Động

Luận văn này đã đề xuất một phương pháp mới để cải thiện hiệu suất của Cov3DJ bằng cách chọn lọc các khớp quan trọng nhất và kết hợp thông tin vận tốc. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được kết quả tốt hơn so với phương pháp Cov3DJ ban đầu và các phương pháp hiện đại khác. Trong tương lai, có thể mở rộng phương pháp này bằng cách sử dụng các lược đồ chọn lọc khớp khác nhau, kết hợp thông tin từ nhiều nguồn khác nhau (chẳng hạn như hình ảnh màu và dữ liệu chiều sâu) và sử dụng các mô hình học sâu để học các đặc trưng phức tạp của hành động.

5.1. Tổng Kết Các Đóng Góp Chính Của Luận Văn

Luận văn đã đóng góp vào lĩnh vực skeleton-based human activity recognition bằng cách đề xuất một phương pháp mới để cải thiện hiệu suất của Cov3DJ. Phương pháp này dựa trên việc chọn lọc các khớp quan trọng nhất và kết hợp thông tin vận tốc. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được kết quả tốt hơn so với các phương pháp hiện có.

5.2. Hướng Nghiên Cứu Tiềm Năng Trong Tương Lai Là Gì

Trong tương lai, có thể mở rộng phương pháp này bằng cách sử dụng các lược đồ chọn lọc khớp khác nhau, kết hợp thông tin từ nhiều nguồn khác nhau (chẳng hạn như hình ảnh màu và dữ liệu chiều sâu) và sử dụng các mô hình học sâu để học các đặc trưng phức tạp của hành động. Các nghiên cứu về spatio-temporal graph convolutional networks (ST-GCN) cũng là một hướng đi đầy hứa hẹn.

11/09/2025

Trích đoạn nội dung tài liệu

RY OF EDUCATION AND TRAINING LYERSITY OF SCLENCE AND TECHNOLOGY NIÃn1ĐN TYVN NI Tien Nam NGUYEN NIL PNOHL DNOHL 4H SKELETON-BASED TILMAN ACTIVITY REPRESENTATION AND RECOGNITION MASTER OF SCIENCE THESIS TIN TNFORMATION SYSTEM 810% YOHA Hanoi - 2019 MINISTRY OF EDL ON AND TRAINING HANOI UNIVERSITY OF SCLENCE AND TECHNOLOGY Tien Nam NGUYEN SKELETON-BASED HUMAN ACTIVITY REPRESENTATION AND RECOGNITION Speciality: Information System. MASTER OF SCIENCE THESIS IN INFORMATION SYSTEM SUPERVISOR: 1. ‘Thi Lan LE Hanoi - 2019 GÔNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập — Tự do — [lạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn: Nguyễn Đề i luận văn: Nghiên cứu và phát triển phương pháp biểu diễn vả nhận đạng hoạt động người dựa trên khung xương Chuyên ngành: Hệ thông thông tin Mii sé SV: CBC18019 Tác giá, Người hướng dẫn khoa học và Hội đồng cham luận văn xác nhận tác giá đã sửa chữa, bỗ sung luận văn theo biên bản họp lIậi đồng ngày 26/10/2019 với c nội dung sau STT Yêu cầu của hội đẳng i dung da stra chữa, bồ sung 1 Gop chuong 4 va 5 Da gop chương 4 va chuong § thinh 1 chương tên là Các kết quả thực nghiém (18n tiéng Anh: Experimental results) 2 Giải thích lí do lựa chọn các Học viên đã bỗ sung thêm chỉ tiết li phương pháp nhận đạng. sứ do lựa chọn phương pháp ở chương Ì dung trong dé tai phần 3 3 Bố sung các độ đo đánh giá Học viên bố sung thêm thông tin về Precision, Recall, Fl cách tính các độ đo đánh giá đã được trình bày ở chương 4 phân 2 (Evaluation metric).

Cac d§ do Precision, Recall va F1 score déu cd thể được sử dụng để đánh giá hệ thống nhân dạng. Tuy nhiên, trong luận án, để có thể so sảnh với các phương pháp đã để xuất trước đó, tủy vào cơ sở di liệu mà các độ do khác nhau được sử dụng. Cơ sở dữ liệu MSRAction3D sử dụng độ chính xác (Accuracy) trong khi co sở dữ liệu CMIDFaI sử đụng độ do F1 score. Trong bản chỉnh sửa của luận văn, bên cạnh các độ đo sử dụng riêng cho từng cơ sở đữ liệu, học viên đã bố and may become ineffective as each joint has a certain level of engagement in an action.

Moreover, the authors employs only Joint positions as joint features. It seems not good enough to represent action. So other features in representation action are investigated Goints velocities), com>ined with joints positions to create more discrimination fealure of cach action. This thesis improves the Cov3DJ method presented [2] by two improvements: (1) proposing two different schemes to select the most informative joints for acion representation anc (2) combining velocity information wilh posi- tions of the joints for action representation, To evaluate the effectiveness of the proposed method, extensive experiments have been performed on two public datasets (MSRAction3D [3] and CMDFall [4].

On MSRAction3D, the experimental results show that the proposed method obtains 6.17% of improvement over the original method and outperforrns many state-of-the- art methods, On CMDFall dalasct, the proposed method with FL score of 9.64 outperforms the deep learning networks ResTCN (Fl score: 0.39) [4] and LSTM (I score: 0. The contributions of the thesis have been published in an international conferece. Referenecs 56 Acknowlcdgements T would first like to thank my thesis advisor Associate Professor Le Thi Lan, head of the Computer Vision Department at MICA Institute. The door of Assox.

Prof, Lan office was always open whenever Tran into ¢ troubdle spot or had a question about my research or writing. She consistently allowed this thesis to be my own work, but steered me in the right the direction whenever she thought T needed it, T would also like to thank the experts who were involved in the validation survey for this thesis: Dr.Vu Hai, Assoc. Tran Thi Thanh Hai, PhD student Pham Dinh Tan who participated and give me more useful infor- mation. Without their passionate participation and input, the validation survey could not have been successfully conducted, I would also like to acknowledge to School of [nformation and Communica- tion technology where T have been crealed all lhe best conditional to make the master thesis, and [ am gratefully indebted the teachers in SOICT tor very valuable cormments on this thesis.

Finally, I must express my very profound gratitude to my parents, my sister and also to my colleagues in Toshiba Software Development VietNam (Nha Dink Duc, Pham Van Thanh and many colleagues) for providing: me with uafailing support and continuous encouragement throughout my years of study and through the process of researching and writing this thesis. This accomplistment would not have been possible without them. Thank you ! Acknowlcdgements T would first like to thank my thesis advisor Associate Professor Le Thi Lan, head of the Computer Vision Department at MICA Institute. The door of Assox.

Prof, Lan office was always open whenever Tran into ¢ troubdle spot or had a question about my research or writing. She consistently allowed this thesis to be my own work, but steered me in the right the direction whenever she thought T needed it, T would also like to thank the experts who were involved in the validation survey for this thesis: Dr.Vu Hai, Assoc. Tran Thi Thanh Hai, PhD student Pham Dinh Tan who participated and give me more useful infor- mation. Without their passionate participation and input, the validation survey could not have been successfully conducted, I would also like to acknowledge to School of [nformation and Communica- tion technology where T have been crealed all lhe best conditional to make the master thesis, and [ am gratefully indebted the teachers in SOICT tor very valuable cormments on this thesis.

Finally, I must express my very profound gratitude to my parents, my sister and also to my colleagues in Toshiba Software Development VietNam (Nha Dink Duc, Pham Van Thanh and many colleagues) for providing: me with uafailing support and continuous encouragement throughout my years of study and through the process of researching and writing this thesis. This accomplistment would not have been possible without them. Thank you ! Abstract Human action recognition problem with the aim is to predict what action of people is making, is curently receiving increasing alienion frem com- mter vision researchers due to its widely potential applications in many fields such as human computer interaction, surveillance camera, robotics, health care. Recently, the lease of vost-cflcclive depth cameras such as Microsoft Kin ect und Asus Xtion PROLIVE allows lo open new opportu- nities for HAR as they provide richer information of the scene.

Thanks to these sensors, besides color images, depth and skeleton infonnation arc also available. Moreover, the latest research results on human rose estimation in RGB video show that the humaa pose and skeleton can be accurately estimaled even in complex scenes. Using skelclon information for human action recognition has several aclvantages in comparison with those using color and depth information. As results, a wide range of methods for HAR using skeleton information have been introduced [1].

The methods proposed. for skeleton-based HAR can be categorized into two groups: hand-crafted features and deep learning. Each has its own advantages and disadvan- tages. Decp learning based techniques obtains impressive resulls several benchmark datasets.

However, they usually require large datasets and high performance computing hardware. Among hanc-crafted descriptors for ac- tion represenlalion, Cov3DJ with covariance malrix of 3D joint posilions proves its effectiveness and computational efficiency [2]. To take into ac- count the duration variation of action, a temporal hicrarshy representation is introduced with multiple layers. However, the disadvantage of Cov3DI is that it uses of all joints in the skeleton, which causes computational burden sung thêm báng 4.7 ở chương 4 kết qua nhân dạng trên tất cả các dộ do cho 2 cơ sở đữ liệu thử nghiệm.

Ngày 07 tháng L1 năm 2019 Giáo viên hướng dẫn Tác giá luận văn CHỦ TỊCH HỘI DÒNG 3.2 Stralegy 2 (AM) far most information joints deleclon.3 Action representation by covariance descriptor.1 Temporal covariance descriplor with position infrmation. Temporal covariance descriptor with velocity information. Temporal hierarchy covariance descriptor.4 Classification wilh support vector mavhine.1 Linear separable training.2 Non linear separable (raining. we wee 2D 4 Experimental results 8L 4.

412 CMDFall 33 Evalualion metric. & Experiment Environments te oF Evaluation of features used for joint representation iB 4.1 Results on MSRAction3D dataset 44.2 Results on CMDFull dalascl. 45 Evaluation of the most intormative joints selection.1 The effect of the number of most informative somnts.2 Comparison between two strategies. Comparison with state-of-the-art methods.

ae a Time compulalion. 5 Conelusions el Conclusions. Publications 52 and may become ineffective as each joint has a certain level of engagement in an action. Moreover, the authors employs only Joint positions as joint features.

It seems not good enough to represent action. So other features in representation action are investigated Goints velocities), com>ined with joints positions to create more discrimination fealure of cach action. This thesis improves the Cov3DJ method presented [2] by two improvements: (1) proposing two different schemes to select the most informative joints for acion representation anc (2) combining velocity information wilh posi- tions of the joints for action representation, To evaluate the effectiveness of the proposed method, extensive experiments have been performed on two public datasets (MSRAction3D [3] and CMDFall [4]. On MSRAction3D, the experimental results show that the proposed method obtains 6.17% of improvement over the original method and outperforrns many state-of-the- art methods, On CMDFall dalasct, the proposed method with FL score of 9.64 outperforms the deep learning networks ResTCN (Fl score: 0.39) [4] and LSTM (I score: 0.

The contributions of the thesis have been published in an international conferece. Referenecs 56 and may become ineffective as each joint has a certain level of engagement in an action. Moreover, the authors employs only Joint positions as joint features. It seems not good enough to represent action.

So other features in representation action are investigated Goints velocities), com>ined with joints positions to create more discrimination fealure of cach action. This thesis improves the Cov3DJ method presented [2] by two improvements: (1) proposing two different schemes to select the most informative joints for acion representation anc (2) combining velocity information wilh posi- tions of the joints for action representation, To evaluate the effectiveness of the proposed method, extensive experiments have been performed on two public datasets (MSRAction3D [3] and CMDFall [4]. On MSRAction3D, the experimental results show that the proposed method obtains 6.17% of improvement over the original method and outperforrns many state-of-the- art methods, On CMDFall dalasct, the proposed method with FL score of 9.64 outperforms the deep learning networks ResTCN (Fl score: 0.39) [4] and LSTM (I score: 0. The contributions of the thesis have been published in an international conferece.

Abstract Human action recognition problem with the aim is to predict what action of people is making, is curently receiving increasing alienion frem com- mter vision researchers due to its widely potential applications in many fields such as human computer interaction, surveillance camera, robotics, health care. Recently, the lease of vost-cflcclive depth cameras such as Microsoft Kin ect und Asus Xtion PROLIVE allows lo open new opportu- nities for HAR as they provide richer information of the scene. Thanks to these sensors, besides color images, depth and skeleton infonnation arc also available. Moreover, the latest research results on human rose estimation in RGB video show that the humaa pose and skeleton can be accurately estimaled even in complex scenes.

Using skelclon information for human action recognition has several aclvantages in comparison with those using color and depth information. As results, a wide range of methods for HAR using skeleton information have been introduced [1]. The methods proposed.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ