Nhận dạng hành động người đa góc nhìn: Kết hợp không gian-thời gian và chuyển hướng góc nhìn

Nhận diện hành động người chính xác nhờ kết hợp không gian và thời gian. Tìm hiểu phương pháp tiếp cận mới, nâng cao hiệu quả nhận dạng hành vi.

Trường đại học

Hanoi University of Science and Technology

Chuyên ngành

Information System

Người đăng

Ẩn danh

Thể loại

Master of Science Thesis

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENT

TABLE OF CONTENT

LIST OF FIGURES

LIST OF TABLES

LIST OF ABBREVIATIONS AND DEFINITIONS OF TERMS

INTRODUCTION

1. CHAPTER 1. HUMAN ACTION RECOGNITION APPROACHES

1.1. Overview

2. HUMAN ACTION RECOGNITION APPROACHES

2.1. Baseline method: combination of multiple 2D views in the Bag-of-Words model

2.2. Combination of spatial/temporal information and Bag-of-Words model

2.2.1. Combination of spatial information and Bag-of-Words model (S-BoW)

2.2.2. Combination of temporal information and Bag-of-Words model (T-BoW)

2.3. View shifting technique

3. Western Virginia University Multi-view Action Recognition Dataset (WVU)

3.1. Northwestern-UCLA Multiview Action 3D (N-UCLA)

4. CONCLUSION & FUTURE WORK

APPENDIX 1

Tóm tắt

I. Giới thiệu tổng quan về Nhận dạng hành động người

Trong kỷ nguyên 4.0, việc thu thập và xử lý thông tin tự động trở nên vô cùng quan trọng. Điều này đòi hỏi sự tương tác giữa người và máy móc với độ chính xác và tốc độ cao hơn. Các bài toán như nhận dạng đối tượng, nhận dạng hành động, nhận dạng giọng nói đang thu hút sự quan tâm lớn từ các nhà khoa học và doanh nghiệp trên toàn thế giới. Dữ liệu video ngày càng dễ dàng được tạo ra từ nhiều thiết bị khác nhau. Nhận dạng hành động người trong video đóng góp vào việc khai thác tự động nguồn tài nguyên dữ liệu phong phú này. Ứng dụng liên quan đến bài toán nhận dạng hành động người: Hệ thống an ninh và giám sát truyền thống, tăng cường tương tác giữa người và máy móc, robot, phân tích video dựa trên nội dung, nén video dựa trên nội dung và phục hồi, lập chỉ mục video và trò chơi thực tế ảo.

1.1. Tầm quan trọng của Thị giác máy tính trong nhận dạng hành động

Tầm quan trọng của thị giác máy tính ngày càng được nhấn mạnh. Thị giác máy tính cung cấp các phương pháp và công cụ để máy tính có thể 'nhìn' và 'hiểu' thế giới xung quanh, tương tự như con người. Trong bối cảnh nhận dạng hành động, thị giác máy tính đóng vai trò then chốt trong việc trích xuất các đặc trưng quan trọng từ hình ảnh và video, phân tích chuyển động và dự đoán hành vi. Việc kết hợp thị giác máy tính với các kỹ thuật khác như học sâu và AI đã mở ra những khả năng mới trong việc nhận diện hoạt động người một cách chính xác và hiệu quả. Ứng dụng trải dài từ hệ thống an ninh thông minh đến giao diện người-máy trực quan.

1.2. Vai trò của AI và Học sâu trong nhận dạng hành động người

AI và học sâu đang cách mạng hóa lĩnh vực nhận dạng hành động người. Các mô hình học sâu, đặc biệt là mạng nơ-ron tích chập 3D (3D CNN), mạng nơ-ron hồi quy (RNN), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit) và Transformer, có khả năng tự động học các đặc trưng phức tạp từ dữ liệu video, vượt trội so với các phương pháp truyền thống sử dụng đặc trưng được thiết kế thủ công. Attention mechanism cũng đóng vai trò quan trọng trong việc tập trung vào các phần quan trọng nhất của video khi phân tích hành động. Nhờ vào AI và học sâu, hệ thống nhận diện hoạt động người có thể đạt được độ chính xác cao hơn, khả năng xử lý dữ liệu lớn hơn và khả năng thích ứng với các điều kiện môi trường khác nhau.

II. Thách thức trong Phân tích hành động người không gian thời gian

Nhận dạng và phân tích hành động người là một chủ đề thu hút sự quan tâm lớn trong ba thập kỷ qua và hiện đang được tích cực nghiên cứu trong lĩnh vực thị giác máy tính. Đây là một giải pháp tốt để giải quyết các vấn đề của một số lượng lớn các ứng dụng tiềm năng trong phạm vi giám sát thông minh, phục hồi video, phân tích video và tương tác giữa người và máy. Nghiên cứu gần đây đã làm nổi bật sự khó khăn của vấn đề này với những biến động lớn trong dữ liệu hành động của con người như sự thay đổi trong cách các cá nhân thực hiện hành động; chuyển động và quần áo; góc camera và hiệu ứng chuyển động; biến động ánh sáng; tắc nghẽn do các vật thể trong môi trường hoặc các bộ phận của cơ thể con người; hoặc các xáo trộn trong môi trường xung quanh.

2.1. Các yếu tố ảnh hưởng đến độ chính xác của nhận dạng hành vi người

Nhiều yếu tố có thể ảnh hưởng đến độ chính xác của nhận dạng hành vi người. Các yếu tố này bao gồm: Biến thể giữa các cá nhân khi thực hiện hành động, thay đổi về trang phục, góc quay camera khác nhau, điều kiện ánh sáng thay đổi, vật cản che khuất một phần hoặc toàn bộ cơ thể, và nhiễu từ môi trường xung quanh. Theo tài liệu, 'Vì có rất nhiều yếu tố có thể ảnh hưởng đến kết quả của vấn đề, các phương pháp hiện tại thường bị giới hạn hoặc được đặt trong các kịch bản đơn giản với nền đơn giản, các lớp hành động đơn giản và máy ảnh cố định hoặc giới hạn sự thay đổi về góc nhìn.'

2.2. Giới hạn của phương pháp đơn luồng trong nhận diê n hoa t đô ng ngươ i

Các phương pháp đơn luồng (single-view methods) sử dụng một camera để ghi lại cơ thể người trong quá trình thực hiện hành động. Tuy nhiên, hình thức của hành động khá khác nhau khi nhìn ở góc nhìn tùy ý. Như vậy, các phương pháp đơn luồng thường đi kèm với một giả định cơ bản rằng hành động được quan sát từ cùng một góc độ trong cả dữ liệu huấn luyện và dữ liệu thử nghiệm. Hiệu quả của các phương pháp đơn luồng giảm đáng kể nếu giả định này không đúng. Rõ ràng, cách để cải thiện độ chính xác của nhận dạng hành động người là tăng số lượng góc nhìn cho mỗi hành động bằng cách tăng số lượng camera, điều này cho phép chúng ta khai thác một lượng lớn thông tin hình ảnh để mô tả một hành động.

III. Phương pháp kết hợp không gian và thời gian hiệu quả nhất

Một phương pháp sử dụng mạng nơ-ron thường đòi hỏi tập hợp dữ liệu đào tạo lớn, nếu không nó sẽ không hiệu quả. Trong các ứng dụng thực tế, các tập dữ liệu thường có kích thước vừa và nhỏ. Do đó, trong bối cảnh nghiên cứu này, chúng tôi quan tâm đến một phương pháp truyền thống sử dụng các tính năng được chọn thủ công. Trong phương pháp này, biểu diễn hiệu suất có thể được xây dựng từ dữ liệu 2D (phương pháp 2D) hoặc từ dữ liệu 3D (phương pháp 3D) [1].

3.1. Ưu điểm và nhược điểm của phương pháp 3D approaches

Xu hướng chung trong các phương pháp 3D là tích hợp thông tin hình ảnh được ghi lại bởi các góc nhìn khác nhau, sau đó biểu diễn các hành động bằng một mô hình 3D. Điều này thường đạt được bằng cách kết hợp các tư thế cơ thể người 2D về hình bóng nhị phân biểu thị các pixel khung hình video thuộc về cơ thể người trên mỗi camera (Hình 1. Sau khi thu được biểu diễn cơ thể người 3D tương ứng, các hành động được mô tả là chuỗi các tư thế cơ thể người 3D liên tiếp. Các biểu diễn cơ thể người được các phương pháp 3D áp dụng bao gồm thân tàu trực quan (Hình 1.1c), khối lượng lịch sử chuyển động (Hình 1.1d) [2], dòng chảy quang học tương ứng với cơ thể người (Hình 1.1e) [3], các khối Gaussian (Hình 1.1f) [4], mô hình cơ thể hình trụ/ellipsoid (Hình 1.1g) [5] …

3.2. Lợi thế của phương pháp 2D approaches đa chiều

Mặc dù các phương pháp sử dụng hình dạng cơ thể người và chuyển động 3D đã được triển khai thành công, nhưng hầu hết chúng đều giả định rằng cơ thể người phải xuất hiện trong tất cả các camera của hệ thống camera cố định cho cả đào tạo và thử nghiệm. Điều này sẽ dẫn đến một số hạn chế về ứng dụng, mà trong thực tế có thể không xuất hiện trong tất cả các camera vì chúng nằm ngoài khu vực ghi hình của camera hoặc bị các vật thể khác che khuất. Rõ ràng, khi không có đủ thông tin từ tất cả các camera, không thể thu được các mô tả 3D chính xác về cơ thể người và do đó tạo ra dự đoán sai. Mặt khác, các phương pháp xem 2D đa chiều có thể hoàn toàn khắc phục nhược điểm đã đề cập ở trên. Các phương pháp 2D có xu hướng tìm kiếm các tính năng bất biến ở các góc độ khác nhau và sau đó kết hợp các kết quả dự đoán trong lớp hành động. Như vậy, việc thiếu thông tin của một góc nhìn không ảnh hưởng đến kết quả.

3.3. Phân loại 2D approaches đa chiều

Các phương pháp xem 2D đa chiều thường được chia thành hai cách tiếp cận nhỏ hơn: o View-invariant features: Cách tiếp cận đầu tiên là cố gắng biểu diễn hành động bằng cách mô tả nó bằng các tính năng bất biến với góc nhìn [6, 7, 8, 9, 10]. Nhận dạng hành động được thực hiện trên mỗi video từ mỗi camera độc lập. Đầu tiên, các phương pháp sẽ hiển thị biểu diễn hành động bằng các tính năng bất biến với góc nhìn, sau đó lớp hành động dựa trên tính năng bất biến này. o Combination of information from multi-view: Cách tiếp cận thứ hai sẽ được thực hiện bằng cách kết hợp thông tin từ các góc nhìn khác nhau [11, 12, 13]. Không giống như phương pháp bất biến với góc nhìn, chúng ta thấy rằng các góc nhìn khác nhau sẽ chứa các lượng thông tin khác nhau và có thể bổ sung cho nhau.

IV. Ứng dụng Học sâu nhận dạng hành động trong thực tế

Các kỹ thuật học sâu như mạng nơ-ron tích chập 3D (3D CNN) và mạng nơ-ron hồi quy (RNN) đang ngày càng được sử dụng rộng rãi để nhận dạng hành vi người. Các mô hình này có khả năng học các biểu diễn không gian-thời gian phức tạp từ dữ liệu video, cho phép chúng đạt được độ chính xác cao trong nhiều tác vụ nhận dạng hành động khác nhau. Tuy nhiên, việc huấn luyện các mô hình này đòi hỏi lượng lớn dữ liệu có nhãn, điều này có thể là một thách thức trong nhiều ứng dụng thực tế.

4.1. Giám sát an ninh và phát hiện bất thường bằng Nhận dạng hành động

Trong lĩnh vực giám sát an ninh, nhận dạng hành động có thể được sử dụng để tự động phát hiện các hành vi bất thường như xâm nhập, đánh nhau hoặc té ngã. Bằng cách phân tích video từ các camera giám sát, hệ thống có thể xác định các hành động đang diễn ra và cảnh báo cho người quản lý nếu phát hiện bất kỳ hành vi đáng ngờ nào. Điều này có thể giúp tăng cường an ninh và giảm thiểu rủi ro trong nhiều môi trường khác nhau như sân bay, ga tàu, trung tâm mua sắm và khu dân cư.

4.2. Tương tác người máy tự nhiên dựa trên cử chỉ và hành động

Nhận dạng hành động cũng đóng vai trò quan trọng trong việc tạo ra các giao diện người-máy tự nhiên và trực quan hơn. Bằng cách cho phép máy tính hiểu và phản ứng với cử chỉ và hành động của con người, chúng ta có thể tạo ra các hệ thống tương tác cho phép người dùng điều khiển thiết bị, truy cập thông tin và thực hiện các tác vụ khác nhau một cách dễ dàng và tự nhiên. Các ứng dụng tiềm năng bao gồm điều khiển nhà thông minh bằng cử chỉ, trò chơi thực tế ảo và thực tế tăng cường, và hỗ trợ người khuyết tật.

4.3. Ứng dụng trong y tế Theo dõi sức khỏe và phục hồi chức năng

Trong lĩnh vực y tế, nhận dạng hành động có thể được sử dụng để theo dõi sức khỏe của bệnh nhân, đánh giá tiến trình phục hồi chức năng và hỗ trợ các hoạt động hàng ngày. Bằng cách phân tích video từ các thiết bị đeo hoặc camera trong nhà, hệ thống có thể theo dõi các chỉ số quan trọng như tư thế, dáng đi và mức độ hoạt động của bệnh nhân. Điều này có thể giúp bác sĩ và nhà trị liệu đưa ra các quyết định điều trị tốt hơn và cung cấp các chương trình phục hồi chức năng cá nhân hóa.

V. Đánh giá hiệu suất Nhận dạng hành động Cơ sở dữ liệu

Trong luận án này, chúng tôi sử dụng 2 bộ dữ liệu hành động của con người đa góc nhìn để đánh giá phương pháp được đề xuất của mình. Tập dữ liệu WVU và tập dữ liệu N-UCLA.

5.1. Tổng quan về Western Virginia University Multi view Action Recognition

Bộ dữ liệu WVU bao gồm mười hai lớp hành động được ghi lại bởi tám camera (Hình 2) với kích thước khung hình 640 x 480 pixel. Các hành động này là đứng yên, gật đầu, vỗ tay đầu, vẫy một tay, vẫy hai tay, đấm, chạy bộ, nhảy jack, đá, nhặt, ném, bowling (Hình. Trong thử nghiệm của chúng tôi, chúng tôi lấy một tập hợp con bao gồm mười một lớp hành động (ngoại trừ lớp đứng yên vì hành động này có một chút chuyển động trong khung hình, sau đó chúng tôi không thể trích xuất các tính năng STIP từ hầu hết các mẫu của lớp này) để đào tạo. Ở giai đoạn thử nghiệm, các mẫu của lớp đứng yên sẽ dễ dàng phân loại bằng cách đếm số lượng bộ mô tả STIP. Tập dữ liệu này được chia thành 2 tập: tập huấn luyện và tập kiểm tra.

5.2. Giới thiệu về Northwestern UCLA Multiview Action 3D

Bộ dữ liệu N-UCLA được ghi lại bởi 3 camera Kinect (Hình.4), cung cấp video RGB, thông tin độ sâu và bộ xương người. Bộ dữ liệu này bao gồm 10 lớp hành động: nhặt bằng một tay, nhặt bằng hai tay, vứt rác, đi bộ xung quanh, ngồi xuống, đứng lên, mặc vào, cởi ra, ném, mang (Hình. Mỗi hành động được thực hiện bởi 10 diễn viên. Bộ dữ liệu này không được chia thành tập huấn luyện và tập kiểm tra bởi tác giả của nó. Để đánh giá khung công tác được đề xuất của chúng tôi, chúng tôi sẽ áp dụng chiến lược kiểm tra chéo, sau đó chúng tôi có 10 bộ phận. Với mỗi bộ phận, chúng tôi giữ lại một tập hợp mẫu của một đối tượng cụ thể cho giai đoạn thử nghiệm và lấy tất cả các mẫu của đối tượng còn lại vào giai đoạn huấn luyện. Kết quả cuối cùng thu được bằng cách tính trung bình kết quả của 10 bộ phận.

VI. Kết luận và hướng phát triển của Nhận dạng hành động

Luận án này đã đề xuất hai cải tiến cho nhận dạng hành động của con người đa góc nhìn. Cải tiến đầu tiên là kỹ thuật gộp không gian-thời gian để phân biệt sự khác biệt nhỏ giữa hai hành động trong cả chiều không gian và thời gian. Thứ hai là chiến lược chuyển đổi góc nhìn trong giai đoạn thử nghiệm để kiểm tra tất cả các cấu hình của góc nhìn để tìm ra kết quả tốt nhất. Chúng tôi đã thử nghiệm phương pháp của mình trên hai bộ dữ liệu đa góc nhìn chuẩn công khai về hành động của con người. Tác động của từng cải tiến đã được tiến hành và phân tích. Nó chỉ ra rằng gộp không gian thường cho thấy một kết quả đầy hứa hẹn. Gộp thời gian cải thiện nhẹ kết quả nhưng có thể bỏ qua nếu chúng ta muốn tăng tốc hệ thống. Khi cấu hình camera có phân phối gần như đồng đều, ứng dụng kiểm tra chuyển đổi rất hiệu quả.

6.1. Tóm tắt kết quả và đánh giá

Nhìn chung, các kết quả thử nghiệm cho thấy rằng việc kết hợp thông tin không gian và thời gian có thể cải thiện đáng kể độ chính xác của nhận dạng hành động. Kỹ thuật view shifting cũng cho thấy tiềm năng lớn trong việc giải quyết các vấn đề liên quan đến sự thay đổi góc nhìn. Tuy nhiên, hiệu quả của kỹ thuật này phụ thuộc vào cấu hình camera và đặc điểm của tập dữ liệu.

6.2. Hướng nghiên cứu tiếp theo

Trong tương lai, chúng ta cần đánh giá phương pháp đề xuất trên các tập dữ liệu đa góc nhìn lớn hơn khác và nghiên cứu tác động của số lượng camera khả dụng đến hiệu suất hệ thống. Cần tập trung vào việc phát triển các phương pháp trích xuất đặc trưng không gian-thời gian mạnh mẽ hơn và các kỹ thuật attention mechanism hiệu quả hơn. Khám phá các kiến trúc mạng nơ-ron mới được thiết kế đặc biệt cho nhận dạng hành động cũng là một hướng đi đầy hứa hẹn.

20/09/2025

Bạn đang xem trước tài liệu:

Kết hợp thông tin không gian thời gian và áp dụng kĩ thuật huyển hướng góc nhìn cho bài toán nhận dạng hành động con người sử dụng đa góc nhìn

Tải đầy đủ

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY LỂ TUẤN DŨNG --------------------------------------- Tuan Dung LE HỆ THỐNG THÔNG TIN IMPROVING MULTI-VIEW HUMAN ACTION RECOGNITION WITH SPATIAL-TEMPORAL POOLING AND VIEW SHIFTING TECHNIQUES MASTER OF SCIENCE THESIS IN INFORMATION SYSTEM 2017-2018 Hanoi – 2018 17057204899661000000 MINISTRY OF EDUCATION AND TRAINING HANOI UNIVERSITY OF SCIENCE AND TECHNOLOGY --------------------------------------- Tuan Dung LE IMPROVING MULTI-VIEW HUMAN ACTION RECOGNITION WITH SPATIAL-TEMPORAL POOLING AND VIEW SHIFTING TECHNIQUES Speciality: Information System MASTER OF SCIENCE THESIS IN INFORMATION SYSTEM SUPERVISOR : 1. Thi Oanh NGUYEN Hanoi – 2018 Master student : Tuan Dung LE – CBC17016 Page 2 ACKNOWLEDGEMENT First of all, I sincerely thank the teachers in the School of Information and Communication Technology as well as all the teachers at the Hanoi University of Technology has taught me the knowledge and valuable experience during the past 5 years. I would like to thank the two supervisors, Dr. Nguyen Thi Oanh - lecturer in Information Systems and Communication, Institute of Information and Communication Technology, Hanoi University of Technology and Dr.

Tran Thi Thanh Hai, MICA Research Institute has guided me to complete this master thesis. I have learned a lot from them, not only the knowledge of the field of computer vision but also working and studying skills such as writing papers, preparing slides and presenting to the crowd. Finally, I would like to send my thanks to my family, friends and people who have always supported me in the process of studying and researching this thesis. Hanoi, March 2018 Master student Tuan Dung LE Master student : Tuan Dung LE – CBC17016 Page 3 TABLE OF CONTENT ACKNOWLEDGEMENT .3 TABLE OF CONTENT .4 LIST OF FIGURES .6 LIST OF TABLES .8 LIST OF ABBREVIATIONS AND DEFINITIONS OF TERMS.

HUMAN ACTION RECOGNITION APPROACHES .2 Baseline method: combination of multiple 2D views in the Bag-of-Words model .2 Combination of spatial/temporal information and Bag-of-Words model .1 Combination of spatial information and Bag-of-Words model (S-BoW).2 Combination of temporal information and Bag-of-Words model (T-BoW) .3 View shifting technique .1 Western Virginia University Multi-view Action Recognition Dataset (WVU) .2 Northwestern-UCLA Multiview Action 3D (N-UCLA).40 CONCLUSION & FUTURE WORK .44 Master student : Tuan Dung LE – CBC17016 Page 4 APPENDIX 1 .47 Master student : Tuan Dung LE – CBC17016 Page 5 LIST OF FIGURES Figure 1. 1 a) human body in frame, b) binary silhouttes, c) 3D Human Pose (visual hull), d) motion history volume, e) Motion Context, f) Gaussian blob human body model, g) cylindrical/ellipsoid human body model [1]. 2 Construct HOG-HOF descriptive vector based on SSM matrix[6]. 3 a) Original video of walking action with viewpoints  and , their volumes and silhouettes, b) epipolar geometry in case of extracted actor body silhouettes, c) epipolar geometry in case of dynamic scene with dynamic actor and static background without extracting silhouettes[9].

5 Illustration of spatio-temporal interest point detected in a people clapping’s video [16]. 6 Three ways to combine multiple 2D views information in the BoW model [11]. 2 Dividing space domain based on bounding box and centroid. 3 Illustration of T-BoW model.

4 Illustration of view shifting in testing phase. 1 Ilustration of 12 action classes in the WVU Multi-view actions dataset. 2 Cameras setup for capturing WVU dataset. 3 Ilustration of 10 action classes in the N-UCLA Multi-view Actions 3D dataset.

4 Cameras setup for capturing N-UCLA dataset. 5 Illustration of confusion matrix. 6 Confusion matrix: a) Basic BoW model with codebook D3, accuracy 70,83%; b) S-BoW model with 4 spatial parts codebook D3, accuracy 82,41%. 7 Confusion matrices: a) S-BoW model with 6 spatial parts, codebook D3, accuracy 78,24%; b) S-BoW model with 6 spatial parts and view shifting, codebook D3, accuracy 96,67%.

8 Confusion matrices: a) Basic BoW model, codebook D3, accuracy 59,57%; b) S-BoW mofel with 6 spatial parts, codebook D3, accuracy 63,40%.41 Master student : Tuan Dung LE – CBC17016 Page 6 Figure 3. 9 Illustration of view shifting on N-UCLA dataset.42 Master student : Tuan Dung LE – CBC17016 Page 7 LIST OF TABLES Table 3. 1 Accuracy (%) of basic BoW model on WVU dataset. 2 Accuracy (%) of T-BoW model on WVU dataset.

3 Accuracy (%) of S-BoW model on WVU dataset. 4 Accuracy (%) of S-BoW model with (w) and without (w/o) view shifting technique on WVU dataset. 5 Comparison with others methods on WVU Dataset. 6 Accuracy (%) of basic model on N-UCLA dataset.

7 Accuracy (%) of T-BoW model on N-UCLA dataset. 8 Accuracy (%) of the combination of S-BoW model and view shifting on N-UCLA dataset. 9 Accuracy (%) of S-BoW model with (w) and without (w/o) view shifting technique on N-UCLA dataset .42 Master student : Tuan Dung LE – CBC17016 Page 8 LIST OF ABBREVIATIONS AND DEFINITIONS OF TERMS Index Abbreviation Full name 1 MHI Motion History Image 2 MEI Motion Energy Image 3 LMEI Localized Motion Energy Image 4 STIP Spatio-Temporal Interest Point 5 SSM Self-Similarities Matrix 6 HOG Histogram of Oriented Gradient 7 HOF Histogram of Optical Flow 8 IXMAS INRIA Xmas Acquisition Sequences 9 BoW Bag-of-Words 10 ROIs Region of Interest Master student : Tuan Dung LE – CBC17016 Page 9 INTRODUCTION In the growing social scene from the 3.0 era (automation of information technology and electronic production) to the new 4.0 (a new convergence of technologies such as the Internet Things - Internet, collaboration robots, 3D printing and cloud computing, and the emergence of new business models), automatically collecting and processing information by the computer is very necessary. This leads to higher demands on the interaction between humans and machines both in precision and speed.

Thus, the problems of object recognition, motion recognition, speech recognition. are now attracting a lot of interest of scientists and companies around the world. Nowadays, video data is easily generated by devices such as digital cameras, laptops, mobile phones, and video-sharing websites. Human action recognition in the video, contributing to the automated exploitation of the resources of this rich data source.

Applications related to human action recognition problems such as: Security and traditional monitoring systems include networks of cameras and are monitored by humans. With the increase in the number of cameras as well as these systems being deployed in multiple locations, the supervisor's efficiency and accuracy issues are required to cover the entire system. The task of computer vision is to find a solution that can replace or assist the supervisor. Automatic recognition of abnormalities from surveillance systems is a matter that attracts a lot of research.

The problem of enhancing interaction between humans and machines is still challenging, the visual cues are the most important method of non-verbal communication. Effectively exploiting gesture-based communication will create a more accurate and natural human-computer interaction. A typical application in the field is the "smart home", intelligent response to the gesture, the action of the user. However, these applications are still incomplete and still attract more research.

In addition, human action recognition problem is also applied in a number of other applications, such as robots, content-based video analysis, content-based and recovery-based video compression, video indexing, and virtual reality games. Master student : Tuan Dung LE – CBC17016 Page 10 With the aim of studying and approaching the problem of human action recognition using a combination of multiple views, we explored some of the recent approaches and chose to experiment with the method of using combination of local feature and Bag-of-Words model. After analyzing the weaknesses of the method, we proposed a plan for improvement and evaluate it by doing experiments. The thesis will be presented in the following format:  Chapter 1: This chapter focuses on the approaches to provide readers with an overview of the problem of human action recognition in general and using multiple views in particular.

The last part of this chapter introduces a method that using combination of local feature and the Bag-of-Words model, evaluates the advantages and disadvantages of the method, and then introduces the proposed improvement methods.  Chapter 2: This chapter focuses on presenting an improvement framework using a combination of spatial/temporal information and view shifting techniques.  Chapter 3: Experiment the proposed method and give the results with some evaluation.  Conclusion and Future works: This section will look at what has been and is not done in the master's thesis and highlight pros and cons and future development.

 References Master student : Tuan Dung LE – CBC17016 Page 11 CHAPTER 1. HUMAN ACTION RECOGNITION APPROACHES 1.1 Overview Recognition and analysis of human actions has been a subject that has attracted much interest over the past three decades and is currently being actively researched in the field of computer vision. This is a good solution to solve the problems of a large number of potential applications in the scope of intelligent monitoring, video recovery, video analysis and human-machine interaction. Recent research has highlighted the difficulty of this problem with the large fluctuations in human actions data such as the variability in the way individuals perform actions; movement and clothing; camera angles and motion effects; light fluctuations; occlusion due to objects in the environment or parts of the human body; or disturbances in the surroundings.

Because there are so many factors that can affect the outcome of the problem, current methods are often limited or placed in simple scenarios with simple backgrounds, simple action classes, and stationary cameras or limit the variation in viewing angles. Many different approaches have been proposed over the years for human action recognition. These approaches may be categorized depending on the visual information used to describe the action. Single-view methods use a camera to record the human body during the execution of the action.

However, the appearance of the action is quite different when viewed at arbitrary angle of view. Thus, single-view methods are often accompanied by a basic assumption that action is observed from the same angle in both the training data and the testing data. The efficiency of single- view methods is significantly reduced if this assumption is not true. The obvious way to improve the accuracy of human action recognition is to increase the number of views per action by increasing the number of cameras, which enables us to exploit a larger amount of visual information to describe an action.

The multi-views approach has been studied for only a decade now because the limited capabilities of devices and tools in previous decades did not adequately meet the calculated volume of the Master student : Tuan Dung LE – CBC17016 Page 12 method need. Recent technological advances have brought powerful tools that allow the multi-view approach to become available in a variety of application contexts. Action recognition methods can be divided into two approaches: the traditional approach of using manual features, the approach of neural network. An approach using neural networks typically requires large sets of training data, otherwise it would be ineffective.

In practical applications, datasets are usually medium and small in size. Therefore, in the context of this study, we are interested in a traditional approach that utilizes manually selected features. In this approach, the performance representation can be constructed from 2D data (2D approach) or from 3D data (3D approach) [1].  3D approaches The general trend in 3D methods is to integrate visual information captured by various angles of view, then represent actions by a 3D model.

This is, usually, achieved by combining 2D human body poses in terms of binary silhouettes denoting the video frame pixels belonging to the human body on each camera (Fig 1. After obtaining the corresponding 3D human body representation, actions are described as sequences of successive 3D human body poses. Human body representations adopted by 3D methods include visual hulls (Fig 1.1c), motion history volumes (Fig 1.1d) [2], optical flow corresponding to the human body (Fig 1.1e) [3], Gaussian blobs (Fig 1.1f) [4], cylindrical/ellipsoid body models (Fig 1.1g) [5] … Master student : Tuan Dung LE – CBC17016 Page 13 Figure 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ