Thiết Kế Hệ Thống Theo Dõi Người Qua Nhiều Camera Dựa Trên Deep Learning

Tài liệu nghiên cứu Design of cross camera tracking system based on deep learning, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Ho Chi Minh City University of Technology and Education

Chuyên ngành

Computer Engineering Technology

Người đăng

Ẩn danh

Thể loại

Graduation Project

2023

100

Phí lưu trữ

35 Point

Tóm tắt

I. Tổng Quan Theo Dõi Người Qua Camera Bằng Deep Learning Giải Pháp

Sự phát triển của hệ thống giám sát an ninh thông minh với số lượng lớn camera đã đặt ra yêu cầu cấp thiết về khả năng theo dõi và phân tích video hiệu quả. Việc giám sát thủ công đòi hỏi nguồn nhân lực và thời gian lớn, dễ dẫn đến sai sót. Do đó, nhu cầu về các hệ thống theo dõi tự động, có khả năng giảm thiểu lỗi và hỗ trợ giám sát hiệu quả hơn là vô cùng quan trọng. Các hệ thống này được thiết kế để nâng cao hiệu quả giám sát, tiết kiệm thời gian và chi phí, đồng thời tăng cường an ninh và an toàn trong nhiều môi trường khác nhau như khu vực công cộng, trung tâm giao thông và cơ sở hạ tầng quan trọng. Các công nghệ computer vision cho theo dõi người trước đây dựa trên các phương pháp thủ công thường gặp khó khăn khi đối mặt với sự thay đổi về ngoại hình, ánh sáng và tắc nghẽn. Các phương pháp dựa trên đặc điểm (feature-based) và ước tính (estimation-based) đã được đề xuất như một hệ thống hỗ trợ cho người vận hành. Phương pháp dựa trên đặc điểm trích xuất và đối sánh các đặc điểm cụ thể của đối tượng để theo dõi chuyển động của nó, mang lại sự đơn giản và hiệu quả tính toán. Tuy nhiên, chúng có thể gặp khó khăn với các đặc điểm hạn chế, thay đổi ngoại hình và tắc nghẽn. Phương pháp dựa trên ước tính trực tiếp mô hình hóa và ước tính chuyển động của đối tượng bằng các kỹ thuật toán học hoặc thống kê. Mặc dù những hạn chế của phương pháp dựa trên đặc điểm đã được giải quyết bằng phương pháp này, nhưng bản chất chính xác của phương pháp này có nghĩa là chúng vẫn ở mức thấp so với nhu cầu thực tế. Các phương pháp theo dõi một camera (single-camera tracking) gặp hạn chế trong việc liên kết thông tin giữa các camera trong một hệ thống lớn, dẫn đến thiếu chính xác. Để vượt qua những hạn chế này, giải pháp theo dõi người qua camera đã ra đời, hứa hẹn mang lại một giải pháp toàn diện và hiệu quả. Công nghệ này sử dụng các thuật toán deep learning để phân tích video từ nhiều camera, cho phép theo dõi đối tượng di chuyển giữa các khung hình khác nhau. Dự án này đề xuất một phần mềm theo dõi đa camera, theo dõi mọi đối tượng xuất hiện trong mỗi khung hình được ghi lại bởi mọi camera trong hệ thống. Phần mềm thu thập dữ liệu từ mỗi camera, đánh giá ngoại tuyến (thuật toán MTMC) và báo cáo tất cả những người trong bộ dữ liệu với điều kiện tiên quyết do người dùng đặt trong giao diện người dùng đồ họa. Nó sử dụng các kỹ thuật deep learning, chẳng hạn như phát hiện đối tượng với YOLOv8, nhận dạng lại với các mô hình HRNet và TransReID, theo dõi người bằng DeepSORT và liên kết dữ liệu với phân cụm kết tụ.

1.1. Giới thiệu bài toán nhận diện người qua camera Vấn đề và tầm quan trọng

Bài toán nhận diện người qua camera đặt ra yêu cầu xác định và theo dõi một người cụ thể trong một chuỗi video hoặc hình ảnh thu được từ camera. Đây là một bài toán phức tạp do sự thay đổi về góc nhìn, ánh sáng, tư thế, trang phục và các yếu tố môi trường khác. Tầm quan trọng của bài toán này thể hiện rõ trong nhiều ứng dụng thực tế, bao gồm giám sát an ninh thông minh, quản lý giao thông, theo dõi tội phạm, và phân tích hành vi con người. Các hệ thống nhận diện người qua camera có thể được sử dụng để tự động phát hiện các hành vi đáng ngờ, theo dõi đối tượng trong một khu vực nhất định, hoặc thu thập dữ liệu về lưu lượng người đi bộ trong một không gian công cộng.

1.2. Tổng quan về các phương pháp phân tích video bằng deep learning để theo dõi

Các phương pháp phân tích video bằng deep learning đã đạt được những tiến bộ vượt bậc trong những năm gần đây, mang lại hiệu quả cao trong nhiều bài toán computer vision. Trong lĩnh vực theo dõi người, các phương pháp deep learning cho phép tự động học các đặc trưng phức tạp từ dữ liệu video, giúp tăng cường độ chính xác và độ tin cậy của hệ thống theo dõi. Các phương pháp phổ biến bao gồm sử dụng các mạng nơ-ron tích chập (CNN) để trích xuất đặc trưng, các mạng nơ-ron hồi quy (RNN) để mô hình hóa sự thay đổi theo thời gian, và các mạng nơ-ron biến áp (Transformer) để nắm bắt các mối quan hệ dài hạn giữa các khung hình.

1.3. Ưu điểm của ứng dụng AI trong giám sát so với phương pháp truyền thống

So với các phương pháp truyền thống, ứng dụng AI trong giám sát mang lại nhiều ưu điểm vượt trội. Thứ nhất, các hệ thống AI có khả năng tự động phát hiện và theo dõi đối tượng, giảm thiểu sự can thiệp của con người và tăng cường hiệu quả giám sát. Thứ hai, các thuật toán AI có thể xử lý lượng lớn dữ liệu video một cách nhanh chóng và chính xác, giúp phát hiện các sự kiện quan trọng một cách kịp thời. Thứ ba, các hệ thống AI có khả năng học và thích nghi với các điều kiện môi trường khác nhau, giúp tăng cường độ tin cậy và khả năng ứng dụng trong thực tế. Thứ tư, AI có khả năng dự đoán hành vi dựa trên dữ liệu quá khứ, hỗ trợ ngăn chặn các hành vi phạm pháp.

II. Thách Thức Trong Xây Dựng Hệ Thống Theo Dõi Người Bí Quyết

Việc xây dựng hệ thống theo dõi người hiệu quả đối mặt với nhiều thách thức kỹ thuật. Sự thay đổi về ngoại hình, ánh sáng, tư thế, và góc nhìn có thể ảnh hưởng đến hiệu suất của các thuật toán theo dõi. Ngoài ra, việc xử lý tắc nghẽn, nhiễu, và các đối tượng tương tự cũng là một vấn đề nan giải. Để giải quyết những thách thức này, các nhà nghiên cứu đã phát triển nhiều kỹ thuật tiên tiến, bao gồm sử dụng các mô hình deep learning mạnh mẽ, kết hợp thông tin từ nhiều cảm biến, và áp dụng các thuật toán lọc nhiễu và loại bỏ các đối tượng không liên quan. Theo tài liệu gốc: "The increased use of cameras in surveillance systems has increased the necessity for effective human monitoring. Monitoring tasks have historically required devoted workers to manually evaluate and analyze large amounts of video footage, which has taken a lot of time and labor. The proliferation of cameras, however, has made this strategy more difficult and ineffective." Một trong những thách thức chính là đảm bảo tính riêng tư và bảo mật cho người được theo dõi. Việc thu thập và xử lý dữ liệu cá nhân cần tuân thủ các quy định pháp luật và đạo đức, đồng thời đảm bảo an toàn cho dữ liệu tránh khỏi các cuộc tấn công mạng. Do đó, các hệ thống giám sát an ninh thông minh cần được thiết kế một cách cẩn thận, với các biện pháp bảo mật phù hợp để bảo vệ quyền riêng tư của người dân. Hơn nữa, cần có các quy trình kiểm soát và giám sát chặt chẽ để đảm bảo rằng hệ thống được sử dụng một cách có trách nhiệm và tuân thủ các quy định pháp luật.

2.1. Các yếu tố ảnh hưởng đến độ chính xác của thuật toán theo dõi người

Độ chính xác của các thuật toán theo dõi người chịu ảnh hưởng bởi nhiều yếu tố, bao gồm chất lượng hình ảnh, độ phân giải, ánh sáng, góc nhìn, tắc nghẽn, và sự thay đổi về ngoại hình. Các thuật toán cần được thiết kế để có khả năng chống chịu với những yếu tố này, đồng thời đảm bảo độ chính xác và độ tin cậy cao. Ví dụ, các thuật toán có thể sử dụng các mô hình ánh sáng thích ứng để xử lý sự thay đổi về ánh sáng, hoặc sử dụng các kỹ thuật tái tạo hình ảnh để cải thiện chất lượng hình ảnh.

2.2. Vấn đề phát hiện xâm nhập và xử lý trong môi trường giám sát

Vấn đề phát hiện xâm nhập là một trong những ứng dụng quan trọng của các hệ thống theo dõi người. Các hệ thống này có thể được sử dụng để tự động phát hiện các đối tượng xâm nhập vào một khu vực cấm, hoặc phát hiện các hành vi đáng ngờ như trộm cắp hoặc phá hoại. Để phát hiện xâm nhập, các thuật toán cần có khả năng phân biệt giữa các đối tượng hợp lệ và các đối tượng xâm nhập, đồng thời có khả năng xác định vị trí và thời gian của sự kiện xâm nhập.

2.3. Đảm bảo quyền riêng tư và bảo mật dữ liệu trong hệ thống cảnh báo

Việc đảm bảo quyền riêng tư và bảo mật dữ liệu là một yếu tố quan trọng trong việc xây dựng hệ thống cảnh báo. Các hệ thống này cần tuân thủ các quy định pháp luật về bảo vệ dữ liệu cá nhân, đồng thời áp dụng các biện pháp bảo mật phù hợp để bảo vệ dữ liệu tránh khỏi các cuộc tấn công mạng. Các biện pháp bảo mật có thể bao gồm mã hóa dữ liệu, kiểm soát truy cập, và giám sát hoạt động của hệ thống. Ngoài ra, cần có các quy trình kiểm soát và giám sát chặt chẽ để đảm bảo rằng hệ thống được sử dụng một cách có trách nhiệm và tuân thủ các quy định pháp luật.

III. Phương Pháp Deep Learning Cho Phát Hiện Đối Tượng Bằng Deep Learning

Các phương pháp deep learning đã mang lại những tiến bộ vượt bậc trong lĩnh vực phát hiện đối tượng bằng deep learning. Các mô hình như YOLO, SSD, Faster R-CNN, và Mask R-CNN đã chứng minh hiệu quả cao trong việc xác định vị trí và phân loại các đối tượng trong hình ảnh và video. Các mô hình này sử dụng các mạng nơ-ron tích chập (CNN) để trích xuất các đặc trưng phức tạp từ dữ liệu đầu vào, đồng thời sử dụng các thuật toán học máy để phân loại và xác định vị trí của các đối tượng. Để tối ưu hóa hiệu suất của các mô hình deep learning, cần lựa chọn kiến trúc mạng phù hợp, huấn luyện mô hình trên một bộ dữ liệu lớn và đa dạng, và áp dụng các kỹ thuật tăng cường dữ liệu và điều chỉnh tham số. Các phương pháp deep learning cũng cần được đánh giá và so sánh với các phương pháp truyền thống để đảm bảo rằng chúng mang lại hiệu suất tốt hơn và đáp ứng được các yêu cầu của ứng dụng.

3.1. So sánh các thuật toán YOLO object detection SSD Faster R CNN Mask R CNN

Các thuật toán YOLO object detection, SSD, Faster R-CNN, và Mask R-CNN là các phương pháp phổ biến trong phát hiện đối tượng. YOLO là một thuật toán phát hiện đối tượng theo thời gian thực, trong đó toàn bộ hình ảnh được xử lý trong một lần duy nhất để dự đoán vị trí và loại đối tượng. SSD là một thuật toán phát hiện đối tượng đa tỷ lệ, trong đó các đối tượng được phát hiện ở nhiều tỷ lệ khác nhau để cải thiện độ chính xác. Faster R-CNN là một thuật toán phát hiện đối tượng hai giai đoạn, trong đó một giai đoạn tạo ra các đề xuất vùng và giai đoạn khác phân loại và tinh chỉnh các đề xuất. Mask R-CNN là một thuật toán phát hiện đối tượng mở rộng của Faster R-CNN, trong đó mặt nạ pixel được dự đoán cho mỗi đối tượng để cung cấp thông tin chi tiết hơn.

3.2. Ứng dụng DeepSORT trong bài toán theo dõi đa đối tượng

DeepSORT là một thuật toán theo dõi đa đối tượng sử dụng các đặc trưng deep learning để liên kết các đối tượng giữa các khung hình. DeepSORT kết hợp thông tin từ các bộ dò tìm đối tượng deep learning với bộ lọc Kalman và thuật toán gán Hungarian để theo dõi các đối tượng trong thời gian thực. DeepSORT có khả năng xử lý các tắc nghẽn, thay đổi về ngoại hình, và các yếu tố môi trường khác, giúp tăng cường độ tin cậy và độ chính xác của hệ thống theo dõi.

3.3. Tối ưu hóa hiệu suất object tracking using deep learning

Để tối ưu hóa hiệu suất object tracking using deep learning, cần lựa chọn kiến trúc mạng phù hợp, huấn luyện mô hình trên một bộ dữ liệu lớn và đa dạng, và áp dụng các kỹ thuật tăng cường dữ liệu và điều chỉnh tham số. Ngoài ra, cần kết hợp thông tin từ nhiều cảm biến, áp dụng các thuật toán lọc nhiễu và loại bỏ các đối tượng không liên quan, và đảm bảo tính riêng tư và bảo mật cho người được theo dõi.

IV. Ứng Dụng Thực Tế Và Kết Quả Nghiên Cứu Theo Dõi Người Gì

Các hệ thống giám sát an ninh thông minh đã được triển khai rộng rãi trong nhiều lĩnh vực, bao gồm an ninh công cộng, quản lý giao thông, bán lẻ, và y tế. Trong an ninh công cộng, các hệ thống này có thể được sử dụng để tự động phát hiện các hành vi đáng ngờ, theo dõi tội phạm, và cải thiện thời gian phản ứng của lực lượng an ninh. Trong quản lý giao thông, các hệ thống này có thể được sử dụng để theo dõi lưu lượng xe, phát hiện tai nạn giao thông, và điều khiển đèn tín hiệu giao thông. Trong bán lẻ, các hệ thống này có thể được sử dụng để theo dõi hành vi của khách hàng, tối ưu hóa bố trí cửa hàng, và ngăn chặn trộm cắp. Trong y tế, các hệ thống này có thể được sử dụng để theo dõi bệnh nhân, phát hiện té ngã, và cung cấp hỗ trợ từ xa. Theo tài liệu gốc: "According to experimental findings on the artificial validation dataset for the AI CITY Challenge 2023 [1] which consists of 28 different cameras, 1,950,917 bounding boxes, and 35 distinct person IDs, our proposed system has outperformed native DeepSORT in IDF1, MOTA, and MOTP scores by 5." Các kết quả nghiên cứu theo dõi người cho thấy rằng các phương pháp deep learning có thể mang lại hiệu suất cao hơn so với các phương pháp truyền thống, đồng thời cho phép tự động phát hiện và theo dõi các đối tượng trong môi trường phức tạp.

4.1. Sử dụng hệ thống cảnh báo để cải thiện an ninh và an toàn

Các hệ thống cảnh báo có thể được sử dụng để cải thiện an ninh và an toàn trong nhiều lĩnh vực. Ví dụ, trong an ninh công cộng, các hệ thống cảnh báo có thể được sử dụng để tự động phát hiện các hành vi đáng ngờ và cảnh báo cho lực lượng an ninh. Trong công nghiệp, các hệ thống cảnh báo có thể được sử dụng để phát hiện các sự cố máy móc và cảnh báo cho nhân viên bảo trì. Trong y tế, các hệ thống cảnh báo có thể được sử dụng để phát hiện các dấu hiệu sinh tồn bất thường và cảnh báo cho nhân viên y tế.

4.2. Ứng dụng camera AI để đếm số lượng người và phân tích đám đông

Camera AI có thể được sử dụng để đếm số lượng người và phân tích đám đông trong nhiều lĩnh vực. Ví dụ, trong bán lẻ, camera AI có thể được sử dụng để đếm số lượng khách hàng trong cửa hàng và phân tích hành vi của họ. Trong giao thông công cộng, camera AI có thể được sử dụng để đếm số lượng hành khách trên xe buýt và phân tích mật độ đám đông. Trong thể thao, camera AI có thể được sử dụng để đếm số lượng khán giả trên sân vận động và phân tích hành vi của họ.

4.3. Theo dõi khuôn mặt và nhận dạng biểu cảm trong các ứng dụng thực tế

Theo dõi khuôn mặt và nhận dạng biểu cảm là các ứng dụng quan trọng trong nhiều lĩnh vực. Ví dụ, trong marketing, theo dõi khuôn mặt có thể được sử dụng để phân tích phản ứng của khách hàng đối với các quảng cáo. Trong giáo dục, theo dõi khuôn mặt có thể được sử dụng để theo dõi sự tập trung của học sinh trong lớp học. Trong y tế, theo dõi khuôn mặt có thể được sử dụng để phát hiện các dấu hiệu bệnh tâm thần.

V. Tương Lai Của Công Nghệ Theo Dõi Người Xu Hướng Mới Nhất

Tương lai của công nghệ theo dõi người hứa hẹn nhiều tiến bộ vượt bậc, với sự phát triển của các thuật toán deep learning tiên tiến, sự tích hợp của nhiều cảm biến, và sự ra đời của các ứng dụng mới. Các hệ thống theo dõi người trong tương lai sẽ có khả năng hoạt động trong môi trường phức tạp hơn, với độ chính xác và độ tin cậy cao hơn, đồng thời đảm bảo tính riêng tư và bảo mật cho người được theo dõi. Theo tài liệu gốc, dự án này "proposes a cross-camera tracking software that tracks every object appearing in each frame captured by every camera in the system". Các xu hướng công nghệ theo dõi người bao gồm sử dụng các mô hình deep learning 3D, kết hợp thông tin từ nhiều nguồn dữ liệu, và phát triển các hệ thống theo dõi phi tập trung. Những tiến bộ này sẽ mở ra nhiều cơ hội mới cho việc ứng dụng công nghệ theo dõi người trong nhiều lĩnh vực, đồng thời đặt ra những thách thức mới về đạo đức và pháp lý.

5.1. Camera giám sát AI Lợi ích và hạn chế trong tương lai

Camera giám sát AI mang lại nhiều lợi ích, bao gồm khả năng tự động phát hiện các hành vi đáng ngờ, theo dõi đối tượng trong một khu vực nhất định, và thu thập dữ liệu về lưu lượng người đi bộ trong một không gian công cộng. Tuy nhiên, camera giám sát AI cũng có những hạn chế, bao gồm chi phí cao, yêu cầu về băng thông lớn, và những lo ngại về quyền riêng tư. Trong tương lai, camera giám sát AI sẽ trở nên phổ biến hơn, nhưng cần có các quy định pháp luật và đạo đức để đảm bảo rằng chúng được sử dụng một cách có trách nhiệm.

5.2. Phân tích hành vi nâng cao nhờ theo dõi người

Việc theo dõi người cho phép phân tích hành vi một cách chi tiết và toàn diện hơn. Các hệ thống có thể theo dõi các hành vi như di chuyển, tương tác, và biểu cảm để hiểu rõ hơn về nhu cầu, sở thích, và tâm trạng của con người. Phân tích hành vi có thể được sử dụng trong nhiều lĩnh vực, bao gồm marketing, giáo dục, và y tế.

5.3. Các vấn đề privacy implications of human tracking cần xem xét

Việc theo dõi người đặt ra nhiều vấn đề về privacy implications of human tracking cần xem xét. Việc thu thập và xử lý dữ liệu cá nhân cần tuân thủ các quy định pháp luật và đạo đức, đồng thời đảm bảo an toàn cho dữ liệu tránh khỏi các cuộc tấn công mạng. Cần có các quy trình kiểm soát và giám sát chặt chẽ để đảm bảo rằng hệ thống được sử dụng một cách có trách nhiệm và tuân thủ các quy định pháp luật.

VI. Kết Luận Công Nghệ Theo Dõi Người Bằng AI Bước Tiến Mới

Tóm lại, công nghệ theo dõi người bằng AI mang lại tiềm năng to lớn để cải thiện an ninh, hiệu quả và trải nghiệm trong nhiều lĩnh vực. Tuy nhiên, cần phải giải quyết các thách thức về kỹ thuật, đạo đức và pháp lý để đảm bảo rằng công nghệ này được sử dụng một cách có trách nhiệm và mang lại lợi ích cho xã hội. Sự phát triển của các thuật toán deep learning tiên tiến, sự tích hợp của nhiều cảm biến, và sự ra đời của các ứng dụng mới sẽ tiếp tục thúc đẩy sự tiến bộ của công nghệ theo dõi người trong tương lai. Cần có sự hợp tác giữa các nhà nghiên cứu, nhà phát triển, và nhà quản lý chính sách để định hình tương lai của công nghệ này một cách bền vững và có lợi cho tất cả mọi người. Bài toán theo dõi người sẽ tiếp tục phát triển và chứng minh giá trị to lớn của mình.

6.1. Tóm tắt các thành tựu và hạn chế của các thuật toán theo dõi người với camera hiện tại

Các thuật toán theo dõi người với camera hiện tại đã đạt được những thành tựu đáng kể trong việc tự động phát hiện và theo dõi các đối tượng trong môi trường phức tạp. Tuy nhiên, các thuật toán này vẫn còn những hạn chế, bao gồm độ chính xác chưa cao, khả năng chống chịu với các yếu tố môi trường còn hạn chế, và những lo ngại về quyền riêng tư.

6.2. Hướng phát triển và nghiên cứu tiếp theo trong lĩnh vực AI surveillance camera

Hướng phát triển và nghiên cứu tiếp theo trong lĩnh vực AI surveillance camera tập trung vào việc cải thiện độ chính xác, độ tin cậy, và khả năng chống chịu với các yếu tố môi trường của các thuật toán theo dõi. Ngoài ra, cần có các nghiên cứu về đạo đức và pháp lý để đảm bảo rằng công nghệ này được sử dụng một cách có trách nhiệm và mang lại lợi ích cho xã hội.

6.3. Khuyến nghị để ứng dụng hệ thống theo dõi người hiệu quả và an toàn

Để ứng dụng hệ thống theo dõi người hiệu quả và an toàn, cần lựa chọn các thuật toán phù hợp với yêu cầu của ứng dụng, huấn luyện mô hình trên một bộ dữ liệu lớn và đa dạng, và áp dụng các kỹ thuật tăng cường dữ liệu và điều chỉnh tham số. Ngoài ra, cần kết hợp thông tin từ nhiều cảm biến, áp dụng các thuật toán lọc nhiễu và loại bỏ các đối tượng không liên quan, và đảm bảo tính riêng tư và bảo mật cho người được theo dõi.

20/09/2025

Bạn đang xem trước tài liệu:

Design of cross camera tracking system based on deep learning

Tải đầy đủ

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY AND EDUCATION FACULTY FOR HIGH QUALITY TRAINING GRADUATION PROJECT COMPUTER ENGINEERING TECHNOLOGY DESIGN OF CROSS-CAMERA TRACKING SYSTEM BASED ON DEEP LEARNING ADVISOR: PHD. TRAN VU HOANG STUDENT: CHUNG TIEN DAT SKL 0 1 1 1 8 4 Ho Chi Minh City, February 2023 HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY AND EDUCATION FACULTY FOR HIGH QUALITY TRAINING GRADUATION PROJECT DESIGN OF CROSS-CAMERA TRACKING SYSTEM BASED ON DEEP LEARNING Student: CHUNG TIEN DAT ID: 18119014 Major: COMPUTER ENGINEERING TECHNOLOGY Advisor: TRAN VU HOANG, PhD. Ho Chi Minh City, February 2023 ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập – Tự Do – Hạnh phúc KHOA ĐÀO TẠO CHẤT LƯỢNG CAO Tp. HCM, ngày 9 tháng 7 năm 2023 BẢN GIẢI TRÌNH CHỈNH SỬA ĐỒ ÁN TỐT NGHIỆP NGÀNH: CNKT MÁY TÍNH 1.

Tên đề tài: Design of cross-camera tracking system based on deep learning 2. Tên sinh viên: Chung Tiến Đạt MSSV: 18119014 3. Trần Vũ Hoàng, PhD 4. Hội đồng bảo vệ HĐ 1, phòng A4-401, ngày 7 tháng 7 năm 2023 5.

Giải trình chỉnh sửa báo cáo đồ án tốt nghiệp: Nội dung góp ý Ghi TT Kết quả chỉnh sửa, bổ sung của Hội đồng chú Correct the typos. Person detection or Adjusted “person” and “human” word for suitable 1 Done Human detection is context. correct? The format of Move table name to underneath of table rather upper of 2 figures and tables Done table. should be identical Remove: Some redundant • 2.

3 contents should be Done • 2. Get rid of 5-level section of multilevel list as shown Avoid numbering below: low-level 4 Done subsections, such • 2. Backbone now is 2. Neck now is 2.

Head now is 2.1 Backbone and neck now is 2. Architecture – Backbone and neck • 2. Head and anchor-free now is 2. Architecture – Head – and anchor-free.

Shallow learning now is 2. Deep learning now is 2.1 Overview now is 2. Overview of HRnet • 2. Architecture now is 2.

Architecture of HRnet • 2. Challenges now is 2.3 Challenges of CNN-based appoarch.1 Overview now is 2. Overview of TransReID • 2. Jigsaw Patch Module now is 2.

Jigsaw Patch Module • 2. Side Information Embedding now is 2.3 Side Information Embedding; • 2.4 Challenges now is 2. Challenges of Transformer-based approach. Xác nhận của trưởng Xác nhận của GVHD Nhóm thực hiện báo cáo ngành (Ký họ và tên) (Ký họ và tên) (Ký họ và tên) THE SOCIALIST REPUBLIC OF VIETNAM Independence – Freedom– Happiness Ho Chi Minh City, June 26, 2023 EVALUATION SHEET OF DEFENSE COMMITTEE MEMBER Student name: Chung Tiến Đạt Student ID: 18119014 Major: Computer Engineering Technology Class: 18119CLA2 Project title: Design of Cross-Camera Tracking System based on Deep Learning Name of Defense Committee Member:.

Content and workload of the project. ) Ho Chi Minh City, June 26, 2023 COMMITTEE MEMBER (Sign with full name) ACKNOWLEDGEMENT I would like to express my deepest gratitude to my advisor, Mr. Tran Vu Hoang, PhD, for many interesting weekly technical discussions that helped me find research directions and advice on technical issues. His patience and devotion to teaching have helped me become a better student in terms of both knowledge and personality, not only during the development of the graduation project but throughout the academic years.

I would like to extend my sincere thanks to the teachers of the Faculty of High Quality Training and the Faculty of Electrical and Electronics Engineering for their advanced knowledge and experience through every course. I am also grateful that my colleagues created the best conditions for me to complete the graduation project. Lastly, I would be remiss in not mentioning my family and friends. Their belief and support in me have kept my spirits and motivation high during this process.

DISCLAIMER This thesis is the result of my study, evaluation, and implementation. All texts, quoted directly or paraphrased, have been indicated by in-text citations. Full bibliographic details are given in the reference list containing internet sources containing URLs. Chung Tiến Đạt TABLE OF CONTENTS LIST OF FIGURES.

i LIST OF TABLES. iii LIST OF ABBREVIATIONS. 4 CHAPTER 2: LITERATURE REVIEW. Two-stage object detection.

One-Stage Object Detection. Person re-identification. CNN-based method - HRNet. Transformer-based method - TransReID.

39 CHAPTER 3: SYSTEM DESIGN. System requirements specification .1: Comparison between using non-compressed and compressed images. Person re-identification. Single-camera tracking.

Replacement of feature extractor. ID-switching detection and ID-switching splitting. Post-check of matching algorithm. Multi-camera matching.

Color-based searching person. Tiny colorful person dataset. How to match color. Graphic user interface.

Precision-recall curve. Color-based searching person. Evaluation of the overall system. 74 CHAPTER 5: CONCLUSION AND FUTURE WORK.

82 LIST OF FIGURES Figure 1. 1: Diagram of the proposed system .1: Overview of different two-stage detection frameworks for generic object detection: (a) RCNN and (b) Faster RCNN [13].2: Overview of different one-stage detection frameworks for generic object detection: (a) YOLO and (b) SSD [13].3: Overall YOLOv5 architecture [17] .4: How CSPnet applied in ResNet and DenseNet.5: Darknet53 applied CSPnet.7: SPPF block structure [20] .8: YOLOv5's head architecture .9: The comparison of YOLOv8 with previous versions. 10: The architecture of YOLOv8 [22] .11: Comparison of C3 and C2f module .12: Comparison of YOLOv5's and YOLOv8's head .13: Challenge of object tracking algorithm facing in the real-world: a) illumination variation; b) background clutters; c) low resolution; d) scale variation; e) change the target position; f) occlusion; g) fast motion.14: Single object tracking and Multiple object tracking .15: Calculate optical flow in frames [2] .16: Particle filter framework [24] .17: Kalman filter framework [26] .18: Diagram of SORT algorithm [30] .19: Overview of using support vector machine in tracking. (a) The confidence map of the search region; (b) the object region, search region and the context region; (c) Demonstration of a linear SVM.

The filled circles and rectangles are the “support vectors” [32].20: Diagram of wide residual network [34] used in DeepSORT [35] as feature extractor [31].21: Diagram of DeepSORT algorithm [30]. 22: Track management mechanism in DeepSORT [30] .25: Framework of proposed TransReID. Side Information Embedding (light blue) encodes non-visual information such as camera or viewpoint into embedding representations. It is input into transformer encoder together with patch embedding and position embedding.

Last layer includes two independent transformer layers. One is i standard to encode global feature. The other contains the Jigsaw Patch Module (JPM) which shuffles all patches and regroups them into several groups. All these groups are input into a shared transformer layer to learn local features.

Both global feature and local features contribute to ReID loss [36].26: Jigsaw path module applied parallel with global branch [36].27: Side Information Embedding (light blue) is added along with position and image patches embedding [36].28: Ensemble feature from HRNet model's features and TransReID model's features by concatenating .29: Demonstration of Agglomerative Clustering algorithm [43].1: Overall block diagram of the system.2: Several samples in the validation dataset of AI CITY Challenge 2023 [1] 44 Figure 3.3: YOLOv8 head with two branches including box branch (upper) and class branch (lower) .4: The demonstration of general distribution using DFL .5: The detection result of YOLOv8 in on benchmark dataset .6: The custom ReID dataset to train person re-identification model .8: Overview of the CNN architecture [35] .9: Several samples in the tiny colorful person dataset and annotation. (a) The annotation according to its color; (b) Several samples in the tiny colorful person dataset .10: Block diagram of color-based searching person module .11: Cluster three colors in a person image using KMeans.12: The dashboard of GUI. 13: The settings of location .14: User flexibly sets the position of available cameras in the chosen location.15: The historical travels section shows a trajectory of the interested person.1: The scenario shows why MOTP is essential .2: Theoretical precision-recall curves [58] .3: Tracking results in three camera c014, c016, and c019 .4: Tracking results in four cameras c076, c077, c078, and c081 .5: Tracking results in four cameras c118, c119, c122, and c123 .6: The precision-recall curve of color-based searching person module with multiple thresholds. The circled point found the optimal threshold for the module .7: The precision-recall trade-off with the best threshold .8: Result of color-based searching person.

73 ii LIST OF TABLES Table 3.1: Comparison between using non-compressed and compressed images.2: Comparison of three YOLO version in detection task from another project [44] .3: Comparison of YOLOv5x, YOLOv6l, YOLOv7x and YOLOv8x on the validation dataset .4: Data augmentation for training model.5: Comparison of person re-identification methods on three different public Market-1501-C datasets [47].6: The comparison of feature extractor for ReID task .7: Tracking results on the MOT16 [51] challenge.1: Comparison of the proposed tracker and DeepSORT on the synthetic validation dataset .1: Strengths and weaknesses of the system. 76 iii LIST OF ABBREVIATIONS Abbreviations Definitions GUI Graphic User Interface YOLO You Only Look Once CNN Convolutional Neural Network Conv Convolutional layer mAP mean Average Precision GPU Graphic Processing Unit iv ABSTRACT As a result of the development of surveillance systems, numerous cameras have been put in buildings and residential areas. This progress calls for careful monitoring and censoring, which requires a significant amount of time and labor. Single-camera tracking technology was developed to facilitate the monitoring of people and objects within the field of view of a particular camera, but it is limited by the lack of information linkage between cameras.

Thus, with the need for thorough surveillance in structures and locations with multiple cameras, multi-camera tracking techniques, also known as cross- camera tracking, have evolved as a viable alternative. These techniques enable the utilization of automation in video analysis tasks by combining multiple cameras to track people or objects as they move between different camera views, resulting in more precise and consistent tracking. In this project, deep learning and machine learning algorithms are used to complete a multi-camera tracking system that can continuously track people through various cameras. The proposed approach consists of four primary steps: (1) detecting people in the input image, (2) extracting the features of detected persons, (3) tracking and labeling unique people, and (4) linking unique individuals across one or more cameras.

To detect the bounding boxes containing people, YOLOv8 was utilized. Subsequently, the HRNet and TransReID models were employed to extract distinctive features from these bounding boxes. Then, the bounding boxes and features will be fed into enhanced DeepSORT version for tracking and agglomerative Clustering, finally, will be applied to associate individuals appearing in different camera views. Additionally, to improve the user experience with the multi-camera tracking system, this work suggests a graphic user interface application utilizing Qt.

According to experimental findings on the artificial validation dataset for the AI CITY Challenge 2023 [1] which consists of 28 different cameras, 1,950,917 bounding boxes, and 35 distinct person IDs, our proposed system has outperformed native DeepSORT in IDF1, MOTA, and MOTP scores by 5. v CHAPTER 1: OVERVIEW The increased use of cameras in surveillance systems has increased the necessity for effective human monitoring. Monitoring tasks have historically required devoted workers to manually evaluate and analyze large amounts of video footage, which has taken a lot of time and labor. The proliferation of cameras, however, has made this strategy more difficult and ineffective.

Therefore, there is a critical need for cutting-edge tracking systems that can facilitate and minimize human error during the monitoring process, allowing for more effective and precise identification of human behavior and potential security concerns. These monitoring systems are designed to make surveillance more efficient, saving time and money while boosting general safety and security in a variety of settings, such as public areas, transportation hubs, and vital infrastructure.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Thiết Kế Hệ Thống Theo Dõi Người Qua Nhiều Camera Dựa Trên Deep Learning

I. Tổng Quan Theo Dõi Người Qua Camera Bằng Deep Learning Giải Pháp

1.1. Giới thiệu bài toán nhận diện người qua camera Vấn đề và tầm quan trọng

1.2. Tổng quan về các phương pháp phân tích video bằng deep learning để theo dõi

1.3. Ưu điểm của ứng dụng AI trong giám sát so với phương pháp truyền thống

II. Thách Thức Trong Xây Dựng Hệ Thống Theo Dõi Người Bí Quyết

2.1. Các yếu tố ảnh hưởng đến độ chính xác của thuật toán theo dõi người

2.2. Vấn đề phát hiện xâm nhập và xử lý trong môi trường giám sát

2.3. Đảm bảo quyền riêng tư và bảo mật dữ liệu trong hệ thống cảnh báo

III. Phương Pháp Deep Learning Cho Phát Hiện Đối Tượng Bằng Deep Learning

3.1. So sánh các thuật toán YOLO object detection SSD Faster R CNN Mask R CNN

3.2. Ứng dụng DeepSORT trong bài toán theo dõi đa đối tượng

3.3. Tối ưu hóa hiệu suất object tracking using deep learning

IV. Ứng Dụng Thực Tế Và Kết Quả Nghiên Cứu Theo Dõi Người Gì

4.1. Sử dụng hệ thống cảnh báo để cải thiện an ninh và an toàn

4.2. Ứng dụng camera AI để đếm số lượng người và phân tích đám đông

4.3. Theo dõi khuôn mặt và nhận dạng biểu cảm trong các ứng dụng thực tế

V. Tương Lai Của Công Nghệ Theo Dõi Người Xu Hướng Mới Nhất

5.1. Camera giám sát AI Lợi ích và hạn chế trong tương lai

5.2. Phân tích hành vi nâng cao nhờ theo dõi người

5.3. Các vấn đề privacy implications of human tracking cần xem xét

VI. Kết Luận Công Nghệ Theo Dõi Người Bằng AI Bước Tiến Mới

6.1. Tóm tắt các thành tựu và hạn chế của các thuật toán theo dõi người với camera hiện tại

6.2. Hướng phát triển và nghiên cứu tiếp theo trong lĩnh vực AI surveillance camera

6.3. Khuyến nghị để ứng dụng hệ thống theo dõi người hiệu quả và an toàn

THÔNG TIN CHI TIẾT

Tác giả: Chung Tiến Đạt

Người hướng dẫn: Phd. Trần Vũ Hoàng

Trường học: Ho Chi Minh City University of Technology and Education

Chuyên ngành: Computer Engineering Technology

Đề tài: Design of Cross-Camera Tracking System Based on Deep Learning

Loại tài liệu: Graduation Project

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

Thiết Kế Hệ Thống Theo Dõi Người Qua Nhiều Camera Dựa Trên Deep Learning

I. Tổng Quan Theo Dõi Người Qua Camera Bằng Deep Learning Giải Pháp

1.1. Giới thiệu bài toán nhận diện người qua camera Vấn đề và tầm quan trọng

1.2. Tổng quan về các phương pháp phân tích video bằng deep learning để theo dõi

1.3. Ưu điểm của ứng dụng AI trong giám sát so với phương pháp truyền thống

II. Thách Thức Trong Xây Dựng Hệ Thống Theo Dõi Người Bí Quyết

2.1. Các yếu tố ảnh hưởng đến độ chính xác của thuật toán theo dõi người

2.2. Vấn đề phát hiện xâm nhập và xử lý trong môi trường giám sát

2.3. Đảm bảo quyền riêng tư và bảo mật dữ liệu trong hệ thống cảnh báo

III. Phương Pháp Deep Learning Cho Phát Hiện Đối Tượng Bằng Deep Learning

3.1. So sánh các thuật toán YOLO object detection SSD Faster R CNN Mask R CNN

3.2. Ứng dụng DeepSORT trong bài toán theo dõi đa đối tượng

3.3. Tối ưu hóa hiệu suất object tracking using deep learning

IV. Ứng Dụng Thực Tế Và Kết Quả Nghiên Cứu Theo Dõi Người Gì

4.1. Sử dụng hệ thống cảnh báo để cải thiện an ninh và an toàn

4.2. Ứng dụng camera AI để đếm số lượng người và phân tích đám đông

4.3. Theo dõi khuôn mặt và nhận dạng biểu cảm trong các ứng dụng thực tế

V. Tương Lai Của Công Nghệ Theo Dõi Người Xu Hướng Mới Nhất

5.1. Camera giám sát AI Lợi ích và hạn chế trong tương lai

5.2. Phân tích hành vi nâng cao nhờ theo dõi người

5.3. Các vấn đề privacy implications of human tracking cần xem xét

VI. Kết Luận Công Nghệ Theo Dõi Người Bằng AI Bước Tiến Mới

6.1. Tóm tắt các thành tựu và hạn chế của các thuật toán theo dõi người với camera hiện tại

6.2. Hướng phát triển và nghiên cứu tiếp theo trong lĩnh vực AI surveillance camera

6.3. Khuyến nghị để ứng dụng hệ thống theo dõi người hiệu quả và an toàn

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Chung Tiến Đạt

Người hướng dẫn: Phd. Trần Vũ Hoàng

Trường học: Ho Chi Minh City University of Technology and Education

Chuyên ngành: Computer Engineering Technology

Đề tài: Design of Cross-Camera Tracking System Based on Deep Learning

Loại tài liệu: Graduation Project

Năm xuất bản: 2023

Địa điểm: Ho Chi Minh City

SINH VIÊN CŨNG XEM