Giám sát người theo thời gian thực bằng camera Fisheye và Deep Learning

Mục lục chi tiết

ATTESTATION SUR L’HONNEUR

Remerciements

1. CHAPITRE 1: INTRODUCTION

1.1. PRÉSENTATION DE LA STRUCTURE D’ACCUEIL : CERIS

1.1.1. Les missions du CERIS

1.1.2. Composition du CERIS

1.1.3. Présentation de l’équipe I3A

1.1.4. Quelques chiffres clés du CERIS

1.2. PRÉSENTATION DU PROJET MOVCAP :

1.2.1. Généralités

1.2.2. Objectifs recherchés

1.3. INTRODUCTION (1)

2. ÉTAT DE L’ART

2.1. Les Réseaux de neurones récurrents – Recurrent Neural Network (RNN)

2.2. Réseaux de neurones de convolution – Convolution Neural Network (CNN)

2.3. Architectures de réseaux de neurones convolutifs

2.4. Les métriques d’évaluation

2.5. Étude des caméras Omnidirectionnelles

2.6. Quelques travaux connexes

2.6.1. Détection basée l’Histogram of Oriented Gradient (HOG) par [Chiang and Wang, 2014]

2.6.2. Détection de personnes dans les images Fisheye top-view par [Demirkus et al.]

2.6.3. Travaux de Détection efficace des piétons dans les images fisheye en vue de dessus par [Chiang et al.]

2.6.4. Détection de personnes sensible à la rotation dans les images Fisheye vue de dessus par [Duan et al.]

2.6.5. Autres travaux étudiés

2.6.6. Conclusion sur les travaux

3. SOLUTION PROPOSÉE

3.1. Première étape : Création data set IMT et expérimentation du RAPID+Cendroïde

3.1.1. Préparation des terrains

3.1.2. Expérimentations sur les vidéos capturées

4. RÉSULTATS ET ANALYSES

4.1. Expérimentations RAPID et Centroïde

4.1.1. Processus pour chaque expérimentation

4.1.2. Observation de la taille du bounding box selon l’angle

4.1.3. Taille du bounding box selon la distance avec le centre de l’image

4.1.4. Conclusion sur les résultats des expérimentations

4.2. Deuxième Étape : Solution YOLO v4 appliquée au Deep Sort

4.2.1. Pipeline de la solution

4.2.2. Jeu de données

4.2.3. Configuration du backbone

4.2.4. Entraînement du modèle

4.2.5. Les métriques à la fin de la formation

4.2.6. Traquing avec notre modèle et le DeepSORT

Bibliographie

Les annexes

A.1. Portion du code des détections

A.2. Différentes fonctions de gestion des bounding box

A.3. Tableau récapitulatif de quelques informations extraites des expérimentations

A.5. Contenu du script de génération des images train

Tóm tắt

I. Tổng Quan Giám Sát Thời Gian Thực Camera Fisheye AI 55 Ký Tự

Trong bối cảnh an ninh ngày càng được chú trọng, giám sát thời gian thực bằng camera Fisheye kết hợp với Deep Learning đang trở thành một giải pháp hiệu quả. Hệ thống này không chỉ cung cấp góc nhìn rộng mà còn tích hợp khả năng phân tích video thông minh, nhận diện khuôn mặt, và phát hiện hành vi bất thường. Nghiên cứu của Wend-Panga Jérémie OUEDRAOGO tại Viện Francophone International đã khám phá tiềm năng của giải pháp này, mở ra nhiều ứng dụng trong thực tế. Bài viết này sẽ đi sâu vào công nghệ, ứng dụng, và thách thức của việc triển khai hệ thống giám sát tiên tiến này. Theo OUEDRAOGO, hệ thống này hứa hẹn mang lại sự an toàn và hiệu quả cao hơn so với các phương pháp giám sát truyền thống. Các công nghệ như camera 360 độ, xử lý hình ảnh, và trí tuệ nhân tạo (AI) đóng vai trò then chốt trong việc tạo ra một hệ thống an ninh thông minh. Deep Learning cho phép hệ thống tự động học hỏi và cải thiện khả năng nhận diện, từ đó giảm thiểu sai sót và tăng cường hiệu quả giám sát.

1.1. Giới Thiệu Camera Fisheye và Ưu Điểm Giám Sát Toàn Cảnh

Camera Fisheye, với ống kính góc rộng, mang đến khả năng giám sát toàn cảnh, loại bỏ điểm mù so với camera truyền thống. Điều này đặc biệt hữu ích trong các khu vực rộng lớn như trung tâm thương mại, nhà ga, hoặc bãi đỗ xe. Theo OUEDRAOGO, việc sử dụng camera Fisheye giúp giảm số lượng camera cần thiết, tiết kiệm chi phí lắp đặt và bảo trì. Khả năng giám sát 360 độ cho phép ghi lại mọi diễn biến trong khu vực quan sát, cung cấp thông tin chi tiết và đầy đủ cho việc phân tích và giải quyết các tình huống khẩn cấp. Ứng dụng camera Fisheye trong giám sát ngày càng phổ biến nhờ khả năng bao quát và hiệu quả về chi phí.

1.2. Tổng Quan về Deep Learning trong Phân Tích Video Giám Sát

Deep Learning, một nhánh của Trí tuệ nhân tạo (AI), cho phép máy tính học hỏi từ dữ liệu lớn và đưa ra quyết định dựa trên các mẫu đã học. Trong lĩnh vực giám sát, Deep Learning được sử dụng để phân tích video, nhận diện đối tượng, và phát hiện hành vi bất thường. Các thuật toán như CNN (Convolutional Neural Network) và RNN (Recurrent Neural Network) được áp dụng để trích xuất đặc trưng từ hình ảnh và video, từ đó giúp hệ thống giám sát trở nên thông minh và hiệu quả hơn. Ứng dụng Deep Learning trong giám sát mở ra khả năng tự động hóa quy trình phân tích, giảm tải cho con người và tăng cường khả năng phản ứng với các tình huống khẩn cấp.

II. Thách Thức Giám Sát Camera Fisheye và Deep Learning 58 Ký Tự

Mặc dù mang lại nhiều lợi ích, việc triển khai hệ thống giám sát bằng camera Fisheye và Deep Learning cũng đối mặt với nhiều thách thức. Một trong những thách thức lớn nhất là xử lý độ méo hình ảnh do ống kính Fisheye gây ra. Việc phân tích hình ảnh bị méo đòi hỏi các thuật toán phức tạp và tốn nhiều tài nguyên tính toán. Thêm vào đó, việc đảm bảo quyền riêng tư và bảo mật dữ liệu là một vấn đề quan trọng cần được giải quyết. Hệ thống cần được thiết kế sao cho không xâm phạm quyền riêng tư của người dân và đảm bảo dữ liệu giám sát không bị lạm dụng. Theo OUEDRAOGO, việc cân bằng giữa hiệu quả giám sát và bảo vệ quyền riêng tư là một bài toán khó cần được giải quyết một cách thận trọng. Các giải pháp như mã hóa dữ liệu, giới hạn quyền truy cập, và tuân thủ các quy định pháp luật về bảo vệ dữ liệu cá nhân cần được áp dụng để đảm bảo tính bảo mật và tuân thủ của hệ thống.

2.1. Xử Lý Độ Méo Hình Ảnh từ Camera Fisheye Cách Giải Quyết

Độ méo hình ảnh là một đặc điểm cố hữu của camera Fisheye, gây khó khăn cho việc phân tích và nhận diện đối tượng. Để giải quyết vấn đề này, các thuật toán hiệu chỉnh hình ảnh được sử dụng để loại bỏ hoặc giảm thiểu độ méo. Các phương pháp này có thể dựa trên mô hình toán học của ống kính hoặc sử dụng Deep Learning để học cách loại bỏ độ méo từ dữ liệu huấn luyện. OUEDRAOGO đã nghiên cứu các phương pháp hiệu chỉnh hình ảnh khác nhau và đánh giá hiệu quả của chúng trong việc cải thiện độ chính xác của hệ thống giám sát. Việc lựa chọn phương pháp hiệu chỉnh phù hợp phụ thuộc vào đặc điểm của camera Fisheye và yêu cầu về độ chính xác của ứng dụng.

2.2. Đảm Bảo Quyền Riêng Tư trong Giám Sát Giải Pháp Công Nghệ

Việc sử dụng hệ thống giám sát, đặc biệt là các hệ thống có khả năng nhận diện khuôn mặt và theo dõi đối tượng, đặt ra những lo ngại về quyền riêng tư. Để giải quyết vấn đề này, các giải pháp công nghệ như mã hóa dữ liệu, ẩn danh hóa dữ liệu, và giới hạn quyền truy cập được sử dụng. Ngoài ra, cần có các quy định pháp luật rõ ràng để kiểm soát việc sử dụng dữ liệu giám sát và đảm bảo quyền của người dân. OUEDRAOGO nhấn mạnh tầm quan trọng của việc thiết kế hệ thống giám sát sao cho tuân thủ các nguyên tắc về quyền riêng tư và bảo mật dữ liệu. Các giải pháp như làm mờ khuôn mặt hoặc chỉ lưu trữ dữ liệu khi có sự kiện quan trọng có thể giúp giảm thiểu tác động tiêu cực đến quyền riêng tư.

III. Giải Pháp YOLOv4 và DeepSORT Cho Camera Fisheye 59 Ký Tự

Để giải quyết các thách thức và tận dụng tối đa tiềm năng của camera Fisheye và Deep Learning, nghiên cứu của OUEDRAOGO đã tập trung vào việc sử dụng YOLOv4 và DeepSORT cho giám sát. YOLOv4 là một thuật toán nhận diện đối tượng thời gian thực mạnh mẽ, có khả năng phát hiện nhiều đối tượng khác nhau trong một khung hình. DeepSORT là một thuật toán theo dõi đối tượng dựa trên Deep Learning, cho phép theo dõi các đối tượng đã được phát hiện qua nhiều khung hình. Sự kết hợp của hai thuật toán này tạo ra một hệ thống giám sát hiệu quả và chính xác. Theo OUEDRAOGO, việc huấn luyện YOLOv4 với dữ liệu hình ảnh từ camera Fisheye và áp dụng DeepSORT để theo dõi các đối tượng đã được phát hiện giúp hệ thống hoạt động tốt trong môi trường thực tế.

3.1. Ứng Dụng Thuật Toán YOLOv4 Để Nhận Diện Đối Tượng Nhanh Chóng

YOLOv4 (You Only Look Once version 4) là một thuật toán nhận diện đối tượng tiên tiến, nổi tiếng với tốc độ và độ chính xác cao. Thuật toán này có khả năng xử lý hình ảnh thời gian thực, cho phép nhận diện nhiều đối tượng khác nhau trong một khung hình. Trong nghiên cứu của OUEDRAOGO, YOLOv4 được sử dụng để nhận diện người trong hình ảnh từ camera Fisheye. Việc huấn luyện YOLOv4 với dữ liệu phù hợp giúp thuật toán hoạt động tốt trong môi trường giám sát thực tế, nơi có nhiều yếu tố gây nhiễu như ánh sáng yếu, độ phân giải thấp, và độ méo hình ảnh.

3.2. DeepSORT Để Theo Dõi Đối Tượng Trong Môi Trường Thực Tế

DeepSORT (Deep Simple Online and Realtime Tracking) là một thuật toán theo dõi đối tượng dựa trên Deep Learning. Thuật toán này sử dụng thông tin về vị trí, kích thước, và đặc trưng hình ảnh của đối tượng để theo dõi chúng qua nhiều khung hình. Trong nghiên cứu của OUEDRAOGO, DeepSORT được sử dụng để theo dõi người sau khi đã được nhận diện bởi YOLOv4. Việc kết hợp DeepSORT với YOLOv4 giúp hệ thống giám sát có khả năng theo dõi đối tượng một cách liên tục và chính xác, ngay cả khi đối tượng bị che khuất hoặc di chuyển nhanh chóng.

IV. Ứng Dụng An Ninh Thông Minh và Quản Lý Đám Đông 55 Ký Tự

Hệ thống giám sát bằng camera Fisheye và Deep Learning có nhiều ứng dụng tiềm năng trong các lĩnh vực khác nhau. Trong lĩnh vực an ninh thông minh, hệ thống có thể được sử dụng để phát hiện hành vi bất thường, nhận diện khuôn mặt, và gửi cảnh báo cho nhân viên an ninh. Trong lĩnh vực quản lý đám đông, hệ thống có thể được sử dụng để đếm người, tạo bản đồ nhiệt, và phân tích luồng di chuyển của đám đông. OUEDRAOGO đã nghiên cứu các ứng dụng khác nhau của hệ thống giám sát và đánh giá hiệu quả của chúng trong việc cải thiện an ninh và quản lý. Hệ thống cũng có thể được tích hợp với các hệ thống khác như hệ thống báo động, hệ thống kiểm soát ra vào, và hệ thống quản lý tòa nhà để tạo ra một giải pháp toàn diện.

4.1. Phát Hiện Hành Vi Bất Thường và Cảnh Báo Tức Thời

Một trong những ứng dụng quan trọng của hệ thống giám sát là khả năng phát hiện hành vi bất thường. Deep Learning cho phép hệ thống học hỏi các mẫu hành vi bình thường và phát hiện các hành vi khác biệt. Các hành vi bất thường có thể bao gồm đột nhập, đánh nhau, hoặc té ngã. Khi một hành vi bất thường được phát hiện, hệ thống có thể gửi cảnh báo cho nhân viên an ninh để họ có thể phản ứng kịp thời. Điều này giúp ngăn chặn các sự cố và bảo vệ an toàn cho người dân.

4.2. Đếm Người và Phân Tích Luồng Di Chuyển Đám Đông Hiệu Quả

Trong các khu vực có đông người, như trung tâm thương mại, nhà ga, hoặc sân vận động, việc đếm người và phân tích luồng di chuyển của đám đông là rất quan trọng. Hệ thống giám sát có thể sử dụng Deep Learning để đếm số lượng người trong một khu vực và tạo bản đồ nhiệt để hiển thị mật độ người. Thông tin này có thể được sử dụng để tối ưu hóa luồng di chuyển, giảm thiểu tắc nghẽn, và cải thiện trải nghiệm của người dân. Ví dụ, nếu một khu vực cụ thể quá đông, hệ thống có thể điều hướng người dân đến các khu vực khác để giảm áp lực.

V. Kết Luận Tiềm Năng và Hướng Phát Triển 54 Ký Tự

Hệ thống giám sát người theo thời gian thực bằng camera Fisheye và Deep Learning có nhiều tiềm năng để cải thiện an ninh và quản lý trong các lĩnh vực khác nhau. Mặc dù còn nhiều thách thức cần được giải quyết, sự phát triển của công nghệ Deep Learning và camera Fisheye đang mở ra những cơ hội mới cho việc tạo ra các hệ thống giám sát thông minh và hiệu quả hơn. OUEDRAOGO tin rằng trong tương lai, hệ thống giám sát này sẽ trở nên phổ biến hơn và đóng vai trò quan trọng trong việc bảo vệ an toàn và cải thiện chất lượng cuộc sống của người dân. Việc nghiên cứu và phát triển các thuật toán mới, cải thiện độ chính xác và tốc độ của hệ thống, và đảm bảo quyền riêng tư và bảo mật dữ liệu sẽ là những hướng phát triển quan trọng trong tương lai.

5.1. Xu Hướng Phát Triển của Công Nghệ Giám Sát trong Tương Lai

Công nghệ giám sát đang phát triển nhanh chóng, với nhiều xu hướng mới nổi lên. Một trong những xu hướng quan trọng là sự tích hợp của Deep Learning và AI vào các hệ thống giám sát. Điều này cho phép hệ thống tự động học hỏi và cải thiện khả năng phân tích và nhận diện. Một xu hướng khác là sự phát triển của các camera thông minh, có khả năng xử lý hình ảnh và video ngay tại chỗ, giảm tải cho hệ thống trung tâm. Ngoài ra, việc sử dụng các công nghệ như 5G và IoT để kết nối các thiết bị giám sát cũng đang trở nên phổ biến hơn.

5.2. Nghiên Cứu và Phát Triển Tối Ưu Hiệu Năng và Bảo Mật

Để khai thác tối đa tiềm năng của công nghệ giám sát, cần tiếp tục nghiên cứu và phát triển các thuật toán mới, cải thiện độ chính xác và tốc độ của hệ thống, và đảm bảo quyền riêng tư và bảo mật dữ liệu. Các nghiên cứu có thể tập trung vào việc phát triển các thuật toán Deep Learning hiệu quả hơn, các phương pháp hiệu chỉnh hình ảnh tiên tiến hơn, và các giải pháp bảo mật dữ liệu mạnh mẽ hơn. Ngoài ra, cần có sự hợp tác giữa các nhà nghiên cứu, nhà phát triển, và các nhà hoạch định chính sách để đảm bảo công nghệ giám sát được sử dụng một cách có trách nhiệm và mang lại lợi ích cho xã hội.

18/04/2025

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ trí tuệ nhân tạo và thị giác máy tính, việc theo dõi người trong thời gian thực qua hình ảnh video trở thành một lĩnh vực nghiên cứu quan trọng. Theo ước tính, các hệ thống giám sát và phân tích chuyển động người đóng vai trò thiết yếu trong nhiều ứng dụng như an ninh, thể thao, và y tế. Luận văn này tập trung vào việc phát triển giải pháp theo dõi người sử dụng camera fisheye với góc nhìn từ trên xuống (top-view) dựa trên mô hình học sâu (Deep Learning).

Vấn đề nghiên cứu chính là làm thế nào để phát hiện và theo dõi chính xác người trong các hình ảnh fisheye vốn có đặc điểm biến dạng hình ảnh và góc nhìn rộng, gây khó khăn cho các thuật toán truyền thống. Mục tiêu cụ thể của nghiên cứu là xây dựng một hệ thống phát hiện và theo dõi người hiệu quả, ứng dụng mô hình YOLOv4 kết hợp với thuật toán DeepSORT, đồng thời tạo ra bộ dữ liệu ảnh fisheye top-view được chú thích đầy đủ để huấn luyện và đánh giá mô hình.

Phạm vi nghiên cứu được thực hiện trong năm 2021 tại Viện Francophone International, Đại học Quốc gia Việt Nam, Hà Nội, với dữ liệu thu thập từ các video quay bằng camera fisheye cố định trên giá đỡ. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác và hiệu quả của hệ thống theo dõi người trong môi trường thực tế, góp phần cải thiện các ứng dụng giám sát thông minh và phân tích chuyển động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính trong lĩnh vực học máy và thị giác máy tính:

Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN là mô hình học sâu chuyên dụng cho xử lý ảnh, sử dụng các lớp tích chập để trích xuất đặc trưng không gian từ hình ảnh. Các thành phần chính gồm lớp convolution, hàm kích hoạt ReLU, và lớp pooling giúp giảm kích thước dữ liệu và tăng tính trừu tượng.
Mạng nơ-ron hồi tiếp (Recurrent Neural Network - RNN): RNN được sử dụng để xử lý dữ liệu tuần tự, tận dụng thông tin ngữ cảnh từ các bước thời gian trước đó. Mặc dù không phải là trọng tâm chính trong nghiên cứu này, RNN được đề cập như một phần của nền tảng lý thuyết về mạng nơ-ron.

Ngoài ra, các khái niệm chuyên ngành quan trọng bao gồm:

Bounding box (Bbox): Hộp giới hạn dùng để xác định vị trí đối tượng trong ảnh.
Intersection Over Union (IoU): Thước đo độ chồng lấp giữa các bounding box, dùng để đánh giá độ chính xác phát hiện.
Precision, Recall, F1-Score: Các chỉ số đánh giá hiệu suất mô hình phát hiện.
Camera fisheye: Loại camera có góc nhìn rộng, tạo ra hình ảnh biến dạng đặc trưng, thách thức cho việc phát hiện và theo dõi đối tượng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm 1.757 ảnh fisheye top-view, được tạo ra từ video quay thực tế trên hai loại địa hình chuẩn bị sẵn: một để quan sát theo khoảng cách và một để quan sát theo góc quay bounding box. Dữ liệu được chú thích thủ công để phục vụ huấn luyện mô hình.

Phương pháp phân tích bao gồm:

Sử dụng mô hình phát hiện đối tượng RAPID kết hợp thuật toán tính tâm (centroid) để phân tích kích thước bounding box theo khoảng cách và góc quay.
Huấn luyện mô hình YOLOv4 trên bộ dữ liệu fisheye đã chuẩn bị, với các bước tiền xử lý như chuẩn hóa ảnh (giá trị pixel được chia cho 255) và thay đổi kích thước ảnh về 416x416 pixel.
Áp dụng thuật toán DeepSORT để theo dõi người dựa trên kết quả phát hiện của YOLOv4.

Cỡ mẫu gồm toàn bộ ảnh từ hai bộ dữ liệu, được chọn ngẫu nhiên và chú thích kỹ lưỡng. Phương pháp chọn mẫu đảm bảo tính đại diện cho các góc nhìn và khoảng cách khác nhau. Quá trình nghiên cứu kéo dài trong năm 2021, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Kích thước bounding box gần như không thay đổi theo góc quay: Qua thí nghiệm với các góc 45°, 90° và 135°, kích thước bounding box của người được phát hiện giữ ổn định, chứng tỏ mô hình RAPID có khả năng nhận diện tốt bất chấp sự xoay của đối tượng.
Kích thước bounding box giảm theo khoảng cách: Khi người di chuyển xa khỏi tâm ảnh, kích thước bounding box giảm từ khoảng 80 pixel ở 0m xuống còn khoảng 28 pixel ở 10m, thể hiện mối quan hệ nghịch biến rõ ràng giữa kích thước phát hiện và khoảng cách.
Hiệu suất mô hình YOLOv4 còn hạn chế: Các chỉ số đánh giá cuối cùng gồm Precision 45%, Recall 30%, F1-Score 36%, mAP 26,39% và IoU trung bình 32,75% cho thấy mô hình chưa đạt hiệu quả cao trong việc phát hiện người trên ảnh fisheye top-view.
Theo dõi người bằng DeepSORT gặp khó khăn: Mặc dù mô hình phát hiện có thể nhận dạng người, việc duy trì ID người trong suốt video chưa ổn định, dẫn đến việc một người bị nhận dạng thành nhiều ID khác nhau khi di chuyển qua các vùng ảnh khác nhau.

Thảo luận kết quả

Nguyên nhân chính của các hạn chế trên là do đặc tính biến dạng hình ảnh của camera fisheye, khiến hình dạng người bị méo mó, đặc biệt khi người di chuyển ra vùng rìa ảnh. Việc bounding box không có thông tin góc quay chính xác làm giảm khả năng mô hình học sâu nhận diện chính xác các tư thế người khác nhau.

So sánh với các nghiên cứu trước đây, mô hình RAPID đã chứng minh hiệu quả trong việc phát hiện người với bounding box có góc quay, tuy nhiên việc áp dụng trực tiếp YOLOv4 chưa tối ưu do thiếu dữ liệu huấn luyện đa dạng và chưa có cơ chế xử lý biến dạng đặc thù của ảnh fisheye.

Dữ liệu có thể được trình bày qua biểu đồ đường thể hiện sự giảm kích thước bounding box theo khoảng cách, và bảng so sánh các chỉ số Precision, Recall, F1-Score giữa các mô hình thử nghiệm. Các biểu đồ này giúp minh họa rõ ràng xu hướng và hiệu suất mô hình.

Đề xuất và khuyến nghị

Phát triển hàm tính góc quay bounding box: Tích hợp thông tin góc quay vào bounding box để mô hình có thể học được đặc trưng xoay của người trong ảnh fisheye, từ đó cải thiện độ chính xác phát hiện.
Mở rộng và đa dạng hóa bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu với nhiều tư thế, khoảng cách và điều kiện ánh sáng khác nhau, đặc biệt tập trung vào các vùng méo ảnh để tăng khả năng tổng quát hóa của mô hình.
Sử dụng phần cứng GPU mạnh hơn cho huấn luyện: Thay vì sử dụng Google Colaboratory với giới hạn băng thông và tài nguyên, nên triển khai huấn luyện trên máy tính vật lý có GPU chuyên dụng để tăng tốc độ và chất lượng huấn luyện.
Tối ưu thuật toán theo dõi DeepSORT: Cải tiến thuật toán theo dõi bằng cách kết hợp thêm các đặc trưng nhận dạng người và xử lý biến dạng ảnh để duy trì ID người ổn định trong suốt quá trình theo dõi.

Các giải pháp trên nên được thực hiện trong vòng 12 tháng tới, với sự phối hợp giữa nhóm nghiên cứu và các chuyên gia về thị giác máy tính, nhằm nâng cao hiệu quả hệ thống theo dõi người trong môi trường thực tế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành trí tuệ nhân tạo và thị giác máy tính: Luận văn cung cấp kiến thức về ứng dụng học sâu trong phát hiện và theo dõi người, đặc biệt với dữ liệu fisheye, giúp mở rộng hiểu biết và phát triển các nghiên cứu tiếp theo.
Chuyên gia phát triển hệ thống giám sát an ninh: Các giải pháp và kết quả nghiên cứu có thể ứng dụng để cải thiện hệ thống giám sát video, tăng độ chính xác phát hiện và theo dõi người trong môi trường rộng và phức tạp.
Nhà phát triển phần mềm trong lĩnh vực thể thao và y tế: Hệ thống theo dõi chuyển động người có thể hỗ trợ phân tích hiệu suất vận động và phát hiện nguy cơ chấn thương, giúp nâng cao chất lượng dịch vụ.
Các tổ chức nghiên cứu về robot và drone: Nghiên cứu về theo dõi người bằng camera fisheye gắn trên drone mở ra hướng phát triển công nghệ MOVCAP di động, phục vụ các ứng dụng ngoài trời và trong điều kiện thực tế.

Câu hỏi thường gặp

Camera fisheye có ưu điểm gì trong theo dõi người?
Camera fisheye cung cấp góc nhìn rộng đến 180° hoặc hơn, giúp bao quát khu vực lớn chỉ với một thiết bị, giảm số lượng camera cần thiết. Tuy nhiên, hình ảnh bị biến dạng đòi hỏi thuật toán xử lý đặc biệt.
Tại sao mô hình YOLOv4 chưa đạt hiệu quả cao trên ảnh fisheye?
Do ảnh fisheye có biến dạng hình ảnh đặc trưng, mô hình YOLOv4 truyền thống chưa được huấn luyện đủ dữ liệu đa dạng và chưa xử lý tốt biến dạng này, dẫn đến khả năng nhận diện và phát hiện giảm.
DeepSORT hoạt động như thế nào trong theo dõi người?
DeepSORT kết hợp phát hiện đối tượng với đặc trưng nhận dạng sâu để duy trì ID người qua các khung hình, giúp theo dõi liên tục trong video. Tuy nhiên, biến dạng ảnh và thay đổi tư thế có thể làm giảm hiệu quả.
Làm thế nào để cải thiện độ chính xác phát hiện trong ảnh fisheye?
Cần bổ sung dữ liệu huấn luyện đa dạng, tích hợp thông tin góc quay bounding box, và áp dụng các kỹ thuật tiền xử lý ảnh để giảm biến dạng, từ đó giúp mô hình học sâu nhận diện chính xác hơn.
Ứng dụng thực tế của hệ thống theo dõi này là gì?
Hệ thống có thể dùng trong giám sát an ninh, phân tích chuyển động thể thao, hỗ trợ y tế phục hồi chức năng, và điều khiển drone theo dõi người trong các môi trường rộng lớn hoặc khó tiếp cận.

Kết luận

Luận văn đã xây dựng thành công bộ dữ liệu ảnh fisheye top-view được chú thích phục vụ huấn luyện mô hình phát hiện người.
Thí nghiệm với mô hình RAPID và thuật toán centroid cho thấy khả năng phát hiện người ổn định theo góc quay và khoảng cách.
Mô hình YOLOv4 kết hợp DeepSORT cho kết quả phát hiện và theo dõi người còn hạn chế, cần cải tiến thêm.
Các hạn chế chủ yếu do biến dạng ảnh fisheye và thiếu dữ liệu huấn luyện đa dạng.
Đề xuất các hướng phát triển tiếp theo bao gồm tích hợp góc quay bounding box, mở rộng dữ liệu, và nâng cấp phần cứng huấn luyện.

Tiếp theo, nhóm nghiên cứu sẽ tập trung vào cải tiến mô hình phát hiện với bounding box có góc quay, đồng thời mở rộng bộ dữ liệu và tối ưu thuật toán theo dõi. Mời các nhà nghiên cứu và chuyên gia quan tâm liên hệ để hợp tác phát triển và ứng dụng công nghệ này trong thực tế.

Tài liệu "Giám sát người theo thời gian thực bằng camera Fisheye và Deep Learning" trình bày một phương pháp tiên tiến trong việc giám sát và theo dõi người sử dụng công nghệ camera Fisheye kết hợp với học sâu (Deep Learning). Bài viết nhấn mạnh những lợi ích của việc sử dụng camera Fisheye, như khả năng quan sát rộng và chi tiết, giúp nâng cao hiệu quả trong việc giám sát an ninh. Hơn nữa, việc áp dụng các thuật toán học sâu cho phép hệ thống nhận diện và phân tích hành vi của người dùng một cách chính xác, từ đó hỗ trợ trong việc phát hiện các tình huống bất thường.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Thiết kế hệ thống giám sát thông minh dành cho người cao tuổi và trẻ em, nơi cung cấp cái nhìn sâu sắc về việc áp dụng công nghệ giám sát cho các đối tượng nhạy cảm, giúp nâng cao an toàn và bảo vệ cho những người dễ bị tổn thương. Tài liệu này sẽ giúp bạn hiểu rõ hơn về cách thức thiết kế và triển khai các hệ thống giám sát thông minh, từ đó mở rộng kiến thức và ứng dụng trong thực tiễn.

#phân tích hình ảnh

#an ninh và giám sát

#công nghệ camera thông minh

#giám sát thời gian thực

#Deep Learning trong giám sát

#hệ thống giám sát tự động

Chủ đề

Công nghệ giám sát hiện đại

Ứng dụng Deep Learning trong an ninh

Camera Fisheye và lợi ích

Phân tích dữ liệu hình ảnh trong giám sát