Tổng quan nghiên cứu
Trong bối cảnh phát triển nhanh chóng của công nghệ trí tuệ nhân tạo và thị giác máy tính, việc theo dõi người trong thời gian thực qua hình ảnh video trở thành một lĩnh vực nghiên cứu quan trọng. Theo ước tính, các hệ thống giám sát và phân tích chuyển động người đóng vai trò thiết yếu trong nhiều ứng dụng như an ninh, thể thao, và y tế. Luận văn này tập trung vào việc phát triển giải pháp theo dõi người sử dụng camera fisheye với góc nhìn từ trên xuống (top-view) dựa trên mô hình học sâu (Deep Learning).
Vấn đề nghiên cứu chính là làm thế nào để phát hiện và theo dõi chính xác người trong các hình ảnh fisheye vốn có đặc điểm biến dạng hình ảnh và góc nhìn rộng, gây khó khăn cho các thuật toán truyền thống. Mục tiêu cụ thể của nghiên cứu là xây dựng một hệ thống phát hiện và theo dõi người hiệu quả, ứng dụng mô hình YOLOv4 kết hợp với thuật toán DeepSORT, đồng thời tạo ra bộ dữ liệu ảnh fisheye top-view được chú thích đầy đủ để huấn luyện và đánh giá mô hình.
Phạm vi nghiên cứu được thực hiện trong năm 2021 tại Viện Francophone International, Đại học Quốc gia Việt Nam, Hà Nội, với dữ liệu thu thập từ các video quay bằng camera fisheye cố định trên giá đỡ. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác và hiệu quả của hệ thống theo dõi người trong môi trường thực tế, góp phần cải thiện các ứng dụng giám sát thông minh và phân tích chuyển động.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính trong lĩnh vực học máy và thị giác máy tính:
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN là mô hình học sâu chuyên dụng cho xử lý ảnh, sử dụng các lớp tích chập để trích xuất đặc trưng không gian từ hình ảnh. Các thành phần chính gồm lớp convolution, hàm kích hoạt ReLU, và lớp pooling giúp giảm kích thước dữ liệu và tăng tính trừu tượng.
Mạng nơ-ron hồi tiếp (Recurrent Neural Network - RNN): RNN được sử dụng để xử lý dữ liệu tuần tự, tận dụng thông tin ngữ cảnh từ các bước thời gian trước đó. Mặc dù không phải là trọng tâm chính trong nghiên cứu này, RNN được đề cập như một phần của nền tảng lý thuyết về mạng nơ-ron.
Ngoài ra, các khái niệm chuyên ngành quan trọng bao gồm:
Bounding box (Bbox): Hộp giới hạn dùng để xác định vị trí đối tượng trong ảnh.
Intersection Over Union (IoU): Thước đo độ chồng lấp giữa các bounding box, dùng để đánh giá độ chính xác phát hiện.
Precision, Recall, F1-Score: Các chỉ số đánh giá hiệu suất mô hình phát hiện.
Camera fisheye: Loại camera có góc nhìn rộng, tạo ra hình ảnh biến dạng đặc trưng, thách thức cho việc phát hiện và theo dõi đối tượng.
Phương pháp nghiên cứu
Nguồn dữ liệu chính gồm 1.757 ảnh fisheye top-view, được tạo ra từ video quay thực tế trên hai loại địa hình chuẩn bị sẵn: một để quan sát theo khoảng cách và một để quan sát theo góc quay bounding box. Dữ liệu được chú thích thủ công để phục vụ huấn luyện mô hình.
Phương pháp phân tích bao gồm:
Sử dụng mô hình phát hiện đối tượng RAPID kết hợp thuật toán tính tâm (centroid) để phân tích kích thước bounding box theo khoảng cách và góc quay.
Huấn luyện mô hình YOLOv4 trên bộ dữ liệu fisheye đã chuẩn bị, với các bước tiền xử lý như chuẩn hóa ảnh (giá trị pixel được chia cho 255) và thay đổi kích thước ảnh về 416x416 pixel.
Áp dụng thuật toán DeepSORT để theo dõi người dựa trên kết quả phát hiện của YOLOv4.
Cỡ mẫu gồm toàn bộ ảnh từ hai bộ dữ liệu, được chọn ngẫu nhiên và chú thích kỹ lưỡng. Phương pháp chọn mẫu đảm bảo tính đại diện cho các góc nhìn và khoảng cách khác nhau. Quá trình nghiên cứu kéo dài trong năm 2021, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Kích thước bounding box gần như không thay đổi theo góc quay: Qua thí nghiệm với các góc 45°, 90° và 135°, kích thước bounding box của người được phát hiện giữ ổn định, chứng tỏ mô hình RAPID có khả năng nhận diện tốt bất chấp sự xoay của đối tượng.
Kích thước bounding box giảm theo khoảng cách: Khi người di chuyển xa khỏi tâm ảnh, kích thước bounding box giảm từ khoảng 80 pixel ở 0m xuống còn khoảng 28 pixel ở 10m, thể hiện mối quan hệ nghịch biến rõ ràng giữa kích thước phát hiện và khoảng cách.
Hiệu suất mô hình YOLOv4 còn hạn chế: Các chỉ số đánh giá cuối cùng gồm Precision 45%, Recall 30%, F1-Score 36%, mAP 26,39% và IoU trung bình 32,75% cho thấy mô hình chưa đạt hiệu quả cao trong việc phát hiện người trên ảnh fisheye top-view.
Theo dõi người bằng DeepSORT gặp khó khăn: Mặc dù mô hình phát hiện có thể nhận dạng người, việc duy trì ID người trong suốt video chưa ổn định, dẫn đến việc một người bị nhận dạng thành nhiều ID khác nhau khi di chuyển qua các vùng ảnh khác nhau.
Thảo luận kết quả
Nguyên nhân chính của các hạn chế trên là do đặc tính biến dạng hình ảnh của camera fisheye, khiến hình dạng người bị méo mó, đặc biệt khi người di chuyển ra vùng rìa ảnh. Việc bounding box không có thông tin góc quay chính xác làm giảm khả năng mô hình học sâu nhận diện chính xác các tư thế người khác nhau.
So sánh với các nghiên cứu trước đây, mô hình RAPID đã chứng minh hiệu quả trong việc phát hiện người với bounding box có góc quay, tuy nhiên việc áp dụng trực tiếp YOLOv4 chưa tối ưu do thiếu dữ liệu huấn luyện đa dạng và chưa có cơ chế xử lý biến dạng đặc thù của ảnh fisheye.
Dữ liệu có thể được trình bày qua biểu đồ đường thể hiện sự giảm kích thước bounding box theo khoảng cách, và bảng so sánh các chỉ số Precision, Recall, F1-Score giữa các mô hình thử nghiệm. Các biểu đồ này giúp minh họa rõ ràng xu hướng và hiệu suất mô hình.
Đề xuất và khuyến nghị
Phát triển hàm tính góc quay bounding box: Tích hợp thông tin góc quay vào bounding box để mô hình có thể học được đặc trưng xoay của người trong ảnh fisheye, từ đó cải thiện độ chính xác phát hiện.
Mở rộng và đa dạng hóa bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu với nhiều tư thế, khoảng cách và điều kiện ánh sáng khác nhau, đặc biệt tập trung vào các vùng méo ảnh để tăng khả năng tổng quát hóa của mô hình.
Sử dụng phần cứng GPU mạnh hơn cho huấn luyện: Thay vì sử dụng Google Colaboratory với giới hạn băng thông và tài nguyên, nên triển khai huấn luyện trên máy tính vật lý có GPU chuyên dụng để tăng tốc độ và chất lượng huấn luyện.
Tối ưu thuật toán theo dõi DeepSORT: Cải tiến thuật toán theo dõi bằng cách kết hợp thêm các đặc trưng nhận dạng người và xử lý biến dạng ảnh để duy trì ID người ổn định trong suốt quá trình theo dõi.
Các giải pháp trên nên được thực hiện trong vòng 12 tháng tới, với sự phối hợp giữa nhóm nghiên cứu và các chuyên gia về thị giác máy tính, nhằm nâng cao hiệu quả hệ thống theo dõi người trong môi trường thực tế.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành trí tuệ nhân tạo và thị giác máy tính: Luận văn cung cấp kiến thức về ứng dụng học sâu trong phát hiện và theo dõi người, đặc biệt với dữ liệu fisheye, giúp mở rộng hiểu biết và phát triển các nghiên cứu tiếp theo.
Chuyên gia phát triển hệ thống giám sát an ninh: Các giải pháp và kết quả nghiên cứu có thể ứng dụng để cải thiện hệ thống giám sát video, tăng độ chính xác phát hiện và theo dõi người trong môi trường rộng và phức tạp.
Nhà phát triển phần mềm trong lĩnh vực thể thao và y tế: Hệ thống theo dõi chuyển động người có thể hỗ trợ phân tích hiệu suất vận động và phát hiện nguy cơ chấn thương, giúp nâng cao chất lượng dịch vụ.
Các tổ chức nghiên cứu về robot và drone: Nghiên cứu về theo dõi người bằng camera fisheye gắn trên drone mở ra hướng phát triển công nghệ MOVCAP di động, phục vụ các ứng dụng ngoài trời và trong điều kiện thực tế.
Câu hỏi thường gặp
Camera fisheye có ưu điểm gì trong theo dõi người?
Camera fisheye cung cấp góc nhìn rộng đến 180° hoặc hơn, giúp bao quát khu vực lớn chỉ với một thiết bị, giảm số lượng camera cần thiết. Tuy nhiên, hình ảnh bị biến dạng đòi hỏi thuật toán xử lý đặc biệt.Tại sao mô hình YOLOv4 chưa đạt hiệu quả cao trên ảnh fisheye?
Do ảnh fisheye có biến dạng hình ảnh đặc trưng, mô hình YOLOv4 truyền thống chưa được huấn luyện đủ dữ liệu đa dạng và chưa xử lý tốt biến dạng này, dẫn đến khả năng nhận diện và phát hiện giảm.DeepSORT hoạt động như thế nào trong theo dõi người?
DeepSORT kết hợp phát hiện đối tượng với đặc trưng nhận dạng sâu để duy trì ID người qua các khung hình, giúp theo dõi liên tục trong video. Tuy nhiên, biến dạng ảnh và thay đổi tư thế có thể làm giảm hiệu quả.Làm thế nào để cải thiện độ chính xác phát hiện trong ảnh fisheye?
Cần bổ sung dữ liệu huấn luyện đa dạng, tích hợp thông tin góc quay bounding box, và áp dụng các kỹ thuật tiền xử lý ảnh để giảm biến dạng, từ đó giúp mô hình học sâu nhận diện chính xác hơn.Ứng dụng thực tế của hệ thống theo dõi này là gì?
Hệ thống có thể dùng trong giám sát an ninh, phân tích chuyển động thể thao, hỗ trợ y tế phục hồi chức năng, và điều khiển drone theo dõi người trong các môi trường rộng lớn hoặc khó tiếp cận.
Kết luận
- Luận văn đã xây dựng thành công bộ dữ liệu ảnh fisheye top-view được chú thích phục vụ huấn luyện mô hình phát hiện người.
- Thí nghiệm với mô hình RAPID và thuật toán centroid cho thấy khả năng phát hiện người ổn định theo góc quay và khoảng cách.
- Mô hình YOLOv4 kết hợp DeepSORT cho kết quả phát hiện và theo dõi người còn hạn chế, cần cải tiến thêm.
- Các hạn chế chủ yếu do biến dạng ảnh fisheye và thiếu dữ liệu huấn luyện đa dạng.
- Đề xuất các hướng phát triển tiếp theo bao gồm tích hợp góc quay bounding box, mở rộng dữ liệu, và nâng cấp phần cứng huấn luyện.
Tiếp theo, nhóm nghiên cứu sẽ tập trung vào cải tiến mô hình phát hiện với bounding box có góc quay, đồng thời mở rộng bộ dữ liệu và tối ưu thuật toán theo dõi. Mời các nhà nghiên cứu và chuyên gia quan tâm liên hệ để hợp tác phát triển và ứng dụng công nghệ này trong thực tế.