Tổng quan nghiên cứu

Phát hiện đối tượng thời gian thực là một ứng dụng quan trọng trong lĩnh vực thị giác máy tính, được ứng dụng rộng rãi trong giám sát an ninh, giao thông, quốc phòng và nhiều lĩnh vực khác. Theo báo cáo của ngành, các hệ thống phát hiện đối tượng thời gian thực thường phải xử lý hàng chục khung hình mỗi giây (FPS) với độ trễ thấp, đồng thời đảm bảo độ chính xác cao. Tuy nhiên, việc cân bằng giữa tốc độ xử lý, độ chính xác và giới hạn tài nguyên phần cứng, đặc biệt trên các thiết bị nhúng có cấu hình hạn chế, là một thách thức lớn. Mục tiêu nghiên cứu của luận văn là phát triển một hệ thống phát hiện đối tượng thời gian thực sử dụng các thuật toán nhẹ, phù hợp triển khai trên nền tảng FPGA, nhằm tối ưu hóa hiệu suất và tiết kiệm năng lượng.

Phạm vi nghiên cứu tập trung vào phát hiện người trong video từ camera cố định, sử dụng dữ liệu thử nghiệm từ bộ dữ liệu MOT15 với các video có độ phân giải từ 640x480 đến 1300x982 pixel, tốc độ khung hình từ 7 đến 25 FPS. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp một giải pháp phát hiện đối tượng hiệu quả, có khả năng xử lý đa quy mô và song song, giúp giảm thiểu tính toán không cần thiết thông qua kỹ thuật ước lượng Zipfian và thuật toán HOG-SVM tối ưu. Kết quả thử nghiệm cho thấy hệ thống đạt tốc độ xử lý từ 15 đến 24 FPS, tuy nhiên độ chính xác (mAP) còn hạn chế dưới 10%, phản ánh sự đánh đổi giữa hiệu suất và độ chính xác khi sử dụng các phương pháp truyền thống không dựa trên mạng nơ-ron sâu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

  1. Kỹ thuật ước lượng Zipfian: Đây là phương pháp phát hiện chuyển động dựa trên trừ nền, tận dụng đặc điểm camera cố định để chỉ xử lý các vùng có chuyển động, giảm thiểu số lượng cửa sổ trượt cần tính toán. Thuật toán này dựa trên biến thể của thuật toán Sigma-Delta, sử dụng ngưỡng động và cập nhật nền theo thời gian nhằm phát hiện hiệu quả các vùng chuyển động trong khung hình.

  2. Thuật toán HOG-SVM (Histogram of Oriented Gradients - Support Vector Machine): HOG là phương pháp trích xuất đặc trưng biên độ và hướng gradient của ảnh, được chia thành các ô nhỏ 8x8 pixel, sau đó tạo thành các histogram hướng gradient. SVM được sử dụng để phân loại dựa trên đặc trưng HOG, xác định vùng chứa đối tượng (ở đây là người). Luận văn áp dụng các kỹ thuật tối ưu hóa gradient và song song hóa tính toán HOG-SVM để tăng tốc độ xử lý.

Các khái niệm chính bao gồm: trừ nền (background subtraction), ước lượng Zipfian, đặc trưng HOG, phân loại SVM, xử lý đa quy mô (multi-scale), xử lý song song (parallel processing), và thuật toán loại bỏ trùng lặp không cực đại (Non-Maximum Suppression - NMS).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các video từ bộ dữ liệu MOT15, bao gồm các cảnh quay thực tế với nhiều người di chuyển trong môi trường phức tạp. Phương pháp nghiên cứu bao gồm:

  • Tiền xử lý: Chuyển đổi ảnh RGB sang ảnh xám, áp dụng kỹ thuật ước lượng Zipfian để phát hiện vùng chuyển động, giảm không gian tìm kiếm.

  • Xử lý chính: Áp dụng thuật toán HOG-SVM trên các vùng chuyển động đã được xác định, sử dụng mô-đun tạo tỷ lệ ảnh song song (Bilinear Interpolation Scale Generator) và 6 mô-đun HOG-SVM chạy đa luồng để xử lý đa quy mô.

  • Hậu xử lý: Kết hợp các kết quả phát hiện từ các mô-đun, áp dụng thuật toán NMS để loại bỏ các vùng chồng lấn, tạo ra các hộp giới hạn cuối cùng.

Phân tích kết quả dựa trên các chỉ số mAP (Mean Average Precision) và tốc độ xử lý (FPS). Cỡ mẫu thử nghiệm gồm nhiều video với độ phân giải và tốc độ khung hình khác nhau, được xử lý trên máy tính với CPU Intel® Core™ i5-1035G4, RAM 8GB, sử dụng ngôn ngữ C++ và thư viện OpenCV.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Tốc độ xử lý: Hệ thống đạt tốc độ xử lý từ 12 đến 24 FPS trên các bộ dữ liệu thử nghiệm, cụ thể:

    • PETS09-S2L1: 18 FPS với độ phân giải 768x578.
    • TUD-Stadtmitte: 24 FPS với độ phân giải 640x480.
    • TUD-Campus: 12 FPS với độ phân giải 640x480.
  2. Độ chính xác phát hiện: Độ chính xác trung bình (precision) dao động từ 23% đến 55%, recall từ 17% đến 21%, và mAP thấp, chỉ từ 3.1% đến 7.2%, phản ánh hiệu quả hạn chế của thuật toán HOG-SVM trong môi trường phức tạp.

  3. Ảnh hưởng của môi trường: Các yếu tố như nhóm người di chuyển, phản chiếu trong gương, bóng đổ và màu sắc tương đồng với nền làm giảm hiệu quả phát hiện, gây ra nhiều trường hợp bỏ sót hoặc phát hiện sai.

  4. Tối ưu hóa tính toán: Việc sử dụng kỹ thuật ước lượng Zipfian giúp giảm số lượng cửa sổ trượt từ hơn 77.000 xuống còn khoảng 556, tương đương giảm hơn 99% số phép tính cần thiết, góp phần tăng tốc độ xử lý.

Thảo luận kết quả

Nguyên nhân chính dẫn đến độ chính xác thấp là do thuật toán HOG-SVM, mặc dù nhẹ và phù hợp với phần cứng nhúng, không đủ mạnh để xử lý các tình huống phức tạp như che khuất, nhiều đối tượng chồng lấn, và biến đổi ánh sáng. Việc sử dụng các giá trị lượng tử hóa để tối ưu tốc độ cũng làm giảm độ chính xác. So sánh với các nghiên cứu sử dụng mạng nơ-ron sâu như YOLOv7 hay Tinier-YOLO, hệ thống này có tốc độ thấp hơn và độ chính xác kém hơn nhưng lại tiết kiệm tài nguyên phần cứng hơn nhiều.

Dữ liệu có thể được trình bày qua biểu đồ thể hiện mAP, precision và recall theo từng khung hình, giúp minh họa sự biến động hiệu suất trong quá trình xử lý video. Bảng so sánh tốc độ và độ chính xác giữa các bộ dữ liệu cũng làm rõ sự khác biệt về hiệu quả của hệ thống trong các môi trường khác nhau.

Kết quả cho thấy hệ thống có tiềm năng ứng dụng trong các thiết bị nhúng với yêu cầu tốc độ xử lý cao và tài nguyên hạn chế, nhưng cần cải tiến để nâng cao độ chính xác, ví dụ bằng cách kết hợp thuật toán theo dõi đối tượng (tracking) để giảm số lần chạy HOG-SVM hoặc cải thiện bộ dữ liệu huấn luyện SVM.

Đề xuất và khuyến nghị

  1. Cải tiến bộ phân loại SVM: Thu thập và lựa chọn bộ trọng số SVM phù hợp hơn với các góc nhìn và điều kiện ánh sáng đa dạng, nhằm nâng cao độ chính xác phát hiện. Thời gian thực hiện: 6-12 tháng; Chủ thể: nhóm nghiên cứu và kỹ sư phát triển.

  2. Điều chỉnh ngưỡng và tham số thuật toán: Tinh chỉnh các ngưỡng trong các bước Zipfian Estimation, HOG-SVM và NMS thông qua thử nghiệm trên nhiều bộ dữ liệu tương tự để tối ưu hiệu suất. Thời gian: 3-6 tháng; Chủ thể: nhóm nghiên cứu.

  3. Kết hợp thuật toán theo dõi đối tượng (tracking): Áp dụng thuật toán theo dõi để duy trì nhận dạng đối tượng qua các khung hình, giảm số lần tính toán HOG-SVM, tăng độ ổn định và chính xác. Thời gian: 6 tháng; Chủ thể: nhóm phát triển phần mềm.

  4. Triển khai và tối ưu trên FPGA: Đưa hệ thống lên nền tảng FPGA của Xilinx, tận dụng khả năng xử lý song song và tối ưu năng lượng, đồng thời sử dụng các công cụ như HLS hoặc HDL để đóng gói mô-đun. Thời gian: 12-18 tháng; Chủ thể: kỹ sư phần cứng và nhóm nghiên cứu.

  5. Mở rộng thử nghiệm và đánh giá: Thực hiện các thử nghiệm trên nhiều bộ dữ liệu thực tế khác nhau, bao gồm các môi trường có điều kiện ánh sáng và phức tạp khác nhau để đánh giá toàn diện hiệu quả hệ thống. Thời gian: liên tục; Chủ thể: nhóm nghiên cứu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành kỹ thuật truyền thông và dữ liệu: Có thể áp dụng kiến thức về thuật toán phát hiện đối tượng thời gian thực, kỹ thuật tối ưu hóa trên FPGA và các phương pháp xử lý ảnh.

  2. Kỹ sư phát triển hệ thống nhúng và FPGA: Tham khảo để thiết kế và triển khai các hệ thống phát hiện đối tượng hiệu quả, tiết kiệm năng lượng trên phần cứng nhúng.

  3. Chuyên gia trong lĩnh vực giám sát an ninh và giao thông thông minh: Áp dụng giải pháp phát hiện người thời gian thực cho các hệ thống camera cố định, nâng cao hiệu quả giám sát.

  4. Nhà phát triển phần mềm ứng dụng thị giác máy tính: Tận dụng các thuật toán nhẹ, song song hóa và kỹ thuật tiền xử lý để phát triển các ứng dụng nhận dạng đối tượng trên thiết bị có tài nguyên hạn chế.

Câu hỏi thường gặp

  1. Hệ thống này có thể áp dụng cho các loại đối tượng khác ngoài người không?
    Hệ thống được thiết kế chủ yếu để phát hiện người dựa trên đặc trưng HOG-SVM. Tuy nhiên, với việc huấn luyện lại bộ phân loại SVM và điều chỉnh tham số, có thể mở rộng để phát hiện các đối tượng khác có đặc trưng rõ ràng.

  2. Tại sao độ chính xác (mAP) của hệ thống còn thấp?
    Nguyên nhân chính là do thuật toán HOG-SVM truyền thống có giới hạn trong việc xử lý các tình huống phức tạp như che khuất, nhiều đối tượng chồng lấn, và biến đổi ánh sáng. Ngoài ra, việc tối ưu hóa tốc độ bằng lượng tử hóa cũng làm giảm độ chính xác.

  3. Lợi ích của việc sử dụng kỹ thuật ước lượng Zipfian là gì?
    Kỹ thuật này giúp phát hiện vùng chuyển động trong khung hình, từ đó giảm đáng kể số lượng cửa sổ trượt cần xử lý, tiết kiệm tài nguyên tính toán và tăng tốc độ xử lý tổng thể.

  4. Hệ thống có thể chạy trên các thiết bị nhúng nào?
    Hệ thống được thiết kế để triển khai trên FPGA, đặc biệt là các dòng FPGA của Xilinx, nhờ khả năng xử lý song song và tối ưu năng lượng. Ngoài ra, có thể chạy thử nghiệm trên các máy tính có cấu hình trung bình.

  5. Có thể cải thiện hiệu suất hệ thống bằng cách nào?
    Ngoài việc cải tiến bộ phân loại và điều chỉnh tham số, việc kết hợp thuật toán theo dõi đối tượng để giảm số lần chạy HOG-SVM, cũng như triển khai phần cứng chuyên dụng trên FPGA sẽ giúp nâng cao hiệu suất và độ chính xác.

Kết luận

  • Luận văn đã đề xuất một hệ thống phát hiện đối tượng thời gian thực sử dụng thuật toán nhẹ Zipfian Estimation kết hợp HOG-SVM, phù hợp với các thiết bị nhúng có tài nguyên hạn chế.
  • Hệ thống đạt tốc độ xử lý từ 15 đến 24 FPS trên các bộ dữ liệu thử nghiệm, chứng minh tính khả thi về mặt hiệu suất.
  • Độ chính xác phát hiện còn hạn chế với mAP dưới 10%, phản ánh sự đánh đổi giữa tốc độ và độ chính xác khi sử dụng phương pháp truyền thống.
  • Các đề xuất cải tiến bao gồm tối ưu bộ phân loại SVM, điều chỉnh tham số, kết hợp thuật toán theo dõi và triển khai trên FPGA để nâng cao hiệu quả.
  • Đây là bước đầu tiên quan trọng để phát triển các hệ thống phân tích video thời gian thực hiệu quả, mở ra hướng nghiên cứu và ứng dụng trong tương lai.

Để tiếp tục phát triển, nhóm nghiên cứu khuyến nghị triển khai các cải tiến kỹ thuật, mở rộng thử nghiệm và tiến hành triển khai phần cứng nhằm đưa hệ thống vào ứng dụng thực tế.