Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ và nhu cầu quản lý giao thông ngày càng cao, hệ thống giám sát giao thông bằng video trở thành công cụ quan trọng để đảm bảo an toàn đường bộ. Theo báo cáo của ngành, tỷ lệ tai nạn giao thông tăng đáng kể hàng năm, đặt ra yêu cầu cấp thiết về việc thu thập thông tin giao thông chính xác và kịp thời. Nghiên cứu này tập trung vào phát triển hệ thống phát hiện phương tiện giao thông trong video giám sát, nhằm hỗ trợ các hệ thống giao thông thông minh và lái xe tự động.

Mục tiêu chính của luận văn là xây dựng hệ thống phát hiện phương tiện nhẹ, hoạt động theo thời gian thực, sử dụng các thuật toán thị giác máy tính trên dữ liệu video từ camera giám sát. Hệ thống này bao gồm các chức năng phát hiện phương tiện, phân loại loại phương tiện và đếm số lượng phương tiện. Phạm vi nghiên cứu tập trung vào các video giám sát tại Việt Nam, trong điều kiện thời tiết và ánh sáng đa dạng, từ trời nắng đến các điều kiện khắc nghiệt như mưa, sương mù, bão tuyết.

Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp dữ liệu giao thông chính xác, hỗ trợ phân tích ùn tắc, phát hiện tai nạn và quản lý giao thông hiệu quả. Hệ thống được kỳ vọng đạt tốc độ xử lý tối thiểu 24 khung hình/giây, tương đương tiêu chuẩn công nghiệp, đảm bảo khả năng ứng dụng thực tế trong các thành phố lớn như TP. Hồ Chí Minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực phát hiện đối tượng và thị giác máy tính, bao gồm:

  • Thuật toán phát hiện đối tượng hai giai đoạn (Two-stage detection): Điển hình là Faster R-CNN, sử dụng mạng đề xuất vùng (RPN) để tạo các vùng đề xuất, sau đó phân loại và tinh chỉnh vị trí đối tượng. Ưu điểm là độ chính xác cao nhưng tốc độ xử lý chậm, không phù hợp thời gian thực.

  • Thuật toán phát hiện đối tượng một giai đoạn (One-stage detection): Đại diện là YOLOv7, thực hiện phát hiện và phân loại trực tiếp trên toàn bộ ảnh đầu vào trong một bước duy nhất. Ưu điểm là tốc độ nhanh, phù hợp ứng dụng thời gian thực, mặc dù độ chính xác có thể thấp hơn một chút so với hai giai đoạn.

Các khái niệm chính bao gồm:

  • Mean Average Precision (mAP): Chỉ số đánh giá độ chính xác trung bình của mô hình phát hiện đối tượng, tính trên nhiều ngưỡng Intersection over Union (IoU).

  • Frames Per Second (FPS): Tốc độ xử lý ảnh của mô hình, thể hiện số khung hình xử lý được trong một giây.

  • Region of Interest (RoI) Pooling: Kỹ thuật trích xuất đặc trưng cố định kích thước từ các vùng đề xuất trong Faster R-CNN.

  • E-ELAN Block: Thành phần kiến trúc nâng cao trong YOLOv7 giúp tăng hiệu quả học và tốc độ xử lý.

Phương pháp nghiên cứu

Nguồn dữ liệu chính sử dụng trong nghiên cứu là:

  • DAWN dataset: Bộ dữ liệu hình ảnh trong điều kiện thời tiết khắc nghiệt gồm mưa, tuyết, bão cát và sương mù, với tổng số khoảng 1.027 ảnh, hỗ trợ đánh giá khả năng phát hiện phương tiện trong môi trường thực tế khó khăn.

  • Dữ liệu video giám sát thực tế tại Việt Nam: Thu thập từ các camera CCTV trên đường cao tốc và các tuyến phố, được gán nhãn thủ công để kiểm thử mô hình.

Phương pháp phân tích bao gồm:

  • Huấn luyện và đánh giá các mô hình YOLOv7 và Faster R-CNN trên bộ dữ liệu DAWN, sử dụng các chỉ số mAP50, mAP50-95 và thời gian suy luận trung bình.

  • Thử nghiệm trên video độ phân giải cao (3840x2160) để đánh giá khả năng phát hiện trong các tình huống thực tế, bao gồm đường thẳng, đường cong và góc quay thấp.

  • So sánh hiệu năng giữa các phiên bản YOLOv7 (nhẹ, trung bình và nặng) và Faster R-CNN về độ chính xác và tốc độ xử lý.

Quá trình nghiên cứu kéo dài trong khoảng thời gian từ đầu năm 2022 đến cuối năm 2022, với việc thu thập dữ liệu, huấn luyện mô hình và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu năng phát hiện trên bộ dữ liệu DAWN:

    • YOLOv7 đạt mAP50 khoảng 70.1% với ảnh đầu vào kích thước 640x640, trong khi phiên bản YOLOv7-W6 (kích thước 1280x1280) đạt mAP50 là 71.2%, cải thiện nhẹ 1.1%.

    • Faster R-CNN đạt mAP50 khoảng 68.3%, thấp hơn so với YOLOv7-W6 nhưng có độ chính xác tương đương YOLOv7 bản nhẹ.

    • Thời gian suy luận trung bình của YOLOv7 nhanh hơn gần 3 lần so với Faster R-CNN, phù hợp với yêu cầu xử lý thời gian thực.

  2. Ảnh hưởng của điều kiện thời tiết:

    • Mưa gây ảnh hưởng lớn nhất đến độ chính xác, làm giảm mAP khoảng 9.2% đối với YOLOv7 và 10% đối với YOLOv7-W6 so với điều kiện bình thường.

    • Các điều kiện như sương mù, tuyết và bão cát cũng làm giảm hiệu năng nhưng mức độ nhẹ hơn.

  3. Khả năng phát hiện trong video giám sát thực tế:

    • Hệ thống phát hiện chính xác các phương tiện trên đường thẳng và góc quay thấp với độ tin cậy cao.

    • Hiệu năng giảm khi phương tiện bị che khuất quá 50% hoặc ở các đoạn đường cong xa camera, do giới hạn góc nhìn và kích thước vật thể nhỏ.

  4. So sánh giữa các phiên bản YOLOv7:

    • Phiên bản nặng nhất (YOLOv7-E6E) có độ chính xác cao hơn đáng kể trong điều kiện thời tiết cực đoan, phát hiện được nhiều phương tiện bị che khuất hoặc mờ nhòe.

    • Tuy nhiên, tốc độ xử lý của phiên bản này thấp hơn, không phù hợp cho ứng dụng thời gian thực trên phần cứng phổ thông.

Thảo luận kết quả

Kết quả cho thấy YOLOv7 là lựa chọn tối ưu cho hệ thống phát hiện phương tiện trong video giám sát nhờ sự cân bằng giữa độ chính xác và tốc độ xử lý. Việc sử dụng bộ dữ liệu DAWN giúp đánh giá thực tế khả năng hoạt động trong điều kiện thời tiết khắc nghiệt, một thách thức lớn đối với các hệ thống thị giác máy tính.

So với các nghiên cứu trước đây, kết quả của luận văn phù hợp với xu hướng phát triển các mô hình một giai đoạn nhằm đáp ứng yêu cầu thời gian thực trong giao thông thông minh. Việc giảm hiệu năng trong điều kiện mưa và che khuất phương tiện phản ánh giới hạn của dữ liệu đầu vào và kiến trúc mô hình, đồng thời mở ra hướng nghiên cứu cải tiến thuật toán và thu thập dữ liệu phong phú hơn.

Dữ liệu có thể được trình bày qua biểu đồ so sánh mAP và FPS giữa các mô hình, cũng như bảng thống kê hiệu năng theo từng điều kiện thời tiết, giúp minh họa rõ ràng sự khác biệt và ưu nhược điểm của từng phương pháp.

Đề xuất và khuyến nghị

  1. Tăng cường thu thập và đa dạng hóa dữ liệu: Lắp đặt thêm camera giám sát trên nhiều tuyến đường tại TP. Hồ Chí Minh và các thành phố lớn để thu thập dữ liệu phong phú về các điều kiện giao thông và thời tiết, phục vụ huấn luyện và cải tiến mô hình.

  2. Tối ưu hóa mô hình YOLOv7: Áp dụng các kỹ thuật như pruning (cắt tỉa mô hình), tối ưu cấu trúc backbone và tích hợp các thuật toán bổ trợ để nâng cao tốc độ xử lý và độ chính xác, đặc biệt trong điều kiện ánh sáng yếu và che khuất.

  3. Phát triển hệ thống phân tán dựa trên điện toán đám mây: Xây dựng nền tảng xử lý phân tán giúp chia sẻ tải tính toán, tăng khả năng mở rộng và hỗ trợ xử lý thời gian thực cho nhiều camera cùng lúc.

  4. Mở rộng chức năng hệ thống: Bổ sung các tính năng như phát hiện vi phạm giao thông (vượt đèn đỏ, chạy quá tốc độ), phân tích ùn tắc và cảnh báo tai nạn dựa trên dữ liệu phát hiện phương tiện, góp phần nâng cao hiệu quả quản lý giao thông.

Các giải pháp trên nên được triển khai theo lộ trình 1-3 năm, với sự phối hợp giữa các cơ quan quản lý giao thông, các viện nghiên cứu và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác Máy tính: Luận văn cung cấp kiến thức chuyên sâu về các thuật toán phát hiện đối tượng hiện đại, phương pháp đánh giá và ứng dụng thực tế trong giao thông.

  2. Chuyên gia phát triển hệ thống giao thông thông minh (ITS): Tham khảo để áp dụng các giải pháp phát hiện phương tiện thời gian thực, cải thiện hiệu quả giám sát và quản lý giao thông.

  3. Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để triển khai các hệ thống giám sát tự động, hỗ trợ giảm thiểu tai nạn và vi phạm giao thông.

  4. Doanh nghiệp công nghệ phát triển phần mềm và thiết bị giám sát: Áp dụng các thuật toán và kiến trúc mô hình để phát triển sản phẩm phù hợp với điều kiện thực tế tại Việt Nam, nâng cao tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

  1. Tại sao chọn YOLOv7 thay vì Faster R-CNN cho hệ thống thời gian thực?
    YOLOv7 có tốc độ xử lý nhanh hơn gần 3 lần so với Faster R-CNN, đạt trên 24 FPS, phù hợp với yêu cầu thời gian thực trong giám sát giao thông, trong khi Faster R-CNN có độ chính xác tương đương nhưng chậm hơn nhiều.

  2. Hệ thống có thể hoạt động hiệu quả trong điều kiện thời tiết xấu không?
    Mặc dù hiệu năng giảm trong mưa, sương mù và bão cát, YOLOv7 phiên bản nặng hơn vẫn duy trì khả năng phát hiện tốt, cho thấy hệ thống có thể ứng dụng trong nhiều điều kiện thời tiết khác nhau với một số hạn chế.

  3. Làm thế nào để cải thiện độ chính xác khi phương tiện bị che khuất?
    Có thể cải tiến bằng cách sử dụng mô hình có kiến trúc sâu hơn, thu thập thêm dữ liệu đa dạng về các tình huống che khuất, và áp dụng kỹ thuật tăng cường dữ liệu (data augmentation) trong huấn luyện.

  4. Hệ thống có thể áp dụng cho các loại camera khác nhau không?
    Hệ thống phù hợp với camera giám sát cố định (CCTV) do yêu cầu góc nhìn ổn định. Camera di động như dashcam không phù hợp vì thay đổi góc nhìn liên tục ảnh hưởng đến hiệu quả phát hiện.

  5. Có thể mở rộng hệ thống để phát hiện các vi phạm giao thông không?
    Có thể, bằng cách tích hợp thêm các module phân tích hành vi phương tiện dựa trên dữ liệu phát hiện, ví dụ như phát hiện vượt đèn đỏ, chạy quá tốc độ, giúp nâng cao hiệu quả quản lý giao thông.

Kết luận

  • Đã xây dựng và đánh giá thành công hệ thống phát hiện phương tiện trong video giám sát sử dụng YOLOv7 và Faster R-CNN, với ưu thế về tốc độ và độ chính xác của YOLOv7.
  • Bộ dữ liệu DAWN giúp kiểm chứng hiệu năng trong điều kiện thời tiết khắc nghiệt, phản ánh thực tế ứng dụng tại Việt Nam.
  • Hệ thống đạt tốc độ xử lý tối thiểu 24 FPS, đáp ứng yêu cầu thời gian thực trong giám sát giao thông.
  • Các hạn chế về dữ liệu và điều kiện che khuất mở ra hướng nghiên cứu cải tiến mô hình và thu thập dữ liệu phong phú hơn.
  • Đề xuất phát triển hệ thống phân tán, tối ưu mô hình và mở rộng chức năng để nâng cao hiệu quả quản lý giao thông thông minh.

Hành động tiếp theo: Triển khai thử nghiệm thực tế trên các tuyến đường tại TP. Hồ Chí Minh, thu thập dữ liệu bổ sung và tiếp tục nghiên cứu cải tiến thuật toán nhằm hoàn thiện hệ thống phát hiện phương tiện phù hợp với điều kiện Việt Nam.