I. Cách nhận diện xe ô tô và người đi bộ bằng YOLOv4 tiny hiệu quả
Nhận diện xe ô tô và người đi bộ là một trong những bài toán then chốt trong hệ thống hỗ trợ lái xe thông minh và giám sát giao thông. Mô hình YOLOv4-tiny, phiên bản thu gọn của YOLOv4, được thiết kế để chạy trên các thiết bị nhúng có tài nguyên hạn chế nhưng vẫn đảm bảo tốc độ xử lý thời gian thực. Theo báo cáo nghiên cứu của Trường Đại học Sư phạm Kỹ thuật TP.HCM (2021), mô hình này đạt độ chính xác trung bình (mAP) 87,66% cho xe ô tô và 57,32% cho người đi bộ trên tập kiểm định gồm 481 ảnh. Điều này chứng tỏ tiềm năng ứng dụng cao trong các hệ thống cảnh báo va chạm hoặc camera giám sát đô thị. YOLOv4-tiny sử dụng kiến trúc mạng CNN tối ưu hóa, kết hợp các lớp tích chập, pooling và batch normalization để giảm độ phức tạp tính toán mà không làm mất nhiều thông tin đặc trưng. Việc lựa chọn mô hình này xuất phát từ nhu cầu cân bằng giữa tốc độ suy luận (inference speed) và độ chính xác nhận diện, đặc biệt khi triển khai trên nền tảng phần cứng hạn chế như Raspberry Pi hay Jetson Nano.
1.1. Tổng quan về bài toán nhận diện đối tượng trong giao thông
Bài toán nhận diện xe ô tô và người đi bộ thuộc lĩnh vực thị giác máy tính, nhằm phát hiện vị trí và phân loại hai đối tượng chủ chốt trong môi trường đô thị. Đây là nền tảng cho các hệ thống ADAS (Advanced Driver Assistance Systems) và IoT giao thông thông minh. Khác với các mô hình nặng như Faster R-CNN, YOLOv4-tiny hướng đến giải pháp nhẹ – nhanh – đủ chính xác.
1.2. Lý do chọn YOLOv4 tiny thay vì các biến thể khác
YOLOv4-tiny được chọn nhờ kiến trúc nhỏ gọn chỉ với 29 lớp, phù hợp triển khai trên thiết bị nhúng. So với YOLOv3-tiny, nó cải tiến nhờ CSPDarknet53-tiny backbone và PANet neck, giúp tăng khả năng trích xuất đặc trưng đa tỷ lệ. Trong nghiên cứu của Nguyễn Quang Trọng (2021), mô hình này cho tốc độ xử lý ~45 FPS trên GPU GTX 1060, vượt trội so với các phương pháp truyền thống.
II. Thách thức khi nhận diện người đi bộ và xe ô tô trong điều kiện thực tế
Mặc dù YOLOv4-tiny mang lại hiệu suất tốt, việc nhận diện xe ô tô và người đi bộ trong môi trường thực tế gặp nhiều thách thức. Ánh sáng yếu vào ban đêm, che khuất bởi vật cản, hoặc tư thế đa dạng của người đi bộ đều làm giảm độ chính xác. Đặc biệt, người đi bộ thường chiếm diện tích nhỏ trong khung hình, dễ bị bỏ sót nếu ngưỡng confidence không được điều chỉnh hợp lý. Báo cáo từ đề tài SV2021-122 cho thấy độ chính xác cho người đi bộ chỉ đạt 57,32%, thấp hơn đáng kể so với xe ô tô (87,66%). Nguyên nhân chính là do dữ liệu huấn luyện thiếu đa dạng về góc chụp, điều kiện ánh sáng và bối cảnh đô thị phức tạp. Ngoài ra, hiện tượng false positive (phát hiện sai) cũng xảy ra khi mô hình nhầm lẫn giữa người đi bộ và vật thể tĩnh như cột đèn hoặc biển quảng cáo. Để khắc phục, cần mở rộng bộ dữ liệu với hình ảnh ban đêm, mưa, sương mù và áp dụng kỹ thuật data augmentation như cắt, xoay, thay đổi độ sáng.
2.1. Vấn đề về chất lượng và độ đa dạng của dữ liệu huấn luyện
Dữ liệu huấn luyện quyết định trực tiếp hiệu suất mô hình. Nếu tập dữ liệu chỉ gồm hình ảnh ban ngày, rõ nét, mô hình sẽ kém tổng quát hóa khi gặp điều kiện thực tế. Đề tài nghiên cứu đã sử dụng kết hợp từ COCO và tự thu thập, nhưng vẫn thiếu dữ liệu ban đêm – yếu tố then chốt để nâng cao độ tin cậy.
2.2. Khó khăn trong việc phát hiện người đi bộ kích thước nhỏ
Người đi bộ ở xa thường chỉ chiếm vài pixel, khiến mô hình khó trích xuất đặc trưng. YOLOv4-tiny, dù có cơ chế feature pyramid, vẫn hạn chế trong việc phát hiện đối tượng nhỏ do số lớp downsampling lớn. Giải pháp tiềm năng là tích hợp SPP (Spatial Pyramid Pooling) hoặc dùng anchor box được điều chỉnh theo phân bố kích thước thực tế.
III. Phương pháp huấn luyện mô hình YOLOv4 tiny cho nhận diện đối tượng giao thông
Quá trình huấn luyện YOLOv4-tiny để nhận diện xe ô tô và người đi bộ bao gồm các bước: chuẩn bị dữ liệu, cấu hình siêu tham số, và đánh giá hiệu suất. Dữ liệu được gán nhãn theo định dạng YOLO (text file chứa tọa độ normalized bounding box và class ID). Mô hình sử dụng hàm mất mát tổng hợp gồm localization loss, confidence loss, và classification loss. Trong nghiên cứu tại Trường ĐH SPKT TP.HCM, nhóm tác giả sử dụng learning rate khởi tạo 0,001, batch size 16, và huấn luyện trong 6.000 epochs. Kết quả cho thấy hàm mất mát giảm ổn định, độ chính xác tăng dần qua từng epoch. Đặc biệt, batch normalization và Leaky ReLU giúp mô hình hội tụ nhanh và tránh overfitting. Việc fine-tune từ trọng số pre-trained trên COCO dataset cũng đóng vai trò then chốt, giúp tận dụng tri thức đã học về đặc trưng hình ảnh tự nhiên.
3.1. Cấu hình siêu tham số và môi trường huấn luyện
Môi trường huấn luyện sử dụng Python 3.8, thư viện Darknet, CUDA 10.2 và OpenCV. Các siêu tham số như learning rate, momentum, và weight decay được điều chỉnh dựa trên thử nghiệm thực nghiệm. Nhóm nghiên cứu ghi nhận rằng learning rate quá cao gây dao động loss, trong khi quá thấp làm chậm hội tụ.
3.2. Kỹ thuật tăng cường dữ liệu Data Augmentation
Data augmentation như flip ngang, thay đổi độ tương phản, và thêm nhiễu Gaussian được áp dụng để tăng tính đa dạng. Kỹ thuật này giúp mô hình kháng nhiễu tốt hơn và cải thiện khả năng tổng quát, đặc biệt với lớp người đi bộ vốn dễ bị ảnh hưởng bởi biến đổi ngoại cảnh.
IV. Đánh giá hiệu suất mô hình YOLOv4 tiny trên tập dữ liệu thực tế
Hiệu suất YOLOv4-tiny được đánh giá qua các chỉ số: Precision, Recall, F1-score, và mAP (mean Average Precision). Trên tập kiểm định, mô hình đạt mAP@0.5 là 87,66% cho xe ô tô và 57,32% cho người đi bộ. Precision cho xe ô tô đạt ~90%, cho thấy ít false positive, trong khi Recall cho người đi bộ chỉ ~50%, phản ánh tình trạng bỏ sót đối tượng. Khi kiểm thử trên video thực tế (không nằm trong tập huấn luyện), mô hình vẫn duy trì khả năng phát hiện ổn định trong điều kiện ánh sáng tốt, nhưng hiệu suất giảm rõ rệt khi trời tối hoặc mưa. Điều này khẳng định nhu cầu mở rộng dữ liệu huấn luyện. Ngoài ra, tốc độ xử lý đạt ~35–45 FPS trên GPU trung bình, đủ đáp ứng yêu cầu thời gian thực cho các ứng dụng giám sát giao thông hoặc hỗ trợ lái xe.
4.1. Phân tích chỉ số mAP và F1 score theo từng lớp đối tượng
mAP là tiêu chí vàng trong đánh giá mô hình phát hiện đối tượng. Sự chênh lệch lớn giữa mAP của xe ô tô và người đi bộ cho thấy mô hình thiên lệch về lớp có nhiều mẫu huấn luyện hơn. Cải thiện cân bằng dữ liệu (class balancing) là hướng đi cần thiết để nâng cao hiệu suất tổng thể.
4.2. Kiểm thử trên video ngoài tập dữ liệu gốc
Video kiểm thử bao gồm cảnh giao lộ đông đúc và đường vắng ban đêm. Mô hình hoạt động tốt ban ngày nhưng bỏ sót 30–40% người đi bộ vào ban đêm. Kết quả này nhấn mạnh tầm quan trọng của việc thu thập dữ liệu trong điều kiện ánh sáng yếu để huấn luyện lại mô hình.
V. Ứng dụng thực tiễn của mô hình nhận diện xe và người đi bộ
Mô hình YOLOv4-tiny có tiềm năng ứng dụng rộng rãi trong hệ thống hỗ trợ lái xe (ADAS), camera giám sát giao thông thông minh, và xe tự hành cấp thấp. Với tốc độ xử lý cao và yêu cầu phần cứng vừa phải, nó phù hợp để triển khai trên bo mạch nhúng như NVIDIA Jetson hoặc Raspberry Pi kèm AI accelerator. Trong bối cảnh đô thị hóa nhanh, việc phát hiện sớm người đi bộ băng qua đường giúp giảm thiểu tai nạn giao thông. Tuy nhiên, như báo cáo từ đề tài SV2021-122, khả năng áp dụng thực tế còn hạn chế do chỉ nhận diện được hai lớp đối tượng. Hướng mở rộng bao gồm tích hợp phát hiện biển báo giao thông, đèn tín hiệu, và làn đường để tạo hệ thống toàn diện hơn. Ngoài ra, có thể phát triển phần cứng chuyên dụng gắn trên ô tô hoặc xe máy để cảnh báo người lái theo thời gian thực.
5.1. Tích hợp vào hệ thống ADAS cho xe cá nhân
Mô hình có thể chạy song song với cảm biến radar/LiDAR để xác thực chéo đối tượng, tăng độ tin cậy. Cảnh báo âm thanh hoặc hình ảnh sẽ được kích hoạt khi phát hiện người đi bộ ở khoảng cách nguy hiểm, đặc biệt trong điều kiện tầm nhìn hạn chế.
5.2. Triển khai trên camera giám sát đô thị
Các camera giao thông thông minh có thể dùng mô hình này để đếm lưu lượng xe, phát hiện vi phạm (ví dụ: người đi bộ sang đường sai nơi quy định), hoặc cảnh báo ùn tắc. Việc xử lý tại edge (edge computing) giúp giảm băng thông và tăng tính riêng tư.
VI. Hướng phát triển tương lai cho mô hình nhận diện đối tượng giao thông
Tương lai của nhận diện xe ô tô và người đi bộ bằng YOLOv4-tiny nằm ở việc mở rộng khả năng nhận thức và thích nghi. Trước mắt, cần xây dựng bộ dữ liệu lớn hơn, bao gồm hình ảnh ban đêm, điều kiện thời tiết xấu, và đa dạng bối cảnh (nông thôn, đô thị, cao tốc). Thứ hai, nên thử nghiệm các kiến trúc mới hơn như YOLOv8-nano hoặc YOLO-NAS, vốn được tối ưu cho edge device. Thứ ba, tích hợp multi-task learning để đồng thời phát hiện đối tượng, ước lượng độ sâu (depth estimation), và phân đoạn làn đường. Cuối cùng, phát triển phần cứng chuyên dụng với chip AI (như Google Coral TPU) sẽ giúp triển khai thương mại hóa. Như đề xuất trong báo cáo SV2021-122, việc kết hợp phần mềm với cảm biến và cơ cấu cảnh báo vật lý sẽ tạo ra giải pháp hoàn chỉnh cho an toàn giao thông.
6.1. Nâng cấp dữ liệu huấn luyện với điều kiện ánh sáng yếu
Thu thập dữ liệu bằng camera hồng ngoại hoặc low-light camera là bước then chốt. Dữ liệu ban đêm cần được gán nhãn cẩn thận để huấn luyện mô hình kháng nhiễu và nhiễu hạt (noise), từ đó cải thiện Recall cho người đi bộ trong bóng tối.
6.2. Mở rộng mô hình để nhận diện thêm đối tượng giao thông
Việc thêm lớp biển báo, đèn giao thông, và xe đạp sẽ biến mô hình thành hệ thống nhận thức giao thông đa năng. Điều này đòi hỏi điều chỉnh kiến trúc mạng và tái huấn luyện, nhưng mang lại giá trị ứng dụng cao hơn nhiều lần so với phiên bản gốc.