Tổng quan nghiên cứu

Nhận diện biển báo giao thông là một lĩnh vực nghiên cứu quan trọng trong công nghệ thị giác máy tính, đặc biệt ứng dụng trong hệ thống giao thông thông minh (ITS). Theo ước tính, các mô hình nhận diện biển báo giao thông dựa trên mạng nơ-ron tích chập (CNN) và thuật toán YOLO đã đạt được độ chính xác phát hiện lên đến 96,62% với tốc độ xử lý trên 30 khung hình mỗi giây (FPS), đáp ứng yêu cầu thời gian thực trong các ứng dụng thực tế. Tuy nhiên, các bộ dữ liệu hiện có chủ yếu tập trung vào biển báo của các quốc gia như Đức, Trung Quốc, chưa phản ánh đặc thù biển báo giao thông tại Việt Nam.

Luận văn này nhằm xây dựng hệ thống nhận diện 9 loại biển báo giao thông phổ biến tại Việt Nam bằng mô hình YOLOv7, với mục tiêu nâng cao độ chính xác và tốc độ nhận diện phù hợp cho các ứng dụng trên xe ô tô và hệ thống giám sát giao thông. Phạm vi nghiên cứu tập trung vào dữ liệu hình ảnh thu thập từ các tuyến đường tại thành phố Hồ Chí Minh, với hơn 7.900 ảnh được chuẩn bị cho huấn luyện và kiểm tra. Nghiên cứu không chỉ đóng góp về mặt lý thuyết trong việc áp dụng và tinh chỉnh mô hình YOLOv7 mà còn xây dựng bộ dữ liệu đặc thù cho biển báo Việt Nam, góp phần phát triển các giải pháp an toàn giao thông hiệu quả.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron tích chập sâu (Deep Convolutional Neural Networks - CNN) và mô hình phát hiện đối tượng một giai đoạn YOLOv7. CNN là nền tảng cho việc trích xuất đặc trưng hình ảnh tự động, giúp mô hình học được các biểu diễn phức tạp từ dữ liệu đầu vào. YOLOv7 là phiên bản cải tiến của dòng mô hình YOLO, nổi bật với kiến trúc E-ELAN (Extended Efficient Layer Aggregation Networks), khả năng tham số hóa lại lớp tích chập (RepConv), và cơ chế huấn luyện với auxiliary head giúp tăng độ chính xác mà không làm giảm tốc độ xử lý.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm:

  • Anchor boxes: Các hộp giới hạn dự đoán nhiều đối tượng trong một vùng ảnh.
  • Intersection over Union (IoU): Thước đo đánh giá độ trùng khớp giữa dự đoán và thực tế.
  • F1-score và mAP (mean Average Precision): Các chỉ số đánh giá hiệu suất mô hình trong nhận diện đối tượng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ ảnh tự thu thập gồm 9 loại biển báo giao thông Việt Nam với tổng cộng 7.946 ảnh, trong đó 6.945 ảnh dùng cho huấn luyện và 1.001 ảnh dùng để kiểm tra. Dữ liệu được chuẩn hóa kích thước 640x640 pixel, áp dụng các kỹ thuật tăng cường dữ liệu như điều chỉnh độ sáng, làm mờ, thêm nhiễu, cắt và kéo ảnh để tăng tính đa dạng.

Phương pháp phân tích sử dụng mô hình YOLOv7 được huấn luyện trên nền tảng Google Colab Pro với GPU Nvidia A100 40GB, chạy 25 epoch với batch size 8, sau đó tinh chỉnh tham số để tối ưu hiệu suất. Quá trình huấn luyện sử dụng trọng số pre-trained yolov7.pt để tăng tốc độ hội tụ. Hiệu suất mô hình được đánh giá qua các chỉ số Precision, Recall, F1-score và mAP@0.5, đồng thời so sánh với mô hình YOLOv5 để chứng minh sự vượt trội về tốc độ và độ chính xác.

Timeline nghiên cứu kéo dài trong năm 2023-2024, bao gồm các giai đoạn thu thập dữ liệu, huấn luyện mô hình, đánh giá kết quả và triển khai trên thiết bị nhúng KV260 Vision AI.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình YOLOv7 vượt trội: Mô hình đạt độ chính xác mAP@0.5 khoảng 80-85% trên bộ dữ liệu biển báo Việt Nam, cao hơn 3-5% so với YOLOv5, đồng thời tốc độ suy luận đạt 117 FPS, nhanh hơn 18% so với YOLOv5.

  2. Tác động của tinh chỉnh tham số: Việc tăng batch size lên 16 và điều chỉnh learning rate giúp cải thiện F1-score từ 0.78 lên 0.81, đồng thời giảm thiểu lỗi phát hiện sai (False Positive) khoảng 10%.

  3. Đa dạng và phức tạp dữ liệu ảnh: Bộ dữ liệu chứa các ảnh chụp ở nhiều điều kiện ánh sáng, góc độ và khoảng cách khác nhau, bao gồm cả ảnh bị che khuất hoặc phản chiếu ánh sáng, làm tăng độ khó cho mô hình nhưng vẫn duy trì hiệu suất ổn định.

  4. Triển khai trên thiết bị nhúng KV260: Mô hình được cài đặt thành công trên KV260 Vision AI, cho phép nhận diện biển báo trong video thời gian thực với độ trễ thấp, phù hợp cho các ứng dụng trên xe ô tô.

Thảo luận kết quả

Kết quả cho thấy YOLOv7 với kiến trúc E-ELAN và các cải tiến về tham số hóa lớp tích chập giúp giảm 40% chi phí suy luận và 50% công việc tính toán so với các phiên bản trước, đồng thời tăng độ chính xác nhận diện. So với các nghiên cứu trước đây sử dụng YOLOv5 hoặc các mô hình khác, nghiên cứu này đã chứng minh được hiệu quả vượt trội khi áp dụng cho biển báo giao thông Việt Nam, một bộ dữ liệu chưa từng được khai thác rộng rãi.

Việc thu thập dữ liệu thực tế tại thành phố Hồ Chí Minh với đa dạng điều kiện ánh sáng và góc chụp giúp mô hình có khả năng khái quát tốt hơn, giảm thiểu sai số trong môi trường thực tế. Kết quả triển khai trên KV260 cũng cho thấy tính khả thi của hệ thống trong các ứng dụng IoT và xe tự hành, góp phần nâng cao an toàn giao thông và giảm thiểu vi phạm.

Dữ liệu có thể được trình bày qua biểu đồ so sánh mAP và FPS giữa các mô hình YOLOv7 và YOLOv5, cũng như bảng thống kê F1-score theo từng loại biển báo, minh họa rõ hiệu quả của việc tinh chỉnh tham số.

Đề xuất và khuyến nghị

  1. Mở rộng bộ dữ liệu biển báo giao thông Việt Nam: Thu thập thêm hình ảnh các loại biển báo khác và trong nhiều điều kiện thời tiết, ánh sáng để nâng cao khả năng nhận diện đa dạng, dự kiến hoàn thành trong 12 tháng tới, do các trung tâm nghiên cứu giao thông và trường đại học thực hiện.

  2. Tích hợp hệ thống cảnh báo vi phạm giao thông trên xe ô tô: Phát triển phần mềm cảnh báo dựa trên kết quả nhận diện biển báo, nhằm giảm thiểu vi phạm và tai nạn giao thông, triển khai thử nghiệm trong 6 tháng, phối hợp với các hãng sản xuất ô tô và đơn vị quản lý giao thông.

  3. Nâng cấp phần cứng và tối ưu hóa mô hình cho thiết bị biên (Edge AI): Tinh chỉnh mô hình YOLOv7-tiny để phù hợp với các thiết bị có tài nguyên hạn chế, đảm bảo tốc độ xử lý trên 100 FPS, hoàn thành trong 9 tháng, do nhóm kỹ sư phần mềm và phần cứng thực hiện.

  4. Phát triển hệ thống giám sát giao thông thông minh: Áp dụng mô hình nhận diện biển báo trên các camera giám sát giao thông để tự động phát hiện vi phạm, hỗ trợ công tác xử lý vi phạm và quản lý giao thông, triển khai trong 18 tháng, phối hợp với các cơ quan quản lý đô thị.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Nghiên cứu cung cấp kiến thức sâu về mô hình YOLOv7, kỹ thuật huấn luyện và tinh chỉnh mô hình nhận diện đối tượng trong thị giác máy tính.

  2. Các kỹ sư phát triển phần mềm và hệ thống IoT: Tham khảo để ứng dụng mô hình nhận diện biển báo giao thông trên thiết bị nhúng, phát triển các giải pháp thông minh cho xe ô tô và hệ thống giám sát.

  3. Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để xây dựng các hệ thống cảnh báo vi phạm giao thông tự động, nâng cao hiệu quả quản lý và giảm thiểu tai nạn.

  4. Các doanh nghiệp sản xuất ô tô và thiết bị giám sát: Áp dụng mô hình nhận diện biển báo giao thông để tích hợp vào hệ thống hỗ trợ lái xe, xe tự hành, nâng cao tính năng an toàn và tiện ích cho sản phẩm.

Câu hỏi thường gặp

  1. Mô hình YOLOv7 có ưu điểm gì so với các phiên bản trước?
    YOLOv7 cải tiến với kiến trúc E-ELAN giúp tăng hiệu quả huấn luyện, giảm chi phí tính toán 50%, đồng thời đạt độ chính xác cao hơn khoảng 3-5% so với YOLOv5, phù hợp cho các ứng dụng thời gian thực.

  2. Bộ dữ liệu biển báo giao thông Việt Nam có điểm gì đặc biệt?
    Bộ dữ liệu gồm hơn 7.900 ảnh với 9 loại biển báo phổ biến, được thu thập tại thành phố Hồ Chí Minh trong nhiều điều kiện ánh sáng và góc chụp khác nhau, giúp mô hình khái quát tốt và phù hợp với thực tế Việt Nam.

  3. Làm thế nào để đánh giá hiệu suất mô hình nhận diện biển báo?
    Hiệu suất được đánh giá qua các chỉ số Precision, Recall, F1-score và mAP@0.5, trong đó mAP thể hiện độ chính xác trung bình trên toàn bộ các lớp biển báo, giúp so sánh hiệu quả giữa các mô hình.

  4. Mô hình có thể triển khai trên thiết bị nào?
    Mô hình YOLOv7 đã được triển khai thành công trên thiết bị nhúng KV260 Vision AI, cho phép nhận diện biển báo trong video thời gian thực với độ trễ thấp, phù hợp cho các ứng dụng xe ô tô và hệ thống giám sát.

  5. Có thể mở rộng mô hình để nhận diện các loại biển báo khác không?
    Có thể, bằng cách thu thập thêm dữ liệu và huấn luyện lại mô hình với số lớp mới, đồng thời tinh chỉnh tham số để đảm bảo độ chính xác và tốc độ xử lý phù hợp với yêu cầu ứng dụng.

Kết luận

  • Nghiên cứu đã xây dựng thành công hệ thống nhận diện 9 loại biển báo giao thông Việt Nam dựa trên mô hình YOLOv7 với độ chính xác mAP đạt khoảng 85% và tốc độ xử lý trên 100 FPS.
  • Bộ dữ liệu hình ảnh đa dạng và đặc thù Việt Nam được thu thập và xử lý kỹ lưỡng, góp phần nâng cao khả năng khái quát của mô hình.
  • Mô hình được triển khai hiệu quả trên thiết bị nhúng KV260 Vision AI, chứng minh tính khả thi cho các ứng dụng thực tế trong giao thông thông minh.
  • Kết quả nghiên cứu mở ra hướng phát triển các hệ thống cảnh báo vi phạm giao thông tự động và hỗ trợ lái xe an toàn.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tích hợp hệ thống cảnh báo trên xe ô tô và tối ưu hóa mô hình cho các thiết bị biên nhằm nâng cao hiệu quả ứng dụng.

Để tiếp tục phát triển và ứng dụng nghiên cứu, các nhà khoa học và kỹ sư được khuyến khích triển khai thử nghiệm thực tế, đồng thời phối hợp với các cơ quan quản lý giao thông để đưa giải pháp vào vận hành thực tế, góp phần nâng cao an toàn giao thông và giảm thiểu vi phạm.