Nghiên Cứu Về Nhận Diện Biển Báo Giao Thông Sử Dụng Mô Hình YOLOv7

Nghiên cứu luận văn thạc sĩ công nghệ thông tin về nhận diện biển báo giao thông sử dụng mô hình yolov7, ứng dụng trong giao thông thông minh.

Trường đại học

Đại học Quốc gia TP HCM Trường Đại học Công nghệ Thông tin

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: MỤC TIÊU CUA NGHIÊN CỨU

1.1. PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU

1.2. NỘI DUNG THỰC HIỆN

1.3. PHƯƠNG PHÁP THỰC HIỆN

1.4. ĐÓNG GÓP CUA NGHIÊN CỨU

1.5. CẤU TRÚC CUA LUẬN VĂN

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. KHÁI NIỆM MÔ HÌNH YOLOV7

2.2. ĐIỂM KHÁC BIỆT CUA YOLOV7 VỚI MÔ HÌNH KHÁC

2.3. KIẾN TRÚC MÔ HÌNH

2.4. SỰ KHÁC BIỆT GIỮA CÁC PHIÊN BẢN CUA YOLOV7

2.5. PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU SUẤT MÔ HÌNH

3. CHƯƠNG 3: THIẾT KẾ HỆ THỐNG

3.1. THIẾT KẾ GIẢI THUẬT - HUẤN LUYỆN TẬP DỮ LIỆU

3.2. TỔNG QUAN VỀ TẬP DỮ LIỆU

3.3. CÁC BƯỚC HUẤN LUYỆN DỮ LIỆU TRÊN MÔ HÌNH YOLOV7

3.4. SO SÁNH ĐỘ CHÍNH XÁC VỚI MÔ HÌNH YOLOV8

3.5. TỈNH CHỈNH MÔ HÌNH

3.6. ĐÁNH GIÁ KẾT QUẢ ỨNG DỤNG GIẢI THUẬT YOLOV7

3.7. THIẾT KẾ PHẦN CỨNG

3.7.1. KHÁI NIỆM MÁY ẢNH THÔNG MINH

3.7.2. GIỚI THIỆU MÁY TÍNH NHÚNG KV260 VISION AI

3.7.3. THIẾT LẬP PHẦN CỨNG CỤ THỂ VÀ TRIỂN KHAI ỨNG DỤNG

3.7.4. CHUẨN BỊ ỨNG DỤNG DỰA TRÊN DOCKER

3.7.5. CHẠY ỨNG DỤNG VỚI JUPYTER NOTEBOOK

3.7.6. TÙY CHỌN CẤU HÌNH BỔ SUNG

3.7.7. THIẾT LẬP HỆ ĐIỀU HÀNH UBUNTU CHO KV260

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. CÀI ĐẶT MÔI TRƯỜNG CHO MÔ HÌNH

4.2. CÀI ĐẶT MÔ HÌNH VÀO KRIA KV260

4.3. CÀI ĐẶT HỆ ĐIỀU HÀNH

4.4. KẾT QUẢ THỰC NGHIỆM TRÊN MÁY TÍNH NHÚNG KV260

4.5. ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM

4.6. KẾT LUẬN VÀ KHUYẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Nhận Diện Biển Báo YOLOv7 ITS

Bài viết này tổng quan về nghiên cứu nhận diện biển báo giao thông sử dụng mô hình YOLOv7, một bước tiến quan trọng trong lĩnh vực hệ thống giao thông thông minh (ITS). Các nghiên cứu trước đây đã chứng minh tính hiệu quả của các phiên bản YOLO, đặc biệt là YOLOv5, trong việc phát hiện biển báo giao thông với độ chính xác và tốc độ cao. Tuy nhiên, YOLOv7 hứa hẹn hiệu suất vượt trội hơn nữa. Nghiên cứu này đi sâu vào việc áp dụng và cải tiến YOLOv7 cho việc nhận diện biển báo giao thông ở Việt Nam, nơi có thiết kế biển báo đặc thù. Nghiên cứu tập trung vào 9 loại biển báo cấm quan trọng, nhằm góp phần nâng cao an toàn giao thông và giảm thiểu vi phạm. Theo một nghiên cứu [6], việc ứng dụng Computer vision biển báo giao thông có thể giúp hệ thống hỗ trợ lái xe tiên tiến (ADAS) hoạt động hiệu quả hơn.

1.1. Tầm quan trọng của Nhận diện biển báo giao thông YOLOv7

Nhận diện biển báo giao thông chính xác là yếu tố then chốt trong việc xây dựng hệ thống giao thông thông minh. Nó cho phép xe tự hành và các hệ thống ADAS hiểu được môi trường xung quanh, từ đó đưa ra quyết định lái xe an toàn và hiệu quả. Việc sử dụng mô hình học sâu biển báo giao thông như YOLOv7 giúp cải thiện đáng kể độ chính xác và tốc độ so với các phương pháp truyền thống. Một nghiên cứu [13, 14] chỉ ra rằng các mô hình dựa trên YOLO cung cấp khả năng xử lý theo thời gian thực, phù hợp cho các ứng dụng trên xe hơi.

1.2. Các thách thức trong nhận diện biển báo thời gian thực

Mặc dù có nhiều tiến bộ, nhận diện biển báo thời gian thực vẫn đối mặt với nhiều thách thức. Điều kiện ánh sáng thay đổi, thời tiết xấu, biển báo bị che khuất hoặc hư hỏng, và sự đa dạng về thiết kế biển báo là những yếu tố có thể ảnh hưởng đến hiệu suất của hệ thống. Nghiên cứu cần tập trung vào việc phát triển các phương pháp xử lý ảnh mạnh mẽ và cải tiến YOLOv7 cho biển báo để vượt qua những thách thức này.

II. Vấn Đề Độ Chính Xác Nhận Diện Biển Báo Giao Thông YOLOv7

Mặc dù các mô hình YOLO, bao gồm cả YOLOv7, đã đạt được những thành công đáng kể trong object detection biển báo giao thông, vẫn còn những hạn chế về độ chính xác và khả năng xử lý trong các điều kiện thực tế. Đặc biệt, độ chính xác nhận diện biển báo có thể giảm đáng kể trong điều kiện ánh sáng yếu, thời tiết xấu hoặc khi biển báo bị che khuất. Các bộ dữ liệu hiện tại thường tập trung vào biển báo ở các nước phát triển, ít chú trọng đến đặc điểm biển báo giao thông tại Việt Nam. Việc thu thập dataset biển báo giao thông phù hợp với điều kiện địa phương là rất cần thiết để nâng cao hiệu quả của AI biển báo giao thông.

2.1. Các yếu tố ảnh hưởng đến độ chính xác YOLOv7 biển báo

Độ chính xác của YOLOv7 biển báo giao thông phụ thuộc vào nhiều yếu tố, bao gồm chất lượng hình ảnh, kích thước và độ phân giải của biển báo, góc nhìn của camera, và điều kiện ánh sáng. Các biển báo nhỏ hoặc bị mờ có thể khó được phát hiện và nhận diện chính xác. Ngoài ra, sự biến dạng hình học và thay đổi màu sắc do ánh sáng và thời tiết cũng có thể gây ra sai sót.

2.2. Sự cần thiết của bộ dữ liệu biển báo giao thông đặc trưng Việt Nam

Các bộ dữ liệu biển báo giao thông công khai thường không phản ánh đầy đủ sự đa dạng và đặc điểm của biển báo tại Việt Nam. Điều này dẫn đến việc mô hình được huấn luyện trên các bộ dữ liệu này có thể hoạt động kém hiệu quả khi áp dụng vào thực tế tại Việt Nam. Do đó, việc xây dựng một bộ dữ liệu traffic sign recognition đặc trưng cho Việt Nam là rất quan trọng để cải thiện hiệu suất YOLOv7.

2.3. Hạn chế về tài nguyên tính toán và triển khai YOLOv7

Mô hình YOLOv7 có kích thước lớn và yêu cầu tài nguyên tính toán đáng kể, điều này gây khó khăn cho việc triển khai trên các thiết bị nhúng có giới hạn về bộ nhớ và hiệu năng. Việc tối ưu hóa mô hình để giảm kích thước và tăng tốc độ xử lý là cần thiết để có thể triển khai YOLOv7 bién báo giao thông trên các xe tự hành và hệ thống ADAS.

III. Phương Pháp Huấn Luyện YOLOv7 Nhận Diện Biển Báo Chi Tiết

Nghiên cứu này tập trung vào việc huấn luyện mô hình YOLOv7 trên một bộ dữ liệu biển báo giao thông tự thu thập, bao gồm 9 loại biển báo cấm phổ biến ở Việt Nam. Quá trình huấn luyện bao gồm các bước tiền xử lý dữ liệu, gán nhãn (labeling) biển báo, cấu hình mô hình YOLOv7, và đánh giá hiệu suất. Mục tiêu là đạt được độ chính xác cao trong việc phát hiện biển báo giao thông trong các điều kiện thực tế. Nghiên cứu cũng khám phá các kỹ thuật tinh chỉnh mô hình và tăng cường dữ liệu để cải thiện khả năng khái quát hóa và độ ổn định của thuật toán nhận diện biển báo.

3.1. Xây dựng và Gán Nhãn Dataset YOLOv7 biển báo giao thông

Việc xây dựng một bộ dữ liệu chất lượng cao là yếu tố quan trọng để huấn luyện YOLOv7 hiệu quả. Dữ liệu được thu thập từ nhiều nguồn khác nhau, bao gồm hình ảnh và video từ camera hành trình và các nguồn trực tuyến. Quá trình gán nhãn được thực hiện bằng các công cụ chuyên dụng, đảm bảo độ chính xác và nhất quán. Việc gán nhãn bao gồm xác định vị trí và loại biển báo trong mỗi hình ảnh.

3.2. Cấu hình YOLOv7 và Các Tham Số YOLOv7 quan trọng

Cấu hình YOLOv7 bao gồm việc lựa chọn kiến trúc mạng, hàm mất mát, thuật toán tối ưu hóa, và các tham số huấn luyện khác. Các tham số này cần được điều chỉnh cẩn thận để đạt được hiệu suất tốt nhất trên bộ dữ liệu cụ thể. Các kỹ thuật như learning rate scheduling và weight decay cũng được sử dụng để cải thiện quá trình huấn luyện.

3.3. Đánh Giá Hiệu Suất và Tinh Chỉnh YOLOv7 Model

Hiệu suất của mô hình YOLOv7 được đánh giá bằng các chỉ số như độ chính xác (precision), độ phủ (recall), và mAP (mean Average Precision). Quá trình tinh chỉnh mô hình bao gồm việc điều chỉnh các tham số huấn luyện, thay đổi kiến trúc mạng, và sử dụng các kỹ thuật tăng cường dữ liệu để cải thiện hiệu suất trên các bộ dữ liệu kiểm tra.

IV. Kết Quả Nghiên Cứu Đánh Giá Khả Năng YOLOv7 Nhận Diện

Kết quả nghiên cứu cho thấy YOLOv7 đạt được độ chính xác cao trong việc nhận diện biển báo giao thông trên bộ dữ liệu tự thu thập. So sánh với các mô hình khác, YOLOv7 cho thấy hiệu suất vượt trội về tốc độ và độ chính xác. Các kết quả này chứng minh tiềm năng của YOLOv7 trong việc ứng dụng vào các hệ thống ADAS và xe tự hành. Nghiên cứu cũng đánh giá khả năng của mô hình trong các điều kiện khác nhau, bao gồm ánh sáng yếu, thời tiết xấu, và biển báo bị che khuất.

4.1. Độ Chính Xác và Tốc Độ YOLOv7 Trong Điều Kiện Thử Nghiệm

Độ chính xác của YOLOv7 được đánh giá bằng cách sử dụng các bộ dữ liệu kiểm tra độc lập. Tốc độ xử lý được đo bằng số khung hình trên giây (FPS). Kết quả cho thấy YOLOv7 có thể xử lý hình ảnh theo thời gian thực với độ chính xác cao, đáp ứng yêu cầu của các ứng dụng thực tế.

4.2. Khả Năng Xử Lý Điều Kiện Khó Khăn Nhận Diện YOLOv7

Nghiên cứu đánh giá khả năng của YOLOv7 trong việc xử lý các điều kiện khó khăn như ánh sáng yếu, thời tiết xấu, và biển báo bị che khuất. Các kỹ thuật tăng cường dữ liệu và tinh chỉnh mô hình được sử dụng để cải thiện độ ổn định của mô hình trong các điều kiện này. Kết quả cho thấy YOLOv7 có khả năng hoạt động tốt trong nhiều tình huống khác nhau.

4.3. So Sánh YOLOv7 Với Các Mô Hình Học Sâu Khác

YOLOv7 được so sánh với các mô hình học sâu khác như Faster R-CNN, SSD, và YOLOv5. Kết quả cho thấy YOLOv7 có hiệu suất vượt trội về tốc độ và độ chính xác. Điều này chứng minh rằng YOLOv7 là một lựa chọn tốt cho các ứng dụng nhận diện biển báo giao thông.

V. Ứng Dụng Triển Khai YOLOv7 Trên Hệ Thống ADAS Thực Tế

Nghiên cứu này trình bày một ứng dụng thực tế của YOLOv7 trong hệ thống ADAS. Hệ thống sử dụng camera để thu thập hình ảnh và video, sau đó YOLOv7 được sử dụng để phát hiện biển báo giao thông theo thời gian thực. Thông tin về biển báo được hiển thị cho người lái xe, giúp họ tuân thủ luật giao thông và lái xe an toàn hơn. Ứng dụng này chứng minh tính khả thi và hiệu quả của việc sử dụng YOLOv7 trong các hệ thống thực tế.

5.1. Tích Hợp YOLOv7 Vào Hệ Thống Hỗ Trợ Lái Xe ADAS

YOLOv7 có thể được tích hợp vào hệ thống ADAS để cung cấp thông tin về biển báo giao thông cho người lái xe. Hệ thống có thể cảnh báo người lái xe về giới hạn tốc độ, biển báo cấm, và các thông tin quan trọng khác.

5.2. Cảnh Báo Vi Phạm Giao Thông Dựa Trên Nhận Diện Biển Báo

Hệ thống có thể sử dụng thông tin về biển báo để phát hiện các vi phạm giao thông, chẳng hạn như vượt quá tốc độ, đi vào khu vực cấm, hoặc dừng đỗ xe không đúng nơi quy định. Cảnh báo có thể được hiển thị cho người lái xe hoặc gửi đến cơ quan chức năng.

5.3. Ứng Dụng YOLOv7 trong Xe Tự Hành và An Toàn Giao Thông

YOLOv7 đóng vai trò quan trọng trong việc xây dựng các xe tự hành an toàn và hiệu quả. Bằng cách nhận diện biển báo giao thông chính xác, xe tự hành có thể tuân thủ luật giao thông và điều khiển xe một cách an toàn.

VI. Kết Luận Triển Vọng Phát Triển YOLOv7 cho Biển Báo Giao Thông

Nghiên cứu này đã chứng minh tiềm năng của YOLOv7 trong việc nhận diện biển báo giao thông. Kết quả cho thấy YOLOv7 đạt được độ chính xác cao và tốc độ xử lý nhanh, đáp ứng yêu cầu của các ứng dụng thực tế. Trong tương lai, nghiên cứu có thể tập trung vào việc cải thiện khả năng xử lý các điều kiện khó khăn, xây dựng các bộ dữ liệu lớn hơn và đa dạng hơn, và phát triển các ứng dụng sáng tạo trong lĩnh vực giao thông thông minh. Việc cải tiến YOLOv7 cho biển báo sẽ góp phần nâng cao an toàn giao thông và hiệu quả của hệ thống giao thông.

6.1. Hướng Nghiên Cứu Phát Triển Ứng Dụng Nhận Diện Biển Báo

Các hướng nghiên cứu trong tương lai có thể tập trung vào việc sử dụng các kỹ thuật học tăng cường (reinforcement learning) để huấn luyện YOLOv7, phát triển các phương pháp xử lý ảnh tiên tiến để cải thiện độ chính xác trong điều kiện khó khăn, và khám phá các ứng dụng mới trong lĩnh vực giao thông thông minh.

6.2. Tầm Quan Trọng Của Việc Chia Sẻ Dữ Liệu và Mã Nguồn YOLOv7

Việc chia sẻ dữ liệu và mã nguồn là rất quan trọng để thúc đẩy sự phát triển của lĩnh vực nhận diện biển báo giao thông. Các bộ dữ liệu công khai và mã nguồn mở sẽ cho phép các nhà nghiên cứu và phát triển xây dựng các ứng dụng sáng tạo và cải thiện hiệu suất của các mô hình hiện có.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin nghiên cứu về nhận diện biển báo giao thông sử dụng mô hình yolov7

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận diện biển báo giao thông là một lĩnh vực nghiên cứu quan trọng trong công nghệ thị giác máy tính, đặc biệt ứng dụng trong hệ thống giao thông thông minh (ITS). Theo ước tính, các mô hình nhận diện biển báo giao thông dựa trên mạng nơ-ron tích chập (CNN) và thuật toán YOLO đã đạt được độ chính xác phát hiện lên đến 96,62% với tốc độ xử lý trên 30 khung hình mỗi giây (FPS), đáp ứng yêu cầu thời gian thực trong các ứng dụng thực tế. Tuy nhiên, các bộ dữ liệu hiện có chủ yếu tập trung vào biển báo của các quốc gia như Đức, Trung Quốc, chưa phản ánh đặc thù biển báo giao thông tại Việt Nam.

Luận văn này nhằm xây dựng hệ thống nhận diện 9 loại biển báo giao thông phổ biến tại Việt Nam bằng mô hình YOLOv7, với mục tiêu nâng cao độ chính xác và tốc độ nhận diện phù hợp cho các ứng dụng trên xe ô tô và hệ thống giám sát giao thông. Phạm vi nghiên cứu tập trung vào dữ liệu hình ảnh thu thập từ các tuyến đường tại thành phố Hồ Chí Minh, với hơn 7.900 ảnh được chuẩn bị cho huấn luyện và kiểm tra. Nghiên cứu không chỉ đóng góp về mặt lý thuyết trong việc áp dụng và tinh chỉnh mô hình YOLOv7 mà còn xây dựng bộ dữ liệu đặc thù cho biển báo Việt Nam, góp phần phát triển các giải pháp an toàn giao thông hiệu quả.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: mạng nơ-ron tích chập sâu (Deep Convolutional Neural Networks - CNN) và mô hình phát hiện đối tượng một giai đoạn YOLOv7. CNN là nền tảng cho việc trích xuất đặc trưng hình ảnh tự động, giúp mô hình học được các biểu diễn phức tạp từ dữ liệu đầu vào. YOLOv7 là phiên bản cải tiến của dòng mô hình YOLO, nổi bật với kiến trúc E-ELAN (Extended Efficient Layer Aggregation Networks), khả năng tham số hóa lại lớp tích chập (RepConv), và cơ chế huấn luyện với auxiliary head giúp tăng độ chính xác mà không làm giảm tốc độ xử lý.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm:

Anchor boxes: Các hộp giới hạn dự đoán nhiều đối tượng trong một vùng ảnh.
Intersection over Union (IoU): Thước đo đánh giá độ trùng khớp giữa dự đoán và thực tế.
F1-score và mAP (mean Average Precision): Các chỉ số đánh giá hiệu suất mô hình trong nhận diện đối tượng.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ ảnh tự thu thập gồm 9 loại biển báo giao thông Việt Nam với tổng cộng 7.946 ảnh, trong đó 6.945 ảnh dùng cho huấn luyện và 1.001 ảnh dùng để kiểm tra. Dữ liệu được chuẩn hóa kích thước 640x640 pixel, áp dụng các kỹ thuật tăng cường dữ liệu như điều chỉnh độ sáng, làm mờ, thêm nhiễu, cắt và kéo ảnh để tăng tính đa dạng.

Phương pháp phân tích sử dụng mô hình YOLOv7 được huấn luyện trên nền tảng Google Colab Pro với GPU Nvidia A100 40GB, chạy 25 epoch với batch size 8, sau đó tinh chỉnh tham số để tối ưu hiệu suất. Quá trình huấn luyện sử dụng trọng số pre-trained yolov7.pt để tăng tốc độ hội tụ. Hiệu suất mô hình được đánh giá qua các chỉ số Precision, Recall, F1-score và mAP@0.5, đồng thời so sánh với mô hình YOLOv5 để chứng minh sự vượt trội về tốc độ và độ chính xác.

Timeline nghiên cứu kéo dài trong năm 2023-2024, bao gồm các giai đoạn thu thập dữ liệu, huấn luyện mô hình, đánh giá kết quả và triển khai trên thiết bị nhúng KV260 Vision AI.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình YOLOv7 vượt trội: Mô hình đạt độ chính xác mAP@0.5 khoảng 80-85% trên bộ dữ liệu biển báo Việt Nam, cao hơn 3-5% so với YOLOv5, đồng thời tốc độ suy luận đạt 117 FPS, nhanh hơn 18% so với YOLOv5.
Tác động của tinh chỉnh tham số: Việc tăng batch size lên 16 và điều chỉnh learning rate giúp cải thiện F1-score từ 0.78 lên 0.81, đồng thời giảm thiểu lỗi phát hiện sai (False Positive) khoảng 10%.
Đa dạng và phức tạp dữ liệu ảnh: Bộ dữ liệu chứa các ảnh chụp ở nhiều điều kiện ánh sáng, góc độ và khoảng cách khác nhau, bao gồm cả ảnh bị che khuất hoặc phản chiếu ánh sáng, làm tăng độ khó cho mô hình nhưng vẫn duy trì hiệu suất ổn định.
Triển khai trên thiết bị nhúng KV260: Mô hình được cài đặt thành công trên KV260 Vision AI, cho phép nhận diện biển báo trong video thời gian thực với độ trễ thấp, phù hợp cho các ứng dụng trên xe ô tô.

Thảo luận kết quả

Kết quả cho thấy YOLOv7 với kiến trúc E-ELAN và các cải tiến về tham số hóa lớp tích chập giúp giảm 40% chi phí suy luận và 50% công việc tính toán so với các phiên bản trước, đồng thời tăng độ chính xác nhận diện. So với các nghiên cứu trước đây sử dụng YOLOv5 hoặc các mô hình khác, nghiên cứu này đã chứng minh được hiệu quả vượt trội khi áp dụng cho biển báo giao thông Việt Nam, một bộ dữ liệu chưa từng được khai thác rộng rãi.

Việc thu thập dữ liệu thực tế tại thành phố Hồ Chí Minh với đa dạng điều kiện ánh sáng và góc chụp giúp mô hình có khả năng khái quát tốt hơn, giảm thiểu sai số trong môi trường thực tế. Kết quả triển khai trên KV260 cũng cho thấy tính khả thi của hệ thống trong các ứng dụng IoT và xe tự hành, góp phần nâng cao an toàn giao thông và giảm thiểu vi phạm.

Dữ liệu có thể được trình bày qua biểu đồ so sánh mAP và FPS giữa các mô hình YOLOv7 và YOLOv5, cũng như bảng thống kê F1-score theo từng loại biển báo, minh họa rõ hiệu quả của việc tinh chỉnh tham số.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu biển báo giao thông Việt Nam: Thu thập thêm hình ảnh các loại biển báo khác và trong nhiều điều kiện thời tiết, ánh sáng để nâng cao khả năng nhận diện đa dạng, dự kiến hoàn thành trong 12 tháng tới, do các trung tâm nghiên cứu giao thông và trường đại học thực hiện.
Tích hợp hệ thống cảnh báo vi phạm giao thông trên xe ô tô: Phát triển phần mềm cảnh báo dựa trên kết quả nhận diện biển báo, nhằm giảm thiểu vi phạm và tai nạn giao thông, triển khai thử nghiệm trong 6 tháng, phối hợp với các hãng sản xuất ô tô và đơn vị quản lý giao thông.
Nâng cấp phần cứng và tối ưu hóa mô hình cho thiết bị biên (Edge AI): Tinh chỉnh mô hình YOLOv7-tiny để phù hợp với các thiết bị có tài nguyên hạn chế, đảm bảo tốc độ xử lý trên 100 FPS, hoàn thành trong 9 tháng, do nhóm kỹ sư phần mềm và phần cứng thực hiện.
Phát triển hệ thống giám sát giao thông thông minh: Áp dụng mô hình nhận diện biển báo trên các camera giám sát giao thông để tự động phát hiện vi phạm, hỗ trợ công tác xử lý vi phạm và quản lý giao thông, triển khai trong 18 tháng, phối hợp với các cơ quan quản lý đô thị.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo: Nghiên cứu cung cấp kiến thức sâu về mô hình YOLOv7, kỹ thuật huấn luyện và tinh chỉnh mô hình nhận diện đối tượng trong thị giác máy tính.
Các kỹ sư phát triển phần mềm và hệ thống IoT: Tham khảo để ứng dụng mô hình nhận diện biển báo giao thông trên thiết bị nhúng, phát triển các giải pháp thông minh cho xe ô tô và hệ thống giám sát.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để xây dựng các hệ thống cảnh báo vi phạm giao thông tự động, nâng cao hiệu quả quản lý và giảm thiểu tai nạn.
Các doanh nghiệp sản xuất ô tô và thiết bị giám sát: Áp dụng mô hình nhận diện biển báo giao thông để tích hợp vào hệ thống hỗ trợ lái xe, xe tự hành, nâng cao tính năng an toàn và tiện ích cho sản phẩm.

Câu hỏi thường gặp

Mô hình YOLOv7 có ưu điểm gì so với các phiên bản trước?
YOLOv7 cải tiến với kiến trúc E-ELAN giúp tăng hiệu quả huấn luyện, giảm chi phí tính toán 50%, đồng thời đạt độ chính xác cao hơn khoảng 3-5% so với YOLOv5, phù hợp cho các ứng dụng thời gian thực.
Bộ dữ liệu biển báo giao thông Việt Nam có điểm gì đặc biệt?
Bộ dữ liệu gồm hơn 7.900 ảnh với 9 loại biển báo phổ biến, được thu thập tại thành phố Hồ Chí Minh trong nhiều điều kiện ánh sáng và góc chụp khác nhau, giúp mô hình khái quát tốt và phù hợp với thực tế Việt Nam.
Làm thế nào để đánh giá hiệu suất mô hình nhận diện biển báo?
Hiệu suất được đánh giá qua các chỉ số Precision, Recall, F1-score và mAP@0.5, trong đó mAP thể hiện độ chính xác trung bình trên toàn bộ các lớp biển báo, giúp so sánh hiệu quả giữa các mô hình.
Mô hình có thể triển khai trên thiết bị nào?
Mô hình YOLOv7 đã được triển khai thành công trên thiết bị nhúng KV260 Vision AI, cho phép nhận diện biển báo trong video thời gian thực với độ trễ thấp, phù hợp cho các ứng dụng xe ô tô và hệ thống giám sát.
Có thể mở rộng mô hình để nhận diện các loại biển báo khác không?
Có thể, bằng cách thu thập thêm dữ liệu và huấn luyện lại mô hình với số lớp mới, đồng thời tinh chỉnh tham số để đảm bảo độ chính xác và tốc độ xử lý phù hợp với yêu cầu ứng dụng.

Kết luận

Nghiên cứu đã xây dựng thành công hệ thống nhận diện 9 loại biển báo giao thông Việt Nam dựa trên mô hình YOLOv7 với độ chính xác mAP đạt khoảng 85% và tốc độ xử lý trên 100 FPS.
Bộ dữ liệu hình ảnh đa dạng và đặc thù Việt Nam được thu thập và xử lý kỹ lưỡng, góp phần nâng cao khả năng khái quát của mô hình.
Mô hình được triển khai hiệu quả trên thiết bị nhúng KV260 Vision AI, chứng minh tính khả thi cho các ứng dụng thực tế trong giao thông thông minh.
Kết quả nghiên cứu mở ra hướng phát triển các hệ thống cảnh báo vi phạm giao thông tự động và hỗ trợ lái xe an toàn.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tích hợp hệ thống cảnh báo trên xe ô tô và tối ưu hóa mô hình cho các thiết bị biên nhằm nâng cao hiệu quả ứng dụng.

Để tiếp tục phát triển và ứng dụng nghiên cứu, các nhà khoa học và kỹ sư được khuyến khích triển khai thử nghiệm thực tế, đồng thời phối hợp với các cơ quan quản lý giao thông để đưa giải pháp vào vận hành thực tế, góp phần nâng cao an toàn giao thông và giảm thiểu vi phạm.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TONG QUAN CHUONG 2: CO SO LY THUYET CHƯƠNG 3: THIET KE HE THONG CHUONG 4: THU NGHIEM VA ĐÁNH GIA KET QUA CHƯƠNG 5: KET LUẬN 17 CHƯƠNG2.KHAI NIỆM MÔ HÌNH YOLOV7 Là một mạng no-ron sâu (DNN) nên mô hình YOLOv7 có nhiều lớp giữa đầu vô (input) và đầu ra (output). Khái niệm về mạng lưới nơ-ron sâu được lấy cảm hứng từ các tế bào thần kinh có khả năng cảm ứng trong cơ thê sinh vật. Ở mức độ cao, một tế bào thần kinh nơ-ron nhận được nhiều tín hiệu thông qua các khớp thần kinh tiếp xúc với các sợi nhánh của nó và gửi một dòng điện thông qua sợi trục của nó. Độ phức tạp của nhiều đầu vào được giảm bớt bằng cách phân loại mẫu đầu vào của nó.

Các mô hình nơ-ron được con người tạo ra bao gồm các đơn vị kết hợp nhiều đầu vô và chỉ tạo ra duy nhất một đầu ra nên lây cảm hứng từ việc này. Mã nguồn này cấp theo giấy phép GPL-3.0 đưới dang mã nguồn mở, có thé được tìm thấy trong Github và đã được đánh giá hơn 4000 sao trong tháng đầu tiên khi phát hành. YOLOv7 được biết tới là một chương trình phát hiện đối tượng theo thời gian thực tế với tốc độ phát hiện và chỉ số chính xác trong khoảng từ 5 FPS tới 160 FPS cho các thao tác thị giác máy tính từ lúc nghiên cứu vào năm 2022. Nó có chỉ số chính xác cao nhất (56.8% AP) theo tập hợp dữ liệu MS COCO.

Khi ứng dụng thuật toán YOLOv7 vào nhận diện đối tượng thì ta thu được kết quả có độ chính xac cao và được xếp hạng đứng đầu trong các loại thuật toán trong lĩnh vực nhận diện. Đặc biệt khi ứng dụng 18 với GPU V100 thì ngoài độ chính xác ấn tượng, chúng ta còn thấy được tốc độ ấn tượng lên tới 30fps. Mô hình YOLOv7 vượt trội hơn trên cả những mô hình cùng loại như YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, ViT Adaptor-B về tốc độ và chỉ số chính xác. Ở bài này em sẽ so sánh hai mô hình YOLOv7 với YOLOvS (Hình 2.

better MS COCO Object Detection 56 3S LOv7 is +120% faste AP 33 =@=— YOLOv’7 (ours) —® YOLOR 52 / —®—PPYOLOE —e YOLOX 51 [ | —®— Scaled-YOLOv4 50 4 / YOLOVS (6.1) 5 7 > 1 1 13 15 17 19 21 23 25 27 29 31 33 better <qaum V100 batch 1 inference time (ms) Hình 2. So sánh mô hình YOLOv7 với các mô hình khác. Nguồn: Sức mạnh của YOLOV7 khi so sánh với những phiên bản YOLO khác [15].ĐIÊM KHAC BIET CUA YOLOV7 VỚI MÔ HÌNH KHAC Với mô hình YOLOv7, chi phí suy luận chang những không bị phát sinh thêm mà độ chính xác theo thời gian thực còn được tăng thêm. Nhu đã trình bày trước đây trong các điểm chuẩn, khi so sánh giữa các mô hình nhận diện đối tượng khác nhau, tham sé trong mô hình YOLOv7 đã giảm khoảng 40% va công việc tính toán cũng giảm 50% trong việc nhận diện các mục tiêu theo thời gian thực.

Ngoài ra, mô hình YOLOv7 còn có một cấu hình mạng nhanh hơn, mạnh hơn, giảm việc mất dữ liệu hơn cũng như tăng 19 được khả năng thành công trong việc định vị cho hình ảnh và huấn luyện mô hình. Do đó, cau hình máy sẽ gọn hơn nhiều lần khi sử dụng mô hình YOLOv7. Các tệp dữ liệu nhỏ có thé sẽ được nó huấn luyện nhanh hơn nhiều mà không cần các trọng số phải huấn luyện trước. Sau đây là bảng 2.1 so sánh mô hình YOLOv7 so với các mô hình khác như SSD, Faster RCNN trong việc nhận diện những quả trứng vỡ và không vỡ.

So sánh mô hình YOLOv7 với một số mô hình nhận diện khác. Nguôn: Số liệu được trích dẫn từ [26]. Model Class Precision (%) Recall (%) mAP@.5 (%) | FPS Non-broken 89.5 Các lập trình viên huấn luyện mô hình YOLOv7 băng việc dùng các bộ dữ liệu được đưa ra cho cộng đồng miễn phí như MS COCO mà không cần đảo tạo trước các tệp dữ liệu hình ảnh hoặc các trọng số khác. Giống như mô hình Scaled YOLOv4, đường trục mô hình YOLOv7 không dùng đường trục được hướng dẫn từ trước của Image Net (giống như mô hình YOLOv3).

Mô hình YOLOv7 được cho ra mắt những sự đôi mới lớn sau đây: e©_ Mở rộng mạng tổng hợp các lớp (E-ELAN) e Chia các mức độ của mô hình theo ty lệ dựa trên kết nối e Trainable Bag of Freebies (thêm nhiều tuỳ chỉnh kiến trúc mang, các hàm mat mát,.) tăng độ chính xác mà không làm giảm tốc độ nhận diện đối tượng: e Tham số hóa lại lớp tích chập theo kế hoạch. 20 e Thô cho auxiliry và tinh cho lead loss.KIEN TRÚC MÔ HINH YOLOV7 Kiến trúc mô hình YOLOv7 được xây lên dựa trên sự xây dựng của mô hình YOLO trước đó như các mô hình YOLOv4, Scaled YOLOv4 và YOLOR. Kiến trúc bao gồm nhiều phần khác nhau, nói chung là gồm: e Đầu vào xuất hiện trước và về cơ bản là những gi chúng ta có dưới dạng tập hop các hình ảnh huấn luyện sẽ được đưa vào mạng - chúng được xử lý đồng thời theo batch size bởi GPU. ° Tiếp theo là Backbone Network: YOLOv7 dùng một kiến trúc mạng nơ-ron mạnh mẽ làm gốc để trích xuất các đặc trưng từ hình ảnh ra.

Các mạng backbone như ResNet, DarkNet, hoặc EfficientNet có thé được dùng dé trích xuất thông tin từ ảnh đầu vào. e Va Neck thực hiện việc sau khi ảnh được đưa qua mang backbone, các đặc trưng được trích xuất từ ảnh thông qua các lớp tích chập (convolutional) và các lớp tổng hợp (pooling) dé tạo ra biêu dién đặc trưng của ảnh. Trong đó lớp tích chập là một lớp quan trọng trong mạng nơ-ron học sâu (deep learning), đặc biệt là trong mạng CNN. Lớp tích chập chịu trách nhiệm thực hiện trích xuất các đặc trưng của ảnh trên dữ liệu đầu vào.

Các thành phần quan trọng trong lớp tích chập bao gồm bộ lọc (kernel), stride, padding, hàm kích hoạt. Lớp tích chập giúp mô hình CNN tự động học và trích xuất các đặc trưng từ đỡ liệu hình ảnh một cách hiệu quả. Chúng đóng một vai trò cần thiết trong việc nhận diện vật thé, phân loại anh, hoặc các nhiệm vụ khác liên quan đến xử lý ảnh trong deep learning. Lớp tổng hợp được dùng sau lớp tích chập trong mạng CNN, nó giúp giảm kích cỡ của feature maps và giữ lại các đặc trưng cần thiết, qua đó cải thiện khả năng làm việc và tốc độ tính toán của mô hình.

Các thành phần quan trọng trong lớp tổng hợp bao gồm max pooling, average pooling, stride, global pooling. Lop pooling giúp giảm độ phức tap cua mô hình, hạn chế overfitting, tang tốc độ học và cải thiện khả năng tong quát hóa của mô hình. Khi kết hợp với lớp tích chập, lớp tổng hợp đóng vai 21 trò cần thiết trong việc trích xuất và tạo ra các đặc trưng thiết yếu cho quá trình huấn luyện mô hình. e Cuối cùng, phần head sẽ thực hiện việc nhận diện/dự đoán, chủ yếu sẽ làm trọng trách nhận diện (cả xác định toạ độ và phân loại).

Phần này của mô hình được dùng dé dự đoán các bounding box và khả năng dự đoán của các lớp vật thé trong ảnh. YOLOv7 dùng anchor boxes dé dự đoán multiple bounding boxes cho mỗi grid cell trong anh (Hinh 2. One-Stage Detector Input | Backbone Sparse Prediction +Input: { Image, Patches, Image Pyramid,. } Neck: { FPN [44], PANet |49|, Bi-FPN [77Ị,.

} Head: Dense Prediction: { RPN |64|, YOLO |61, 62. 65|, SSD |50|, RetinaNet |45|, FCOS (7%|,. } Sparse Prediction: { Faster R-CNN {64|, R-ECN |,. Kién tric co ban mé hinh YOLO Nguồn: Hình ảnh được trích dẫn từ [16].

Bởi vì YOLO là máy dò một giai đoạn nên nó thực hiện đồng thời cả hai giai đoạn (còn được gọi là Phát hiện mật độ). Trong khi đó, máy dò hai giai đoạn thực hiện chúng một cách riêng biệt và tổng hợp các kết quả (Phát hiện thưa thớt). Trình tự như sau và được mô tả qua Hình 2.ỚỐAAaạạạụANN Ị | Ï | | | | | || rnennnnneeeeeeeeeee NI. tang| CAM ` Rulaling Target Deleclinn | Unify Pixel Size ! Ị (Data Preprocessing} Nguồn: Hình ảnh được trích dẫn từ [1T] Từ đó mô hình YOLOv7 sẽ có nhưng điểm cải thiện như sau: e©_ Mở rộng lớp hiệu quả cho mạng tổng hợp (E-ELAN): Khối tính toán trong mô hình YOLOv7 - backbone hay còn viết tat là E-ELAN, viết từ Mở rộng lớp hiệu quả cho mạng tổng hợp.

Sự hiệu quả, cải thiện liên tục bằng kết cấu E-ELAN của mô hình YOLOv7 đồng ý dé cho việc huấn luyện được ôn hơn bằng việc dùng “mở rộng, xáo trộn, hợp nhất số lượng thẻ” giúp cho khả năng học trên mạng đường gradient lúc đầu không bi thay đổi và được mô tả qua Hình 2. 23 cat (c=160) Ỷ Ỷ ¥ v 1x1 Conv 1x1 Conv 3x3 Conv 3x3 Conv 1x1 Cony 1x1 Conv =64 =84 [| c=64 c64 |“| c=864 c=64 ¥ ¥ 3x3 Conv 3x3 Conv =64 [+ + | =64 3x3 Conv 3x3 Conv c=64 c=64 ¥ ¥ 3x3 Conv 3x3 Conv c=-64 [+ ở| C64 3x3 Conv 3x3 Conv c=64 c=64 3x3 Conv 3x3 Conv c=64 c=64 Ỷ Ỷ Ỷ Ỷ Ỷ Ỷ Ỷ Ỷ Ỷ Ỷ cat (c=64"5) cat (c=64"5) 1x1 Conv 1x1 Conv c=160 c=160 Hình 2. Cấu triic mạng E-ELAN. Nguôn: Hình ảnh được trích dan từ [18].

e Chia tỉ lệ phức hợp của mô hình YOLOv7: bằng cách chỉnh sửa các đặc tính của nó, các phương án liên quan với nhu câu làm việc sẽ được chia tỷ lệ. Phương án chia theo tỷ lệ nhiều thành phần được kết hợp với nhau nhằm giữ được các thuộc tính chính mà mô hình có ở hình dạng nguyên bản và đê giữ được kêt câu ưu việt nhất. Đó là cách vận hành với việc chia tỷ lệ mô hình kết hợp, nếu ta chia tỷ lệ hệ số độ sâu (tăng số lượng lớp của khối tính toán lên) ((a), (b) hình 2.5), thì lúc nối lại với nhau thì số lượng kênh được sinh ra cũng sẽ được tăng lên. Sau đó, việc chia tỷ lệ hệ số chiều rộng làm song song với đổi thay trên các lớp chuyên tiếp ((c) hình 2.

scaling up depth [conv] Ỷ M Ỷ M Ỷ M c c c c c ©° Cc width also be changed (a) concatenation-based model (b) scaled-up concatenation-based model Computational block Transition Scaling up depth Scaling up width Transition Scaling up width Hình 2. Tổng hop các cách chia tỉ lệ mô hình. Nguồn: Hình ảnh được trích dẫn từ [19]. e Su tích chập được tham số hoá lại theo thiết lập: Mặc dù mô hình VGG RepConv đã đạt hiệu quả làm việc tuyệt vời nhưng lại làm giảm sự chính xác khi dùng hai mô hình ResNet và DenseNet.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Nhận Diện Biển Báo Giao Thông Sử Dụng Mô Hình YOLOv7" trình bày một nghiên cứu sâu sắc về việc áp dụng mô hình YOLOv7 trong việc nhận diện biển báo giao thông. Nghiên cứu này không chỉ giúp cải thiện độ chính xác trong việc nhận diện các loại biển báo mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực giao thông thông minh. Những lợi ích mà tài liệu mang lại cho độc giả bao gồm việc hiểu rõ hơn về công nghệ nhận diện hình ảnh hiện đại, cũng như cách mà nó có thể được áp dụng để nâng cao an toàn giao thông.

Nếu bạn muốn tìm hiểu thêm về các hệ thống nhận diện hình ảnh khác, hãy tham khảo tài liệu Luận văn thạc sĩ khoa học máy tính hệ thống nhận dạng sản phẩm dựa trên hình ảnh, nơi bạn sẽ khám phá cách nhận diện sản phẩm qua hình ảnh. Bên cạnh đó, tài liệu Nghiên ứu phương pháp nhận diện cơ thể người trong ảnh số cũng sẽ cung cấp cho bạn cái nhìn sâu sắc về các phương pháp nhận diện cơ thể người, mở rộng kiến thức của bạn về công nghệ nhận diện hình ảnh. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của công nghệ trong đời sống.

#nhận diện biển báo giao thông

#công nghệ nhận diện hình ảnh

#phân tích dữ liệu giao thông

#học sâu trong nhận diện

#Biển báo giao thông thông minh

#Mô hình YOLOv7

Chủ đề

Công nghệ nhận diện hình ảnh hiện đại

Ứng dụng của AI trong giao thông

Phát triển mô hình YOLOv7

Tương lai của biển báo giao thông