Hệ Thống Phát Hiện Người Đi Bộ Sử Dụng Mô Hình YOLOv5 Cải Tiến

Người đăng

Ẩn danh

2024

137
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng quan về hệ thống phát hiện người đi bộ Yolov5

Sự phát triển của học sâumạng nơ-ron tích chập (CNN) đã mang lại những tiến bộ đáng kể trong lĩnh vực xử lý ảnh, đặc biệt là trong phát hiện người đi bộ. Bài toán này từ lâu đã là một thách thức lớn trong thị giác máy tính. Mục tiêu là dự đoán chính xác vị trí của người đi bộ trong ảnh, có ứng dụng rộng rãi trong xe tự lái, giám sát video, và robot. Các hệ thống phát hiện đối tượng dựa trên deep learning có thể được phân loại thành hai loại: một giai đoạn và hai giai đoạn. Các nghiên cứu gần đây tập trung vào việc phát triển các bộ phát hiện người đi bộ hiệu quả, đạt được cả độ chính xác cao và tốc độ xử lý thời gian thực. Yolov5 là một trong những kiến trúc được sử dụng rộng rãi cho các hệ thống này.

1.1. Tầm quan trọng của phát hiện người đi bộ chính xác

Việc phát hiện người đi bộ chính xác là yếu tố then chốt trong nhiều ứng dụng thực tế. Trong xe tự lái, nó giúp tránh tai nạn và đảm bảo an toàn cho người đi đường. Trong hệ thống giám sát, nó hỗ trợ việc theo dõi và phân tích hành vi. Sai sót trong phát hiện có thể dẫn đến hậu quả nghiêm trọng. Vì vậy, việc cải thiện độ chính xác và độ tin cậy của các hệ thống này là vô cùng quan trọng.

1.2. Ứng dụng của hệ thống phát hiện người đi bộ trong thực tiễn

Ứng dụng của hệ thống phát hiện người đi bộ rất đa dạng và trải rộng trên nhiều lĩnh vực. Xe tự hành cần nó để nhận biết và phản ứng với người đi bộ trên đường. Các hệ thống an ninh sử dụng để giám sát và phát hiện các hành vi đáng ngờ. Robot có thể dùng để điều hướng trong môi trường có người. Các ứng dụng này đều đòi hỏi hệ thống phải hoạt động nhanh chóng và chính xác. Theo luận văn, 'phát hiện người đi bộ được coi là một mục tiêu quan trọng trong việc phát hiện đối tượng vì nó tập trung vào việc dự đoán chính xác các bounding box của người đi bộ trong ảnh.'

II. Thách thức trong phát hiện người đi bộ và giải pháp Yolov5

Việc phát hiện người đi bộ gặp nhiều khó khăn do sự đa dạng về hình dáng, trang phục, và điều kiện ánh sáng. Các yếu tố như che khuất, chồng lấn, và kích thước nhỏ của đối tượng cũng gây ảnh hưởng lớn đến hiệu suất. Các phương pháp truyền thống thường dựa vào các đặc trưng thủ công, dễ bị ảnh hưởng bởi các biến đổi môi trường. Yolov5, với khả năng học các đặc trưng phức tạp từ dữ liệu, đã mang lại những cải tiến đáng kể. Tuy nhiên, vẫn còn nhiều dư địa để cải thiện, đặc biệt trong các tình huống phức tạp. Theo Phạm Hiển Long, một trong những biến số thay đổi nhiều nhất khi giải quyết bài toán nhận dạng người đi đường đó là màu sắc và các loại quần áo của người đi bộ. Thêm vào đó một số phụ kiện có thể làm thay đổi hình dạng người đi đường như túi xách, ba lô hoặc bao tay.

2.1. Các yếu tố ảnh hưởng đến độ chính xác của hệ thống

Độ chính xác của hệ thống phát hiện người đi bộ chịu ảnh hưởng bởi nhiều yếu tố. Sự thay đổi về ánh sáng, thời tiết, và góc nhìn có thể làm giảm hiệu suất. Các vật cản như cây cối, xe cộ, và các đối tượng khác cũng có thể che khuất người đi bộ, gây khó khăn cho việc phát hiện. Kích thước nhỏ của đối tượng, đặc biệt ở khoảng cách xa, cũng là một thách thức lớn. Cần có các giải pháp để giảm thiểu ảnh hưởng của các yếu tố này.

2.2. Giới thiệu về kiến trúc Yolov5 và ưu điểm vượt trội

Yolov5 là một kiến trúc object detection một giai đoạn, nổi bật với tốc độ xử lý nhanh và độ chính xác cao. Nó sử dụng một mạng nơ-ron duy nhất để dự đoán cả vị trí và loại đối tượng trong ảnh. Các ưu điểm của Yolov5 bao gồm: khả năng xử lý thời gian thực, kiến trúc đơn giản, dễ dàng triển khai, và khả năng học các đặc trưng phức tạp từ dữ liệu. Tuy nhiên, Yolov5 vẫn có thể được cải thiện để đạt hiệu suất tốt hơn trong các tình huống cụ thể. So sánh về hiệu năng giữa Yolo và Fast-RCNN – phương pháp 2 chặng thì độ chính xác trung bình là 63.4 và 70 tương ứng nhưng tốc độ đáp ứng của Yolo thì nhanh hơn 300 lần so với Fast-RCNN.

III. Cải tiến mô hình Yolov5 Phương pháp M GAM và M ECA

Luận văn này đề xuất các cải tiến cho mô hình Yolov5 bằng cách tích hợp các mô-đun tập trung mới, cụ thể là M-GAM và M-ECA. M-GAM (Global Attention Mechanism) tập trung vào việc tăng cường khả năng chú ý đến các đặc trưng quan trọng trên toàn cục. M-ECA (Efficient Channel Attention) tập trung vào việc cải thiện hiệu quả của việc tập trung kênh. Sự kết hợp của hai mô-đun này hứa hẹn sẽ nâng cao độ chính xác và độ tin cậy của hệ thống phát hiện người đi bộ, đồng thời giảm thiểu ảnh hưởng của các yếu tố gây nhiễu. Đóng góp chính của Luận Văn sẽ là việc đưa ra thuật toán mới cho mô-đun tập trung là M-GAM và M-ECA.

3.1. Mô tả chi tiết mô đun tập trung M GAM và cơ chế hoạt động

M-GAM (Global Attention Mechanism) là một mô-đun tập trung được thiết kế để tăng cường khả năng chú ý đến các đặc trưng quan trọng trên toàn cục. Nó hoạt động bằng cách sử dụng các cơ chế tập trung kênh và không gian để xác định và làm nổi bật các vùng quan trọng trong ảnh. Việc tập trung vào các đặc trưng toàn cục giúp hệ thống hiểu rõ hơn về ngữ cảnh và cải thiện khả năng phát hiện người đi bộ trong các tình huống phức tạp. Chương 3 sẽ đưa ra đề xuất về mô-đun tập trung GAM.

3.2. Mô tả chi tiết mô đun tập trung M ECA và cơ chế hoạt động

M-ECA (Efficient Channel Attention) là một mô-đun tập trung kênh được thiết kế để cải thiện hiệu quả của việc tập trung kênh. Nó hoạt động bằng cách sử dụng một cơ chế đơn giản và hiệu quả để xác định và làm nổi bật các kênh quan trọng trong mạng nơ-ron. Việc tập trung vào các kênh quan trọng giúp hệ thống trích xuất các đặc trưng hữu ích hơn và cải thiện khả năng phát hiện người đi bộ. Chương 4 sẽ đưa ra đề xuất cho mô-đun tập trung M-ECA.

IV. Đề xuất cấu trúc mạng Yolov5 mới tích hợp M GAM M ECA

Luận văn đề xuất một cấu trúc mạng Yolov5 mới tích hợp các mô-đun M-GAM và M-ECA vào các vị trí chiến lược trong mạng. Việc tích hợp này giúp tăng cường khả năng trích xuất đặc trưng và tập trung vào các vùng quan trọng trong ảnh, từ đó cải thiện độ chính xác và độ tin cậy của hệ thống phát hiện người đi bộ. Cấu trúc mới này hứa hẹn sẽ vượt trội hơn so với Yolov5 gốc trong các bài toán thực tế. Chương 5 sẽ đề xuất cấu trúc của mạng Yolo mới.

4.1. Vị trí tích hợp M GAM và M ECA trong mạng Yolov5

Các mô-đun M-GAM và M-ECA được tích hợp vào các vị trí chiến lược trong mạng Yolov5. M-GAM thường được đặt sau các lớp tích chập để tăng cường khả năng chú ý đến các đặc trưng toàn cục. M-ECA thường được đặt sau các lớp tập hợp để cải thiện hiệu quả của việc tập trung kênh. Việc lựa chọn vị trí tích hợp cẩn thận giúp tối ưu hóa hiệu suất của hệ thống.

4.2. Ưu điểm của cấu trúc mạng Yolov5 mới so với bản gốc

Cấu trúc mạng Yolov5 mới, với sự tích hợp của M-GAM và M-ECA, mang lại nhiều ưu điểm so với bản gốc. Nó giúp tăng cường khả năng trích xuất đặc trưng, tập trung vào các vùng quan trọng trong ảnh, và giảm thiểu ảnh hưởng của các yếu tố gây nhiễu. Kết quả là, hệ thống phát hiện người đi bộ có độ chính xác và độ tin cậy cao hơn, đặc biệt trong các tình huống phức tạp.

V. Đánh giá hiệu năng và kết quả thử nghiệm mô hình Yolov5 cải tiến

Hiệu năng của mô hình Yolov5 cải tiến được đánh giá thông qua các thử nghiệm trên các dataset người đi bộ tiêu chuẩn. Các chỉ số như mAP (mean Average Precision)FPS (Frames Per Second) được sử dụng để so sánh hiệu suất của mô hình mới với Yolov5 gốc và các phương pháp khác. Kết quả cho thấy mô hình mới có độ chính xác cao hơn và tốc độ xử lý tương đương, chứng tỏ hiệu quả của các cải tiến. Chương 6 sẽ trình bày kết quả về hiệu quả của phương thức mới thông qua các chỉ số Precesion, Recall, mAP. Đồng thời so sánh, phân tích kết quả đạt được với các bài báo cũng như version Yolo khác.

5.1. Dataset sử dụng và quy trình tiền xử lý dữ liệu

Các thử nghiệm được thực hiện trên các dataset người đi bộ tiêu chuẩn như PenFudan. Dữ liệu được tiền xử lý để đảm bảo chất lượng và tính nhất quán. Quy trình tiền xử lý bao gồm các bước như: thay đổi kích thước ảnh, chuẩn hóa dữ liệu, và augmentation dữ liệu để tăng tính đa dạng. Việc chuẩn bị dữ liệu kỹ lưỡng là rất quan trọng để đảm bảo hiệu suất tốt của mô hình.

5.2. So sánh hiệu năng với Yolov5 gốc và các phương pháp khác

Hiệu năng của mô hình Yolov5 cải tiến được so sánh với Yolov5 gốc và các phương pháp phát hiện người đi bộ khác. Các chỉ số như mAPFPS được sử dụng để đánh giá hiệu suất. Kết quả cho thấy mô hình mới có độ chính xác cao hơn trong khi vẫn duy trì tốc độ xử lý thời gian thực, cho thấy sự vượt trội của các cải tiến được đề xuất.

VI. Triển khai và ứng dụng thực tế trên kit Jetson Orin Nano

Mô hình Yolov5 cải tiến được triển khai trên kit Jetson Orin Nano để đánh giá hiệu suất trong môi trường thực tế. Kit Jetson Orin Nano là một nền tảng embedded system mạnh mẽ, phù hợp cho các ứng dụng real-time pedestrian detection. Kết quả cho thấy mô hình có thể hoạt động hiệu quả trên kit, đạt được tốc độ khung hình đủ để đáp ứng các yêu cầu của nhiều ứng dụng thực tế. Chương 7 sẽ nghiên cứu và hiện thực giải thuật đó trên GPU đồng thời đo đạc runtime của thuật toán với kit Jetson NVIDIA.

6.1. Cấu hình và thông số kỹ thuật của kit Jetson Orin Nano

Kit Jetson Orin Nano là một nền tảng embedded system mạnh mẽ, được trang bị GPU NVIDIA Ampere và bộ xử lý ARM Cortex-A78AE. Nó có đủ sức mạnh để chạy các thuật toán phát hiện đối tượng phức tạp trong thời gian thực. Các thông số kỹ thuật chính bao gồm: GPU NVIDIA Ampere, bộ xử lý ARM Cortex-A78AE, RAM LPDDR5, và bộ nhớ flash NVMe.

6.2. Kết quả triển khai và đánh giá hiệu suất thời gian thực

Mô hình Yolov5 cải tiến được triển khai trên kit Jetson Orin Nano và đánh giá hiệu suất thời gian thực. Kết quả cho thấy mô hình có thể hoạt động hiệu quả trên kit, đạt được tốc độ khung hình đủ để đáp ứng các yêu cầu của nhiều ứng dụng thực tế. Tốc độ khung hình dao động tùy thuộc vào độ phức tạp của cảnh và kích thước ảnh đầu vào.

21/05/2025

TÀI LIỆU LIÊN QUAN

Hệ thống phát hiện người đi bộ sử dụng mô hình yolov5 cải tiến
Bạn đang xem trước tài liệu : Hệ thống phát hiện người đi bộ sử dụng mô hình yolov5 cải tiến

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu có tiêu đề Phát Hiện Người Đi Bộ Nâng Cao: Ứng Dụng YOLOv5 Cải Tiến trình bày về công nghệ phát hiện người đi bộ sử dụng mô hình YOLOv5, một trong những phương pháp tiên tiến trong lĩnh vực thị giác máy tính. Tài liệu nhấn mạnh những cải tiến trong độ chính xác và tốc độ phát hiện, giúp nâng cao hiệu quả trong các ứng dụng như giám sát an ninh, giao thông thông minh và robot tự hành. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ này, bao gồm khả năng nhận diện nhanh chóng và chính xác, từ đó mở ra nhiều cơ hội ứng dụng trong thực tiễn.

Để mở rộng kiến thức về các ứng dụng công nghệ và nghiên cứu liên quan, bạn có thể tham khảo thêm tài liệu Xây dựng ứng dụng trích xuất thông tin từ danh thiếp sử dụng kỹ thuật học sâu, nơi khám phá cách áp dụng học sâu trong việc trích xuất thông tin. Ngoài ra, tài liệu Ứng dụng chụp cắt lớp vi tính trong khảo sát tuyến thượng thận ở người trưởng thành cũng cung cấp cái nhìn sâu sắc về ứng dụng công nghệ hình ảnh trong y học. Cuối cùng, bạn có thể tìm hiểu thêm về Tác động của marketing xanh đến ý định mua căn hộ xanh, một nghiên cứu thú vị về sự giao thoa giữa công nghệ và thị trường bất động sản. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng công nghệ hiện đại trong nhiều lĩnh vực khác nhau.