I. Tổng quan về đề tài
Đề tài 'Hệ thống phát hiện người đi bộ bằng mô hình YOLOv5 cải tiến' tập trung vào việc phát triển và cải thiện mô hình YOLOv5 nhằm nâng cao chất lượng phát hiện người đi bộ. Việc phát hiện người đi bộ là một thách thức lớn trong lĩnh vực thị giác máy tính, đặc biệt trong các tình huống đông người. Mô hình YOLOv5, với khả năng phát hiện nhanh chóng và chính xác, đã trở thành một trong những lựa chọn hàng đầu cho các ứng dụng thực tế như giám sát video và xe tự lái. Đề tài này không chỉ nghiên cứu lý thuyết mà còn thực hiện trên kit Jetson, cho thấy tính ứng dụng cao của mô hình trong thực tế.
1.1 Lý do chọn đề tài
Việc phát hiện người đi bộ là một vấn đề quan trọng trong nhận diện vật thể, có ứng dụng rộng rãi trong các hệ thống giao thông thông minh và an ninh. Mô hình YOLOv5 được chọn vì nó cung cấp sự cân bằng giữa độ chính xác và tốc độ phát hiện. Nghiên cứu này nhằm cải thiện khả năng phát hiện trong các tình huống phức tạp, nơi mà người đi bộ có thể chồng lấn lên nhau. Điều này không chỉ giúp nâng cao hiệu suất của hệ thống mà còn góp phần vào sự phát triển của công nghệ nhận diện trong các ứng dụng thực tế.
1.2 Thách thức trong thuật toán phát hiện người đi đường
Một trong những thách thức lớn nhất trong việc phát hiện người đi bộ là sự đa dạng về màu sắc và kiểu dáng quần áo. Các phụ kiện như túi xách hay ba lô cũng có thể làm thay đổi hình dạng của người đi bộ. Hơn nữa, trong các tình huống đông người, việc phát hiện chính xác người đi bộ trở nên khó khăn hơn do sự chồng lấn. Đề tài này hướng đến việc cải thiện khả năng phát hiện trong những tình huống này bằng cách kết hợp thông tin toàn diện và cục bộ, từ đó nâng cao độ chính xác của hệ thống.
II. Cơ sở lý thuyết
Chương này sẽ phân tích các khái niệm cơ bản liên quan đến mô hình YOLOv5 và các phiên bản trước đó. Mô hình YOLO đã trở thành một trong những cấu trúc phổ biến nhất cho phát hiện đối tượng trong thời gian thực. Các chỉ số như Precision, Recall và mAP sẽ được sử dụng để đánh giá hiệu suất của mô hình. Việc hiểu rõ về các thuật toán như Non-Max Suppression (NMS) và Intersection over Union (IoU) là rất quan trọng để cải thiện khả năng phát hiện. Chương này cũng sẽ đề cập đến các phương pháp tập trung trong thị giác máy tính, như Global Attention Mechanism và Efficient Channel Attention, nhằm tối ưu hóa quá trình phát hiện.
2.1 Tình hình nghiên cứu ngoài nước
Nghiên cứu về phát hiện người đi bộ đã thu hút sự quan tâm lớn từ cộng đồng khoa học. Nhiều nghiên cứu đã chỉ ra rằng các mô hình dựa trên học sâu, đặc biệt là YOLO, có khả năng phát hiện nhanh chóng và chính xác. Các nghiên cứu gần đây đã tập trung vào việc cải thiện độ chính xác và tốc độ của các mô hình này, với nhiều phương pháp mới được đề xuất. Việc áp dụng các mô hình này trong các lĩnh vực như xe tự lái và giám sát video đã chứng minh tính khả thi và hiệu quả của chúng.
2.2 Mạng Yolo Network
Mạng YOLO đã trải qua nhiều phiên bản, từ YOLOv1 đến YOLOv5, với mỗi phiên bản đều có những cải tiến đáng kể. YOLOv5, với cấu trúc mạng tối ưu và khả năng xử lý nhanh, đã trở thành lựa chọn hàng đầu cho nhiều ứng dụng thực tế. Chương này sẽ phân tích chi tiết về cấu trúc của YOLOv5, bao gồm các thành phần chính như Backbone, Head và các mô-đun tập trung. Việc hiểu rõ về cấu trúc này sẽ giúp trong việc phát triển và cải thiện mô hình cho các ứng dụng cụ thể.
III. Mô hình đề xuất cho mô đun Global Attention Mechanism
Mô-đun Global Attention Mechanism (GAM) được đề xuất nhằm cải thiện khả năng phát hiện của mô hình YOLOv5. Mô-đun này tập trung vào việc tối ưu hóa thông tin toàn diện từ các vùng khác nhau trong ảnh, giúp tăng cường độ chính xác trong việc phát hiện người đi bộ. Việc tích hợp GAM vào YOLOv5 không chỉ cải thiện độ chính xác mà còn giúp mô hình hoạt động hiệu quả hơn trong các tình huống phức tạp. Các thử nghiệm cho thấy rằng việc sử dụng GAM đã mang lại kết quả khả quan, với độ chính xác cao hơn so với các mô hình trước đó.
3.1 Đề xuất cho mạng Global Attention Mechanism
Đề xuất cho mô-đun GAM bao gồm việc sử dụng các kỹ thuật học sâu để tối ưu hóa quá trình phát hiện. Mô-đun này sẽ phân tích các đặc trưng toàn diện từ ảnh đầu vào, từ đó cải thiện khả năng phát hiện trong các tình huống đông người. Việc áp dụng GAM vào YOLOv5 đã cho thấy sự cải thiện đáng kể về độ chính xác và tốc độ phát hiện, giúp mô hình hoạt động hiệu quả hơn trong các ứng dụng thực tế.
3.2 Cấu trúc mới cho GAM
Cấu trúc mới cho mô-đun GAM được thiết kế để tối ưu hóa quá trình xử lý thông tin. Việc sử dụng các lớp shuffle và thay đổi hàm kích hoạt đã giúp cải thiện khả năng phát hiện của mô hình. Các thử nghiệm cho thấy rằng cấu trúc mới này không chỉ tăng cường độ chính xác mà còn giảm thiểu thời gian xử lý, từ đó nâng cao hiệu suất của hệ thống. Điều này cho thấy rằng việc cải tiến cấu trúc mô-đun là rất cần thiết để đáp ứng yêu cầu ngày càng cao trong lĩnh vực phát hiện người đi bộ.