Tổng quan nghiên cứu
Theo ước tính, tai nạn giao thông liên quan đến người đi bộ chiếm tỷ lệ cao trong các vụ tai nạn tại Việt Nam, gây ra nhiều hậu quả nghiêm trọng về người và tài sản. Trong bối cảnh đó, việc phát triển hệ thống theo dấu người đi bộ bằng công nghệ học sâu nhằm hỗ trợ tài xế trong việc nhận diện và dự đoán quỹ đạo người đi bộ trên đường là rất cấp thiết. Mục tiêu nghiên cứu của luận văn là xây dựng và cải tiến mô hình học sâu để theo dấu nhiều người đi bộ trong các khung hình video, đảm bảo độ chính xác cao và tốc độ xử lý gần thời gian thực. Nghiên cứu tập trung vào dữ liệu thu thập từ camera hành trình xe hơi và các khu vực đông người như trung tâm thương mại, với phạm vi thời gian huấn luyện và đánh giá trên các tập dữ liệu MOT16, MOT17 và MOT20 trong khoảng thời gian từ năm 2021 đến 2022. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác của hệ thống theo dấu người đi bộ, góp phần giảm thiểu tai nạn giao thông và tăng cường an toàn cho người đi bộ cũng như tài xế.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai hướng tiếp cận chính trong bài toán theo dấu người đi bộ: Tracking-by-Detection (TBD) và Joint-Detection-And-Tracking (JDT). Trong đó, JDT được lựa chọn làm nền tảng do khả năng học đồng thời hai tác vụ nhận diện và định danh đối tượng, giúp cải thiện tốc độ và độ chính xác. Mô hình FairMOT là cơ sở được kế thừa, với kiến trúc encoder-decoder sử dụng mạng ResNet-34 và các lớp deformable convolution để trích xuất đặc trưng đa độ phân giải. Hai mô-đun attention chính được áp dụng là Spatial Attention Module (SAM) nhằm giảm nhiễu nền và tăng cường đặc trưng không gian, và Channel Attention Module (CAM) giúp cải thiện khả năng phân biệt các embedding định danh trong đầu Re-ID. Các khái niệm chính bao gồm mạng neural nhân tạo (ANN), mạng neural tích chập (CNN), deformable convolutional neural network, attention mechanism, và các chỉ số đánh giá theo dấu như MOTA, IDF1.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là các tập MOT16, MOT17 và MOT20 từ MOT Challenge, bao gồm video ghi hình người đi bộ trong nhiều môi trường khác nhau, cả trong nhà và ngoài trời, với dữ liệu được gán nhãn chính xác. Dữ liệu được chuẩn hóa về kích thước 1088x608 và áp dụng các kỹ thuật tăng cường dữ liệu như scaling, rotation, color jittering để tăng tính đa dạng. Mô hình ACSMOT được xây dựng dựa trên FairMOT với cải tiến attention, được huấn luyện trên Google Colab Pro sử dụng GPU NVIDIA P100 hoặc Tesla T4, với batch size 8, 30 epoch, và thuật toán tối ưu Adam với learning rate ban đầu 10^-4 giảm xuống 10^-5 từ epoch 20. Phân tích kết quả được thực hiện bằng các chỉ số định lượng như MOTA, IDF1, IDs, MT, ML và đánh giá định tính qua các trường hợp kích thước người đi bộ khác nhau và vật cản. Quá trình nghiên cứu kéo dài từ tháng 9/2021 đến tháng 5/2022.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Cải tiến mô hình với attention: Việc tích hợp mô-đun CAM trong đầu Re-ID giúp tăng chỉ số IDF1 lên 1.3% so với mô hình không sử dụng CAM, đồng thời cải thiện chỉ số MT (số đối tượng được theo dõi thường xuyên) tăng 1 điểm phần trăm. Mô-đun SAM khi đặt trong Feature Extractor làm tăng MOTA thêm 0.2% và giảm số lần chuyển đổi ID (IDs) khoảng 10%, trong khi đặt SAM trong Detection Head gây giảm IDF1 khoảng 1.7%.
Hiệu quả trên tập dữ liệu MOT: Mô hình ACSMOT đạt MOTA 82.6% và IDF1 67.5% trên tập MOT16, vượt trội hơn các mô hình như TubeTK (MOTA 63.5%), CTracker, CenterTrack và FairMOT với mức tăng MOTA và IDF1 từ 0.9% đến 2.5% tùy tập dữ liệu. Trên tập MOT20, mô hình cải thiện MOTA thêm 2.5% và giảm 150 lần chuyển đổi ID so với FairMOT.
Khả năng nhận diện đa kích thước và vật cản: Mô hình nhận diện tốt người đi bộ với kích thước nhỏ trong ảnh, tuy nhiên vẫn gặp khó khăn khi người đi bộ bị vật cản che khuất, ảnh hưởng đến quá trình theo dấu.
Thảo luận kết quả
Kết quả cho thấy việc áp dụng các mô-đun attention giúp mô hình học sâu tập trung hơn vào các đặc trưng quan trọng, giảm nhiễu nền và tăng khả năng phân biệt các đối tượng người đi bộ. So với các nghiên cứu trước đây, ACSMOT duy trì được ưu điểm của FairMOT về tốc độ và độ chính xác, đồng thời cải thiện khả năng theo dấu nhờ attention. Việc giảm số lần chuyển đổi ID và tăng MT cho thấy mô hình ổn định hơn trong việc duy trì định danh đối tượng qua các khung hình. Tuy nhiên, hạn chế về nhận diện khi có vật cản vẫn tồn tại, tương tự như các mô hình hiện hành, cho thấy cần tiếp tục nghiên cứu các kỹ thuật bổ sung như dữ liệu huấn luyện đa dạng hơn hoặc attention nâng cao. Dữ liệu có thể được trình bày qua biểu đồ so sánh MOTA, IDF1 giữa các mô hình và bảng thống kê ảnh hưởng của CAM, SAM trong các thành phần mô hình.
Đề xuất và khuyến nghị
Mở rộng dữ liệu huấn luyện: Tăng cường sử dụng các tập dữ liệu đa dạng như Caltech Pedestrian, CityPersons, CUHK-SYSU, PRW, ETHZ để cải thiện khả năng tổng quát và độ chính xác của mô hình trong nhiều điều kiện khác nhau.
Nghiên cứu và áp dụng các mô-đun attention mới: Khai thác các kỹ thuật attention tiên tiến hơn nhằm tăng cường khả năng học đặc trưng, giảm nhiễu và cải thiện hiệu quả theo dấu, đặc biệt trong môi trường phức tạp.
Cải tiến nhận diện đối tượng bị che khuất: Phát triển các phương pháp bổ sung như mô hình dự đoán quỹ đạo, sử dụng thông tin ngữ cảnh hoặc kỹ thuật học sâu đa luồng để xử lý các trường hợp vật cản che khuất người đi bộ.
Tối ưu hóa mô hình cho ứng dụng thực tế: Đẩy mạnh việc triển khai mô hình trên các thiết bị nhúng hoặc hệ thống xe tự hành với yêu cầu thời gian thực, đảm bảo cân bằng giữa độ chính xác và tốc độ xử lý.
Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, phối hợp giữa nhóm nghiên cứu và các đơn vị ứng dụng công nghệ trong lĩnh vực giao thông và an toàn đường bộ.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Nghiên cứu về học sâu, thị giác máy tính, theo dấu đối tượng sẽ được cung cấp kiến thức chuyên sâu về mô hình JDT, attention và ứng dụng thực tiễn.
Chuyên gia phát triển hệ thống xe tự hành và hỗ trợ lái xe: Luận văn cung cấp giải pháp nâng cao khả năng nhận diện và theo dấu người đi bộ, hỗ trợ phát triển các hệ thống cảnh báo an toàn giao thông.
Doanh nghiệp công nghệ và startup trong lĩnh vực an toàn giao thông: Tham khảo để ứng dụng mô hình học sâu cải tiến vào sản phẩm giám sát giao thông, camera hành trình, hệ thống cảnh báo va chạm.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để đánh giá, triển khai các giải pháp công nghệ hỗ trợ giảm thiểu tai nạn liên quan đến người đi bộ.
Câu hỏi thường gặp
Mô hình ACSMOT khác gì so với FairMOT?
ACSMOT cải tiến FairMOT bằng cách tích hợp các mô-đun attention không gian (SAM) và kênh (CAM), giúp tăng khả năng học đặc trưng và giảm nhiễu nền, từ đó cải thiện độ chính xác theo dấu người đi bộ.Tại sao chọn hướng tiếp cận Joint-Detection-And-Tracking (JDT)?
JDT cho phép học đồng thời hai tác vụ nhận diện và định danh trong một mô hình end-to-end, giúp cân bằng độ chính xác và tốc độ xử lý, phù hợp với yêu cầu theo dấu thời gian thực.Các chỉ số đánh giá MOTA và IDF1 có ý nghĩa gì?
MOTA đo độ chính xác tổng thể của quá trình theo dấu, bao gồm phát hiện và liên kết đối tượng; IDF1 đánh giá tỷ lệ phát hiện đúng định danh đối tượng, phản ánh khả năng duy trì ID ổn định qua các khung hình.Mô hình có thể xử lý tốt trong môi trường đông người không?
Trên tập dữ liệu MOT20 với đám đông người đi bộ, ACSMOT cải thiện MOTA và giảm số lần chuyển đổi ID so với các mô hình trước, cho thấy khả năng xử lý tốt hơn trong môi trường phức tạp.Những hạn chế hiện tại của mô hình là gì?
Mô hình vẫn gặp khó khăn khi người đi bộ bị che khuất bởi vật cản và khi số lượng người đi bộ quá đông, dẫn đến nhầm lẫn trong theo dấu. Đây là điểm cần cải tiến trong các nghiên cứu tiếp theo.
Kết luận
- Đã đề xuất mô hình ACSMOT cải tiến từ FairMOT bằng việc tích hợp các mô-đun attention không gian và kênh, nâng cao hiệu quả theo dấu người đi bộ.
- Mô hình đạt kết quả tốt trên các tập dữ liệu MOT16, MOT17 và MOT20, cải thiện các chỉ số MOTA và IDF1 so với các mô hình cùng hướng tiếp cận.
- Nghiên cứu chứng minh tính khả thi của việc áp dụng attention trong bài toán theo dấu đa đối tượng, góp phần nâng cao độ chính xác và ổn định.
- Hạn chế về nhận diện khi có vật cản và trong môi trường đông người vẫn tồn tại, cần được khắc phục trong tương lai.
- Đề xuất mở rộng dữ liệu huấn luyện, nghiên cứu các mô-đun attention mới và cải tiến nhận diện đối tượng bị che khuất là hướng phát triển tiếp theo.
Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia ứng dụng được khuyến khích triển khai mô hình trong các hệ thống thực tế, đồng thời mở rộng nghiên cứu về attention và dữ liệu đa dạng nhằm nâng cao hiệu quả và tính ứng dụng của hệ thống theo dấu người đi bộ.