Tổng quan nghiên cứu
Theo ước tính, tai nạn giao thông liên quan đến người đi bộ chiếm tỷ lệ cao trong các vụ tai nạn tại Việt Nam, gây ảnh hưởng nghiêm trọng đến tính mạng và tài sản. Trong bối cảnh đó, việc phát triển hệ thống theo dấu người đi bộ bằng công nghệ học sâu trở nên cấp thiết nhằm nâng cao an toàn giao thông, đặc biệt hỗ trợ tài xế trong việc nhận diện và dự đoán quỹ đạo người đi bộ. Mục tiêu chính của nghiên cứu là xây dựng mô hình học sâu có khả năng theo dấu nhiều người đi bộ trong các khung hình video, đảm bảo độ chính xác và tốc độ xử lý gần thời gian thực. Nghiên cứu tập trung vào dữ liệu thu thập từ camera hành trình xe hơi và các khu vực đông người như trung tâm thương mại, trong phạm vi thời gian từ năm 2021 đến 2022 tại Việt Nam. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số đánh giá như Multi-Object Tracking Accuracy (MOTA) và Identity F1 Score (IDF1), góp phần giảm thiểu rủi ro tai nạn giao thông và nâng cao hiệu quả các hệ thống hỗ trợ lái xe tự động.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết và mô hình chính trong lĩnh vực thị giác máy tính và học sâu:
Mạng neural nhân tạo (Artificial Neural Network - ANN): Mô hình tính toán lấy cảm hứng từ cấu trúc tế bào thần kinh sinh học, gồm các lớp neural kết nối với trọng số học được qua quá trình huấn luyện. ANN nhiều lớp với các hàm kích hoạt như ReLU, Sigmoid được sử dụng để trích xuất đặc trưng từ dữ liệu hình ảnh.
Mạng neural tích chập (Convolutional Neural Network - CNN): Mạng CNN với các lớp convolution, pooling và fully-connected giúp trích xuất đặc trưng không gian từ ảnh đầu vào. Các kỹ thuật như deformable convolution được áp dụng để tăng khả năng thích ứng với biến đổi hình học của đối tượng.
Ngoài ra, mô hình học sâu FairMOT được chọn làm nền tảng, với kiến trúc joint-detection-and-tracking (JDT) kết hợp đồng thời hai tác vụ nhận diện và định danh đối tượng (Re-ID). Nghiên cứu cải tiến mô hình này bằng cách tích hợp các mô-đun attention gồm Spatial Attention Module (SAM) và Channel Attention Module (CAM) nhằm tăng cường khả năng học đặc trưng và giảm nhiễu nền.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là tập MOT challenge gồm các bộ dữ liệu MOT16, MOT17 và MOT20, với tổng cộng 18 video huấn luyện và đánh giá, ghi nhận người đi bộ trong nhiều môi trường khác nhau, từ ngoài trời đến trong nhà, với các mức độ đông đúc khác nhau. Dữ liệu được chuẩn hóa về kích thước 1088x608 pixel và áp dụng kỹ thuật augmentation như scaling, rotation, color jittering để tăng tính đa dạng.
Mô hình ACSMOT được xây dựng trên framework PyTorch, sử dụng mạng DLA-34 làm backbone để trích xuất đặc trưng. Quá trình huấn luyện sử dụng thuật toán Adam với learning rate ban đầu 10^-4, giảm xuống 10^-5 từ epoch 20, batch size 8, tổng thời gian huấn luyện khoảng 10 giờ cho MOT17 và 20 giờ cho MOT20 trên GPU NVIDIA P100 hoặc Tesla T4. Phương pháp phân tích bao gồm đánh giá định tính qua hình ảnh theo dấu và đánh giá định lượng qua các chỉ số MOTA, IDF1, IDs, MT, ML trên tập dữ liệu test.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Cải thiện độ chính xác theo dấu: Mô hình ACSMOT đạt MOTA 82.6% trên tập MOT16, tăng 0.2% so với baseline FairMOT, đồng thời giảm 10% số lần chuyển đổi ID (IDs), thể hiện qua bảng so sánh thí nghiệm ảnh hưởng của SAM.
Tăng cường khả năng phân biệt đối tượng: Việc tích hợp mô-đun CAM trong đầu Re-ID giúp tăng IDF1 lên 1.3% trên tập dữ liệu chia nhỏ MOT17, đồng thời cải thiện chỉ số MT (số đối tượng được theo dấu thường xuyên) tăng 1 đơn vị, cho thấy khả năng nhận diện và duy trì định danh đối tượng tốt hơn.
Hiệu quả trên môi trường đông đúc: Trên tập MOT20 với đám đông người đi bộ, ACSMOT vượt trội hơn FairMOT với MOTA tăng 2.5% và giảm 150 IDs, chứng minh tính hiệu quả của các mô-đun attention trong điều kiện phức tạp.
Khả năng nhận diện đa kích thước: Đánh giá định tính cho thấy mô hình nhận diện tốt các đối tượng người đi bộ có kích thước nhỏ trong ảnh, đảm bảo độ bao phủ và chính xác trong nhiều tình huống thực tế.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện là do việc áp dụng các mô-đun attention giúp mô hình tập trung vào các vùng ảnh quan trọng, giảm nhiễu từ nền và tăng cường đặc trưng nhận dạng. So với các nghiên cứu trước như FairMOT và CSTrack, ACSMOT giữ được tốc độ xử lý gần thời gian thực đồng thời nâng cao độ chính xác theo dấu. Biểu đồ loss trong quá trình huấn luyện cho thấy hàm mất mát giảm nhanh trong 15 epoch đầu, ổn định dưới 1 từ epoch 20, minh chứng cho sự hội tụ của mô hình. Bảng so sánh các chỉ số MOTA, IDF1, IDs, MT, ML được trình bày chi tiết giúp đánh giá khách quan hiệu quả mô hình.
Tuy nhiên, mô hình vẫn còn hạn chế trong việc theo dấu các đối tượng bị che khuất hoặc khi số lượng người đi bộ quá đông, dẫn đến nhầm lẫn ID. Đây là điểm cần cải tiến trong các nghiên cứu tiếp theo.
Đề xuất và khuyến nghị
Mở rộng dữ liệu huấn luyện: Tăng cường sử dụng các bộ dữ liệu đa dạng như Caltech Pedestrian, CityPersons, CUHK-SYSU để cải thiện khả năng tổng quát hóa của mô hình, dự kiến thực hiện trong 6-12 tháng tới bởi nhóm nghiên cứu và cộng tác viên.
Nghiên cứu và tích hợp các mô-đun attention mới: Thử nghiệm các kiến trúc attention tiên tiến hơn nhằm tăng cường khả năng học đặc trưng và giảm nhiễu, nâng cao hiệu quả theo dấu, thực hiện song song với việc mở rộng dữ liệu.
Cải tiến xử lý đối tượng bị che khuất: Phát triển các kỹ thuật dự đoán quỹ đạo và tái nhận diện đối tượng khi bị vật cản, giảm thiểu sai sót trong quá trình theo dấu, ưu tiên trong các dự án nghiên cứu tiếp theo.
Tối ưu hóa mô hình cho môi trường thực tế: Đưa mô hình vào thử nghiệm thực tế trên các hệ thống hỗ trợ lái xe, đánh giá hiệu quả và điều chỉnh tham số để phù hợp với điều kiện giao thông Việt Nam, phối hợp với các đơn vị phát triển công nghệ giao thông.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, thị giác máy tính: Nghiên cứu sâu về mô hình học sâu, attention và ứng dụng trong theo dấu đa đối tượng.
Chuyên gia phát triển hệ thống hỗ trợ lái xe tự động và an toàn giao thông: Áp dụng mô hình theo dấu người đi bộ để nâng cao tính năng cảnh báo và dự đoán hành vi người đi bộ.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và giao thông thông minh: Tham khảo giải pháp cải tiến mô hình để phát triển sản phẩm thương mại có tính cạnh tranh cao.
Cơ quan quản lý và hoạch định chính sách giao thông: Hiểu rõ công nghệ mới hỗ trợ giảm thiểu tai nạn giao thông, từ đó xây dựng các chính sách thúc đẩy ứng dụng công nghệ.
Câu hỏi thường gặp
Mô hình ACSMOT có thể áp dụng cho các đối tượng khác ngoài người đi bộ không?
Mô hình được thiết kế và huấn luyện chủ yếu trên dữ liệu người đi bộ, do đó hiệu quả với các đối tượng khác có thể giảm. Tuy nhiên, kiến trúc có thể được điều chỉnh và huấn luyện lại để theo dấu các đối tượng khác.Tốc độ xử lý của mô hình có đáp ứng được yêu cầu thời gian thực không?
Mô hình ACSMOT kế thừa FairMOT với tốc độ xử lý từ 22 đến 44 FPS tùy độ phân giải, phù hợp với ứng dụng thời gian thực trong các hệ thống hỗ trợ lái xe.Các mô-đun attention đóng vai trò như thế nào trong mô hình?
Spatial Attention Module giúp tập trung vào vùng ảnh quan trọng, giảm nhiễu nền; Channel Attention Module tăng cường đặc trưng định danh đối tượng, cải thiện độ chính xác theo dấu.Mô hình xử lý thế nào khi người đi bộ bị che khuất hoặc mất tầm nhìn?
Hiện tại mô hình còn hạn chế trong trường hợp này, dẫn đến mất dấu hoặc nhầm lẫn ID. Đây là hướng nghiên cứu tiếp theo nhằm cải thiện khả năng dự đoán và tái nhận diện.Làm thế nào để đánh giá hiệu quả mô hình theo dấu người đi bộ?
Sử dụng các chỉ số chuẩn như MOTA, MOTP, IDF1, số lần chuyển đổi ID (IDs), số đối tượng theo dấu thường xuyên (MT) và ít thành công (ML) trên các bộ dữ liệu chuẩn như MOT challenge.
Kết luận
- Đã đề xuất mô hình ACSMOT cải tiến từ FairMOT bằng cách tích hợp các mô-đun attention không gian và kênh, nâng cao hiệu quả theo dấu người đi bộ.
- Mô hình đạt được cải thiện đáng kể về các chỉ số MOTA và IDF1 trên các bộ dữ liệu MOT16, MOT17 và MOT20, đặc biệt trong môi trường đông đúc.
- Phương pháp huấn luyện end-to-end giúp giảm thời gian và tăng tính đồng bộ giữa các tác vụ nhận diện và định danh.
- Hạn chế hiện tại gồm xử lý kém với đối tượng bị che khuất và nhầm lẫn khi số lượng người đi bộ lớn.
- Định hướng phát triển tương lai tập trung vào mở rộng dữ liệu, cải tiến mô-đun attention và xử lý các trường hợp phức tạp nhằm nâng cao độ chính xác và ứng dụng thực tế.
Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và doanh nghiệp ứng dụng mô hình ACSMOT trong các hệ thống hỗ trợ lái xe và an toàn giao thông, đồng thời tiếp tục phát triển các giải pháp nâng cao dựa trên nền tảng này.