Tổng quan nghiên cứu
Trong bối cảnh sự phát triển mạnh mẽ của công nghệ số và mạng xã hội, dữ liệu video ngày càng trở nên phổ biến và đa dạng, tạo điều kiện thuận lợi cho việc nghiên cứu nhận diện hành vi con người tự động. Đặc biệt, nhận diện hành vi mất tập trung của tài xế trong video là một lĩnh vực quan trọng nhằm nâng cao an toàn giao thông. Theo ước tính, các hành vi mất tập trung như sử dụng điện thoại, ăn uống hay nói chuyện khi lái xe là nguyên nhân chính dẫn đến nhiều vụ tai nạn nghiêm trọng. Tuy nhiên, việc phát hiện các hành vi này gặp nhiều thách thức do dữ liệu video thường chưa được cắt sẵn, hành vi có thể xảy ra ở bất kỳ thời điểm nào với độ dài khác nhau, và góc nhìn camera bị hạn chế hoặc bị che khuất.
Mục tiêu của luận văn là phát triển một phương pháp nhận diện hành vi mất tập trung của tài xế dựa trên dữ liệu video thu thập từ ba góc nhìn camera khác nhau trong xe, nhằm cải thiện độ chính xác và khả năng tổng quát hóa của mô hình nhận diện. Phạm vi nghiên cứu tập trung vào 16 loại hành vi mất tập trung phổ biến, sử dụng bộ dữ liệu thu thập từ cuộc thi AI City Challenge 2023 với tổng thời lượng khoảng 10 tiếng video từ 10 tài xế, ghi hình đồng thời từ ba camera (dashboard, rearview, right view). Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống cảnh báo sớm, góp phần giảm thiểu tai nạn giao thông và nâng cao an toàn cho người tham gia giao thông.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực thị giác máy tính và học sâu:
Vision Transformer (ViT): Mô hình ViT được lấy cảm hứng từ kiến trúc Transformer trong xử lý ngôn ngữ tự nhiên, sử dụng cơ chế attention để học biểu diễn hình ảnh hiệu quả. ViT không dựa trên các inductive bias như CNN, do đó cần lượng dữ liệu lớn để huấn luyện. Tuy nhiên, khi được tiền huấn luyện trên tập dữ liệu lớn (trên 100 triệu mẫu), ViT cho kết quả vượt trội so với CNN.
Video Masked Auto-Encoders (VideoMAE): Đây là một phương pháp tiền huấn luyện mô hình video dựa trên kỹ thuật masking cao (khoảng 75%) trên các khung hình video, giúp mô hình tập trung vào các đặc trưng tổng quát của video thay vì chi tiết nhỏ lẻ. VideoMAE sử dụng ViT làm backbone với attention không gian-thời gian kết hợp, giúp cải thiện hiệu quả nhận diện hành vi trong video.
Các khái niệm chính bao gồm:
- Nhận diện hành vi (Action Recognition): Phân loại các hành vi cụ thể trong video.
- Phân đoạn thời gian hành vi (Temporal Action Localization): Xác định thời điểm bắt đầu và kết thúc của hành vi trong video chưa cắt sẵn.
- Khai thác đa góc nhìn (Multi-view Fusion): Tổng hợp thông tin từ nhiều camera để cải thiện độ chính xác nhận diện.
- Kỹ thuật k-fold cross-validation: Phân chia dữ liệu thành k nhóm để huấn luyện và đánh giá nhằm tăng khả năng tổng quát hóa và giảm overfitting.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ dữ liệu SynDD2 do cuộc thi AI City Challenge 2023 cung cấp, gồm 210 video với tổng độ dài khoảng 34 giờ, ghi hình từ 3 camera bố trí trong xe, với 16 loại hành vi mất tập trung của tài xế. Dữ liệu được đồng bộ thời gian thủ công, độ phân giải 1920x1080, tốc độ 30 FPS.
Phương pháp phân tích gồm các bước:
- Tiền xử lý dữ liệu: Chia video đầu vào thành các đoạn clip nhỏ không trùng nhau, chuẩn hóa dữ liệu đầu ra từ các mô hình nhận diện.
- Huấn luyện mô hình: Sử dụng mô hình VideoMAE với backbone ViT-L/16 đã được tiền huấn luyện trên tập Kinetics710, sau đó fine-tune trên tập dữ liệu SynDD2 bằng kỹ thuật k-fold (k từ 5 đến 10) để tránh overfitting do dữ liệu nhỏ.
- Nhận diện hành vi: Mỗi góc nhìn camera được huấn luyện mô hình riêng biệt, cho ra xác suất dự đoán hành vi theo từng giây.
- Tổng hợp đa góc nhìn: Áp dụng các phương pháp tổng hợp trọng số dựa trên độ tin cậy của từng góc nhìn và từng hành vi, bao gồm phương pháp scaling theo max_os và chọn view có kết quả tốt nhất.
- Hậu xử lý: Gom nhóm, sàng lọc các dự đoán liên tục, loại bỏ các dự đoán ngắn không đáng kể để xác định chính xác thời điểm bắt đầu và kết thúc hành vi.
Timeline nghiên cứu kéo dài trong năm 2023-2024, bao gồm thu thập dữ liệu, huấn luyện mô hình, thử nghiệm và đánh giá kết quả, đồng thời phát triển ứng dụng minh họa cho người dùng.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của mô hình VideoMAE với ViT-L/16: Mô hình đạt độ chính xác cao trong nhận diện hành vi mất tập trung với tập dữ liệu nhỏ (khoảng 755 mẫu cho 16 hành vi). So với các mô hình CNN truyền thống, ViT cho kết quả tốt hơn khi được tiền huấn luyện trên tập dữ liệu lớn, giúp cải thiện độ chính xác nhận diện lên đến khoảng 10-15% so với baseline.
Tổng hợp đa góc nhìn cải thiện độ chính xác: Phương pháp tổng hợp trọng số bằng cách scaling theo max_os đạt kết quả tổng quát tốt nhất với mos (mean overlap score) tăng khoảng 20% so với phương pháp sử dụng một góc nhìn duy nhất. Việc chọn view có kết quả tốt nhất (max_os) giúp cải thiện đáng kể nhận diện các hành vi khó phân biệt như "Eating" (tăng 45% so với baseline).
Hậu xử lý giúp giảm nhiễu và tăng độ tin cậy: Việc gom nhóm và loại bỏ các dự đoán ngắn giúp giảm tỷ lệ dự đoán sai và tăng độ chính xác xác định thời điểm bắt đầu và kết thúc hành vi, nâng mos lên mức trên 0.7 trên tập kiểm thử.
Khó khăn trong nhận diện một số hành vi mơ hồ: Các hành vi như "Talking to passenger at backseat" hay "Hand on head" vẫn còn tỷ lệ nhận diện thấp do góc nhìn camera bị che khuất hoặc hành vi có biểu hiện đa dạng, cần cải tiến thêm về mô hình và dữ liệu.
Thảo luận kết quả
Kết quả cho thấy việc sử dụng mô hình ViT kết hợp VideoMAE là phù hợp với bài toán nhận diện hành vi mất tập trung trong video chưa cắt sẵn, đặc biệt khi dữ liệu huấn luyện hạn chế. Việc khai thác đa góc nhìn giúp khắc phục hạn chế của từng camera đơn lẻ, giảm thiểu ảnh hưởng của che khuất và nhiễu. So với các nghiên cứu trước đây chủ yếu sử dụng CNN hoặc chỉ một góc nhìn, phương pháp này nâng cao đáng kể độ chính xác và khả năng phát hiện hành vi.
Các biểu đồ so sánh mos giữa các phương pháp tổng hợp và từng góc nhìn riêng biệt minh họa rõ sự cải thiện khi áp dụng multi-view fusion. Bảng phân bố nhãn và độ dài hành vi cũng cho thấy sự đa dạng và thách thức trong việc nhận diện chính xác thời điểm hành vi xảy ra.
Tuy nhiên, một số hành vi vẫn còn khó nhận diện do đặc điểm mơ hồ hoặc dữ liệu chưa đủ phong phú, gợi ý hướng phát triển tiếp theo là mở rộng dữ liệu và áp dụng các kỹ thuật attention nâng cao hoặc mô hình đa nhiệm để cải thiện khả năng phân biệt.
Đề xuất và khuyến nghị
Phát triển phương pháp tổng hợp thông tin đa góc nhìn tự động: Áp dụng các thuật toán học sâu để tự động học trọng số tổng hợp thay vì dựa vào các tham số thủ công, nhằm tăng khả năng tổng quát hóa và giảm công sức tinh chỉnh. Thời gian thực hiện dự kiến 6-12 tháng, do nhóm nghiên cứu AI và kỹ sư phần mềm đảm nhận.
Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều tài xế, điều kiện ánh sáng và môi trường khác nhau để tăng tính đa dạng và giảm hiện tượng overfitting. Mục tiêu tăng số lượng mẫu lên gấp đôi trong vòng 1 năm, phối hợp với các trung tâm nghiên cứu và đơn vị giao thông.
Cải tiến mô hình nhận diện hành vi mơ hồ: Nghiên cứu áp dụng các mô hình attention đa nhiệm hoặc kết hợp dữ liệu cảm biến bổ sung (như cảm biến chuyển động) để tăng khả năng phân biệt các hành vi khó nhận diện. Thời gian nghiên cứu 9-12 tháng, do nhóm chuyên gia AI và kỹ thuật cảm biến thực hiện.
Phát triển ứng dụng cảnh báo thời gian thực: Triển khai mô hình vào hệ thống giám sát tài xế trực tiếp, cung cấp cảnh báo sớm khi phát hiện hành vi mất tập trung, góp phần nâng cao an toàn giao thông. Dự kiến phát triển trong 6 tháng, phối hợp với các công ty công nghệ và nhà sản xuất ô tô.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng Vision Transformer và VideoMAE trong nhận diện hành vi, cùng phương pháp khai thác đa góc nhìn, hữu ích cho các nghiên cứu tiếp theo.
Chuyên gia phát triển hệ thống giám sát an toàn giao thông: Các giải pháp và kết quả nghiên cứu giúp cải thiện công nghệ nhận diện hành vi tài xế, hỗ trợ phát triển hệ thống cảnh báo sớm và giảm thiểu tai nạn giao thông.
Doanh nghiệp công nghệ và nhà sản xuất ô tô: Tham khảo để tích hợp công nghệ nhận diện hành vi mất tập trung vào sản phẩm, nâng cao giá trị và tính cạnh tranh của các hệ thống hỗ trợ lái xe thông minh.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để xây dựng các chính sách, quy định và chương trình đào tạo nhằm nâng cao ý thức và an toàn cho tài xế, giảm thiểu tai nạn do mất tập trung.
Câu hỏi thường gặp
Phương pháp nhận diện hành vi mất tập trung của tài xế dựa trên dữ liệu video như thế nào?
Phương pháp sử dụng mô hình VideoMAE với backbone ViT để nhận diện hành vi trên từng đoạn video nhỏ từ ba góc nhìn camera, sau đó tổng hợp kết quả bằng kỹ thuật multi-view fusion và hậu xử lý để xác định chính xác thời điểm bắt đầu và kết thúc hành vi.Tại sao cần sử dụng đa góc nhìn trong nhận diện hành vi?
Một góc nhìn camera có thể bị che khuất hoặc không quan sát được toàn bộ hành vi, dẫn đến dự đoán không chính xác. Đa góc nhìn giúp cung cấp thông tin toàn diện hơn, giảm nhiễu và tăng độ tin cậy của kết quả nhận diện.Làm thế nào để tránh hiện tượng overfitting khi dữ liệu huấn luyện hạn chế?
Sử dụng kỹ thuật k-fold cross-validation để chia nhỏ dữ liệu, huấn luyện mô hình trên các tập con khác nhau và đánh giá tổng hợp, giúp tăng khả năng tổng quát hóa và giảm sự phụ thuộc vào một tập dữ liệu cố định.Phương pháp tổng hợp thông tin đa góc nhìn nào hiệu quả nhất?
Phương pháp scaling theo max_os và chọn view có kết quả tốt nhất giúp cải thiện mos lên đến 20-45% so với baseline, đồng thời giảm nhiễu từ các dự đoán không chính xác của từng camera.Ứng dụng thực tế của nghiên cứu này là gì?
Nghiên cứu hỗ trợ phát triển các hệ thống giám sát tài xế, cảnh báo sớm hành vi mất tập trung, góp phần giảm thiểu tai nạn giao thông và nâng cao an toàn đường bộ, đồng thời có thể tích hợp vào các giải pháp thành phố thông minh.
Kết luận
- Luận văn đã phát triển thành công phương pháp nhận diện hành vi mất tập trung của tài xế dựa trên mô hình VideoMAE với ViT, kết hợp khai thác đa góc nhìn từ ba camera trong xe.
- Phương pháp tổng hợp thông tin đa góc nhìn bằng scaling theo max_os giúp cải thiện đáng kể độ chính xác nhận diện và khả năng xác định thời điểm hành vi.
- Kỹ thuật k-fold cross-validation được áp dụng hiệu quả để giảm overfitting khi dữ liệu huấn luyện hạn chế.
- Kết quả nghiên cứu có ý nghĩa thực tiễn cao trong việc phát triển hệ thống cảnh báo sớm, nâng cao an toàn giao thông.
- Hướng phát triển tiếp theo bao gồm tự động hóa tổng hợp đa góc nhìn, mở rộng dữ liệu, cải tiến mô hình nhận diện hành vi mơ hồ và phát triển ứng dụng cảnh báo thời gian thực.
Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và doanh nghiệp được khuyến khích triển khai các giải pháp dựa trên kết quả này, đồng thời mở rộng hợp tác để nâng cao hiệu quả và tính ứng dụng trong thực tế.