Tổng quan nghiên cứu
Phân tích hành vi lái xe đóng vai trò then chốt trong việc nâng cao an toàn giao thông và phòng tránh tai nạn. Theo báo cáo của ngành, các hành vi lái xe bất thường như buồn ngủ, sử dụng điện thoại, ăn uống khi lái xe chiếm tỷ lệ thấp hơn nhiều so với hành vi lái xe bình thường, ví dụ trong bộ dữ liệu Driver Anomaly Detection (DAD), thời lượng dữ liệu lái xe bình thường là 550 phút, trong khi dữ liệu hành vi bất thường chỉ khoảng 100 phút, tương đương 1/5. Mục tiêu nghiên cứu là phát triển một mô hình học sâu có khả năng phân tích toàn diện hành vi lái xe dựa trên nhiều góc nhìn và cảm biến, nhằm cải thiện độ chính xác dự đoán và đảm bảo tốc độ xử lý thời gian thực. Nghiên cứu tập trung vào việc nâng cao phương pháp Contrastive Learning Framework (CLF) đã đạt AUC trên 0.96 trên bộ dữ liệu DAD, bằng cách áp dụng các kỹ thuật tối ưu hóa kiến trúc mạng nơ-ron, hàm mất mát kết hợp và chiến lược lấy mẫu dữ liệu nhằm giải quyết vấn đề mất cân bằng dữ liệu. Phạm vi nghiên cứu thực hiện trên bộ dữ liệu con sub-DAD, với kích thước khoảng 35GB, bao gồm các video ghi lại hành vi lái xe ở nhiều góc nhìn và chế độ cảm biến khác nhau. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển hệ thống giám sát hành vi lái xe chính xác, nhanh chóng, góp phần giảm thiểu tai nạn giao thông.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết chính: học đối chiếu (Contrastive Learning) và kiến trúc mạng nơ-ron tích chập 3 chiều (3D CNN). Học đối chiếu nhằm tối ưu hóa biểu diễn đặc trưng sao cho các mẫu cùng lớp gần nhau trong không gian đặc trưng, trong khi các mẫu khác lớp được phân tách xa. Mô hình CLF sử dụng 3D ResNet18 làm bộ mã hóa cơ sở (Base Encoder), với các khái niệm chính gồm:
- Residual Block: khối xây dựng của ResNet, giúp giảm thiểu vấn đề biến mất gradient bằng kết nối tắt.
- Projection Head: mạng MLP chuyển đổi vector đặc trưng 512 chiều thành vector 128 chiều để áp dụng hàm mất mát.
- Noise Contrastive Estimation (NCE) Loss: hàm mất mát đối chiếu, phân biệt các cặp mẫu bình thường và bất thường.
- Cross Stage Partial (CSP) technique: kỹ thuật cải tiến kiến trúc Residual block nhằm tăng hiệu quả học và giảm chi phí tính toán.
- CENCE Loss: hàm mất mát kết hợp giữa NCE và Cross Entropy (CE) với trọng số điều chỉnh.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là bộ sub-DAD dataset, gồm khoảng 35GB video ghi lại hành vi lái xe với hai góc nhìn (góc vô lăng và góc trước mặt lái xe) và hai chế độ cảm biến (độ sâu và hồng ngoại). Dữ liệu được phân chia theo tỷ lệ 82% cho huấn luyện và 18% cho kiểm thử, với sự mất cân bằng rõ rệt giữa dữ liệu bình thường và bất thường (tỷ lệ khoảng 5:1 trong tập huấn luyện).
Phương pháp phân tích sử dụng mô hình 3D ResNet18 làm Base Encoder, kết hợp với Projection Head và hàm mất mát CENCE. Dữ liệu video được cắt thành các clip nhỏ 16 khung hình, áp dụng kỹ thuật biến đổi thời gian (temporal transformation) với bước nhảy khác nhau cho dữ liệu bình thường và bất thường nhằm giảm thiểu mất cân bằng. Mô hình được huấn luyện trong 100 epoch, sử dụng minibatch gradient descent với batch size 160, momentum 0.9, và learning rate giảm dần từ 0.01 xuống 0.001.
Quá trình đánh giá dựa trên chỉ số AUC (Area Under ROC Curve) để đo khả năng phân biệt giữa hành vi bình thường và bất thường, phù hợp với bài toán phân lớp nhị phân có dữ liệu mất cân bằng.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả của hàm mất mát kết hợp CENCE: Khi trọng số β trong hàm CENCE được đặt bằng 0.5 (tức CE và NCE đóng góp bằng nhau), mô hình đạt AUC cao nhất 0.933, tăng khoảng 1.2% so với baseline chỉ dùng NCE (AUC 0.9213). Việc thêm CE với tỷ lệ nhỏ (β gần 1) làm giảm hiệu quả, cho thấy sự cân bằng hàm mất mát là quan trọng.
Ảnh hưởng của kỹ thuật Cross Stage Partial (CSP): Áp dụng CSPResnet làm Base Encoder giúp tăng AUC lên 0.9335, cao hơn baseline khoảng 1.2%. Các chiến lược CSP khác như Fusion first và Fusion last không cải thiện đáng kể. Thời gian đánh giá không giảm nhiều nhưng độ chính xác được cải thiện rõ rệt.
Chiến lược lấy mẫu dữ liệu (Data Sampling): Tăng bước nhảy (stepsize) cho dữ liệu bình thường từ 2 lên 3, giữ nguyên bước nhảy cho dữ liệu bất thường ở 2, giúp giảm mất cân bằng dữ liệu và nâng AUC lên 0.9241, tăng 0.28% so với baseline. Giảm bước nhảy cho dữ liệu bất thường xuống 1 cũng cải thiện nhẹ AUC lên 0.9251.
Kết hợp toàn bộ cải tiến: Mô hình kết hợp hàm mất mát CENCE (β=0.5), Base Encoder CSPResnet, và chiến lược lấy mẫu dữ liệu tối ưu đạt AUC 0.937, tăng khoảng 1.5% so với baseline, đồng thời giữ được tốc độ xử lý phù hợp cho ứng dụng thời gian thực.
Thảo luận kết quả
Các cải tiến trên cho thấy việc kết hợp hàm mất mát đa nhiệm giúp mô hình học được biểu diễn đặc trưng phong phú hơn, giảm hiện tượng quá khớp. Kỹ thuật CSP tăng khả năng học của mạng mà không làm tăng đáng kể chi phí tính toán, phù hợp với yêu cầu hệ thống giám sát hành vi lái xe thời gian thực. Chiến lược lấy mẫu dữ liệu giúp cân bằng tỷ lệ mẫu giữa các lớp, giảm thiên lệch mô hình về phía lớp chiếm ưu thế.
So với các nghiên cứu trước đây chỉ tập trung vào một số đặc trưng khu vực như mắt hay miệng, phương pháp học đối chiếu đa góc nhìn và đa cảm biến của CLF cùng các cải tiến này cho phép phân tích toàn diện hơn, nâng cao độ tin cậy trong thực tế. Dữ liệu có thể được trình bày qua biểu đồ ROC so sánh AUC giữa các mô hình, bảng thống kê thời gian đánh giá và tỷ lệ chính xác theo từng chiến lược.
Đề xuất và khuyến nghị
Áp dụng hàm mất mát kết hợp CENCE trong huấn luyện mô hình phân tích hành vi lái xe: Đề xuất sử dụng trọng số β=0.5 để cân bằng giữa NCE và CE, giúp cải thiện độ chính xác phân loại. Thời gian thực hiện: ngay trong giai đoạn huấn luyện mô hình mới.
Tối ưu kiến trúc Base Encoder bằng kỹ thuật Cross Stage Partial (CSPResnet): Nâng cấp Residual block thành CSP block để tăng hiệu quả học và giảm chi phí tính toán, phù hợp với các hệ thống giám sát thời gian thực. Chủ thể thực hiện: nhóm phát triển mô hình AI.
Áp dụng chiến lược lấy mẫu dữ liệu khác biệt cho dữ liệu bình thường và bất thường: Tăng bước nhảy cho dữ liệu bình thường (ví dụ từ 2 lên 3) để giảm mất cân bằng, nâng cao khả năng nhận diện hành vi bất thường. Thời gian thực hiện: trong quá trình chuẩn bị dữ liệu huấn luyện.
Triển khai hệ thống giám sát hành vi lái xe đa cảm biến và đa góc nhìn: Sử dụng nhiều camera với các chế độ cảm biến khác nhau (độ sâu, hồng ngoại) để thu thập dữ liệu toàn diện, kết hợp với mô hình học sâu cải tiến để nâng cao độ tin cậy. Chủ thể thực hiện: các nhà sản xuất thiết bị ADAS và các tổ chức nghiên cứu.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và phát triển AI trong lĩnh vực giao thông: Có thể áp dụng các kỹ thuật học đối chiếu và cải tiến kiến trúc mạng nơ-ron để phát triển hệ thống giám sát hành vi lái xe chính xác, hiệu quả.
Các công ty sản xuất hệ thống hỗ trợ lái xe tiên tiến (ADAS): Tham khảo để tích hợp mô hình phân tích hành vi lái xe đa cảm biến, nâng cao tính năng cảnh báo sớm nguy cơ tai nạn.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để xây dựng các tiêu chuẩn, quy định về giám sát hành vi lái xe, góp phần giảm thiểu tai nạn giao thông.
Sinh viên và học giả ngành khoa học dữ liệu, trí tuệ nhân tạo: Tìm hiểu về ứng dụng học sâu trong phân tích hành vi con người, đặc biệt là kỹ thuật học đối chiếu và xử lý dữ liệu mất cân bằng.
Câu hỏi thường gặp
Tại sao cần kết hợp hàm mất mát NCE và Cross Entropy?
Kết hợp hai hàm mất mát giúp mô hình học được biểu diễn đặc trưng phong phú hơn, vừa tối ưu hóa phân biệt mẫu giống nhau và khác nhau (NCE), vừa cải thiện khả năng phân loại nhị phân (CE). Ví dụ, khi β=0.5, AUC tăng lên 0.933 so với 0.921 khi chỉ dùng NCE.Cross Stage Partial (CSP) cải thiện mô hình như thế nào?
CSP chia luồng gradient thành hai phần, giúp tăng khả năng học và giảm chi phí tính toán. Kết quả thực nghiệm cho thấy CSPResnet tăng AUC lên 0.9335, cải thiện đáng kể so với kiến trúc Residual block truyền thống.Làm thế nào để giải quyết vấn đề mất cân bằng dữ liệu trong bài toán này?
Chiến lược lấy mẫu dữ liệu với bước nhảy khác nhau cho dữ liệu bình thường và bất thường giúp cân bằng tỷ lệ mẫu. Ví dụ, tăng bước nhảy cho dữ liệu bình thường từ 2 lên 3 giảm số lượng mẫu bình thường, giúp mô hình tập trung hơn vào dữ liệu bất thường.Tại sao sử dụng nhiều góc nhìn và cảm biến khác nhau?
Việc thu thập dữ liệu từ nhiều camera với các chế độ cảm biến khác nhau (độ sâu, hồng ngoại) giúp mô hình có cái nhìn toàn diện về hành vi lái xe, giảm thiểu sai sót do góc nhìn hoặc điều kiện ánh sáng kém.Mô hình có đáp ứng được yêu cầu thời gian thực không?
Các cải tiến như CSP giúp giảm chi phí tính toán, đồng thời mô hình vẫn giữ được tốc độ xử lý nhanh, phù hợp với yêu cầu cảnh báo kịp thời trong hệ thống giám sát hành vi lái xe.
Kết luận
- Nghiên cứu đã phát triển và cải tiến mô hình Contrastive Learning Framework cho phân tích hành vi lái xe, đạt AUC 0.937 trên bộ sub-DAD dataset.
- Kết hợp hàm mất mát NCE và Cross Entropy với trọng số cân bằng giúp nâng cao hiệu quả phân loại.
- Áp dụng kỹ thuật Cross Stage Partial trong Base Encoder tăng khả năng học và giảm chi phí tính toán.
- Chiến lược lấy mẫu dữ liệu khác biệt giúp giảm mất cân bằng dữ liệu, cải thiện độ chính xác mô hình.
- Các bước tiếp theo bao gồm mở rộng thử nghiệm trên toàn bộ bộ dữ liệu DAD và tích hợp mô hình vào hệ thống giám sát thực tế để đánh giá hiệu quả ứng dụng.
Khuyến khích các nhà nghiên cứu và doanh nghiệp trong lĩnh vực an toàn giao thông áp dụng các cải tiến này để phát triển hệ thống giám sát hành vi lái xe chính xác và hiệu quả hơn.