Phân tích Hành vi Lái xe bằng Deep Learning: Luận văn Thạc sĩ

Mục lục chi tiết

Declaration

Acknowledgments

1. Related Works for Driver Behavior Analysis

1.1. Classical machine learning approaches

1.1.1. Using non-visual features

1.1.1.1. Driver health condition

1.1.1.2. Vehicle monitoring

1.1.2. Using visual features

1.1.2.1. Eye features

1.2. Deep learning approaches

1.2.1. Using non-visual features

1.2.2. Using visual features

2. Contrastive Learning Framework and its Improvements

2.1. Contrastive Learning Framework

2.1.1. 3D CNN Base Encoder

2.1.2. Noise Contrastive Estimation Loss

2.1.3. Fusion signals from multiple camera view-modality combinations

2.2. Some proposed improvements on the Contrastive Learning Framework

2.2.1. Noise Contrastive Estimation Loss in weighted combination with Cross Entropy Loss

2.2.2. Enhanced the 3D CNN Base Encoder with Cross Stage Partial technique

2.2.3. Data imballancing alleviation

3. Experiments and Evaluation

3.1. Driver Anomaly Detection (DAD) subdataset

3.2. Driver & Act dataset

3.3. Experiment Results and Evaluation

3.3.1. The baseline model capability on the sub-DAD dataset

3.3.2. Results of the proposed loss

3.3.3. Results of the base encoder enhancement by applying Cross Stage Partial technique

3.3.4. Results of proposed data sampling setting

3.3.5. Results of combining all proposed techniques

4. Conclusion and Future Works

List of Tables

List of Figures

Abbreviation Table

Abstract

Introduction

Tóm tắt

I. Giới thiệu Phân tích Hành vi Lái xe bằng Deep Learning 55 ký tự

Phân tích hành vi lái xe đóng vai trò then chốt trong việc nâng cao an toàn giao thông và giảm thiểu tai nạn. Sự phát triển của công nghệ deep learning đã mở ra những hướng tiếp cận mới, vượt trội hơn so với các phương pháp truyền thống. Các hệ thống giám sát lái xe dựa trên mạng nơ-ron sâu có khả năng theo dõi và nhận dạng hành vi lái xe một cách chính xác và hiệu quả. Các ứng dụng này đang dần trở thành một phần quan trọng trong các phương tiện hiện đại, góp phần vào sự phát triển của hệ thống ADAS (Advanced Driver-Assistance Systems) và xe tự hành. Luận văn thạc sĩ này tập trung vào việc khai thác sức mạnh của deep learning để giải quyết bài toán phân tích hành vi lái xe một cách toàn diện, từ thu thập dữ liệu hành vi lái xe đến xây dựng và đánh giá mô hình hành vi lái xe.

1.1. Tầm quan trọng của phân tích hành vi lái xe

Phân tích hành vi lái xe không chỉ giúp cải thiện an toàn giao thông, mà còn có ứng dụng rộng rãi trong các lĩnh vực khác như bảo hiểm ô tô, quản lý đội xe, và phát triển các hệ thống hỗ trợ lái xe. Bằng cách phân loại hành vi lái xe, có thể xác định các yếu tố ảnh hưởng đến hành vi lái xe, từ đó đưa ra các biện pháp can thiệp kịp thời. Nghiên cứu này đóng góp vào việc xây dựng mô hình hành vi lái xe chính xác hơn, hỗ trợ tốt hơn cho người lái xe và giảm thiểu rủi ro tai nạn.

1.2. Ưu điểm của deep learning trong phân tích hành vi lái xe

Deep learning vượt trội so với các phương pháp học máy truyền thống nhờ khả năng tự động trích xuất đặc trưng từ dữ liệu thô, như hình ảnh và video. Điều này giúp giảm thiểu công sức can thiệp thủ công và tăng cường khả năng phát hiện các hành vi lái xe nguy hiểm. Các giải thuật deep learning cho hành vi lái xe có thể xử lý dữ liệu phức tạp và đa dạng, mang lại kết quả chính xác và đáng tin cậy hơn. Khả năng học sâu cho phép mô hình nắm bắt các mối quan hệ phức tạp giữa các yếu tố khác nhau, dẫn đến việc dự đoán hành vi lái xe tốt hơn.

II. Thách thức Phân tích hành vi lái xe và bài toán mất cân bằng 58 ký tự

Một trong những thách thức lớn nhất trong phân tích hành vi lái xe là bài toán mất cân bằng dữ liệu. Các hành vi lái xe bất thường, như buồn ngủ, sử dụng điện thoại, hoặc ăn uống, thường hiếm gặp hơn so với các hành vi lái xe bình thường. Điều này dẫn đến việc các mô hình deep learning có xu hướng thiên vị và hoạt động kém hiệu quả đối với các hành vi lái xe nguy hiểm. Theo tài liệu gốc, trong bộ dữ liệu DAD [1], số phút ghi lại cho lái xe bình thường là 550 phút so với chỉ 100 phút cho hành vi bất thường, mặc dù những hành vi bất thường này quan trọng hơn và cần được tập trung.

2.1. Ảnh hưởng của mất cân bằng dữ liệu đến mô hình deep learning

Mất cân bằng dữ liệu có thể làm giảm khả năng khái quát hóa của mô hình deep learning, khiến mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu thực tế. Điều này đặc biệt nguy hiểm trong phân tích hành vi lái xe, nơi việc phát hiện chính xác các hành vi lái xe nguy hiểm là vô cùng quan trọng. Theo tài liệu, trong bộ dữ liệu MPIIGaze, sự phân bố dữ liệu không đều giữa các người tham gia cũng là một vấn đề, ảnh hưởng đến độ chính xác của mô hình.

2.2. Các phương pháp giải quyết bài toán mất cân bằng dữ liệu

Có nhiều phương pháp để giải quyết bài toán mất cân bằng dữ liệu, bao gồm lấy mẫu quá mức (oversampling) cho lớp thiểu số, lấy mẫu dưới mức (undersampling) cho lớp đa số, và sử dụng các hàm mất mát được thiết kế đặc biệt. Luận văn này có thể đề xuất các kỹ thuật xử lý dữ liệu và các chiến lược đào tạo phức tạp để giải quyết vấn đề này.

2.3. Tính cấp thiết của việc phân tích hành vi lái xe trong thời gian thực

Tài liệu nhấn mạnh tầm quan trọng của việc dự đoán hành vi lái xe trong thời gian thực để phòng ngừa tai nạn một cách chủ động. Nếu hệ thống chỉ phát hiện ra trạng thái bất thường của người lái và cảnh báo cho họ sau 1 giây, điều đó có nghĩa là người lái xe chỉ có thể nhận thức được tình hình sau 1,3 giây hoặc sau khoảng cách 1. Trong nhiều trường hợp, có thể quá muộn để người lái xe xử lý nếu có điều gì bất ngờ xảy ra.

III. Deep Learning và CLF Phương pháp cốt lõi luận văn Thạc sĩ 59 ký tự

Luận văn này tập trung vào việc cải tiến Contrastive Learning Framework (CLF) – một phương pháp deep learning tiên tiến cho phân tích hành vi lái xe. CLF sử dụng thông tin từ nhiều camera và cảm biến trong xe để phân biệt giữa các hành vi lái xe bình thường và bất thường. CLF bao gồm ba thành phần chính: bộ mã hóa cơ bản, đầu chiếu và tổn thất ước tính độ tương phản nhiễu (NCE). Hệ thống sử dụng các tín hiệu hình ảnh từ nhiều camera với các chế độ xem và phương thức khác nhau bên trong cabin và phân biệt trạng thái lái xe bình thường với các hành vi bất thường (ví dụ: ngủ, đọc sách hoặc nhắn tin).

3.1. Tổng quan về Contrastive Learning Framework CLF

CLF là một phương pháp học đối chiếu, sử dụng các cặp dữ liệu tương phản để huấn luyện mô hình. Trong phân tích hành vi lái xe, CLF có thể được sử dụng để phân biệt giữa các hành vi lái xe an toàn và nguy hiểm bằng cách so sánh các đặc trưng được trích xuất từ dữ liệu hình ảnh và cảm biến.

3.2. Các thành phần chính của CLF và vai trò của chúng

Tài liệu trích dẫn rằng CLF bao gồm ba thành phần chính: bộ mã hóa cơ bản, đầu chiếu và tổn thất ước tính độ tương phản nhiễu (NCE). Bộ mã hóa cơ bản chịu trách nhiệm trích xuất đặc trưng từ dữ liệu đầu vào. Đầu chiếu ánh xạ các đặc trưng này vào một không gian tiềm ẩn. Tổn thất NCE được sử dụng để tối ưu hóa mô hình bằng cách so sánh các cặp dữ liệu tương phản.

3.3. Cải tiến CLF Tối ưu Loss function và Data sampling

Luận văn này có thể đề xuất các cải tiến cho CLF, chẳng hạn như sử dụng các hàm mất mát mới hoặc các kỹ thuật tăng cường dữ liệu. Ngoài ra, luận văn cũng có thể tập trung vào việc giải quyết bài toán mất cân bằng dữ liệu bằng cách sử dụng các kỹ thuật lấy mẫu thông minh.

IV. Kết quả và Đánh giá Khả năng của mô hình Deep Learning 53 ký tự

Luận văn này sẽ trình bày các kết quả thực nghiệm đánh giá hiệu quả của mô hình deep learning được đề xuất. Các kết quả này sẽ được so sánh với các phương pháp hiện có để chứng minh tính ưu việt của phương pháp mới. Việc đánh giá hành vi lái xe cần phải được thực hiện trên các bộ dữ liệu thực tế và đa dạng để đảm bảo tính khách quan và khả năng khái quát hóa. Các bộ dữ liệu DAD và Driver & Act được sử dụng để đánh giá mô hình.

4.1. Các bộ dữ liệu sử dụng cho thực nghiệm

Việc lựa chọn bộ dữ liệu phù hợp là rất quan trọng để đánh giá hiệu quả của mô hình deep learning. Các bộ dữ liệu cần phải có đủ kích thước, đa dạng và đại diện cho các tình huống lái xe khác nhau. Các bộ dữ liệu phổ biến bao gồm DAD, Driver & Act, và MPIIGaze.

4.2. Các chỉ số đánh giá hiệu suất mô hình

Hiệu suất của mô hình deep learning được đánh giá bằng nhiều chỉ số khác nhau, bao gồm độ chính xác, độ tin cậy, và F1-score. Các chỉ số này cho phép so sánh khách quan giữa các phương pháp khác nhau. Diện tích dưới đường cong ROC (AUC) là một chỉ số quan trọng khác, được sử dụng để đánh giá khả năng phân biệt giữa các lớp khác nhau.

4.3. So sánh với các phương pháp hiện có

Luận văn này sẽ so sánh kết quả của phương pháp mới với các phương pháp phân tích hành vi lái xe hiện có. Mục tiêu là chứng minh rằng phương pháp mới có hiệu suất tốt hơn, đặc biệt trong việc phát hiện các hành vi lái xe nguy hiểm.

V. Ứng dụng thực tiễn và tương lai của phân tích hành vi lái xe 58 ký tự

Các ứng dụng của phân tích hành vi lái xe bằng deep learning là vô cùng rộng lớn. Từ việc cải thiện an toàn giao thông đến việc phát triển các hệ thống hỗ trợ lái xe thông minh, công nghệ này có tiềm năng cách mạng hóa ngành công nghiệp ô tô. Trong tương lai, có thể kỳ vọng các mô hình hành vi lái xe ngày càng chính xác và hiệu quả hơn, góp phần xây dựng một hệ thống giao thông an toàn và bền vững.

5.1. Ứng dụng trong hệ thống ADAS và xe tự hành

Phân tích hành vi lái xe là một thành phần quan trọng trong các hệ thống ADAS và xe tự hành. Các mô hình deep learning có thể được sử dụng để dự đoán hành vi của người lái xe và đưa ra các quyết định lái xe an toàn hơn. Điều này đặc biệt quan trọng trong các tình huống giao thông phức tạp và khó dự đoán.

5.2. Ứng dụng trong bảo hiểm ô tô và quản lý đội xe

Phân tích hành vi lái xe có thể được sử dụng để đánh giá rủi ro lái xe và điều chỉnh phí bảo hiểm. Các công ty bảo hiểm có thể sử dụng dữ liệu hành vi lái xe để cung cấp các chương trình khuyến khích lái xe an toàn và giảm thiểu tai nạn. Trong quản lý đội xe, phân tích hành vi lái xe có thể giúp theo dõi hiệu suất của người lái xe và cải thiện hiệu quả hoạt động.

5.3. Hướng nghiên cứu tiềm năng trong tương lai

Trong tương lai, có thể tập trung vào việc phát triển các mô hình deep learning đa phương thức, tích hợp thông tin từ nhiều nguồn khác nhau, như hình ảnh, video, cảm biến, và dữ liệu GPS. Ngoài ra, việc nghiên cứu các phương pháp học tăng cường (reinforcement learning) để đào tạo các hệ thống lái xe tự học cũng là một hướng đi đầy hứa hẹn.

VI. Kết luận Tổng kết luận văn và đóng góp cho nghiên cứu 56 ký tự

Luận văn thạc sĩ này đã trình bày một nghiên cứu toàn diện về phân tích hành vi lái xe bằng deep learning, tập trung vào việc cải tiến Contrastive Learning Framework (CLF) và giải quyết bài toán mất cân bằng dữ liệu. Các kết quả thực nghiệm cho thấy phương pháp được đề xuất có hiệu suất tốt hơn so với các phương pháp hiện có, đặc biệt trong việc phát hiện các hành vi lái xe nguy hiểm. Nghiên cứu này đóng góp vào sự phát triển của các hệ thống giám sát lái xe thông minh và an toàn hơn.

6.1. Tóm tắt các đóng góp chính của luận văn

Luận văn này đã đóng góp vào việc phát triển các phương pháp deep learning tiên tiến cho phân tích hành vi lái xe. Các đóng góp chính bao gồm việc cải tiến CLF, giải quyết bài toán mất cân bằng dữ liệu, và đánh giá hiệu quả của các phương pháp mới trên các bộ dữ liệu thực tế.

6.2. Đề xuất các hướng nghiên cứu tiếp theo

Các hướng nghiên cứu tiếp theo có thể tập trung vào việc phát triển các mô hình deep learning đa phương thức, tích hợp thông tin từ nhiều nguồn khác nhau. Ngoài ra, việc nghiên cứu các phương pháp học tăng cường để đào tạo các hệ thống lái xe tự học cũng là một hướng đi đầy hứa hẹn. Các nghiên cứu về tính giải thích của các mô hình deep learning cũng rất quan trọng để đảm bảo tính tin cậy và minh bạch của hệ thống.

28/04/2025

Nội dung chính

Tổng quan nghiên cứu

Phân tích hành vi lái xe đóng vai trò then chốt trong việc nâng cao an toàn giao thông và phòng tránh tai nạn. Theo báo cáo của ngành, các hành vi lái xe bất thường như buồn ngủ, sử dụng điện thoại, ăn uống khi lái xe chiếm tỷ lệ thấp hơn nhiều so với hành vi lái xe bình thường, ví dụ trong bộ dữ liệu Driver Anomaly Detection (DAD), thời lượng dữ liệu lái xe bình thường là 550 phút, trong khi dữ liệu hành vi bất thường chỉ khoảng 100 phút, tương đương 1/5. Mục tiêu nghiên cứu là phát triển một mô hình học sâu có khả năng phân tích toàn diện hành vi lái xe dựa trên nhiều góc nhìn và cảm biến, nhằm cải thiện độ chính xác dự đoán và đảm bảo tốc độ xử lý thời gian thực. Nghiên cứu tập trung vào việc nâng cao phương pháp Contrastive Learning Framework (CLF) đã đạt AUC trên 0.96 trên bộ dữ liệu DAD, bằng cách áp dụng các kỹ thuật tối ưu hóa kiến trúc mạng nơ-ron, hàm mất mát kết hợp và chiến lược lấy mẫu dữ liệu nhằm giải quyết vấn đề mất cân bằng dữ liệu. Phạm vi nghiên cứu thực hiện trên bộ dữ liệu con sub-DAD, với kích thước khoảng 35GB, bao gồm các video ghi lại hành vi lái xe ở nhiều góc nhìn và chế độ cảm biến khác nhau. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển hệ thống giám sát hành vi lái xe chính xác, nhanh chóng, góp phần giảm thiểu tai nạn giao thông.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: học đối chiếu (Contrastive Learning) và kiến trúc mạng nơ-ron tích chập 3 chiều (3D CNN). Học đối chiếu nhằm tối ưu hóa biểu diễn đặc trưng sao cho các mẫu cùng lớp gần nhau trong không gian đặc trưng, trong khi các mẫu khác lớp được phân tách xa. Mô hình CLF sử dụng 3D ResNet18 làm bộ mã hóa cơ sở (Base Encoder), với các khái niệm chính gồm:

Residual Block: khối xây dựng của ResNet, giúp giảm thiểu vấn đề biến mất gradient bằng kết nối tắt.
Projection Head: mạng MLP chuyển đổi vector đặc trưng 512 chiều thành vector 128 chiều để áp dụng hàm mất mát.
Noise Contrastive Estimation (NCE) Loss: hàm mất mát đối chiếu, phân biệt các cặp mẫu bình thường và bất thường.
Cross Stage Partial (CSP) technique: kỹ thuật cải tiến kiến trúc Residual block nhằm tăng hiệu quả học và giảm chi phí tính toán.
CENCE Loss: hàm mất mát kết hợp giữa NCE và Cross Entropy (CE) với trọng số điều chỉnh.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ sub-DAD dataset, gồm khoảng 35GB video ghi lại hành vi lái xe với hai góc nhìn (góc vô lăng và góc trước mặt lái xe) và hai chế độ cảm biến (độ sâu và hồng ngoại). Dữ liệu được phân chia theo tỷ lệ 82% cho huấn luyện và 18% cho kiểm thử, với sự mất cân bằng rõ rệt giữa dữ liệu bình thường và bất thường (tỷ lệ khoảng 5:1 trong tập huấn luyện).

Phương pháp phân tích sử dụng mô hình 3D ResNet18 làm Base Encoder, kết hợp với Projection Head và hàm mất mát CENCE. Dữ liệu video được cắt thành các clip nhỏ 16 khung hình, áp dụng kỹ thuật biến đổi thời gian (temporal transformation) với bước nhảy khác nhau cho dữ liệu bình thường và bất thường nhằm giảm thiểu mất cân bằng. Mô hình được huấn luyện trong 100 epoch, sử dụng minibatch gradient descent với batch size 160, momentum 0.9, và learning rate giảm dần từ 0.01 xuống 0.001.

Quá trình đánh giá dựa trên chỉ số AUC (Area Under ROC Curve) để đo khả năng phân biệt giữa hành vi bình thường và bất thường, phù hợp với bài toán phân lớp nhị phân có dữ liệu mất cân bằng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của hàm mất mát kết hợp CENCE: Khi trọng số β trong hàm CENCE được đặt bằng 0.5 (tức CE và NCE đóng góp bằng nhau), mô hình đạt AUC cao nhất 0.933, tăng khoảng 1.2% so với baseline chỉ dùng NCE (AUC 0.9213). Việc thêm CE với tỷ lệ nhỏ (β gần 1) làm giảm hiệu quả, cho thấy sự cân bằng hàm mất mát là quan trọng.
Ảnh hưởng của kỹ thuật Cross Stage Partial (CSP): Áp dụng CSPResnet làm Base Encoder giúp tăng AUC lên 0.9335, cao hơn baseline khoảng 1.2%. Các chiến lược CSP khác như Fusion first và Fusion last không cải thiện đáng kể. Thời gian đánh giá không giảm nhiều nhưng độ chính xác được cải thiện rõ rệt.
Chiến lược lấy mẫu dữ liệu (Data Sampling): Tăng bước nhảy (stepsize) cho dữ liệu bình thường từ 2 lên 3, giữ nguyên bước nhảy cho dữ liệu bất thường ở 2, giúp giảm mất cân bằng dữ liệu và nâng AUC lên 0.9241, tăng 0.28% so với baseline. Giảm bước nhảy cho dữ liệu bất thường xuống 1 cũng cải thiện nhẹ AUC lên 0.9251.
Kết hợp toàn bộ cải tiến: Mô hình kết hợp hàm mất mát CENCE (β=0.5), Base Encoder CSPResnet, và chiến lược lấy mẫu dữ liệu tối ưu đạt AUC 0.937, tăng khoảng 1.5% so với baseline, đồng thời giữ được tốc độ xử lý phù hợp cho ứng dụng thời gian thực.

Thảo luận kết quả

Các cải tiến trên cho thấy việc kết hợp hàm mất mát đa nhiệm giúp mô hình học được biểu diễn đặc trưng phong phú hơn, giảm hiện tượng quá khớp. Kỹ thuật CSP tăng khả năng học của mạng mà không làm tăng đáng kể chi phí tính toán, phù hợp với yêu cầu hệ thống giám sát hành vi lái xe thời gian thực. Chiến lược lấy mẫu dữ liệu giúp cân bằng tỷ lệ mẫu giữa các lớp, giảm thiên lệch mô hình về phía lớp chiếm ưu thế.

So với các nghiên cứu trước đây chỉ tập trung vào một số đặc trưng khu vực như mắt hay miệng, phương pháp học đối chiếu đa góc nhìn và đa cảm biến của CLF cùng các cải tiến này cho phép phân tích toàn diện hơn, nâng cao độ tin cậy trong thực tế. Dữ liệu có thể được trình bày qua biểu đồ ROC so sánh AUC giữa các mô hình, bảng thống kê thời gian đánh giá và tỷ lệ chính xác theo từng chiến lược.

Đề xuất và khuyến nghị

Áp dụng hàm mất mát kết hợp CENCE trong huấn luyện mô hình phân tích hành vi lái xe: Đề xuất sử dụng trọng số β=0.5 để cân bằng giữa NCE và CE, giúp cải thiện độ chính xác phân loại. Thời gian thực hiện: ngay trong giai đoạn huấn luyện mô hình mới.
Tối ưu kiến trúc Base Encoder bằng kỹ thuật Cross Stage Partial (CSPResnet): Nâng cấp Residual block thành CSP block để tăng hiệu quả học và giảm chi phí tính toán, phù hợp với các hệ thống giám sát thời gian thực. Chủ thể thực hiện: nhóm phát triển mô hình AI.
Áp dụng chiến lược lấy mẫu dữ liệu khác biệt cho dữ liệu bình thường và bất thường: Tăng bước nhảy cho dữ liệu bình thường (ví dụ từ 2 lên 3) để giảm mất cân bằng, nâng cao khả năng nhận diện hành vi bất thường. Thời gian thực hiện: trong quá trình chuẩn bị dữ liệu huấn luyện.
Triển khai hệ thống giám sát hành vi lái xe đa cảm biến và đa góc nhìn: Sử dụng nhiều camera với các chế độ cảm biến khác nhau (độ sâu, hồng ngoại) để thu thập dữ liệu toàn diện, kết hợp với mô hình học sâu cải tiến để nâng cao độ tin cậy. Chủ thể thực hiện: các nhà sản xuất thiết bị ADAS và các tổ chức nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển AI trong lĩnh vực giao thông: Có thể áp dụng các kỹ thuật học đối chiếu và cải tiến kiến trúc mạng nơ-ron để phát triển hệ thống giám sát hành vi lái xe chính xác, hiệu quả.
Các công ty sản xuất hệ thống hỗ trợ lái xe tiên tiến (ADAS): Tham khảo để tích hợp mô hình phân tích hành vi lái xe đa cảm biến, nâng cao tính năng cảnh báo sớm nguy cơ tai nạn.
Cơ quan quản lý giao thông và an toàn đường bộ: Sử dụng kết quả nghiên cứu để xây dựng các tiêu chuẩn, quy định về giám sát hành vi lái xe, góp phần giảm thiểu tai nạn giao thông.
Sinh viên và học giả ngành khoa học dữ liệu, trí tuệ nhân tạo: Tìm hiểu về ứng dụng học sâu trong phân tích hành vi con người, đặc biệt là kỹ thuật học đối chiếu và xử lý dữ liệu mất cân bằng.

Câu hỏi thường gặp

Tại sao cần kết hợp hàm mất mát NCE và Cross Entropy?
Kết hợp hai hàm mất mát giúp mô hình học được biểu diễn đặc trưng phong phú hơn, vừa tối ưu hóa phân biệt mẫu giống nhau và khác nhau (NCE), vừa cải thiện khả năng phân loại nhị phân (CE). Ví dụ, khi β=0.5, AUC tăng lên 0.933 so với 0.921 khi chỉ dùng NCE.
Cross Stage Partial (CSP) cải thiện mô hình như thế nào?
CSP chia luồng gradient thành hai phần, giúp tăng khả năng học và giảm chi phí tính toán. Kết quả thực nghiệm cho thấy CSPResnet tăng AUC lên 0.9335, cải thiện đáng kể so với kiến trúc Residual block truyền thống.
Làm thế nào để giải quyết vấn đề mất cân bằng dữ liệu trong bài toán này?
Chiến lược lấy mẫu dữ liệu với bước nhảy khác nhau cho dữ liệu bình thường và bất thường giúp cân bằng tỷ lệ mẫu. Ví dụ, tăng bước nhảy cho dữ liệu bình thường từ 2 lên 3 giảm số lượng mẫu bình thường, giúp mô hình tập trung hơn vào dữ liệu bất thường.
Tại sao sử dụng nhiều góc nhìn và cảm biến khác nhau?
Việc thu thập dữ liệu từ nhiều camera với các chế độ cảm biến khác nhau (độ sâu, hồng ngoại) giúp mô hình có cái nhìn toàn diện về hành vi lái xe, giảm thiểu sai sót do góc nhìn hoặc điều kiện ánh sáng kém.
Mô hình có đáp ứng được yêu cầu thời gian thực không?
Các cải tiến như CSP giúp giảm chi phí tính toán, đồng thời mô hình vẫn giữ được tốc độ xử lý nhanh, phù hợp với yêu cầu cảnh báo kịp thời trong hệ thống giám sát hành vi lái xe.

Kết luận

Nghiên cứu đã phát triển và cải tiến mô hình Contrastive Learning Framework cho phân tích hành vi lái xe, đạt AUC 0.937 trên bộ sub-DAD dataset.
Kết hợp hàm mất mát NCE và Cross Entropy với trọng số cân bằng giúp nâng cao hiệu quả phân loại.
Áp dụng kỹ thuật Cross Stage Partial trong Base Encoder tăng khả năng học và giảm chi phí tính toán.
Chiến lược lấy mẫu dữ liệu khác biệt giúp giảm mất cân bằng dữ liệu, cải thiện độ chính xác mô hình.
Các bước tiếp theo bao gồm mở rộng thử nghiệm trên toàn bộ bộ dữ liệu DAD và tích hợp mô hình vào hệ thống giám sát thực tế để đánh giá hiệu quả ứng dụng.

Khuyến khích các nhà nghiên cứu và doanh nghiệp trong lĩnh vực an toàn giao thông áp dụng các cải tiến này để phát triển hệ thống giám sát hành vi lái xe chính xác và hiệu quả hơn.

Chủ đề

Deep Learning trong phân tích hành vi

Ứng dụng AI trong lĩnh vực giao thông

Phân tích dữ liệu hành vi người lái xe

Tiếp cận Deep Learning để Phân tích Hành vi Lái xe