I. Tổng Quan Về Phát Hiện Bất Thường Từ Video Ứng Dụng AI
Phát hiện bất thường từ video là bài toán quan trọng trong phân tích video thông minh, đặc biệt trong các hệ thống giám sát an ninh. Mục tiêu là tự động xác định các sự kiện bất thường so với hành vi thông thường, giúp tăng cường an toàn công cộng. Bài toán này có tính ứng dụng cao, từ giám sát giao thông đến phát hiện hành vi đáng ngờ tại các khu vực công cộng. Tuy nhiên, việc triển khai gặp nhiều thách thức do sự đa dạng của các sự kiện bất thường và sự thiếu hụt dữ liệu được gán nhãn chi tiết. Các hệ thống giám sát an ninh cần phát hiện và cảnh báo kịp thời các hành vi như đánh nhau, tụ tập trái phép, trộm cướp, hoặc vi phạm giao thông. Việc phát triển các giải thuật thông minh để tự động phát hiện bất thường là một nhu cầu cấp thiết để giảm tải công việc cho con người và tăng cường hiệu quả giám sát.
1.1. Khái niệm cơ bản về phát hiện bất thường trong video
Trong phân tích dữ liệu, bất thường là các mẫu ngoại lệ, hiếm gặp và có sự sai khác đáng kể so với phần lớn các mẫu bình thường còn lại. Có nhiều nguyên nhân gây ra bất thường tuỳ thuộc vào ứng dụng và ngữ cảnh xem xét. Ví dụ, trong cuộc sống hằng ngày, đa số các hoạt động của các nhân, tập thể hay hệ thống là bình thường. Ngược lại, các hoạt động có tính chất gây hại như gian lận thẻ tín dụng, xâm nhập mạng, khủng bố hoặc phá vỡ một hệ thống là bất thường. Theo [5], bất thường có liên quan đến nhiễu, nhưng khác với nhiễu.
1.2. Các loại bất thường thường gặp trong giám sát video
Các bất thường có thể được phân làm 3 loại: Bất thường điểm (mẫu dữ liệu tách biệt), bất thường ngữ cảnh (bất thường trong ngữ cảnh cụ thể), và bất thường tập thể (tập các mẫu bất thường). Ví dụ, hành động đi xe đạp trên vỉa hè là bất thường ngữ cảnh. Việc nhiều người tụ tập biểu tình là bất thường tập thể. Việc phát hiện các loại bất thường này đòi hỏi các phương pháp tiếp cận khác nhau.
II. Thách Thức Phát Hiện Bất Thường Video Giải Pháp Học Sâu
Bài toán phát hiện bất thường video đối mặt với nhiều thách thức lớn. Thứ nhất, sự đa dạng của các sự kiện bất thường khiến việc định nghĩa và nhận diện trở nên khó khăn. Thứ hai, dữ liệu huấn luyện thường bị mất cân bằng, với số lượng mẫu bất thường ít hơn nhiều so với mẫu bình thường. Thứ ba, việc gán nhãn dữ liệu chi tiết (thời điểm bắt đầu và kết thúc của bất thường) tốn kém và mất thời gian, dẫn đến tình trạng gán nhãn yếu. Các phương pháp học sâu đang nổi lên như một giải pháp tiềm năng để vượt qua những thách thức này, nhờ khả năng tự động trích xuất đặc trưng và học biểu diễn phức tạp từ dữ liệu video. Các mô hình như mạng nơ-ron tích chập 3D (C3D) và mạng LSTM được sử dụng rộng rãi để nắm bắt thông tin không gian và thời gian trong video.
2.1. Vấn đề gán nhãn yếu trong phát hiện bất thường video
Trong thực tế, việc gán nhãn chi tiết cho các sự kiện bất thường trong video là rất tốn kém. Do đó, thường chỉ có nhãn ở mức video (video chứa bất thường hay không), mà không có nhãn cho từng khung hình. Đây được gọi là gán nhãn yếu. Một video có thể xem như một gói (bag) gồm nhiều đoạn nhỏ (instances). Cả video là coi bất thường (positive) nếu ít nhất một thể hiện trong video đó là bất thường (positive). Ngược lại, video là bình thường (negative) nếu tất cả các thể hiện của nó là bình thường (negative).
2.2. Các giả định và hạn chế trong phát hiện bất thường
Các phương pháp phát hiện bất thường thường dựa trên giả định rằng bất kỳ sự kiện nào khác biệt so với các mẫu bình thường đã học được đều là bất thường. Tuy nhiên, việc định nghĩa đầy đủ các hành vi bình thường là rất khó. Theo [9], sự bất thường được định nghĩa là một mẫu không phù hợp với dự kiến hành vi bình thường. Ngoài ra, các tác nhân gây ra bất thường có thể tự thích nghi để làm cho các hành vi bất thường trở nên giống bình thường, gây khó khăn cho việc phát hiện.
III. Phương Pháp Học Sâu C3D MIL Cho Phát Hiện Bất Thường
Luận văn này tập trung vào giải quyết bài toán phát hiện bất thường từ video giám sát an ninh sử dụng kỹ thuật học sâu. Phương pháp đề xuất kết hợp mạng nơ-ron tích chập 3 chiều (C3D) để trích xuất đặc trưng không gian và thời gian từ video, và học đa thể hiện (MIL) để xử lý dữ liệu gán nhãn yếu. C3D giúp nắm bắt thông tin về chuyển động và hình dạng trong video, trong khi MIL cho phép huấn luyện mô hình chỉ với nhãn ở mức video, không cần nhãn chi tiết cho từng khung hình. Cuối cùng, cơ chế chú ý (attention mechanism) và kỹ thuật phân cụm (K-means) được áp dụng để khai thác các thông tin tương quan giữa các phân đoạn trong cùng một video.
3.1. Mô hình C3D kết hợp học đa thể hiện Deep MIL Ranking
Mô hình C3D được sử dụng để trích xuất các đặc trưng không gian và thời gian từ các đoạn video. C3D là một loại mạng nơ-ron tích chập được thiết kế đặc biệt để xử lý dữ liệu video, bằng cách thực hiện các phép tích chập 3 chiều trên các khung hình liên tiếp. Sau đó, học đa thể hiện (MIL) được áp dụng để giải quyết vấn đề gán nhãn yếu. Trong MIL, mỗi video được coi là một gói (bag) chứa nhiều đoạn nhỏ (instances), và mục tiêu là học cách phân loại các gói dựa trên thông tin từ các thể hiện bên trong.
3.2. Xử lý vấn đề lấy mẫu trên video và cải tiến giải pháp
Việc lấy mẫu video là một bước quan trọng trong quá trình xử lý. Các đoạn video cần được chia thành các clip nhỏ hơn để đưa vào mô hình C3D. Để cải thiện hiệu suất, luận văn đề xuất sử dụng cơ chế chú ý dựa trên clip (clip attention) và thuật toán phân cụm K-means để tạo nhãn giả (pseudo label). Cơ chế chú ý giúp mô hình tập trung vào các clip quan trọng nhất trong video, trong khi K-means giúp tạo ra các nhãn giả cho các phân đoạn trong video, khắc phục vấn đề nhãn yếu.
IV. Cải Tiến Phát Hiện Bất Thường Cơ Chế Chú Ý Phân Cụm K means
Để nâng cao khả năng phát hiện bất thường, luận văn đề xuất hai cải tiến chính: sử dụng cơ chế chú ý dựa trên clip (clip attention) và thuật toán phân cụm K-means để tạo nhãn giả (pseudo label). Cơ chế chú ý cho phép mô hình tập trung vào các phân đoạn video quan trọng nhất, nơi có khả năng chứa sự kiện bất thường cao. Thuật toán K-means giúp tạo ra các nhãn giả cho các phân đoạn video, từ đó cải thiện hiệu quả huấn luyện trong điều kiện dữ liệu gán nhãn yếu. Sự kết hợp của hai kỹ thuật này giúp mô hình học được các biểu diễn video tốt hơn và tăng cường khả năng phân biệt giữa các sự kiện bình thường và bất thường.
4.1. Sử dụng cơ chế chú ý dựa trên clip clip attention
Cơ chế chú ý cho phép mô hình gán trọng số khác nhau cho các clip khác nhau trong một video, dựa trên mức độ quan trọng của chúng trong việc xác định bất thường. Các clip chứa các sự kiện bất thường sẽ nhận được trọng số cao hơn, giúp mô hình tập trung vào các phần quan trọng nhất của video. Hình 20 trong tài liệu gốc minh họa cơ chế chú ý dựa trên clip.
4.2. Sử dụng thuật toán phân cụm K means tạo nhãn giả
Thuật toán phân cụm K-means được sử dụng để nhóm các phân đoạn video thành các cụm dựa trên đặc trưng của chúng. Sau đó, các cụm này được gán nhãn giả dựa trên nhãn của video chứa chúng. Ví dụ, nếu một video được gán nhãn là bất thường, thì các cụm chứa các phân đoạn từ video đó cũng sẽ được gán nhãn là bất thường. Điều này giúp tăng cường dữ liệu huấn luyện và cải thiện hiệu suất của mô hình.
V. Thực Nghiệm Đánh Giá Hiệu Quả Phát Hiện Bất Thường Video
Phương pháp đề xuất được đánh giá thực nghiệm trên cơ sở dữ liệu UCF-Crime, bao gồm 1900 video với 13 loại sự kiện bất thường và các hoạt động bình thường. Kết quả thực nghiệm cho thấy cơ chế chú ý cho phép cải thiện khả năng phát hiện bất thường của hệ thống tổng thể so với việc chỉ thực hiện trích chọn đặc trưng và học đa thể hiện. Các kết quả được so sánh với các phương pháp khác để chứng minh tính ưu việt của phương pháp đề xuất. Bảng 4 trong tài liệu gốc trình bày các kết quả thực nghiệm chi tiết trên bộ dữ liệu UCF-Crime.
5.1. Dữ liệu thực nghiệm và triển khai mô hình học sâu
Bộ dữ liệu UCF-Crime bao gồm các video giám sát được thu thập từ nhiều nguồn khác nhau, với các sự kiện bất thường như đánh nhau, trộm cướp, và phá hoại. Các video được chia thành tập huấn luyện và tập kiểm thử. Các mô hình học sâu được huấn luyện trên tập huấn luyện và đánh giá trên tập kiểm thử để đo lường hiệu suất.
5.2. So sánh kết quả và đánh giá hiệu suất phát hiện bất thường
Kết quả thực nghiệm được đánh giá bằng các độ đo như độ chính xác (accuracy), độ thu hồi (recall), và diện tích dưới đường cong ROC (AUC). Các kết quả cho thấy phương pháp đề xuất đạt được hiệu suất tốt hơn so với các phương pháp khác, đặc biệt là trong việc phát hiện các sự kiện bất thường hiếm gặp.
VI. Kết Luận Hướng Phát Triển Phát Hiện Bất Thường Video AI
Luận văn đã trình bày một phương pháp hiệu quả để phát hiện bất thường từ video sử dụng kỹ thuật học sâu, kết hợp mạng C3D, học đa thể hiện, cơ chế chú ý và thuật toán phân cụm K-means. Phương pháp này giúp giải quyết các thách thức của bài toán, bao gồm sự đa dạng của sự kiện bất thường và dữ liệu gán nhãn yếu. Hướng phát triển trong tương lai có thể tập trung vào việc cải thiện khả năng xử lý dữ liệu thời gian thực, tích hợp thêm thông tin ngữ cảnh, và phát triển các mô hình có khả năng thích nghi với các loại bất thường mới.
6.1. Kết quả đạt được và đóng góp của luận văn
Luận văn đã đạt được các kết quả thực nghiệm tốt trên bộ dữ liệu UCF-Crime, chứng minh tính hiệu quả của phương pháp đề xuất. Đóng góp chính của luận văn là việc kết hợp các kỹ thuật học sâu khác nhau để giải quyết bài toán phát hiện bất thường trong điều kiện dữ liệu gán nhãn yếu.
6.2. Định hướng phát triển và nghiên cứu trong tương lai
Trong tương lai, có thể nghiên cứu thêm về việc sử dụng các mô hình học sâu phức tạp hơn, như Transformer, để cải thiện khả năng nắm bắt thông tin thời gian dài trong video. Ngoài ra, việc tích hợp thêm thông tin ngữ cảnh, như thông tin về địa điểm và thời gian, có thể giúp cải thiện độ chính xác của việc phát hiện bất thường.