Tổng quan nghiên cứu

Phát hiện bất thường từ video giám sát an ninh là một bài toán có tính ứng dụng thực tiễn cao trong việc đảm bảo an toàn nơi công cộng như đường phố, ngân hàng, trung tâm mua sắm. Bộ dữ liệu UCF-Crime với 1900 video ghi lại 13 loại sự kiện bất thường và các hoạt động bình thường cung cấp nền tảng thực nghiệm cho nghiên cứu này. Bài toán phát hiện bất thường đối mặt với nhiều thách thức như sự đa dạng của các sự kiện bất thường, mất cân bằng dữ liệu và đặc biệt là vấn đề gán nhãn yếu, khi nhãn chỉ được gán ở mức video mà không có nhãn chi tiết cho từng phân đoạn hay khung hình.

Mục tiêu của luận văn là phát triển một phương pháp phát hiện bất thường từ video dựa trên kỹ thuật học sâu, giải quyết hiệu quả vấn đề gán nhãn yếu. Phương pháp đề xuất sử dụng mạng nơ-ron tích chập 3 chiều (C3D) để trích xuất đặc trưng không gian và thời gian từ video, kết hợp với học đa thể hiện (MIL) nhằm xử lý nhãn yếu. Ngoài ra, cơ chế chú ý (attention mechanism) và thuật toán phân cụm K-means được áp dụng để khai thác thông tin tương quan giữa các phân đoạn trong video, tạo nhãn giả cho các phân đoạn nhằm cải thiện độ chính xác phát hiện.

Phạm vi nghiên cứu tập trung vào các video giám sát an ninh công cộng, với dữ liệu thu thập từ bộ UCF-Crime, được phân chia rõ ràng thành tập huấn luyện và đánh giá. Ý nghĩa nghiên cứu được thể hiện qua việc cải thiện các chỉ số AUC-ROC, một metric quan trọng đánh giá hiệu suất phân loại bất thường ở mức khung hình và clip, góp phần nâng cao hiệu quả giám sát an ninh tự động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

  1. Mạng nơ-ron tích chập 3 chiều (C3D): Mạng C3D được thiết kế để trích xuất đặc trưng không gian và thời gian từ video bằng phép toán tích chập 3 chiều. Cấu trúc gồm 5 tầng tích chập, 5 tầng max pooling, 2 tầng fully connected và một tầng softmax. Đầu vào là clip gồm 16 khung hình với kích thước 3x16x112x112. Mạng này giữ được thông tin thời gian trong quá trình xử lý, phù hợp cho bài toán video.

  2. Học đa thể hiện (Multiple Instance Learning - MIL): MIL giải quyết vấn đề gán nhãn yếu bằng cách xem mỗi video như một gói (bag) gồm nhiều thể hiện (instance). Nhãn chỉ được gán cho gói, không cho từng thể hiện. Nếu gói bất thường, ít nhất một thể hiện trong gói là bất thường. MIL sử dụng hàm ranking loss để phân biệt điểm số giữa thể hiện bất thường và bình thường, đồng thời áp dụng các ràng buộc làm mịn và làm thưa thớt điểm bất thường trong video.

  3. Cơ chế chú ý (Attention Mechanism): Được áp dụng để đánh giá trọng số quan trọng của từng clip trong phân đoạn video, giúp tổng hợp đặc trưng hiệu quả hơn so với phương pháp pooling trung bình. Cơ chế chú ý dựa trên mạng LSTM, tính toán trọng số dựa trên sự tương quan giữa các trạng thái ẩn, từ đó tạo ra véc tơ ngữ cảnh đại diện cho phân đoạn.

  4. Thuật toán phân cụm K-means: Được sử dụng để phân cụm các phân đoạn video trong cùng một video thành hai cụm, tạo nhãn giả nhằm giảm nhiễu nhãn bất thường. Kết quả phân cụm được so sánh với dự đoán của mô hình qua độ tương tự cosine, từ đó điều chỉnh hàm mất mát để đẩy các cụm ra xa nhau trong video bất thường và gần nhau trong video bình thường.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Bộ dữ liệu UCF-Crime gồm 1900 video giám sát an ninh với 13 loại sự kiện bất thường và các hoạt động bình thường, được phân chia thành tập huấn luyện (810 video bất thường, 800 video bình thường) và tập đánh giá (140 video bất thường, 150 video bình thường).

  • Phương pháp phân tích: Video được chia thành 32 phân đoạn, mỗi phân đoạn gồm nhiều clip 16 khung hình không chồng lấp. Các clip được đưa vào mạng C3D để trích xuất đặc trưng không-thời gian. Cơ chế chú ý được áp dụng để tổng hợp đặc trưng clip thành đặc trưng phân đoạn. Mô hình được huấn luyện theo lô, mỗi lô gồm 30 video bất thường và 30 video bình thường nhằm cân bằng dữ liệu.

  • Timeline nghiên cứu: Quá trình huấn luyện mô hình được thực hiện qua nhiều vòng lặp (iterations), với việc theo dõi giá trị hàm mất mát để đảm bảo hội tụ. Các mô hình được so sánh gồm mô hình cơ sở C3D-MIL, mô hình cải tiến với clip attention (C3D-ATT-MIL) và mô hình kết hợp clip attention với nhãn giả từ K-means (C3D-ATT-CLT-MIL).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của cơ chế chú ý: Mô hình C3D-ATT-MIL cải thiện đáng kể hiệu suất so với mô hình cơ sở C3D-MIL, tăng 1.2% AUC ở mức khung hình và 1.4% AUC ở mức clip. Giá trị hàm mất mát MIL_Loss của C3D-ATT-MIL thấp hơn rõ rệt, thể hiện khả năng học tốt hơn.

  2. Ảnh hưởng của nhãn giả từ K-means: Mô hình C3D-ATT-CLT-MIL sử dụng nhãn giả từ phân cụm K-means có hiệu suất thấp hơn mô hình C3D-ATT-MIL, giảm 0.5% AUC mức khung hình và 0.8% AUC mức clip. Điều này cho thấy thuật toán phân cụm chưa phân loại nhãn giả hiệu quả, ảnh hưởng đến quá trình huấn luyện.

  3. Khả năng phát hiện bất thường theo lớp: Mô hình C3D-ATT-MIL thể hiện độ nhạy cao hơn trong việc phát hiện các khung hình bất thường và dự đoán chính xác hơn các khung hình bình thường so với các mô hình còn lại, đặc biệt trong các video có sự kiện như đánh nhau, trộm cắp.

  4. Thách thức trong phân loại các hành động phức tạp: Một số khung hình có hành động đông người hoặc tương tự bất thường nhưng thực tế là bình thường gây khó khăn cho mô hình, dẫn đến dự đoán sai. Cơ chế chú ý giúp giảm thiểu lỗi này nhưng chưa hoàn toàn khắc phục.

Thảo luận kết quả

Việc áp dụng cơ chế chú ý giúp mô hình tập trung vào các clip quan trọng trong phân đoạn, tránh làm trung hòa các đặc trưng nổi bật như khi sử dụng pooling trung bình. Điều này giải thích sự cải thiện về hiệu suất và giảm hàm mất mát. Tuy nhiên, việc sử dụng nhãn giả từ K-means chưa đạt hiệu quả do số chiều đặc trưng cao (512 chiều) trong khi số lượng phân đoạn chỉ 32, dẫn đến phân cụm không chính xác. Việc giảm chiều dữ liệu hoặc sử dụng thuật toán phân cụm khác có thể cải thiện kết quả.

So sánh với các nghiên cứu khác, mô hình đề xuất chưa vượt trội hoàn toàn nhưng cung cấp hướng đi mới trong việc kết hợp cơ chế chú ý và phân cụm để xử lý nhãn yếu. Dữ liệu thực nghiệm được trình bày qua các biểu đồ hàm mất mát theo lô, đường cong ROC và biểu đồ dự đoán bất thường theo khung hình, minh họa rõ ràng sự khác biệt giữa các mô hình.

Đề xuất và khuyến nghị

  1. Tối ưu hóa thuật toán phân cụm: Thay đổi số phân đoạn trong video và giảm chiều đặc trưng đầu vào cho K-means bằng cách chọn các tầng FC có số chiều thấp hơn hoặc áp dụng kỹ thuật giảm chiều như PCA, t-SNE. Ngoài ra, thử nghiệm các thuật toán phân cụm khác như Gaussian Mixture Model để cải thiện nhãn giả.

  2. Kết hợp đặc trưng chuyển động quang học: Áp dụng thêm nhánh trích chọn đặc trưng chuyển động quang học (optical flow) để tăng khả năng nhận diện các hành động bất thường, dựa trên kết quả tích cực từ các nghiên cứu gần đây.

  3. Phát triển mô hình đa nhánh: Kết hợp mô hình C3D-ATT-MIL với các mô hình học sâu khác để tận dụng ưu điểm của từng mô hình, nâng cao độ chính xác và khả năng khái quát.

  4. Mở rộng bộ dữ liệu và đa dạng hóa nhãn: Thu thập thêm dữ liệu video với nhãn chi tiết hơn ở mức phân đoạn hoặc khung hình để giảm thiểu vấn đề nhãn yếu, từ đó cải thiện hiệu quả huấn luyện và đánh giá mô hình.

  5. Triển khai thực tế và đánh giá liên tục: Áp dụng mô hình vào các hệ thống giám sát thực tế tại các địa điểm công cộng, thu thập phản hồi và dữ liệu mới để điều chỉnh, nâng cấp mô hình theo thời gian.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Nghiên cứu về phát hiện bất thường, học sâu, học đa thể hiện và cơ chế chú ý trong xử lý video.

  2. Chuyên gia phát triển hệ thống giám sát an ninh: Áp dụng các kỹ thuật học sâu để nâng cao hiệu quả phát hiện sự kiện bất thường trong video giám sát.

  3. Doanh nghiệp công nghệ và an ninh: Tìm hiểu các giải pháp tự động phát hiện bất thường để tích hợp vào sản phẩm, dịch vụ giám sát thông minh.

  4. Cơ quan quản lý và an ninh công cộng: Hiểu rõ về công nghệ phát hiện bất thường để đánh giá, lựa chọn và triển khai các hệ thống giám sát phù hợp.

Câu hỏi thường gặp

  1. Phát hiện bất thường từ video là gì?
    Phát hiện bất thường là quá trình xác định các sự kiện hoặc hành vi khác biệt so với hành vi bình thường trong video giám sát, nhằm cảnh báo kịp thời các tình huống nguy hiểm hoặc bất thường.

  2. Tại sao cần sử dụng học đa thể hiện (MIL) trong bài toán này?
    MIL giúp xử lý dữ liệu gán nhãn yếu, khi nhãn chỉ có ở mức video mà không có nhãn chi tiết cho từng phân đoạn, bằng cách học từ các gói dữ liệu chứa nhiều thể hiện, trong đó ít nhất một thể hiện là bất thường.

  3. Cơ chế chú ý (attention) giúp gì cho mô hình?
    Cơ chế chú ý cho phép mô hình tập trung vào các phần quan trọng trong video, như các clip chứa sự kiện bất thường, từ đó cải thiện khả năng phát hiện và giảm ảnh hưởng của các phần không liên quan.

  4. Tại sao thuật toán phân cụm K-means chưa đạt hiệu quả trong nghiên cứu?
    Do số chiều đặc trưng cao và số lượng phân đoạn hạn chế, K-means không phân cụm chính xác, dẫn đến nhãn giả không phản ánh đúng thực tế, ảnh hưởng đến hiệu quả huấn luyện.

  5. Làm thế nào để cải thiện mô hình phát hiện bất thường trong tương lai?
    Có thể giảm chiều dữ liệu, sử dụng thuật toán phân cụm khác, kết hợp thêm đặc trưng chuyển động quang học, mở rộng dữ liệu gán nhãn chi tiết và phát triển mô hình đa nhánh để nâng cao hiệu quả.

Kết luận

  • Đề xuất mô hình kết hợp mạng C3D với học đa thể hiện và cơ chế chú ý dựa trên clip giúp cải thiện hiệu suất phát hiện bất thường từ video giám sát.
  • Cơ chế chú ý giúp tổng hợp đặc trưng clip hiệu quả hơn so với phương pháp pooling trung bình, tăng 1.2% AUC mức khung hình và 1.4% AUC mức clip.
  • Thuật toán phân cụm K-means tạo nhãn giả chưa đạt hiệu quả do đặc trưng có chiều cao và số lượng phân đoạn hạn chế.
  • Hướng phát triển tiếp theo là giảm chiều dữ liệu, thử thuật toán phân cụm khác, kết hợp đặc trưng chuyển động quang học và mở rộng dữ liệu gán nhãn chi tiết.
  • Mời các nhà nghiên cứu và chuyên gia trong lĩnh vực học sâu và giám sát an ninh tiếp tục khai thác, phát triển các giải pháp nâng cao hiệu quả phát hiện bất thường từ video.