Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của hạ tầng giao thông và sự phổ biến của camera giám sát, việc phát hiện bất thường trong video giám sát trở thành một vấn đề cấp thiết nhằm nâng cao hiệu quả quản lý và đảm bảo an ninh. Theo ước tính, các trung tâm giám sát hiện nay vẫn phụ thuộc nhiều vào sự can thiệp của con người trong việc phát hiện các sự kiện bất thường như cháy nổ, trộm cắp hay tai nạn giao thông. Mục tiêu của nghiên cứu là xây dựng một hệ thống tự động phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu (deep learning), giảm thiểu sự can thiệp của con người và tăng độ chính xác trong phát hiện.

Phạm vi nghiên cứu tập trung vào các video giám sát tại các khu vực đô thị, đặc biệt là các tập dữ liệu UCSD Ped1, Ped2 và Avenue, với tổng số video huấn luyện và kiểm thử lên đến hơn 100 video, chứa khoảng 100 sự kiện bất thường. Nghiên cứu đề xuất một mô hình học sâu được huấn luyện trên tập dữ liệu không có sự kiện bất thường, nhằm học các đặc trưng của khung hình bình thường và phát hiện sự khác biệt khi xuất hiện bất thường. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số hiệu suất như AUC (Area Under Curve) đạt trên 80%, đồng thời hệ thống có thể xử lý với tốc độ trung bình khoảng 100 khung hình/giây, phù hợp với yêu cầu thời gian thực trong giám sát an ninh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình học sâu sau:

  • Mạng nơ-ron tích chập 2D và 3D (Conv2D, Conv3D): Conv2D được sử dụng để trích xuất đặc trưng không gian từ từng khung hình, trong khi Conv3D mở rộng thêm chiều thời gian, giúp mô hình học được đặc trưng động trong chuỗi video liên tiếp.

  • Mạng Autoencoder: Mạng này gồm hai phần chính là mã hóa và giải mã, nhằm tái tạo lại khung hình đầu vào. Mục tiêu là giảm thiểu sai số tái tạo giữa khung hình gốc và khung hình sinh ra, từ đó phát hiện bất thường dựa trên sai khác lớn.

  • Mạng LSTM và ConvLSTM: LSTM giúp xử lý dữ liệu chuỗi bằng cách ghi nhớ thông tin dài hạn, còn ConvLSTM kết hợp khả năng trích xuất đặc trưng không gian và thời gian, phù hợp với dữ liệu video.

  • Mạng U-Net: Được sử dụng làm thành phần chính trong bộ sinh ảnh (Generator) với kiến trúc mã hóa-giải mã có các kết nối skip connection, giúp giữ lại thông tin chi tiết khi tái tạo ảnh.

  • Mạng GAN (Generative Adversarial Network): Bao gồm hai mạng đối kháng là Generator và Discriminator, giúp cải thiện chất lượng ảnh sinh ra và khả năng phân biệt ảnh thật và giả, từ đó nâng cao hiệu quả phát hiện bất thường.

Các khái niệm chính bao gồm: Peak Signal-to-Noise Ratio (PSNR) dùng để đo sai khác giữa ảnh gốc và ảnh tái tạo, Optical Flow để mô tả chuyển động trong video, và các hàm mất mát (loss functions) như Pixel-wise Loss, Gradient Loss và Flow Loss nhằm tối ưu hóa quá trình huấn luyện.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm ba tập dữ liệu video giám sát phổ biến: UCSD Ped1, UCSD Ped2 và Avenue, với tổng cộng hơn 66 video huấn luyện và hơn 69 video kiểm thử, chứa khoảng 99 sự kiện bất thường. Tập huấn luyện chỉ bao gồm các video không có sự kiện bất thường nhằm giúp mô hình học đặc trưng của khung hình bình thường.

Phương pháp phân tích sử dụng mô hình GAN kết hợp U-Net làm Generator và mạng phân loại sử dụng Conv3D làm Discriminator. Quá trình huấn luyện sử dụng thuật toán Adam với learning rate 0.00001, batch size 5 khung hình liên tiếp, trên phần cứng gồm CPU Intel Xeon Silver 4216 và GPU NVIDIA Tesla T4 16GB.

Timeline nghiên cứu kéo dài trong khoảng thời gian thực hiện luận văn thạc sĩ, với các giai đoạn chính: thu thập và chuẩn bị dữ liệu, thiết kế mô hình, huấn luyện và kiểm thử, phân tích kết quả và hoàn thiện báo cáo.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phát hiện bất thường: Mô hình đạt AUC lần lượt là 84.01% trên tập dữ liệu huấn luyện và kiểm thử cùng loại, và khoảng 79.40% khi huấn luyện trên tập dữ liệu kết hợp (Ped1 + Ped2 + Avenue) và kiểm thử trên tập dữ liệu khác. So với mô hình tham chiếu ConvAE đạt 81.90%, kết quả này cho thấy sự cải thiện rõ rệt.

  2. Tốc độ xử lý: Hệ thống có khả năng xử lý trung bình 100 khung hình/giây trên GPU NVIDIA Tesla T4, đáp ứng yêu cầu thời gian thực trong giám sát video.

  3. Khả năng tái tạo khung hình: Qua các chỉ số PSNR, mô hình tái tạo khung hình bình thường với sai số thấp, trong khi khung hình có sự kiện bất thường có sai số tái tạo lớn hơn đáng kể, giúp phân biệt hiệu quả.

  4. Ảnh hưởng của tập huấn luyện: Huấn luyện trên tập dữ liệu riêng biệt cho từng bộ (Ped1, Ped2, Avenue) giúp mô hình hội tụ nhanh hơn và đạt hiệu quả cao hơn so với huấn luyện trên tập dữ liệu kết hợp, do sự khác biệt về cảnh quan và góc quay trong các bộ dữ liệu.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao đến từ việc sử dụng kiến trúc U-Net trong Generator giúp giữ lại chi tiết ảnh khi tái tạo, kết hợp với Conv3D trong Discriminator giúp phân biệt chuỗi khung hình thật và giả hiệu quả hơn. Việc huấn luyện trên dữ liệu không có sự kiện bất thường giúp mô hình học được đặc trưng chuẩn của cảnh quan, từ đó phát hiện bất thường dựa trên sai khác tái tạo.

So sánh với các nghiên cứu trước đây, mô hình này không yêu cầu dữ liệu gán nhãn sự kiện bất thường, giảm thiểu chi phí và công sức chuẩn bị dữ liệu. Kết quả AUC trên 80% là mức độ chấp nhận được trong lĩnh vực phát hiện bất thường video, đồng thời tốc độ xử lý cao phù hợp với ứng dụng thực tế.

Dữ liệu có thể được trình bày qua các biểu đồ ROC thể hiện mối quan hệ giữa True Positive Rate và False Positive Rate, bảng so sánh AUC giữa các mô hình, và biểu đồ PSNR phân biệt khung hình bình thường và bất thường.

Đề xuất và khuyến nghị

  1. Tăng cường thu thập dữ liệu đa dạng: Động viên các trung tâm giám sát mở rộng thu thập video từ nhiều cảnh quan và điều kiện ánh sáng khác nhau nhằm cải thiện khả năng tổng quát hóa của mô hình. Chủ thể thực hiện: các đơn vị quản lý camera giám sát; Timeline: 6-12 tháng.

  2. Phát triển mô hình kết hợp đa phương thức: Áp dụng thêm các kỹ thuật học sâu kết hợp dữ liệu âm thanh hoặc cảm biến khác để tăng độ chính xác phát hiện bất thường. Chủ thể thực hiện: nhóm nghiên cứu AI và các công ty công nghệ; Timeline: 12-18 tháng.

  3. Triển khai hệ thống giám sát thông minh: Ứng dụng mô hình vào hệ thống giám sát thực tế tại các khu vực trọng điểm, tích hợp cảnh báo tự động để giảm thiểu thiệt hại do sự kiện bất thường. Chủ thể thực hiện: cơ quan an ninh, doanh nghiệp; Timeline: 6 tháng thử nghiệm, mở rộng sau 12 tháng.

  4. Đào tạo và nâng cao nhận thức: Tổ chức các khóa đào tạo cho nhân viên giám sát về cách sử dụng hệ thống và hiểu biết về phát hiện bất thường để phối hợp hiệu quả với công nghệ. Chủ thể thực hiện: các trung tâm đào tạo, cơ quan quản lý; Timeline: liên tục hàng năm.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Nghiên cứu cung cấp kiến thức chuyên sâu về ứng dụng học sâu trong phát hiện bất thường video, hỗ trợ phát triển các đề tài liên quan.

  2. Chuyên gia phát triển hệ thống giám sát an ninh: Tham khảo để áp dụng mô hình học sâu vào hệ thống giám sát thực tế, nâng cao hiệu quả phát hiện và cảnh báo.

  3. Cơ quan quản lý an ninh và giao thông: Hiểu rõ về công nghệ phát hiện bất thường tự động, từ đó xây dựng chính sách và đầu tư phù hợp cho hệ thống giám sát.

  4. Doanh nghiệp công nghệ và startup AI: Tận dụng kết quả nghiên cứu để phát triển sản phẩm giám sát thông minh, mở rộng thị trường và nâng cao năng lực cạnh tranh.

Câu hỏi thường gặp

  1. Mô hình có cần dữ liệu gán nhãn sự kiện bất thường không?
    Mô hình được huấn luyện trên dữ liệu không có sự kiện bất thường, giúp giảm chi phí và công sức chuẩn bị dữ liệu. Ví dụ, tập huấn luyện chỉ gồm các video bình thường từ UCSD Ped1, Ped2 và Avenue.

  2. Tốc độ xử lý của hệ thống như thế nào?
    Hệ thống xử lý trung bình khoảng 100 khung hình/giây trên GPU NVIDIA Tesla T4, đáp ứng yêu cầu thời gian thực trong giám sát video.

  3. Mô hình có thể áp dụng cho các loại video giám sát khác nhau không?
    Mô hình có khả năng tổng quát hóa tốt khi được huấn luyện trên dữ liệu đa dạng, tuy nhiên hiệu quả cao nhất đạt được khi huấn luyện và kiểm thử trên cùng loại dữ liệu hoặc dữ liệu có cảnh quan tương tự.

  4. Làm thế nào để đánh giá sự bất thường trong video?
    Dựa vào sai khác giữa khung hình gốc và khung hình tái tạo, được đo bằng chỉ số PSNR. Sai khác lớn cho thấy khả năng xuất hiện sự kiện bất thường.

  5. Có thể tích hợp mô hình vào hệ thống giám sát hiện có không?
    Có thể, mô hình được thiết kế để xử lý video đầu vào liên tục và phát hiện bất thường tự động, dễ dàng tích hợp vào các hệ thống giám sát hiện tại để nâng cao hiệu quả.

Kết luận

  • Đã xây dựng thành công mô hình phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu, đạt hiệu suất AUC trên 80%.
  • Mô hình không yêu cầu dữ liệu gán nhãn sự kiện bất thường, giảm thiểu chi phí chuẩn bị dữ liệu.
  • Tốc độ xử lý đạt khoảng 100 khung hình/giây, phù hợp với ứng dụng thời gian thực.
  • Huấn luyện trên dữ liệu riêng biệt giúp mô hình hội tụ nhanh và hiệu quả hơn so với dữ liệu kết hợp.
  • Đề xuất triển khai hệ thống giám sát thông minh và mở rộng nghiên cứu đa phương thức để nâng cao hiệu quả phát hiện.

Next steps: Triển khai thử nghiệm mô hình trong môi trường thực tế, mở rộng thu thập dữ liệu đa dạng và phát triển các mô hình kết hợp đa cảm biến.

Call-to-action: Các nhà nghiên cứu và doanh nghiệp công nghệ nên hợp tác để ứng dụng và phát triển tiếp công nghệ phát hiện bất thường trong video giám sát, góp phần nâng cao an ninh và quản lý đô thị thông minh.