Đồ án 1: Incremental Learning cho bài toán phát hiện bất thường trong video

Đồ án tổng quan về Incremental Learning cho bài toán phát hiện bất thường trong video. Khảo sát các phương pháp học sâu, bộ dữ liệu và hướng nghiên cứu.

2024

66
1
0

Phí lưu trữ

30 Point

Tóm tắt

I. Khái niệm về Incremental Learning và Phát hiện Bất thường trong Video

Incremental Learning (học tăng dần) là phương pháp học máy cho phép các mô hình cập nhật kiến thức liên tục từ dữ liệu mới mà không cần huấn luyện lại toàn bộ mô hình từ đầu. Trong lĩnh vực phát hiện bất thường trong video, công nghệ này đóng vai trò quan trọng để xây dựng các hệ thống giám sát thông minh. Với sự gia tăng nhanh chóng của camera giám sát trong khu vực công cộng, nhu cầu phát triển các hệ thống tự động phát hiện các sự kiện bất thường trở nên cấp thiết. Phát hiện bất thường giúp giảm thiểu công sức con người và tăng hiệu quả an ninh công cộng. Theo báo cáo, các sự kiện bất thường chỉ chiếm 0.01% thời gian giám sát, nhưng việc xây dựng mô hình học tăng dần có thể tối ưu hóa quá trình này.

1.1. Định nghĩa Incremental Learning

Incremental Learning là kỹ thuật cho phép mô hình học liên tục từ dữ liệu mới mà không mất đi kiến thức đã học trước đó. Phương pháp này giải quyết bài toán catastrophic forgetting trong mạng nơ-ron. Ưu điểm chính là khả năng thích ứng động với dữ liệu mới, giảm chi phí tính toán và bộ nhớ, đồng thời duy trì hiệu suất trên dữ liệu cũ. Trong ngữ cảnh phát hiện bất thường, phương pháp này cho phép hệ thống tự cải thiện theo thời gian.

1.2. Tầm quan trọng trong Giám sát Video

Giám sát video sinh ra hàng ngàn petabyte dữ liệu mỗi ngày, nhưng con người không thể theo dõi liên tục. Incremental Learning cho phép các mô hình thích ứng với môi trường mới mà không cần huấn luyện lại. Điều này giúp phát hiện các hành vi kỳ lạ hiệu quả hơn, từ tăng an ninh đến giảm chi phí lưu trữ và xử lý dữ liệu.

II. Các Phương pháp Trích Xuất Đặc Trưng trong Phát hiện Bất thường

Để phát hiện bất thường hiệu quả, việc trích xuất đặc trưng từ video là bước quan trọng nhất. Các phương pháp này bao gồm đặc trưng không gian, thời gian, không-thời gian và ngữ nghĩa. Đặc trưng không gian giúp nhận diện vật thể và cấu trúc trong từng khung hình, trong khi đặc trưng thời gian theo dõi chuyển động giữa các khung liên tiếp. Đặc trưng không-thời gian kết hợp cả hai, cho phép mô hình hiểu được hành vi phức tạp. Các bộ trích xuất đặc trưng sâu như CNN, GAN, Sequential Deep LearningVision-Language Models đã cách mạng hóa lĩnh vực này, giúp mô hình học các đặc trưng trừu tượng mà con người khó phát hiện.

2.1. Đặc trưng Không gian và Thời gian

Đặc trưng không gian (Spatial Features) sử dụng CNN để phát hiện các yếu tố hình ảnh trong video như hình dáng, màu sắc và vị trí vật thể. Đặc trưng thời gian (Temporal Features) theo dõi chuyển động và sự thay đổi giữa các khung hình liên tiếp. Sự kết hợp của hai loại này tạo nên đặc trưng không-thời gian (Spatiotemporal Features), giúp mô hình nhận biết hành vi bất thường như chạy nhanh, rơi, hoặc hành động lạ.

2.2. Mô hình Học Sâu trong Trích Xuất Đặc Trưng

Mạng nơ-ron tích chập (CNNs) xử lý dữ liệu hình ảnh hiệu quả. Mạng đối kháng sinh (GANs) tạo ra các mẫu dữ liệu bình thường để so sánh với bất thường. Mô hình ngôn ngữ thị giác (Vision-Language Models) kết hợp hình ảnh và văn bản để hiểu ngữ cảnh ngữ nghĩa. Mô hình lai (Hybrid Models) kết hợp nhiều kiến trúc để cải thiện độ chính xác phát hiện bất thường.

III. Các Bộ Dữ Liệu Tiêu Chuẩn cho Phát hiện Bất thường

Các bộ dữ liệu tiêu chuẩn là nền tảng để huấn luyện và đánh giá các mô hình phát hiện bất thường. Các bộ dữ liệu phổ biến bao gồm UCSD Pedestrian, CUHK Avenue, ShanghaiTech, UCF-Crime, XD-Violence, NWPU Campus, UMN Crowd AbnormalityAnomalous Behavior Database. Mỗi bộ dữ liệu có đặc trưng riêng biệt, từ phát hiện đám đông bất thường đến nhận diện hành động bạo lực. UMN Crowd Abnormality tập trung vào phân tích đám đông, trong khi Anomalous Behavior Database chứa các hành vi lạ đa dạng. Việc lựa chọn bộ dữ liệu phù hợp là chìa khóa để xây dựng mô hình phát hiện bất thường hiệu quả và thích ứng với incremental learning.

3.1. Bộ Dữ Liệu Phổ Biến

UCSD Pedestrian là bộ dữ liệu cơ sở cho phát hiện bất thường đám đông. CUHK Avenue cung cấp video đường phố chất lượng cao. ShanghaiTech bao gồm hành động bất thường đa dạng. UCF-Crime tập trung vào phát hiện hành vi tội phạm. XD-Violence chuyên về phát hiện bạo lực. Mỗi bộ dữ liệu cung cấp nhãn chính xác để huấn luyện mô hình học có giám sátbán giám sát.

3.2. UMN Crowd Abnormality và Anomalous Behavior Database

UMN Crowd Abnormality chứa video đám đông có sự kiện bất thường như chạy hoặc tán loạn. Anomalous Behavior Database cung cấp hành vi lạ trong các tình huống khác nhau. Cả hai bộ dữ liệu đều có nhãn thời gian chính xác cho các sự kiện, giúp mô hình incremental learning cập nhật kiến thức hiệu quả và đánh giá hiệu suất theo thời gian.

IV. Các Phương pháp Học và Hướng Phát Triển Tương lai

Phất hiện bất thường đã tiến hóa từ các phương pháp truyền thống sang học sâu hiện đại. Các phương pháp bao gồm học giám sát, bán giám sát, tự giám sáthọc không giám sát. Học tự giám sát (Self-Supervised Learning) cho phép mô hình học từ dữ liệu không có nhãn bằng cách tạo nhiệm vụ tự giải thích. Học bán giám sát (Semi-Supervised Learning) kết hợp dữ liệu có nhãn và không có nhãn. Incremental Learninghướng phát triển quan trọng, cho phép hệ thống thích ứng với dữ liệu mới mà không mất hiệu suất cũ. Trong tương lai, sự kết hợp giữa Vision-Language Modelsincremental learning sẽ mở ra những khả năng mới trong phát hiện bất thường có thể hiểu được ngữ cảnh ngữ nghĩa phức tạp.

4.1. Các Phương pháp Học Hiện Đại

Học tự giám sát (Self-Supervised Learning) giảm nhu cầu dữ liệu có nhãn bằng cách tạo nhãn tự động từ dữ liệu. Học bán giám sát (Semi-Supervised Learning) tận dụng cả dữ liệu có nhãn lẫn không có nhãn để cải thiện phát hiện bất thường. Học không giám sát (Unsupervised Learning) tìm mẫu bất thường mà không cần dữ liệu huấn luyện có nhãn. Các phương pháp này đặc biệt hữu ích khi bất thường hiếm gặp hoặc khó ghi nhãn.

4.2. Hướng Phát Triển Tương Lai của Incremental Learning

Incremental Learning sẽ là chìa khóa cho các hệ thống phát hiện bất thường thế hệ tới. Kết hợp với Vision-Language Models, hệ thống có thể hiểu ngữ cảnh ngữ nghĩathích ứng động với các bất thường mới. Sự phát triển mô hình lai (Hybrid Models) kết hợp nhiều loại dữ liệu sẽ nâng cao độ chính xác. Nghiên cứu tiếp theo nên tập trung vào giảm catastrophic forgettingcải thiện hiệu suất xử lý thời gian thực.

28/12/2025

Trích đoạn nội dung tài liệu

Chương 1. Giới thiệu tổng quan. Bài toán phát hiện bất thường trong video. Phân loại các sự kiện bất thường.

Bố cục bài báo cáo. CÁC NGHIÊN CỨU LIÊN QUAN. CÁC BỘ DỮ LIỆU. UMN Crowd Abnormality(đa).

Anomalous Behavior Database(đa). Thảo luận về các bộ dữ liệu. PHƯƠNG PHÁP LUẬN. Các phương pháp học và giám sát.

Học tự giám sát. Học giám sát yếu. Học không giám sát. Trích xuất đặc trưng.

Các loại đặc trưng. Đặc trưng không gian (Spatial Features). Đặc trưng thời gian (Temporal Features). Đặc trưng không-thời gian (Spatiotemporal Features).

Đặc trưng ngữ nghĩa (Textual Features). Các bộ trích xuất đặc trưng sâu. Mạng nơ-ron tích chập (CNNs). Mạng đối kháng sinh (GANs).

Các mô hình tuần tự sâu (Sequential Deep Learning). Mô hình ngôn ngữ thị giác (Vision-Language Models - VLMs) 36 4. Mô hình lai (Hybrid Models). Thảo luận về các phương pháp.

NHẬN XÉT, ĐÁNH GIÁ. HƯỚNG PHÁT TRIỂN.47 DANH MỤC HÌNH ẢNH Hình 3. Ảnh minh họa cho bộ dữ liệu CASIA Action [22]. Ảnh minh họa cho bộ dữ liệu Subway [15].3 Ảnh minh họa cho bộ dữ liệu UCSD Pedestrian1 [16].

Ảnh minh họa cho bộ dữ liệu UCSD Pedestrian2 [16]. Ảnh minh họa cho bộ dữ liệu Street Scene [19]. Ảnh minh họa cho bộ dữ liệu CUHK Avenue [17]. Ảnh minh họa cho bộ dữ liệu UCF-Crime [2].

Ảnh minh họa cho bộ dữ liệu ShanghaiTech [18]. Ảnh minh họa cho bộ dữ liệu XD-Violence [20]. Ảnh minh họa cho bộ dữ liệu NWPU Campus [20]. Ảnh minh họa cho bộ dữ liệu UMN Crowd Abnormality [23].

Ảnh minh họa cho bộ dữ liệu Anomalous Behavior Database [24].22 DANH MỤC BẢNG Bảng 3. Các bộ dữ liệu phát hiện bất thường trong video. Các phương pháp phát hiện bất thường trong video.39 TÓM TẮT ĐỒ ÁN Hiện nay, số lượng camera giám sát trong khu vực công cộng đang tăng trưởng nhanh chóng vì mục đích giám sát và an ninh. Từ đó, nảy sinh nhu cầu lớn về các hệ thống thông minh có khả năng tự động phát hiện các sự kiện bất thường trong các video.

Phát hiện bất thường trong video trở thành một chủ đề phát triển mạnh mẽ và đang thu hút ngày càng nhiều sự chú ý từ cộng đồng nghiên cứu. Vì vậy, nhiều phương pháp khác nhau đã được đề xuất để xây dựng một mô hình hiệu quả nhằm đảm bảo an ninh công cộng. Đã có nhiều khảo sát về phát hiện bất thường trong các lĩnh vực như phát hiện bất thường trong mạng, gian lận tài chính, phân tích hành vi con người, và nhiều lĩnh vực khác. Tuy nhiên, nhiều bài khảo sát tập trung vào các phương pháp truyền thống, thường thiếu chiều sâu khi khám phá các cách tiếp cận cụ thể và xu hướng mới nổi.

Bài khảo sát này nghiên cứu các phương pháp phát hiện bất thường từ truyền thống đến dựa trên học sâu, mở rộng vượt ra ngoài các mô hình huấn luyện có giám sát truyền thống để bao gồm cả các phương pháp học bán giám sát, tự giám sát và không giám sát mới nổi. Bài khảo sát này cũng mô tả các bộ dữ liệu tiêu chuẩn được sử dụng trong quá trình huấn luyện các mô hình phát hiện bất thường trong video. Cuối cùng, các bàn luận đánh giá được trình bày, nhằm đưa ra một số giải pháp khả thi và định hướng cho nghiên cứu trong tương lai. Giới thiệu tổng quan Với nhu cầu ngày càng tăng về an ninh, đặc biệt tại các khu vực công cộng như sân bay, nhà ga, siêu thị, trường học và các con đường đông đúc, camera giám sát được sử dụng ngày càng nhiều để theo dõi các hoạt động hàng ngày và phát hiện các sự kiện bất thường.

Theo một báo cáo của IHS Markit, khoảng 566PB dữ liệu đã được tạo ra bởi các camera giám sát vào năm 2015 và đến cuối năm 2019, con số này đạt 2500PB dữ liệu mỗi ngày. [1] Tuy nhiên, quá trình giám sát và chú ý liên tục này đòi hỏi nhiều công sức của con người. Đây một công việc mệt mỏi vì các sự kiện bất thường chỉ xảy ra 0.01% thời gian, trong khi 99.9% thời gian giám sát là lãng phí [2]. Hơn nữa, hệ thống giám sát tạo ra lượng lớn dữ liệu video dư thừa, đòi hỏi không gian lưu trữ không cần thiết.

Để giảm thiểu công sức con người và chi phí lưu trữ, việc xây dựng một hệ thống giám sát hiệu quả để phát hiện bất kỳ hành vi kỳ lạ nào có thể dẫn đến các tình huống nguy hiểm là rất cần thiết. Điều này đòi hỏi những nghiên cứu sâu và toàn diện về phát hiện bất thường trong video. Vì thế, phát hiện bất thường đã trở thành một lĩnh vực nghiên cứu sôi động trong những năm gần đây. Với mục đích hiện thực hóa một quy trình tự động để phát hiện các sự kiện bất thường, nhiều phương pháp tiên tiến đã được đề xuất.

Ý tưởng chính là trước tiên học các mẫu hành vi bình thường từ video huấn luyện, sau đó trích xuất các biểu diễn của các trường hợp bình thường. Nếu có bất kỳ sự kiện nào lệch khỏi các biểu diễn này, một sự kiện bất thường sẽ được phát hiện. Tuy nhiên, vẫn còn nhiều thách thức trong giám sát video và phát hiện bất thường. Những khó khăn này liên quan đến giai đoạn trích xuất đặc trưng, nơi các yếu tố như che khuất, chồng chéo, nền lộn xộn, nhiễu cảm biến, ánh sáng yếu và thay đổi nền động có thể ảnh hưởng đến hiệu suất của hệ thống [3].

Hơn nữa, việc phát hiện bất thường còn phụ thuộc vào ngữ cảnh của cảnh [4], nơi một hành động có thể được coi là bất thường ở một cảnh nhưng lại bình thường ở cảnh khác. Điều này đòi hỏi một 2 lượng lớn dữ liệu để huấn luyện, nhằm xác minh tất cả các trường hợp xảy ra trong thế giới thực. Mặc dù các phương pháp truyền thống cho phát hiện bất thường trong video đã được nghiên cứu rộng rãi, song vẫn còn gặp nhiều khó khăn do hạn chế về khả năng rút trích đặc trưng tự động. Sự tiến bộ nhanh chóng của các kỹ thuật học sâu đã mở ra những hướng đi mới hiệu quả hơn trong việc phát hiện bất thường.

Thông qua việc tận dụng các kỹ thuật học sâu, các nhà nghiên cứu đã phát triển các cách tiếp cận sáng tạo vượt trội hơn so với các phương pháp truyền thống và khắc phục được những hạn chế của học máy truyền thống. Bên cạnh các mô hình phát hiện bất thường dựa trên học sâu sử dụng các phương pháp học có giám sát, những năm gần đây đã chứng kiến sự xuất hiện của các cách tiếp cận mới, bao gồm học bán giám sát, tự giám sát và không giám sát. Những cách tiếp cận này mang lại các giải pháp tiềm năng cho những thách thức mà các phương pháp truyền thống gặp phải, chẳng hạn như yêu cầu dữ liệu được gán nhãn đầy đủ và độ phức tạp trong việc nắm bắt các mẫu không gian-thời gian phức tạp. Bài toán phát hiện bất thường trong video Những hành động, sự kiện hoặc đối tượng nào có sự sai lệch hoặc thay đổi so với tiêu chuẩn, trạng thái bình thường, hoặc kỳ vọng sẽ được coi là bất thường [1] [5].

Trong các tình huống học có giám sát, nơi có sẵn các nhãn cấp khung hình, vấn đề phát hiện bất thường trong video có thể được mô tả ngắn gọn như sau [6]: Giả sử mỗi video là V i, gồm một chuỗi các khung hình {f i ,1 , f i , 2 ,. Từ mỗi khung hình, chúng ta có thể trích xuất các đặc trưng quan trọng, ký hiệu là x i , j. Định nghĩa một mô hình M nhận các đặc trưng x i , j từ mỗi khung hình và tạo ra một điểm số bất thường cho khung hình đó. Đối với mỗi khung hình f i , j , điểm số bất thường là S ( f i , j ) = M ( x i , j ).

Tổng điểm số bất thường cho video V i là tổng của các điểm số của các khung hình của nó: 3 n S (V i ) = ∑ S ( f i , j ) j=1 Điểm số bất thường S (V i ) này được so sánh với một ngưỡng đã được xác định trước, T , và chúng ta có thể định nghĩa nhãn nhị phân dự đoán Y^i cho video. {Y^i = 1 {n ế u S (Vi ) ≥ T } Y^i = 0 {n ế u S (Vi ) < T } Trong đó:  1 chỉ ra rằng V i là bất thường và 0 là bình thường.  Nhãn thực của video được biểu diễn là Y i ∈ {0 , 1 }. Mục tiêu là huấn luyện mô hình M sao cho sự khác biệt giữa Y^i và Y i được tối thiểu hóa cho tất cả các video trong tập huấn luyện và có khả năng tổng quát tốt cho các video chưa được thấy.

Phân loại các sự kiện bất thường Tùy thuộc vào số lượng thực thể có mặt trong hoạt động bất thường, bất thường có thể được chia thành hai loại khác nhau: bất thường dựa trên m ột thực thể và bất thường dựa trên sự tương tác [1].  Bất thường dựa trên một thực thể coi một sự kiện là bất thường nếu hành vi của nó khác biệt so với các thực thể lân cận. Một ví dụ về bất thường dựa trên một thực thể là một người lái xe đi sai hướng trên đường.  Bất thường dựa trên sự tương tác coi một sự kiện là bất thường nếu nhiều sự kiện bình thường khi thực hiện riêng lẻ, nhưng lại tương tác với nhau theo cách khác biệt.

Một số ví dụ về bất thường dựa trên sự tương tác là tai nạn xe hơi, hoặc một nhóm người đứng tụ tập trong cuộc bạo loạn. Ngoài ra, phát hiện bất thường còn có thể được phân loại ở các m ức đ ộ khác nhau như frame, pixel hoặc duel pixel. 4  Ở cấp độ pixel, nếu một pixel trong khung hình được phát hiện là bất thường, toàn bộ khung hình sẽ được coi là bất thường.  Ở cấp độ frame, nếu 40% pixel trong frame được phát hiện là bất thường, thì frame đó được coi là bất thường.

 Ở cấp độ duel pixel, phải thỏa mãn hai điều kiện: + Phải đáp ứng tiêu chí ở cấp độ frame; + Nếu một tỷ lệ β% pixel bị phát hiện là bất thường thì khung hình đó được coi là bất thường. Thông số β này do người dùng xác định. Bố cục bài báo cáo Các phần tiếp theo của bài báo cáo này có cấu trúc như sau: Chương 2 xem xét các khảo sát trước đây được thực hiện trong lĩnh vực phát hiện bất thường video. Các bộ dữ liệu tiêu chuẩn được sử dụng trong xây dựng và đánh giá các mô hình phát hiện bất thường được trình bày trong Chương 3.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ