Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu

Chuyên khảo kỹ thuật phân tích Phát hiện bất thường từ video sử dụng kỹ thuật học sâu, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng Quan Về Phát Hiện Bất Thường Từ Video Ứng Dụng AI

Phát hiện bất thường từ video là bài toán quan trọng trong phân tích video thông minh, đặc biệt trong các hệ thống giám sát an ninh. Mục tiêu là tự động xác định các sự kiện bất thường so với hành vi thông thường, giúp tăng cường an toàn công cộng. Bài toán này có tính ứng dụng cao, từ giám sát giao thông đến phát hiện hành vi đáng ngờ tại các khu vực công cộng. Tuy nhiên, việc triển khai gặp nhiều thách thức do sự đa dạng của các sự kiện bất thường và sự thiếu hụt dữ liệu được gán nhãn chi tiết. Các hệ thống giám sát an ninh cần phát hiện và cảnh báo kịp thời các hành vi như đánh nhau, tụ tập trái phép, trộm cướp, hoặc vi phạm giao thông. Việc phát triển các giải thuật thông minh để tự động phát hiện bất thường là một nhu cầu cấp thiết để giảm tải công việc cho con người và tăng cường hiệu quả giám sát.

1.1. Khái niệm cơ bản về phát hiện bất thường trong video

Trong phân tích dữ liệu, bất thường là các mẫu ngoại lệ, hiếm gặp và có sự sai khác đáng kể so với phần lớn các mẫu bình thường còn lại. Có nhiều nguyên nhân gây ra bất thường tuỳ thuộc vào ứng dụng và ngữ cảnh xem xét. Ví dụ, trong cuộc sống hằng ngày, đa số các hoạt động của các nhân, tập thể hay hệ thống là bình thường. Ngược lại, các hoạt động có tính chất gây hại như gian lận thẻ tín dụng, xâm nhập mạng, khủng bố hoặc phá vỡ một hệ thống là bất thường. Theo [5], bất thường có liên quan đến nhiễu, nhưng khác với nhiễu.

1.2. Các loại bất thường thường gặp trong giám sát video

Các bất thường có thể được phân làm 3 loại: Bất thường điểm (mẫu dữ liệu tách biệt), bất thường ngữ cảnh (bất thường trong ngữ cảnh cụ thể), và bất thường tập thể (tập các mẫu bất thường). Ví dụ, hành động đi xe đạp trên vỉa hè là bất thường ngữ cảnh. Việc nhiều người tụ tập biểu tình là bất thường tập thể. Việc phát hiện các loại bất thường này đòi hỏi các phương pháp tiếp cận khác nhau.

II. Thách Thức Phát Hiện Bất Thường Video Giải Pháp Học Sâu

Bài toán phát hiện bất thường video đối mặt với nhiều thách thức lớn. Thứ nhất, sự đa dạng của các sự kiện bất thường khiến việc định nghĩa và nhận diện trở nên khó khăn. Thứ hai, dữ liệu huấn luyện thường bị mất cân bằng, với số lượng mẫu bất thường ít hơn nhiều so với mẫu bình thường. Thứ ba, việc gán nhãn dữ liệu chi tiết (thời điểm bắt đầu và kết thúc của bất thường) tốn kém và mất thời gian, dẫn đến tình trạng gán nhãn yếu. Các phương pháp học sâu đang nổi lên như một giải pháp tiềm năng để vượt qua những thách thức này, nhờ khả năng tự động trích xuất đặc trưng và học biểu diễn phức tạp từ dữ liệu video. Các mô hình như mạng nơ-ron tích chập 3D (C3D) và mạng LSTM được sử dụng rộng rãi để nắm bắt thông tin không gian và thời gian trong video.

2.1. Vấn đề gán nhãn yếu trong phát hiện bất thường video

Trong thực tế, việc gán nhãn chi tiết cho các sự kiện bất thường trong video là rất tốn kém. Do đó, thường chỉ có nhãn ở mức video (video chứa bất thường hay không), mà không có nhãn cho từng khung hình. Đây được gọi là gán nhãn yếu. Một video có thể xem như một gói (bag) gồm nhiều đoạn nhỏ (instances). Cả video là coi bất thường (positive) nếu ít nhất một thể hiện trong video đó là bất thường (positive). Ngược lại, video là bình thường (negative) nếu tất cả các thể hiện của nó là bình thường (negative).

2.2. Các giả định và hạn chế trong phát hiện bất thường

Các phương pháp phát hiện bất thường thường dựa trên giả định rằng bất kỳ sự kiện nào khác biệt so với các mẫu bình thường đã học được đều là bất thường. Tuy nhiên, việc định nghĩa đầy đủ các hành vi bình thường là rất khó. Theo [9], sự bất thường được định nghĩa là một mẫu không phù hợp với dự kiến hành vi bình thường. Ngoài ra, các tác nhân gây ra bất thường có thể tự thích nghi để làm cho các hành vi bất thường trở nên giống bình thường, gây khó khăn cho việc phát hiện.

III. Phương Pháp Học Sâu C3D MIL Cho Phát Hiện Bất Thường

Luận văn này tập trung vào giải quyết bài toán phát hiện bất thường từ video giám sát an ninh sử dụng kỹ thuật học sâu. Phương pháp đề xuất kết hợp mạng nơ-ron tích chập 3 chiều (C3D) để trích xuất đặc trưng không gian và thời gian từ video, và học đa thể hiện (MIL) để xử lý dữ liệu gán nhãn yếu. C3D giúp nắm bắt thông tin về chuyển động và hình dạng trong video, trong khi MIL cho phép huấn luyện mô hình chỉ với nhãn ở mức video, không cần nhãn chi tiết cho từng khung hình. Cuối cùng, cơ chế chú ý (attention mechanism) và kỹ thuật phân cụm (K-means) được áp dụng để khai thác các thông tin tương quan giữa các phân đoạn trong cùng một video.

3.1. Mô hình C3D kết hợp học đa thể hiện Deep MIL Ranking

Mô hình C3D được sử dụng để trích xuất các đặc trưng không gian và thời gian từ các đoạn video. C3D là một loại mạng nơ-ron tích chập được thiết kế đặc biệt để xử lý dữ liệu video, bằng cách thực hiện các phép tích chập 3 chiều trên các khung hình liên tiếp. Sau đó, học đa thể hiện (MIL) được áp dụng để giải quyết vấn đề gán nhãn yếu. Trong MIL, mỗi video được coi là một gói (bag) chứa nhiều đoạn nhỏ (instances), và mục tiêu là học cách phân loại các gói dựa trên thông tin từ các thể hiện bên trong.

3.2. Xử lý vấn đề lấy mẫu trên video và cải tiến giải pháp

Việc lấy mẫu video là một bước quan trọng trong quá trình xử lý. Các đoạn video cần được chia thành các clip nhỏ hơn để đưa vào mô hình C3D. Để cải thiện hiệu suất, luận văn đề xuất sử dụng cơ chế chú ý dựa trên clip (clip attention) và thuật toán phân cụm K-means để tạo nhãn giả (pseudo label). Cơ chế chú ý giúp mô hình tập trung vào các clip quan trọng nhất trong video, trong khi K-means giúp tạo ra các nhãn giả cho các phân đoạn trong video, khắc phục vấn đề nhãn yếu.

IV. Cải Tiến Phát Hiện Bất Thường Cơ Chế Chú Ý Phân Cụm K means

Để nâng cao khả năng phát hiện bất thường, luận văn đề xuất hai cải tiến chính: sử dụng cơ chế chú ý dựa trên clip (clip attention) và thuật toán phân cụm K-means để tạo nhãn giả (pseudo label). Cơ chế chú ý cho phép mô hình tập trung vào các phân đoạn video quan trọng nhất, nơi có khả năng chứa sự kiện bất thường cao. Thuật toán K-means giúp tạo ra các nhãn giả cho các phân đoạn video, từ đó cải thiện hiệu quả huấn luyện trong điều kiện dữ liệu gán nhãn yếu. Sự kết hợp của hai kỹ thuật này giúp mô hình học được các biểu diễn video tốt hơn và tăng cường khả năng phân biệt giữa các sự kiện bình thường và bất thường.

4.1. Sử dụng cơ chế chú ý dựa trên clip clip attention

Cơ chế chú ý cho phép mô hình gán trọng số khác nhau cho các clip khác nhau trong một video, dựa trên mức độ quan trọng của chúng trong việc xác định bất thường. Các clip chứa các sự kiện bất thường sẽ nhận được trọng số cao hơn, giúp mô hình tập trung vào các phần quan trọng nhất của video. Hình 20 trong tài liệu gốc minh họa cơ chế chú ý dựa trên clip.

4.2. Sử dụng thuật toán phân cụm K means tạo nhãn giả

Thuật toán phân cụm K-means được sử dụng để nhóm các phân đoạn video thành các cụm dựa trên đặc trưng của chúng. Sau đó, các cụm này được gán nhãn giả dựa trên nhãn của video chứa chúng. Ví dụ, nếu một video được gán nhãn là bất thường, thì các cụm chứa các phân đoạn từ video đó cũng sẽ được gán nhãn là bất thường. Điều này giúp tăng cường dữ liệu huấn luyện và cải thiện hiệu suất của mô hình.

V. Thực Nghiệm Đánh Giá Hiệu Quả Phát Hiện Bất Thường Video

Phương pháp đề xuất được đánh giá thực nghiệm trên cơ sở dữ liệu UCF-Crime, bao gồm 1900 video với 13 loại sự kiện bất thường và các hoạt động bình thường. Kết quả thực nghiệm cho thấy cơ chế chú ý cho phép cải thiện khả năng phát hiện bất thường của hệ thống tổng thể so với việc chỉ thực hiện trích chọn đặc trưng và học đa thể hiện. Các kết quả được so sánh với các phương pháp khác để chứng minh tính ưu việt của phương pháp đề xuất. Bảng 4 trong tài liệu gốc trình bày các kết quả thực nghiệm chi tiết trên bộ dữ liệu UCF-Crime.

5.1. Dữ liệu thực nghiệm và triển khai mô hình học sâu

Bộ dữ liệu UCF-Crime bao gồm các video giám sát được thu thập từ nhiều nguồn khác nhau, với các sự kiện bất thường như đánh nhau, trộm cướp, và phá hoại. Các video được chia thành tập huấn luyện và tập kiểm thử. Các mô hình học sâu được huấn luyện trên tập huấn luyện và đánh giá trên tập kiểm thử để đo lường hiệu suất.

5.2. So sánh kết quả và đánh giá hiệu suất phát hiện bất thường

Kết quả thực nghiệm được đánh giá bằng các độ đo như độ chính xác (accuracy), độ thu hồi (recall), và diện tích dưới đường cong ROC (AUC). Các kết quả cho thấy phương pháp đề xuất đạt được hiệu suất tốt hơn so với các phương pháp khác, đặc biệt là trong việc phát hiện các sự kiện bất thường hiếm gặp.

VI. Kết Luận Hướng Phát Triển Phát Hiện Bất Thường Video AI

Luận văn đã trình bày một phương pháp hiệu quả để phát hiện bất thường từ video sử dụng kỹ thuật học sâu, kết hợp mạng C3D, học đa thể hiện, cơ chế chú ý và thuật toán phân cụm K-means. Phương pháp này giúp giải quyết các thách thức của bài toán, bao gồm sự đa dạng của sự kiện bất thường và dữ liệu gán nhãn yếu. Hướng phát triển trong tương lai có thể tập trung vào việc cải thiện khả năng xử lý dữ liệu thời gian thực, tích hợp thêm thông tin ngữ cảnh, và phát triển các mô hình có khả năng thích nghi với các loại bất thường mới.

6.1. Kết quả đạt được và đóng góp của luận văn

Luận văn đã đạt được các kết quả thực nghiệm tốt trên bộ dữ liệu UCF-Crime, chứng minh tính hiệu quả của phương pháp đề xuất. Đóng góp chính của luận văn là việc kết hợp các kỹ thuật học sâu khác nhau để giải quyết bài toán phát hiện bất thường trong điều kiện dữ liệu gán nhãn yếu.

6.2. Định hướng phát triển và nghiên cứu trong tương lai

Trong tương lai, có thể nghiên cứu thêm về việc sử dụng các mô hình học sâu phức tạp hơn, như Transformer, để cải thiện khả năng nắm bắt thông tin thời gian dài trong video. Ngoài ra, việc tích hợp thêm thông tin ngữ cảnh, như thông tin về địa điểm và thời gian, có thể giúp cải thiện độ chính xác của việc phát hiện bất thường.

06/06/2025

Bạn đang xem trước tài liệu:

Phát hiện bất thường từ video sử dụng kỹ thuật học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phát hiện bất thường từ video giám sát an ninh là một bài toán có tính ứng dụng thực tiễn cao trong việc đảm bảo an toàn nơi công cộng như đường phố, ngân hàng, trung tâm mua sắm. Bộ dữ liệu UCF-Crime với 1900 video ghi lại 13 loại sự kiện bất thường và các hoạt động bình thường cung cấp nền tảng thực nghiệm cho nghiên cứu này. Bài toán phát hiện bất thường đối mặt với nhiều thách thức như sự đa dạng của các sự kiện bất thường, mất cân bằng dữ liệu và đặc biệt là vấn đề gán nhãn yếu, khi nhãn chỉ được gán ở mức video mà không có nhãn chi tiết cho từng phân đoạn hay khung hình.

Mục tiêu của luận văn là phát triển một phương pháp phát hiện bất thường từ video dựa trên kỹ thuật học sâu, giải quyết hiệu quả vấn đề gán nhãn yếu. Phương pháp đề xuất sử dụng mạng nơ-ron tích chập 3 chiều (C3D) để trích xuất đặc trưng không gian và thời gian từ video, kết hợp với học đa thể hiện (MIL) nhằm xử lý nhãn yếu. Ngoài ra, cơ chế chú ý (attention mechanism) và thuật toán phân cụm K-means được áp dụng để khai thác thông tin tương quan giữa các phân đoạn trong video, tạo nhãn giả cho các phân đoạn nhằm cải thiện độ chính xác phát hiện.

Phạm vi nghiên cứu tập trung vào các video giám sát an ninh công cộng, với dữ liệu thu thập từ bộ UCF-Crime, được phân chia rõ ràng thành tập huấn luyện và đánh giá. Ý nghĩa nghiên cứu được thể hiện qua việc cải thiện các chỉ số AUC-ROC, một metric quan trọng đánh giá hiệu suất phân loại bất thường ở mức khung hình và clip, góp phần nâng cao hiệu quả giám sát an ninh tự động.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Mạng nơ-ron tích chập 3 chiều (C3D): Mạng C3D được thiết kế để trích xuất đặc trưng không gian và thời gian từ video bằng phép toán tích chập 3 chiều. Cấu trúc gồm 5 tầng tích chập, 5 tầng max pooling, 2 tầng fully connected và một tầng softmax. Đầu vào là clip gồm 16 khung hình với kích thước 3x16x112x112. Mạng này giữ được thông tin thời gian trong quá trình xử lý, phù hợp cho bài toán video.
Học đa thể hiện (Multiple Instance Learning - MIL): MIL giải quyết vấn đề gán nhãn yếu bằng cách xem mỗi video như một gói (bag) gồm nhiều thể hiện (instance). Nhãn chỉ được gán cho gói, không cho từng thể hiện. Nếu gói bất thường, ít nhất một thể hiện trong gói là bất thường. MIL sử dụng hàm ranking loss để phân biệt điểm số giữa thể hiện bất thường và bình thường, đồng thời áp dụng các ràng buộc làm mịn và làm thưa thớt điểm bất thường trong video.
Cơ chế chú ý (Attention Mechanism): Được áp dụng để đánh giá trọng số quan trọng của từng clip trong phân đoạn video, giúp tổng hợp đặc trưng hiệu quả hơn so với phương pháp pooling trung bình. Cơ chế chú ý dựa trên mạng LSTM, tính toán trọng số dựa trên sự tương quan giữa các trạng thái ẩn, từ đó tạo ra véc tơ ngữ cảnh đại diện cho phân đoạn.
Thuật toán phân cụm K-means: Được sử dụng để phân cụm các phân đoạn video trong cùng một video thành hai cụm, tạo nhãn giả nhằm giảm nhiễu nhãn bất thường. Kết quả phân cụm được so sánh với dự đoán của mô hình qua độ tương tự cosine, từ đó điều chỉnh hàm mất mát để đẩy các cụm ra xa nhau trong video bất thường và gần nhau trong video bình thường.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu UCF-Crime gồm 1900 video giám sát an ninh với 13 loại sự kiện bất thường và các hoạt động bình thường, được phân chia thành tập huấn luyện (810 video bất thường, 800 video bình thường) và tập đánh giá (140 video bất thường, 150 video bình thường).
Phương pháp phân tích: Video được chia thành 32 phân đoạn, mỗi phân đoạn gồm nhiều clip 16 khung hình không chồng lấp. Các clip được đưa vào mạng C3D để trích xuất đặc trưng không-thời gian. Cơ chế chú ý được áp dụng để tổng hợp đặc trưng clip thành đặc trưng phân đoạn. Mô hình được huấn luyện theo lô, mỗi lô gồm 30 video bất thường và 30 video bình thường nhằm cân bằng dữ liệu.
Timeline nghiên cứu: Quá trình huấn luyện mô hình được thực hiện qua nhiều vòng lặp (iterations), với việc theo dõi giá trị hàm mất mát để đảm bảo hội tụ. Các mô hình được so sánh gồm mô hình cơ sở C3D-MIL, mô hình cải tiến với clip attention (C3D-ATT-MIL) và mô hình kết hợp clip attention với nhãn giả từ K-means (C3D-ATT-CLT-MIL).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của cơ chế chú ý: Mô hình C3D-ATT-MIL cải thiện đáng kể hiệu suất so với mô hình cơ sở C3D-MIL, tăng 1.2% AUC ở mức khung hình và 1.4% AUC ở mức clip. Giá trị hàm mất mát MIL_Loss của C3D-ATT-MIL thấp hơn rõ rệt, thể hiện khả năng học tốt hơn.
Ảnh hưởng của nhãn giả từ K-means: Mô hình C3D-ATT-CLT-MIL sử dụng nhãn giả từ phân cụm K-means có hiệu suất thấp hơn mô hình C3D-ATT-MIL, giảm 0.5% AUC mức khung hình và 0.8% AUC mức clip. Điều này cho thấy thuật toán phân cụm chưa phân loại nhãn giả hiệu quả, ảnh hưởng đến quá trình huấn luyện.
Khả năng phát hiện bất thường theo lớp: Mô hình C3D-ATT-MIL thể hiện độ nhạy cao hơn trong việc phát hiện các khung hình bất thường và dự đoán chính xác hơn các khung hình bình thường so với các mô hình còn lại, đặc biệt trong các video có sự kiện như đánh nhau, trộm cắp.
Thách thức trong phân loại các hành động phức tạp: Một số khung hình có hành động đông người hoặc tương tự bất thường nhưng thực tế là bình thường gây khó khăn cho mô hình, dẫn đến dự đoán sai. Cơ chế chú ý giúp giảm thiểu lỗi này nhưng chưa hoàn toàn khắc phục.

Thảo luận kết quả

Việc áp dụng cơ chế chú ý giúp mô hình tập trung vào các clip quan trọng trong phân đoạn, tránh làm trung hòa các đặc trưng nổi bật như khi sử dụng pooling trung bình. Điều này giải thích sự cải thiện về hiệu suất và giảm hàm mất mát. Tuy nhiên, việc sử dụng nhãn giả từ K-means chưa đạt hiệu quả do số chiều đặc trưng cao (512 chiều) trong khi số lượng phân đoạn chỉ 32, dẫn đến phân cụm không chính xác. Việc giảm chiều dữ liệu hoặc sử dụng thuật toán phân cụm khác có thể cải thiện kết quả.

So sánh với các nghiên cứu khác, mô hình đề xuất chưa vượt trội hoàn toàn nhưng cung cấp hướng đi mới trong việc kết hợp cơ chế chú ý và phân cụm để xử lý nhãn yếu. Dữ liệu thực nghiệm được trình bày qua các biểu đồ hàm mất mát theo lô, đường cong ROC và biểu đồ dự đoán bất thường theo khung hình, minh họa rõ ràng sự khác biệt giữa các mô hình.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán phân cụm: Thay đổi số phân đoạn trong video và giảm chiều đặc trưng đầu vào cho K-means bằng cách chọn các tầng FC có số chiều thấp hơn hoặc áp dụng kỹ thuật giảm chiều như PCA, t-SNE. Ngoài ra, thử nghiệm các thuật toán phân cụm khác như Gaussian Mixture Model để cải thiện nhãn giả.
Kết hợp đặc trưng chuyển động quang học: Áp dụng thêm nhánh trích chọn đặc trưng chuyển động quang học (optical flow) để tăng khả năng nhận diện các hành động bất thường, dựa trên kết quả tích cực từ các nghiên cứu gần đây.
Phát triển mô hình đa nhánh: Kết hợp mô hình C3D-ATT-MIL với các mô hình học sâu khác để tận dụng ưu điểm của từng mô hình, nâng cao độ chính xác và khả năng khái quát.
Mở rộng bộ dữ liệu và đa dạng hóa nhãn: Thu thập thêm dữ liệu video với nhãn chi tiết hơn ở mức phân đoạn hoặc khung hình để giảm thiểu vấn đề nhãn yếu, từ đó cải thiện hiệu quả huấn luyện và đánh giá mô hình.
Triển khai thực tế và đánh giá liên tục: Áp dụng mô hình vào các hệ thống giám sát thực tế tại các địa điểm công cộng, thu thập phản hồi và dữ liệu mới để điều chỉnh, nâng cấp mô hình theo thời gian.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Nghiên cứu về phát hiện bất thường, học sâu, học đa thể hiện và cơ chế chú ý trong xử lý video.
Chuyên gia phát triển hệ thống giám sát an ninh: Áp dụng các kỹ thuật học sâu để nâng cao hiệu quả phát hiện sự kiện bất thường trong video giám sát.
Doanh nghiệp công nghệ và an ninh: Tìm hiểu các giải pháp tự động phát hiện bất thường để tích hợp vào sản phẩm, dịch vụ giám sát thông minh.
Cơ quan quản lý và an ninh công cộng: Hiểu rõ về công nghệ phát hiện bất thường để đánh giá, lựa chọn và triển khai các hệ thống giám sát phù hợp.

Câu hỏi thường gặp

Phát hiện bất thường từ video là gì?
Phát hiện bất thường là quá trình xác định các sự kiện hoặc hành vi khác biệt so với hành vi bình thường trong video giám sát, nhằm cảnh báo kịp thời các tình huống nguy hiểm hoặc bất thường.
Tại sao cần sử dụng học đa thể hiện (MIL) trong bài toán này?
MIL giúp xử lý dữ liệu gán nhãn yếu, khi nhãn chỉ có ở mức video mà không có nhãn chi tiết cho từng phân đoạn, bằng cách học từ các gói dữ liệu chứa nhiều thể hiện, trong đó ít nhất một thể hiện là bất thường.
Cơ chế chú ý (attention) giúp gì cho mô hình?
Cơ chế chú ý cho phép mô hình tập trung vào các phần quan trọng trong video, như các clip chứa sự kiện bất thường, từ đó cải thiện khả năng phát hiện và giảm ảnh hưởng của các phần không liên quan.
Tại sao thuật toán phân cụm K-means chưa đạt hiệu quả trong nghiên cứu?
Do số chiều đặc trưng cao và số lượng phân đoạn hạn chế, K-means không phân cụm chính xác, dẫn đến nhãn giả không phản ánh đúng thực tế, ảnh hưởng đến hiệu quả huấn luyện.
Làm thế nào để cải thiện mô hình phát hiện bất thường trong tương lai?
Có thể giảm chiều dữ liệu, sử dụng thuật toán phân cụm khác, kết hợp thêm đặc trưng chuyển động quang học, mở rộng dữ liệu gán nhãn chi tiết và phát triển mô hình đa nhánh để nâng cao hiệu quả.

Kết luận

Đề xuất mô hình kết hợp mạng C3D với học đa thể hiện và cơ chế chú ý dựa trên clip giúp cải thiện hiệu suất phát hiện bất thường từ video giám sát.
Cơ chế chú ý giúp tổng hợp đặc trưng clip hiệu quả hơn so với phương pháp pooling trung bình, tăng 1.2% AUC mức khung hình và 1.4% AUC mức clip.
Thuật toán phân cụm K-means tạo nhãn giả chưa đạt hiệu quả do đặc trưng có chiều cao và số lượng phân đoạn hạn chế.
Hướng phát triển tiếp theo là giảm chiều dữ liệu, thử thuật toán phân cụm khác, kết hợp đặc trưng chuyển động quang học và mở rộng dữ liệu gán nhãn chi tiết.
Mời các nhà nghiên cứu và chuyên gia trong lĩnh vực học sâu và giám sát an ninh tiếp tục khai thác, phát triển các giải pháp nâng cao hiệu quả phát hiện bất thường từ video.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN CÁC SỰ KIỆN BẤT THƯỜNG TỪ VIDEO 1. Một số khái niệm 1. Khái niệm bất thường trong phân tích dữ liệu Trong phân tích dữ liệu, bất thường là các mẫu ngoại lệ, hiếm gặp và có sự sai khác đáng kể so với phần lớn các mẫu bình thường còn lại. Có nhiều nguyên nhân gây ra bất thường tuỳ thuộc vào ứng dụng và ngữ cảnh xem xét.

Ví dụ, trong cuộc sống hằng ngày, đa số các hoạt động của các nhân, tập thể hay hệ thống là bình thường. Ngược lại, các hoạt động có tính chất gây hại như gian lận thẻ tín dụng, xâm nhập mạng, khủng bố hoặc phá vỡ một hệ thống là bất thường. Hình 1 minh họa một số bất thường trong tập dữ liệu 2 chiều đơn giản. Tập dữ liệu gồm các số lượng lớn các mẫu bình thường nằm trong hai vùng N1 và N2 trong khi các điểm còn lại O1, O2, O3 nằm cách xa các vùng khác là các bất thường.

Hình 1: Một ví dụ đơn giản về sự bất thường trong bộ dữ liệu 2 chiều [5] Bất thường có liên quan đến nhiễu, nhưng khác với nhiễu. Hình 2 minh hoạ sự khác biệt giữa nhiễu và bất thường [4]. Cả hai hình 2(a) và 2(b) đều có hai vùng dữ liệu chính giống hệt nhau. Tuy nhiên, trong hình 2(a), một điểm dữ liệu (điểm A) rất khác so với dữ liệu còn lại, và được coi là điểm dữ liệu bất thường.

Trong 12 luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep hình 2(b), điểm dữ liệu A nằm trong một vùng dữ liệu thưa thớt, được coi như nhiễu dữ liệu. Hình 2: Sự khác biệt giữa nhiễu và bất thường [6] 1. Các kiểu bất thường Các bất thường có thể được phân làm 3 loại sau: - Loại 1: Bất thường điểm: Nếu một mẫu dữ liệu tách biệt với phần còn lại của dữ liệu, mẫu dữ liệu đó được gọi là điểm bất thường. Đây là loại bất thường đơn giản nhất và là trọng tâm của phần lớn các nghiên cứu về phát hiện bất thường.

Ví dụ trong ứng dụng phát hiện gian lận thẻ tín dụng. Tập dữ liệu tương ứng với các giao dịch của một thẻ thanh toán. Giả sử rằng dữ liệu chỉ có một đặc trưng là lượng tiền giao dịch. Một giao dịch với một số tiền cao hơn hẳn so với khoảng tiền tiêu dùng bình thường của một cá nhân sẽ là một bất thường điểm.

- Loại 2: Bất thường ngữ cảnh: Một mẫu dữ liệu là bất thường trong một ngữ cảnh cụ thể nhưng là bình thường trong các ngữ cảnh khác, thì nó được gọi là bất thường ngữ cảnh. Ví dụ hành động đi xe đạp trên một con đường là một hành động bất thường nếu con đường đó là đường dành cho người đi bộ. Nếu là đường dành cho người đi xe đạp thì hành động đi xe đạp là hành động bình thường. 13 luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep - Loại 3: Bất thường tập thể: Nếu một tập các mẫu dữ liệu bất bất thường đối với toàn bộ tập dữ liệu, thì được gọi là bất thường tập thể.

Các mẫu dữ liệu riêng lẻ trong một bất thường tập thể có thể không phải là bất thường, nhưng sự xuất hiện cùng nhau của chúng có thể là bất thường tập thể. Ví dụ trong trường hợp người dân đi biểu tình, nếu một vài người đi bộ là bình thường, trong khi nhiều người đi bộ cùng nhau để biểu tình lại là bất thường. Phát hiện bất thường từ video 1. Định nghĩa bài toán Phát hiện bất thường là phát hiện ra các mẫu bất thường trong một tập dữ liệu.

Cụ thể là xác định đặc điểm khác biệt nổi bật của những bất thường so với các phần lớn các mẫu bình thường trong dữ liệu. Đặc điểm của dữ liệu có thể rất khác nhau tuỳ thuộc vào miền ứng dụng. Trong khuôn khổ của luận văn thạc sĩ này, em quan tâm nghiên cứu và giải quyết bài toán phát hiện bất thường từ video thu được từ camera giám sát an ninh. Trong một mạng camera giám sát an ninh nơi công cộng, tùy theo từng môi trường giám sát cụ thể, nhưng một số bất thường sau luôn cần phải được phát hiện và cảnh báo kịp thời cho những bên liên quan: đánh nhau, tụ tập, trộm cướp tại cây ATM, phóng xe quá tốc độ hoặc không đúng làn đường quy định, v.

Nói chung, các bất thường thường hiếm gặp so với các sự kiện bình thường. Để tránh tốn thời gian và công sức, việc phát triển các giải thuật thông minh để phát hiện tự động bất thường là một nhu cầu cấp thiết. Đối với dữ liệu đầu vào là video, hệ thống phát hiện bất thường cần chỉ đoạn video nào có chứa sự kiện bất thường, tức là thời điểm bắt đầu và kết thúc của sự kiện. Nếu có thể chỉ ra đó là loại bất thường nào trong số các loại bất thường đã được định nghĩa từ trước.

Việc phát hiện bất thường có thể coi là hiểu video ở cấp độ thô, lọc ra những bất thường từ sự kiện bình thường. Mỗi khi một sự kiện bất thường được phát hiện, nó có thể tiếp tục được phân loại vào các nhóm bất thường cụ thể dựa trên các kỹ thuật phân lớp. 14 luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep do an to nghiep docx 123docz luan van hay luan van tot nghiep Hình 3: Minh họa hệ thống phát hiện bất thường Hình 3 minh họa hệ thống phát hiện bất thường. Đầu vào của hệ thống là luồng video đến liên tục và đầu ra là bất thường nếu có.

Do các sự kiện bất thường trong thế giới thực thường khá phức tạp và đa dạng. Vì vậy, rất khó có thể liệt kê tất cả các bất thường có thể xảy ra. Mong muốn khi thiết kế các hệ thống phân loại sự kiện bất thường / bình thường là không yêu cầu phải có thông tin / hiểu biết trước về bất thường. Nói cách khác, việc phát hiện bất thường phải được thực hiện với ít chỉ dẫn nhất có thể (minimum supervision).

Đầu ra của hệ thống gồm nhãn và độ tin cậy của dự đoán. Hình 4: Minh họa gói (bag) và thể hiện (instance) [4] Gói (bag) là một tập hợp các mẫu có cùng nhãn, thể hiện là một mẫu trong gói. Gói và thể hiện được minh họa trong Hình 4.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu" khám phá các phương pháp tiên tiến trong việc phát hiện các hành vi bất thường từ video thông qua kỹ thuật học sâu. Bài viết nhấn mạnh tầm quan trọng của việc áp dụng công nghệ này trong nhiều lĩnh vực, từ an ninh đến giao thông, giúp nâng cao khả năng giám sát và phân tích dữ liệu hình ảnh. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các kỹ thuật này, bao gồm khả năng phát hiện nhanh chóng và chính xác các tình huống bất thường, từ đó cải thiện hiệu quả công việc và giảm thiểu rủi ro.

Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính phát hiện tai nạn và các tình huống bất thường trong video giao thông, nơi cung cấp cái nhìn sâu sắc về việc phát hiện tai nạn trong video giao thông. Ngoài ra, tài liệu Khóa luận tốt nghiệp khoa học máy tính đánh giá các phương pháp cho bài toán phát hiện cảm xúc từ camera quan sát sẽ giúp bạn hiểu rõ hơn về việc phát hiện cảm xúc từ video. Cuối cùng, bạn cũng có thể tìm hiểu về Hệ thống phát hiện bất thường trong mạng sử dụng khai phá dữ liệu, một tài liệu liên quan đến việc phát hiện bất thường trong các hệ thống mạng. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của công nghệ học sâu trong việc phát hiện bất thường.

#công nghệ AI

#phân tích video

#phát hiện bất thường

#nhận diện đối tượng

#kỹ thuật học máy

#học sâu trong video

Chủ đề

Phân tích dữ liệu video

Công nghệ phát hiện bất thường

Ứng dụng học sâu trong video

Tương lai của AI trong video

Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu

I. Tổng Quan Về Phát Hiện Bất Thường Từ Video Ứng Dụng AI

1.1. Khái niệm cơ bản về phát hiện bất thường trong video

1.2. Các loại bất thường thường gặp trong giám sát video

II. Thách Thức Phát Hiện Bất Thường Video Giải Pháp Học Sâu

2.1. Vấn đề gán nhãn yếu trong phát hiện bất thường video

2.2. Các giả định và hạn chế trong phát hiện bất thường

III. Phương Pháp Học Sâu C3D MIL Cho Phát Hiện Bất Thường

3.1. Mô hình C3D kết hợp học đa thể hiện Deep MIL Ranking

3.2. Xử lý vấn đề lấy mẫu trên video và cải tiến giải pháp

IV. Cải Tiến Phát Hiện Bất Thường Cơ Chế Chú Ý Phân Cụm K means

4.1. Sử dụng cơ chế chú ý dựa trên clip clip attention

4.2. Sử dụng thuật toán phân cụm K means tạo nhãn giả

V. Thực Nghiệm Đánh Giá Hiệu Quả Phát Hiện Bất Thường Video

5.1. Dữ liệu thực nghiệm và triển khai mô hình học sâu

5.2. So sánh kết quả và đánh giá hiệu suất phát hiện bất thường

VI. Kết Luận Hướng Phát Triển Phát Hiện Bất Thường Video AI

6.1. Kết quả đạt được và đóng góp của luận văn

6.2. Định hướng phát triển và nghiên cứu trong tương lai

THÔNG TIN CHI TIẾT

Tác giả: Hắc Tiến Thành

Người hướng dẫn: TS. Nguyễn Thị Oanh

Trường học: Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2022

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu

I. Tổng Quan Về Phát Hiện Bất Thường Từ Video Ứng Dụng AI

1.1. Khái niệm cơ bản về phát hiện bất thường trong video

1.2. Các loại bất thường thường gặp trong giám sát video

II. Thách Thức Phát Hiện Bất Thường Video Giải Pháp Học Sâu

2.1. Vấn đề gán nhãn yếu trong phát hiện bất thường video

2.2. Các giả định và hạn chế trong phát hiện bất thường

III. Phương Pháp Học Sâu C3D MIL Cho Phát Hiện Bất Thường

3.1. Mô hình C3D kết hợp học đa thể hiện Deep MIL Ranking

3.2. Xử lý vấn đề lấy mẫu trên video và cải tiến giải pháp

IV. Cải Tiến Phát Hiện Bất Thường Cơ Chế Chú Ý Phân Cụm K means

4.1. Sử dụng cơ chế chú ý dựa trên clip clip attention

4.2. Sử dụng thuật toán phân cụm K means tạo nhãn giả

V. Thực Nghiệm Đánh Giá Hiệu Quả Phát Hiện Bất Thường Video

5.1. Dữ liệu thực nghiệm và triển khai mô hình học sâu

5.2. So sánh kết quả và đánh giá hiệu suất phát hiện bất thường

VI. Kết Luận Hướng Phát Triển Phát Hiện Bất Thường Video AI

6.1. Kết quả đạt được và đóng góp của luận văn

6.2. Định hướng phát triển và nghiên cứu trong tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Hắc Tiến Thành

Người hướng dẫn: TS. Nguyễn Thị Oanh

Trường học: Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu

Loại tài liệu: Luận Văn Thạc Sĩ

Năm xuất bản: 2022

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm