Phát hiện bất thường từ video sử dụng kỹ thuật học sâu luận văn

Tài liệu nghiên cứu Phát hiện bất thường từ video sử dụng kỹ thuật học sâu luận văn, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về kỹ thuật.

Người đăng

Ẩn danh

Phí lưu trữ

30 Point

Tóm tắt

I. Luận văn phát hiện bất thường từ video Tổng quan cốt lõi

Trong lĩnh vực thị giác máy tính, bài toán phát hiện bất thường từ video đang thu hút sự quan tâm lớn, đặc biệt trong các hệ thống an ninh hiện đại. Các luận văn trí tuệ nhân tạo và đồ án tốt nghiệp ngày càng tập trung vào việc ứng dụng mô hình học sâu để tự động hóa quá trình giám sát. Mục tiêu chính là xây dựng một hệ thống có khả năng xác định các sự kiện hiếm gặp, khác biệt so với hành vi thông thường được ghi lại bởi camera. Các sự kiện này có thể bao gồm hành vi bạo lực, tai nạn, trộm cắp, hoặc các hoạt động đáng ngờ khác. Việc phát hiện sớm các sự kiện này đóng vai trò quan trọng trong việc đảm bảo an toàn công cộng và giảm thiểu thiệt hại. Một luận văn tiêu biểu trong lĩnh vực này, như nghiên cứu của Hắc Tiến Thành tại Đại học Bách Khoa Hà Nội, đã đi sâu vào việc khai thác tiềm năng của các kiến trúc mạng nơ-ron tiên tiến. Các phương pháp này không chỉ dừng lại ở việc phân loại video mà còn hướng đến việc định vị chính xác thời điểm xảy ra sự kiện bất thường. Đây là một nhiệm vụ phức tạp, đòi hỏi mô hình phải có khả năng hiểu được cả bối cảnh không gian và sự thay đổi theo thời gian trong một chuỗi khung hình. Sự phát triển của các kỹ thuật như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) đã tạo ra một nền tảng vững chắc cho các nghiên cứu khoa học sinh viên, mở ra nhiều hướng tiếp cận mới và hiệu quả cho bài toán đầy thách thức này.

1.1. Định nghĩa bài toán phát hiện dị thường video

Bài toán phát hiện dị thường video (anomaly detection in video) được định nghĩa là quá trình xác định các mẫu dữ liệu không tuân theo hành vi dự kiến hoặc bình thường. Trong bối cảnh video giám sát, một sự kiện bất thường là một chuỗi hành động hoặc một sự việc có sự khác biệt đáng kể so với phần lớn các hoạt động thường ngày. Ví dụ, hành động đi bộ trong khu vực dành cho người đi bộ là bình thường, nhưng một chiếc xe máy chạy vào khu vực này lại được xem là bất thường. Luận văn của Hắc Tiến Thành nhấn mạnh, các sự kiện này thường hiếm gặp và rất đa dạng, khiến việc định nghĩa trước tất cả các loại bất thường là bất khả thi. Do đó, một hướng tiếp cận phổ biến là xây dựng mô hình học các hành vi bình thường và coi bất kỳ hành vi nào lệch khỏi mô hình đó là một sự kiện bất thường.

1.2. Vai trò của mô hình học sâu trong giám sát an ninh

Các mô hình học sâu đã cách mạng hóa lĩnh vực giám sát an ninh thông minh. Khác với các phương pháp truyền thống dựa trên đặc trưng thủ công, học sâu có khả năng tự động học các đặc trưng phức tạp từ dữ liệu video thô. Các kiến trúc như mạng nơ-ron tích chập 3 chiều (C3D) có thể đồng thời trích xuất đặc trưng video về cả không gian (hình dạng đối tượng) và thời gian (chuyển động). Điều này đặc biệt quan trọng trong việc phân tích hành vi con người và các tương tác phức tạp. Nhờ khả năng khái quát hóa cao trên tập dữ liệu lớn, các mô hình này giúp xây dựng các hệ thống giám sát video tự động, có khả năng hoạt động 24/7, giảm thiểu sự phụ thuộc vào con người và tăng cường hiệu quả phát hiện các mối đe dọa tiềm ẩn.

II. Thách thức trong đồ án thị giác máy tính về video an ninh

Việc thực hiện một đồ án tốt nghiệp thị giác máy tính về phát hiện bất thường từ video đối mặt với nhiều thách thức đáng kể. Một trong những rào cản lớn nhất, được phân tích kỹ trong các báo cáo khoa học, là vấn đề dữ liệu. Các sự kiện bất thường, theo định nghĩa, rất hiếm khi xảy ra. Điều này dẫn đến sự mất cân bằng nghiêm trọng trong tập dữ liệu, nơi các hoạt động bình thường chiếm đa số áp đảo. Hơn nữa, việc thu thập và gán nhãn dữ liệu video cực kỳ tốn kém về thời gian và công sức. Một thách thức cốt lõi khác là tính đa dạng và phức tạp của chính các sự kiện bất thường. Một hành vi có thể là bình thường trong ngữ cảnh này nhưng lại là bất thường trong ngữ cảnh khác. Ví dụ, một đám đông tụ tập có thể là bình thường trong một buổi hòa nhạc nhưng lại là bất thường vào lúc nửa đêm tại một cây ATM. Mô hình phải học được cách phân biệt các sắc thái tinh tế này. Luận văn của Hắc Tiến Thành cũng chỉ ra rằng ranh giới giữa hành vi bình thường và bất thường thường không rõ ràng, khiến việc xây dựng một bộ phân loại chính xác trở nên khó khăn. Do đó, các nghiên cứu khoa học sinh viên phải tìm ra các phương pháp mạnh mẽ, có khả năng xử lý dữ liệu gán nhãn yếu và khái quát hóa tốt cho các loại bất thường chưa từng thấy.

2.1. Vấn đề gán nhãn yếu trong hệ thống giám sát video

Gán nhãn yếu (weakly labeled data) là một trong những thách thức chính trong các hệ thống giám sát video. Trong thực tế, người gán nhãn thường chỉ có thể cung cấp nhãn ở cấp độ toàn bộ video (ví dụ: video này chứa một vụ đánh nhau) mà không thể chỉ rõ chính xác thời điểm bắt đầu và kết thúc của sự kiện. Một video được gán nhãn "bất thường" có thể chứa phần lớn thời lượng là các hoạt động bình thường. Việc huấn luyện một mô hình trực tiếp trên các nhãn yếu này sẽ dẫn đến nhiều nhiễu và làm giảm hiệu suất. Luận văn đề cập đến kỹ thuật Học đa thể hiện (Multiple Instance Learning - MIL) như một giải pháp hiệu quả để giải quyết vấn đề này, bằng cách xem mỗi video như một "túi" (bag) và các đoạn clip ngắn bên trong là các "thể hiện" (instances).

2.2. Sự đa dạng của các sự kiện bất thường trong thực tế

Thế giới thực chứa vô số các loại sự kiện bất thường, từ tai nạn giao thông, cháy nổ, cho đến các hành vi phạm tội như cướp giật, phá hoại. Các tập dữ liệu như dataset UCF-Crime cố gắng bao quát một phần sự đa dạng này với các loại sự kiện như Assault, Robbery, Vandalism. Tuy nhiên, không một tập dữ liệu nào có thể chứa tất cả các kịch bản có thể xảy ra. Do đó, một mô hình phát hiện dị thường video hiệu quả không nên chỉ học thuộc lòng các mẫu đã thấy trong dữ liệu huấn luyện. Thay vào đó, nó phải học được một biểu diễn tổng quát về "sự bình thường" và từ đó suy ra bất cứ điều gì khác biệt. Đây là một yêu cầu cao đối với khả năng khái quát hóa của các mô hình học sâu.

III. Phương pháp C3D và MIL Nền tảng luận văn trí tuệ nhân tạo

Một hướng tiếp cận nền tảng và hiệu quả cho bài toán phát hiện bất thường từ video trong nhiều luận văn trí tuệ nhân tạo là sự kết hợp giữa mạng C3D và kỹ thuật Học đa thể hiện (MIL). Phương pháp này, được đề xuất bởi Sultani và cộng sự (2018) và được sử dụng làm cơ sở trong luận văn của Hắc Tiến Thành, đã chứng minh được sự cân bằng giữa hiệu quả và tính đơn giản. Cốt lõi của phương pháp nằm ở việc tận dụng một mô hình đã được huấn luyện trước để trích xuất đặc trưng và một cơ chế học thông minh để xử lý dữ liệu gán nhãn yếu. Đầu tiên, mạng mạng nơ-ron tích chập 3 chiều (C3D), được huấn luyện trên một tập dữ liệu video quy mô lớn, được dùng như một bộ trích xuất đặc trưng video mạnh mẽ. Kiến trúc 3D cho phép nó nắm bắt đồng thời cả thông tin về hình ảnh trong từng khung hình và thông tin về chuyển động qua các khung hình liên tiếp. Sau khi có được vector đặc trưng cho mỗi đoạn video ngắn (clip), kỹ thuật MIL được áp dụng. MIL xem mỗi video như một "túi" chứa nhiều "thể hiện" (clip). Một video được coi là bất thường nếu ít nhất một thể hiện bên trong là bất thường. Cách tiếp cận này giúp mô hình tự học cách phân biệt các clip bất thường ngay cả khi chỉ có nhãn ở cấp độ video, qua đó giải quyết trực tiếp thách thức về gán nhãn yếu.

3.1. Trích xuất đặc trưng video bằng mạng nơ ron tích chập 3D

Mạng C3D (3D Convolutional Neural Network) là một biến thể của mạng nơ-ron tích chập (CNN) được thiết kế đặc biệt cho dữ liệu 3 chiều như video. Thay vì sử dụng các bộ lọc 2D chỉ trượt trên chiều rộng và chiều cao của ảnh, C3D sử dụng các bộ lọc 3D trượt qua cả chiều không gian và chiều thời gian. Điều này cho phép mô hình học được các đặc trưng không-thời gian (spatiotemporal features) một cách tự nhiên. Luận văn chỉ ra rằng việc sử dụng một mạng C3D đã được huấn luyện trước trên tập dữ liệu lớn (như Sports-1M) làm bộ trích xuất đặc trưng video mang lại hiệu quả cao. Các đặc trưng này chứa đựng thông tin phong phú về cả ngoại hình và chuyển động, là đầu vào lý tưởng cho các tầng phân loại tiếp theo trong một hệ thống video surveillance.

3.2. Giải quyết nhãn yếu với kỹ thuật Học đa thể hiện MIL

Học đa thể hiện (Multiple Instance Learning - MIL) là một khung học máy được thiết kế để xử lý các bài toán có nhãn không chắc chắn. Trong bài toán phát hiện sự kiện bất thường, MIL được áp dụng bằng cách coi mỗi video là một "túi" (bag). Một túi được gán nhãn dương (bất thường) nếu nó chứa ít nhất một "thể hiện" (instance - đoạn clip ngắn) dương. Một túi được gán nhãn âm (bình thường) chỉ khi tất cả các thể hiện bên trong nó đều âm. Trong quá trình huấn luyện, mô hình C3D-MIL sử dụng một hàm mất mát đặc biệt (ranking loss) để tối đa hóa điểm số của thể hiện bất thường nhất trong túi dương và tối thiểu hóa điểm số của thể hiện bất thường nhất trong túi âm. Kỹ thuật này cho phép mô hình tự động xác định các đoạn clip chứa sự kiện bất thường mà không cần đến nhãn ở cấp độ clip.

IV. Cách cải tiến mô hình phát hiện bất thường từ video tối ưu

Để nâng cao hiệu quả của mô hình nền tảng, các luận văn và nghiên cứu khoa học thường đề xuất các cải tiến nhằm giải quyết những hạn chế còn tồn tại. Luận văn của Hắc Tiến Thành đã đưa ra hai cải tiến quan trọng cho mô hình C3D-MIL, tập trung vào việc tinh chỉnh quá trình tổng hợp đặc trưng và giảm nhiễu từ nhãn yếu. Các cải tiến này không chỉ thể hiện sự hiểu biết sâu sắc về kiến trúc mô hình học sâu mà còn cho thấy tư duy giải quyết vấn đề thực tiễn trong xử lý video thời gian thực. Cải tiến đầu tiên là thay thế tầng tổng hợp trung bình (average pooling) bằng một cơ chế chú ý (attention mechanism). Thay vì lấy trung bình cộng một cách máy móc các đặc trưng của clip trong một phân đoạn, cơ chế chú ý cho phép mô hình học cách gán trọng số khác nhau cho mỗi clip. Các clip chứa thông tin quan trọng về sự kiện bất thường sẽ được gán trọng số cao hơn, giúp đặc trưng tổng hợp của phân đoạn trở nên nổi bật và giàu thông tin hơn. Cải tiến thứ hai là áp dụng thuật toán phân cụm K-means để tạo nhãn giả (pseudo-label). Ý tưởng này nhằm khắc phục việc MIL gán nhãn "bất thường" cho tất cả các phân đoạn trong một video bất thường. Bằng cách phân cụm các phân đoạn thành hai nhóm (bình thường và bất thường) và tạo nhãn giả, mô hình được khuyến khích học một ranh giới quyết định rõ ràng hơn, có khả năng làm tăng độ chính xác của việc phân tích hành vi con người.

4.1. Tối ưu hóa với cơ chế chú ý attention mechanism

Trong mô hình C3D-MIL gốc, đặc trưng của một phân đoạn video được tính bằng cách lấy trung bình đặc trưng của tất cả các clip 16-khung hình bên trong nó. Hạn chế của phương pháp này là nó có thể làm "lu mờ" đặc trưng của clip chứa sự kiện bất thường, đặc biệt khi sự kiện chỉ diễn ra trong một khoảnh khắc ngắn. Đề xuất cải tiến sử dụng cơ chế chú ý dựa trên LSTM cho video giúp giải quyết vấn đề này. Cơ chế này học cách tính toán một trọng số "chú ý" cho mỗi clip, phản ánh mức độ quan trọng của nó đối với việc xác định sự bất thường của cả phân đoạn. Các clip quan trọng hơn sẽ đóng góp nhiều hơn vào đặc trưng cuối cùng, giúp mô hình tập trung vào những khoảnh khắc then chốt và cải thiện độ chính xác.

4.2. Sử dụng K means tạo nhãn giả cho phân đoạn video

Một hạn chế của hàm mất mát MIL là nó chỉ tập trung vào các thể hiện có điểm số cao nhất, dẫn đến việc các phân đoạn bình thường trong một video bất thường vẫn bị coi là "bất thường" trong quá trình huấn luyện. Để giảm nhiễu nhãn này, luận văn đề xuất một mô hình cải tiến sử dụng thuật toán phân cụm K-means. Các đặc trưng của tất cả các phân đoạn trong một video được đưa vào K-means để chia thành hai cụm. Dựa vào điểm số dự đoán, mô hình có thể gán nhãn giả (bình thường/bất thường) cho hai cụm này. Một thành phần mất mát mới được thêm vào để khuyến khích mô hình đẩy hai cụm ra xa nhau trong video bất thường và gần nhau trong video bình thường. Mục tiêu là giúp mô hình học cách phân biệt rõ ràng hơn giữa các phân đoạn thực sự chứa bất thường và các phân đoạn nền.

V. Kết quả thực nghiệm phát hiện bất thường từ video giám sát

Việc đánh giá hiệu năng là một phần không thể thiếu trong bất kỳ báo cáo khoa học hay luận văn nào. Các thực nghiệm trong nghiên cứu về phát hiện bất thường từ video giám sát được tiến hành trên các tập dữ liệu chuẩn hóa để đảm bảo tính khách quan và khả năng so sánh. Luận văn của Hắc Tiến Thành đã sử dụng tập dữ liệu UCF-Crime, một bộ dữ liệu quy mô lớn và đầy thách thức với 13 loại bất thường khác nhau được ghi lại từ camera an ninh thực tế. Độ đo hiệu năng chính được sử dụng là AUC (Area Under The Curve) của đường cong ROC, một chỉ số phổ biến để đánh giá các mô hình phân loại trên dữ liệu mất cân bằng. Kết quả thực nghiệm đã cung cấp những phân tích sâu sắc về hiệu quả của các phương pháp đề xuất. Mô hình C3D-ATT-MIL, với việc tích hợp cơ chế chú ý, đã cho thấy sự cải thiện rõ rệt so với mô hình C3D-MIL gốc, khẳng định rằng việc gán trọng số thông minh cho các clip giúp mô hình tập trung tốt hơn vào các sự kiện quan trọng. Tuy nhiên, mô hình C3D-ATT-CLT-MIL, sử dụng thêm K-means để tạo nhãn giả, lại không mang lại hiệu quả như kỳ vọng và thậm chí cho kết quả thấp hơn. Điều này cho thấy rằng việc phân cụm không giám sát trong không gian đặc trưng phức tạp có thể không hiệu quả và cần các kỹ thuật tinh vi hơn để có thể tạo ra nhãn giả chất lượng.

5.1. Phân tích hiệu năng trên tập dữ liệu UCF Crime

Tập dữ liệu UCF-Crime là một trong những bộ dữ liệu tiêu chuẩn cho bài toán anomaly detection in video. Nó bao gồm 1900 video dài, chứa cả các hoạt động bình thường và 13 loại sự kiện bất thường như Arson, Burglary, Fighting, Robbery. Một đặc điểm quan trọng của UCF-Crime là nó được gán nhãn yếu, phù hợp với bối cảnh thực tế của bài toán. Luận văn đã tiến hành huấn luyện và đánh giá ba mô hình trên tập dữ liệu này: C3D-MIL (gốc), C3D-ATT-MIL (cải tiến với attention), và C3D-ATT-CLT-MIL (cải tiến với attention và K-means). Việc sử dụng một bộ dữ liệu công khai và tuân theo quy trình đánh giá chuẩn giúp kết quả của computer vision thesis này có độ tin cậy cao và có thể so sánh trực tiếp với các công trình khác trong cộng đồng nghiên cứu.

5.2. So sánh hiệu quả giữa các mô hình nghiên cứu

Kết quả đánh giá trên UCF-Crime cho thấy mô hình C3D-ATT-MIL đạt AUC ở mức khung hình là 76.7%, cao hơn so với 75.69% của mô hình C3D-MIL gốc. Sự cải thiện này chứng minh tính hiệu quả của cơ chế chú ý trong việc tổng hợp đặc trưng phân đoạn. Ngược lại, mô hình C3D-ATT-CLT-MIL chỉ đạt 74.5% AUC, cho thấy việc thêm thuật toán K-means không giúp cải thiện mà còn làm giảm hiệu năng. Phân tích từ luận văn chỉ ra rằng K-means có thể đã không phân cụm hiệu quả, dẫn đến việc tạo ra các nhãn giả nhiễu, tác động tiêu cực đến quá trình huấn luyện. Những kết quả này cung cấp một bài học quan trọng: không phải mọi cải tiến lý thuyết đều mang lại hiệu quả thực tiễn, và việc lựa chọn phương pháp cần dựa trên phân tích thực nghiệm cẩn thận.

VI. Hướng phát triển cho luận văn phát hiện sự kiện bất thường

Lĩnh vực phát hiện sự kiện bất thường từ video vẫn còn rất nhiều tiềm năng để khám phá, mở ra nhiều hướng đi hấp dẫn cho các luận văn và nghiên cứu khoa học sinh viên trong tương lai. Dựa trên những kết quả và hạn chế được chỉ ra trong nghiên cứu của Hắc Tiến Thành, có thể xác định một số định hướng phát triển quan trọng. Thứ nhất, có thể khám phá các kiến trúc trích xuất đặc trưng video mới và mạnh mẽ hơn thay thế cho C3D, ví dụ như I3D, SlowFast, hoặc các mô hình dựa trên Transformer vốn đang rất thành công trong nhiều bài toán thị giác máy tính. Thứ hai, cần nghiên cứu các phương pháp tạo nhãn giả tinh vi hơn thay cho K-means. Các kỹ thuật học bán giám sát hoặc tự giám sát có thể cung cấp một cách tiếp cận hiệu quả hơn để tận dụng lượng lớn dữ liệu không nhãn và giảm nhiễu từ các nhãn yếu. Một hướng đi khác là tích hợp các nguồn thông tin đa phương thức, chẳng hạn như âm thanh, để tăng cường độ chính xác cho hệ thống giám sát an ninh thông minh. Âm thanh từ một vụ nổ hoặc tiếng la hét có thể là một dấu hiệu rất mạnh mẽ về sự bất thường. Cuối cùng, việc tối ưu hóa các mô hình này để có thể xử lý video thời gian thực trên các thiết bị có tài nguyên hạn chế là một yêu cầu cấp thiết để có thể triển khai rộng rãi trong thực tế, góp phần xây dựng các hệ thống video surveillance hiệu quả và thông minh hơn.

6.1. Hướng phát triển cho nghiên cứu khoa học sinh viên

Đối với các nghiên cứu khoa học sinh viên và đồ án tốt nghiệp, việc cải tiến các mô hình hiện có là một hướng đi đầy hứa hẹn. Sinh viên có thể tập trung vào việc thử nghiệm các hàm mất mát khác nhau cho MIL, khám phá các kiến trúc attention phức tạp hơn (ví dụ: self-attention), hoặc áp dụng các kỹ thuật tăng cường dữ liệu (data augmentation) dành riêng cho video để cải thiện khả năng khái quát hóa của mô hình. Ngoài ra, việc phân tích sâu hơn về lý do thất bại của các phương pháp như K-means và đề xuất giải pháp khắc phục cũng là một chủ đề nghiên cứu có giá trị. Khám phá các tập dữ liệu khác ngoài UCF-Crime, như dataset Avenue hay ShanghaiTech, cũng giúp đánh giá mô hình một cách toàn diện hơn.

6.2. Tiềm năng ứng dụng trong giám sát an ninh thông minh

Tương lai của giám sát an ninh thông minh phụ thuộc rất lớn vào sự tiến bộ của các mô hình học sâu trong việc phân tích hành vi con người và phát hiện sự kiện. Các hệ thống được phát triển từ những luận văn như thế này có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực: giám sát giao thông thông minh để phát hiện tai nạn, giám sát nơi công cộng để cảnh báo các hành vi bạo lực hoặc tụ tập bất thường, giám sát trong các cửa hàng bán lẻ để phát hiện hành vi trộm cắp. Việc tích hợp các mô hình này vào các hệ thống giám sát video hiện có sẽ tạo ra một lớp phòng thủ chủ động, giúp các cơ quan chức năng phản ứng nhanh hơn và hiệu quả hơn, góp phần xây dựng một xã hội an toàn hơn.

27/07/2025

Bạn đang xem trước tài liệu:

Phát hiện bất thường từ video sử dụng kỹ thuật học sâu luận văn

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN CÁC SỰ KIỆN BẤT THƯỜNG TỪ VIDEO 1. Một số khái niệm 1. Khái niệm bất thường trong phân tích dữ liệu Trong phân tích dữ liệu, bất thường là các mẫu ngoại lệ, hiếm gặp và có sự sai khác đáng kể so với phần lớn các mẫu bình thường còn lại. Có nhiều nguyên nhân gây ra bất thường tuỳ thuộc vào ứng dụng và ngữ cảnh xem xét.

Ví dụ, trong cuộc sống hằng ngày, đa số các hoạt động của các nhân, tập thể hay hệ thống là bình thường. Ngược lại, các hoạt động có tính chất gây hại như gian lận thẻ tín dụng, xâm nhập mạng, khủng bố hoặc phá vỡ một hệ thống là bất thường. Hình 1 minh họa một số bất thường trong tập dữ liệu 2 chiều đơn giản. Tập dữ liệu gồm các số lượng lớn các mẫu bình thường nằm trong hai vùng N1 và N2 trong khi các điểm còn lại O1, O2, O3 nằm cách xa các vùng khác là các bất thường.

Hình 1: Một ví dụ đơn giản về sự bất thường trong bộ dữ liệu 2 chiều [5] Bất thường có liên quan đến nhiễu, nhưng khác với nhiễu. Hình 2 minh hoạ sự khác biệt giữa nhiễu và bất thường [4]. Cả hai hình 2(a) và 2(b) đều có hai vùng dữ liệu chính giống hệt nhau. Tuy nhiên, trong hình 2(a), một điểm dữ liệu (điểm A) rất khác so với dữ liệu còn lại, và được coi là điểm dữ liệu bất thường.

Trong hình 2(b), điểm dữ liệu A nằm trong một vùng dữ liệu thưa thớt, được coi như nhiễu dữ liệu. Hình 2: Sự khác biệt giữa nhiễu và bất thường [6] 1. Các kiểu bất thường Các bất thường có thể được phân làm 3 loại sau: - Loại 1: Bất thường điểm: Nếu một mẫu dữ liệu tách biệt với phần còn lại của dữ liệu, mẫu dữ liệu đó được gọi là điểm bất thường. Đây là loại bất thường đơn giản nhất và là trọng tâm của phần lớn các nghiên cứu về phát hiện bất thường.

Ví dụ trong ứng dụng phát hiện gian lận thẻ tín dụng. Tập dữ liệu tương ứng với các giao dịch của một thẻ thanh toán. Giả sử rằng dữ liệu chỉ có một đặc trưng là lượng tiền giao dịch. Một giao dịch với một số tiền cao hơn hẳn so với khoảng tiền tiêu dùng bình thường của một cá nhân sẽ là một bất thường điểm.

- Loại 2: Bất thường ngữ cảnh: Một mẫu dữ liệu là bất thường trong một ngữ cảnh cụ thể nhưng là bình thường trong các ngữ cảnh khác, thì nó được gọi là bất thường ngữ cảnh. Ví dụ hành động đi xe đạp trên một con đường là một hành động bất thường nếu con đường đó là đường dành cho người đi bộ. Nếu là đường dành cho người đi xe đạp thì hành động đi xe đạp là hành động bình thường. - Loại 3: Bất thường tập thể: Nếu một tập các mẫu dữ liệu bất bất thường đối với toàn bộ tập dữ liệu, thì được gọi là bất thường tập thể.

Các mẫu dữ liệu riêng lẻ trong một bất thường tập thể có thể không phải là bất thường, nhưng sự xuất hiện cùng nhau của chúng có thể là bất thường tập thể. Ví dụ trong trường hợp người dân đi biểu tình, nếu một vài người đi bộ là bình thường, trong khi nhiều người đi bộ cùng nhau để biểu tình lại là bất thường. Phát hiện bất thường từ video 1. Định nghĩa bài toán Phát hiện bất thường là phát hiện ra các mẫu bất thường trong một tập dữ liệu.

Cụ thể là xác định đặc điểm khác biệt nổi bật của những bất thường so với các phần lớn các mẫu bình thường trong dữ liệu. Đặc điểm của dữ liệu có thể rất khác nhau tuỳ thuộc vào miền ứng dụng. Trong khuôn khổ của luận văn thạc sĩ này, em quan tâm nghiên cứu và giải quyết bài toán phát hiện bất thường từ video thu được từ camera giám sát an ninh. Trong một mạng camera giám sát an ninh nơi công cộng, tùy theo từng môi trường giám sát cụ thể, nhưng một số bất thường sau luôn cần phải được phát hiện và cảnh báo kịp thời cho những bên liên quan: đánh nhau, tụ tập, trộm cướp tại cây ATM, phóng xe quá tốc độ hoặc không đúng làn đường quy định, v.

Nói chung, các bất thường thường hiếm gặp so với các sự kiện bình thường. Để tránh tốn thời gian và công sức, việc phát triển các giải thuật thông minh để phát hiện tự động bất thường là một nhu cầu cấp thiết. Đối với dữ liệu đầu vào là video, hệ thống phát hiện bất thường cần chỉ đoạn video nào có chứa sự kiện bất thường, tức là thời điểm bắt đầu và kết thúc của sự kiện. Nếu có thể chỉ ra đó là loại bất thường nào trong số các loại bất thường đã được định nghĩa từ trước.

Việc phát hiện bất thường có thể coi là hiểu video ở cấp độ thô, lọc ra những bất thường từ sự kiện bình thường. Mỗi khi một sự kiện bất thường được phát hiện, nó có thể tiếp tục được phân loại vào các nhóm bất thường cụ thể dựa trên các kỹ thuật phân lớp. Hình 3: Minh họa hệ thống phát hiện bất thường Hình 3 minh họa hệ thống phát hiện bất thường. Đầu vào của hệ thống là luồng video đến liên tục và đầu ra là bất thường nếu có.

Do các sự kiện bất thường trong thế giới thực thường khá phức tạp và đa dạng. Vì vậy, rất khó có thể liệt kê tất cả các bất thường có thể xảy ra. Mong muốn khi thiết kế các hệ thống phân loại sự kiện bất thường / bình thường là không yêu cầu phải có thông tin / hiểu biết trước về bất thường. Nói cách khác, việc phát hiện bất thường phải được thực hiện với ít chỉ dẫn nhất có thể (minimum supervision).

Đầu ra của hệ thống gồm nhãn và độ tin cậy của dự đoán. Hình 4: Minh họa gói (bag) và thể hiện (instance) [4] Gói (bag) là một tập hợp các mẫu có cùng nhãn, thể hiện là một mẫu trong gói. Gói và thể hiện được minh họa trong Hình 4. Hình 5: Minh họa phân đoạn trong một video [4] Phân đoạn là một chuỗi các khung hình liền nhau trong một video được minh họa như Hình 5.

Một clip là một chuỗi 16 khung hình liên tiếp nhau trong một video. Một video có nhãn yếu là video chỉ biết có nhãn bình thường hoặc bất thường mà không biết chính xác thời điểm xảy ra bất thường trong video đó. Khung làm việc tổng quát của một hệ thống phát hiện bất thường Một hệ thống phát hiện thông thường được thực hiện thông qua 2 pha như hình 4: - Pha huấn luyện: Xác định tham số của mô hình phát hiện, nhận dạng sử dụng bộ dữ liệu huấn luyện. - Pha nhận dạng: Thực hiện phân lớp dữ liệu mới sử dụng mô hình đã được huấn luyện ở pha trên.

Trong cả hai pha đều đòi hỏi một số phép xử lý cơ bản như sau: - Tiền xử lý dữ liệu: Chuyển đổi dữ liệu đầu vào sang định dạng chuẩn của mô hình. - Trích chọn đặc trưng: Từ dữ liệu đã được tiền xử lý, thực hiện trích rút các đặc trưng biểu diễn video. Các đặc trưng này có thể được thiết kế bằng tay hoặc được học bởi kỹ thuật học sâu. - Huấn luyện bộ phân lớp: Sử dụng các đặc trưng được trích chọn để làm dữ liệu đầu vào cho việc huấn luyện bộ phân lớp.

Đối với học máy truyền thống, bộ phân lớp và bộ trích chọn đặc trưng thường làm việc độc lập trong khi trong các mô hình học sâu, chúng thường được tích hợp vào một mô hình hợp nhất. - Nhận dạng: Dữ liệu cần nhận dạng cũng được chuyển qua các bước tiền xử lý, trích chọn đặc trưng, sau đó dùng bộ phân lớp đã được huấn luyện để dự đoán nhãn của lớp. Hình 6: Khung làm việc tổng quát của một hệ thống phát hiện bất thường 1. Một số vấn đề thường gặp của phát hiện bất thường Giả định về bất thường: Bất thường được phát hiện dựa trên giả định rằng bất kỳ sự kiện nào sai khác so với các mẫu bình thường đã được học từ trước sẽ được coi là sự kiện bất thường.

Tuy nhiên, giả định này có thể không đúng vì rất khó hoặc không thể định nghĩa một sự kiện bình thường (rất khó để đưa ra tất cả các sự kiện bình thường). Theo [9], ở mức độ trừu tượng, sự bất thường được định nghĩa là một mẫu không phù hợp với dự kiến hành vi bình thường. Do đó, một cách tiếp cận phát hiện bất thường đơn giản là xác định vùng biểu thị hành vi bình thường và cảnh báo mọi quan sát trong dữ liệu không thuộc về khu vực bình thường này là bất thường. Tuy nhiên một số yếu tố làm cho cách tiếp cận này gặp phải các thách thức: - Cách xác định một khu vực bình thường bao gồm mọi hành vi bình thường có thể là rất khó khăn.

Ngoài ra, ranh giới giữa hành vi bình thường và bất thường thường không chính xác. Trong thực tế, cùng một hành vi nhưng tùy theo từng điều kiện có thể là hành vi bình thường hoặc bất thường. Do đó, một quan sát bất thường nằm gần ranh giới có thể thực sự là bình thường, và ngược lại. - Khi các bất thường là kết quả của các hành động cố ý, các tác nhân gây ra bất thường thường tự thích nghi để làm cho các quan sát bất thường xuất hiện bình thường.

Điều này làm cho nhiệm vụ xác định hành vi bình thường trở nên khó khăn hơn. Do đó, việc sử dụng cả dữ liệu bình thường và bất thường để huấn luyện hệ thống có thể giúp một hệ thống phát hiện bất thường học tốt hơn. Gán nhãn yếu dữ liệu: Như đã trình bày ở phần trên, một hệ thống nhận dạng bất thường nói chung đều phải sử dụng dữ liệu đã gán nhãn để huấn luyện các tham số của mô hình (học có giám sát – supervised learning). Thông thường, mỗi mẫu sẽ được gán về một nhãn thuộc một lớp cụ thể nào đó.

Đối với bài toán phân lớp nhị phân (bất thường / bình thường), các đoạn video sẽ được gán hai nhãn là bất thường hoặc bình thường. Do sự hiếm gặp của các mẫu bất thường, cũng như việc gán nhãn đòi hỏi nhiều thời gian và công sức, trong thực tế có nhiều tình huống người gán nhãn chỉ thực hiện gán nhãn thô. Nghĩa là họ gán nhãn “bất thường” cho một video dài chỉ chứa một sự kiện bất thường xảy ra thời gian ngắn, hầu hết thời gian còn lại của video chứa các hoạt động bình thường. Việc gán nhãn như vậy được coi là gán nhãn yếu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Thị giác máy tính

Trí tuệ nhân tạo và học máy

Phân tích và xử lý video

phát hiện anomaly

Phát hiện bất thường từ video sử dụng kỹ thuật học sâu luận văn

I. Luận văn phát hiện bất thường từ video Tổng quan cốt lõi

1.1. Định nghĩa bài toán phát hiện dị thường video

1.2. Vai trò của mô hình học sâu trong giám sát an ninh

II. Thách thức trong đồ án thị giác máy tính về video an ninh

2.1. Vấn đề gán nhãn yếu trong hệ thống giám sát video

2.2. Sự đa dạng của các sự kiện bất thường trong thực tế

III. Phương pháp C3D và MIL Nền tảng luận văn trí tuệ nhân tạo

3.1. Trích xuất đặc trưng video bằng mạng nơ ron tích chập 3D

3.2. Giải quyết nhãn yếu với kỹ thuật Học đa thể hiện MIL

IV. Cách cải tiến mô hình phát hiện bất thường từ video tối ưu

4.1. Tối ưu hóa với cơ chế chú ý attention mechanism

4.2. Sử dụng K means tạo nhãn giả cho phân đoạn video

V. Kết quả thực nghiệm phát hiện bất thường từ video giám sát

5.1. Phân tích hiệu năng trên tập dữ liệu UCF Crime

5.2. So sánh hiệu quả giữa các mô hình nghiên cứu

VI. Hướng phát triển cho luận văn phát hiện sự kiện bất thường

6.1. Hướng phát triển cho nghiên cứu khoa học sinh viên

6.2. Tiềm năng ứng dụng trong giám sát an ninh thông minh

THÔNG TIN CHI TIẾT

Đề tài: Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu Luận Văn

Phát hiện bất thường từ video sử dụng kỹ thuật học sâu luận văn

I. Luận văn phát hiện bất thường từ video Tổng quan cốt lõi

1.1. Định nghĩa bài toán phát hiện dị thường video

1.2. Vai trò của mô hình học sâu trong giám sát an ninh

II. Thách thức trong đồ án thị giác máy tính về video an ninh

2.1. Vấn đề gán nhãn yếu trong hệ thống giám sát video

2.2. Sự đa dạng của các sự kiện bất thường trong thực tế

III. Phương pháp C3D và MIL Nền tảng luận văn trí tuệ nhân tạo

3.1. Trích xuất đặc trưng video bằng mạng nơ ron tích chập 3D

3.2. Giải quyết nhãn yếu với kỹ thuật Học đa thể hiện MIL

IV. Cách cải tiến mô hình phát hiện bất thường từ video tối ưu

4.1. Tối ưu hóa với cơ chế chú ý attention mechanism

4.2. Sử dụng K means tạo nhãn giả cho phân đoạn video

V. Kết quả thực nghiệm phát hiện bất thường từ video giám sát

5.1. Phân tích hiệu năng trên tập dữ liệu UCF Crime

5.2. So sánh hiệu quả giữa các mô hình nghiên cứu

VI. Hướng phát triển cho luận văn phát hiện sự kiện bất thường

6.1. Hướng phát triển cho nghiên cứu khoa học sinh viên

6.2. Tiềm năng ứng dụng trong giám sát an ninh thông minh

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Đề tài: Phát Hiện Bất Thường Từ Video Sử Dụng Kỹ Thuật Học Sâu Luận Văn