I. Luận văn phát hiện bất thường từ video Tổng quan cốt lõi
Trong lĩnh vực thị giác máy tính, bài toán phát hiện bất thường từ video đang thu hút sự quan tâm lớn, đặc biệt trong các hệ thống an ninh hiện đại. Các luận văn trí tuệ nhân tạo và đồ án tốt nghiệp ngày càng tập trung vào việc ứng dụng mô hình học sâu để tự động hóa quá trình giám sát. Mục tiêu chính là xây dựng một hệ thống có khả năng xác định các sự kiện hiếm gặp, khác biệt so với hành vi thông thường được ghi lại bởi camera. Các sự kiện này có thể bao gồm hành vi bạo lực, tai nạn, trộm cắp, hoặc các hoạt động đáng ngờ khác. Việc phát hiện sớm các sự kiện này đóng vai trò quan trọng trong việc đảm bảo an toàn công cộng và giảm thiểu thiệt hại. Một luận văn tiêu biểu trong lĩnh vực này, như nghiên cứu của Hắc Tiến Thành tại Đại học Bách Khoa Hà Nội, đã đi sâu vào việc khai thác tiềm năng của các kiến trúc mạng nơ-ron tiên tiến. Các phương pháp này không chỉ dừng lại ở việc phân loại video mà còn hướng đến việc định vị chính xác thời điểm xảy ra sự kiện bất thường. Đây là một nhiệm vụ phức tạp, đòi hỏi mô hình phải có khả năng hiểu được cả bối cảnh không gian và sự thay đổi theo thời gian trong một chuỗi khung hình. Sự phát triển của các kỹ thuật như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) đã tạo ra một nền tảng vững chắc cho các nghiên cứu khoa học sinh viên, mở ra nhiều hướng tiếp cận mới và hiệu quả cho bài toán đầy thách thức này.
1.1. Định nghĩa bài toán phát hiện dị thường video
Bài toán phát hiện dị thường video (anomaly detection in video) được định nghĩa là quá trình xác định các mẫu dữ liệu không tuân theo hành vi dự kiến hoặc bình thường. Trong bối cảnh video giám sát, một sự kiện bất thường là một chuỗi hành động hoặc một sự việc có sự khác biệt đáng kể so với phần lớn các hoạt động thường ngày. Ví dụ, hành động đi bộ trong khu vực dành cho người đi bộ là bình thường, nhưng một chiếc xe máy chạy vào khu vực này lại được xem là bất thường. Luận văn của Hắc Tiến Thành nhấn mạnh, các sự kiện này thường hiếm gặp và rất đa dạng, khiến việc định nghĩa trước tất cả các loại bất thường là bất khả thi. Do đó, một hướng tiếp cận phổ biến là xây dựng mô hình học các hành vi bình thường và coi bất kỳ hành vi nào lệch khỏi mô hình đó là một sự kiện bất thường.
1.2. Vai trò của mô hình học sâu trong giám sát an ninh
Các mô hình học sâu đã cách mạng hóa lĩnh vực giám sát an ninh thông minh. Khác với các phương pháp truyền thống dựa trên đặc trưng thủ công, học sâu có khả năng tự động học các đặc trưng phức tạp từ dữ liệu video thô. Các kiến trúc như mạng nơ-ron tích chập 3 chiều (C3D) có thể đồng thời trích xuất đặc trưng video về cả không gian (hình dạng đối tượng) và thời gian (chuyển động). Điều này đặc biệt quan trọng trong việc phân tích hành vi con người và các tương tác phức tạp. Nhờ khả năng khái quát hóa cao trên tập dữ liệu lớn, các mô hình này giúp xây dựng các hệ thống giám sát video tự động, có khả năng hoạt động 24/7, giảm thiểu sự phụ thuộc vào con người và tăng cường hiệu quả phát hiện các mối đe dọa tiềm ẩn.
II. Thách thức trong đồ án thị giác máy tính về video an ninh
Việc thực hiện một đồ án tốt nghiệp thị giác máy tính về phát hiện bất thường từ video đối mặt với nhiều thách thức đáng kể. Một trong những rào cản lớn nhất, được phân tích kỹ trong các báo cáo khoa học, là vấn đề dữ liệu. Các sự kiện bất thường, theo định nghĩa, rất hiếm khi xảy ra. Điều này dẫn đến sự mất cân bằng nghiêm trọng trong tập dữ liệu, nơi các hoạt động bình thường chiếm đa số áp đảo. Hơn nữa, việc thu thập và gán nhãn dữ liệu video cực kỳ tốn kém về thời gian và công sức. Một thách thức cốt lõi khác là tính đa dạng và phức tạp của chính các sự kiện bất thường. Một hành vi có thể là bình thường trong ngữ cảnh này nhưng lại là bất thường trong ngữ cảnh khác. Ví dụ, một đám đông tụ tập có thể là bình thường trong một buổi hòa nhạc nhưng lại là bất thường vào lúc nửa đêm tại một cây ATM. Mô hình phải học được cách phân biệt các sắc thái tinh tế này. Luận văn của Hắc Tiến Thành cũng chỉ ra rằng ranh giới giữa hành vi bình thường và bất thường thường không rõ ràng, khiến việc xây dựng một bộ phân loại chính xác trở nên khó khăn. Do đó, các nghiên cứu khoa học sinh viên phải tìm ra các phương pháp mạnh mẽ, có khả năng xử lý dữ liệu gán nhãn yếu và khái quát hóa tốt cho các loại bất thường chưa từng thấy.
2.1. Vấn đề gán nhãn yếu trong hệ thống giám sát video
Gán nhãn yếu (weakly labeled data) là một trong những thách thức chính trong các hệ thống giám sát video. Trong thực tế, người gán nhãn thường chỉ có thể cung cấp nhãn ở cấp độ toàn bộ video (ví dụ: video này chứa một vụ đánh nhau) mà không thể chỉ rõ chính xác thời điểm bắt đầu và kết thúc của sự kiện. Một video được gán nhãn "bất thường" có thể chứa phần lớn thời lượng là các hoạt động bình thường. Việc huấn luyện một mô hình trực tiếp trên các nhãn yếu này sẽ dẫn đến nhiều nhiễu và làm giảm hiệu suất. Luận văn đề cập đến kỹ thuật Học đa thể hiện (Multiple Instance Learning - MIL) như một giải pháp hiệu quả để giải quyết vấn đề này, bằng cách xem mỗi video như một "túi" (bag) và các đoạn clip ngắn bên trong là các "thể hiện" (instances).
2.2. Sự đa dạng của các sự kiện bất thường trong thực tế
Thế giới thực chứa vô số các loại sự kiện bất thường, từ tai nạn giao thông, cháy nổ, cho đến các hành vi phạm tội như cướp giật, phá hoại. Các tập dữ liệu như dataset UCF-Crime cố gắng bao quát một phần sự đa dạng này với các loại sự kiện như Assault, Robbery, Vandalism. Tuy nhiên, không một tập dữ liệu nào có thể chứa tất cả các kịch bản có thể xảy ra. Do đó, một mô hình phát hiện dị thường video hiệu quả không nên chỉ học thuộc lòng các mẫu đã thấy trong dữ liệu huấn luyện. Thay vào đó, nó phải học được một biểu diễn tổng quát về "sự bình thường" và từ đó suy ra bất cứ điều gì khác biệt. Đây là một yêu cầu cao đối với khả năng khái quát hóa của các mô hình học sâu.
III. Phương pháp C3D và MIL Nền tảng luận văn trí tuệ nhân tạo
Một hướng tiếp cận nền tảng và hiệu quả cho bài toán phát hiện bất thường từ video trong nhiều luận văn trí tuệ nhân tạo là sự kết hợp giữa mạng C3D và kỹ thuật Học đa thể hiện (MIL). Phương pháp này, được đề xuất bởi Sultani và cộng sự (2018) và được sử dụng làm cơ sở trong luận văn của Hắc Tiến Thành, đã chứng minh được sự cân bằng giữa hiệu quả và tính đơn giản. Cốt lõi của phương pháp nằm ở việc tận dụng một mô hình đã được huấn luyện trước để trích xuất đặc trưng và một cơ chế học thông minh để xử lý dữ liệu gán nhãn yếu. Đầu tiên, mạng mạng nơ-ron tích chập 3 chiều (C3D), được huấn luyện trên một tập dữ liệu video quy mô lớn, được dùng như một bộ trích xuất đặc trưng video mạnh mẽ. Kiến trúc 3D cho phép nó nắm bắt đồng thời cả thông tin về hình ảnh trong từng khung hình và thông tin về chuyển động qua các khung hình liên tiếp. Sau khi có được vector đặc trưng cho mỗi đoạn video ngắn (clip), kỹ thuật MIL được áp dụng. MIL xem mỗi video như một "túi" chứa nhiều "thể hiện" (clip). Một video được coi là bất thường nếu ít nhất một thể hiện bên trong là bất thường. Cách tiếp cận này giúp mô hình tự học cách phân biệt các clip bất thường ngay cả khi chỉ có nhãn ở cấp độ video, qua đó giải quyết trực tiếp thách thức về gán nhãn yếu.
3.1. Trích xuất đặc trưng video bằng mạng nơ ron tích chập 3D
Mạng C3D (3D Convolutional Neural Network) là một biến thể của mạng nơ-ron tích chập (CNN) được thiết kế đặc biệt cho dữ liệu 3 chiều như video. Thay vì sử dụng các bộ lọc 2D chỉ trượt trên chiều rộng và chiều cao của ảnh, C3D sử dụng các bộ lọc 3D trượt qua cả chiều không gian và chiều thời gian. Điều này cho phép mô hình học được các đặc trưng không-thời gian (spatiotemporal features) một cách tự nhiên. Luận văn chỉ ra rằng việc sử dụng một mạng C3D đã được huấn luyện trước trên tập dữ liệu lớn (như Sports-1M) làm bộ trích xuất đặc trưng video mang lại hiệu quả cao. Các đặc trưng này chứa đựng thông tin phong phú về cả ngoại hình và chuyển động, là đầu vào lý tưởng cho các tầng phân loại tiếp theo trong một hệ thống video surveillance.
3.2. Giải quyết nhãn yếu với kỹ thuật Học đa thể hiện MIL
Học đa thể hiện (Multiple Instance Learning - MIL) là một khung học máy được thiết kế để xử lý các bài toán có nhãn không chắc chắn. Trong bài toán phát hiện sự kiện bất thường, MIL được áp dụng bằng cách coi mỗi video là một "túi" (bag). Một túi được gán nhãn dương (bất thường) nếu nó chứa ít nhất một "thể hiện" (instance - đoạn clip ngắn) dương. Một túi được gán nhãn âm (bình thường) chỉ khi tất cả các thể hiện bên trong nó đều âm. Trong quá trình huấn luyện, mô hình C3D-MIL sử dụng một hàm mất mát đặc biệt (ranking loss) để tối đa hóa điểm số của thể hiện bất thường nhất trong túi dương và tối thiểu hóa điểm số của thể hiện bất thường nhất trong túi âm. Kỹ thuật này cho phép mô hình tự động xác định các đoạn clip chứa sự kiện bất thường mà không cần đến nhãn ở cấp độ clip.
IV. Cách cải tiến mô hình phát hiện bất thường từ video tối ưu
Để nâng cao hiệu quả của mô hình nền tảng, các luận văn và nghiên cứu khoa học thường đề xuất các cải tiến nhằm giải quyết những hạn chế còn tồn tại. Luận văn của Hắc Tiến Thành đã đưa ra hai cải tiến quan trọng cho mô hình C3D-MIL, tập trung vào việc tinh chỉnh quá trình tổng hợp đặc trưng và giảm nhiễu từ nhãn yếu. Các cải tiến này không chỉ thể hiện sự hiểu biết sâu sắc về kiến trúc mô hình học sâu mà còn cho thấy tư duy giải quyết vấn đề thực tiễn trong xử lý video thời gian thực. Cải tiến đầu tiên là thay thế tầng tổng hợp trung bình (average pooling) bằng một cơ chế chú ý (attention mechanism). Thay vì lấy trung bình cộng một cách máy móc các đặc trưng của clip trong một phân đoạn, cơ chế chú ý cho phép mô hình học cách gán trọng số khác nhau cho mỗi clip. Các clip chứa thông tin quan trọng về sự kiện bất thường sẽ được gán trọng số cao hơn, giúp đặc trưng tổng hợp của phân đoạn trở nên nổi bật và giàu thông tin hơn. Cải tiến thứ hai là áp dụng thuật toán phân cụm K-means để tạo nhãn giả (pseudo-label). Ý tưởng này nhằm khắc phục việc MIL gán nhãn "bất thường" cho tất cả các phân đoạn trong một video bất thường. Bằng cách phân cụm các phân đoạn thành hai nhóm (bình thường và bất thường) và tạo nhãn giả, mô hình được khuyến khích học một ranh giới quyết định rõ ràng hơn, có khả năng làm tăng độ chính xác của việc phân tích hành vi con người.
4.1. Tối ưu hóa với cơ chế chú ý attention mechanism
Trong mô hình C3D-MIL gốc, đặc trưng của một phân đoạn video được tính bằng cách lấy trung bình đặc trưng của tất cả các clip 16-khung hình bên trong nó. Hạn chế của phương pháp này là nó có thể làm "lu mờ" đặc trưng của clip chứa sự kiện bất thường, đặc biệt khi sự kiện chỉ diễn ra trong một khoảnh khắc ngắn. Đề xuất cải tiến sử dụng cơ chế chú ý dựa trên LSTM cho video giúp giải quyết vấn đề này. Cơ chế này học cách tính toán một trọng số "chú ý" cho mỗi clip, phản ánh mức độ quan trọng của nó đối với việc xác định sự bất thường của cả phân đoạn. Các clip quan trọng hơn sẽ đóng góp nhiều hơn vào đặc trưng cuối cùng, giúp mô hình tập trung vào những khoảnh khắc then chốt và cải thiện độ chính xác.
4.2. Sử dụng K means tạo nhãn giả cho phân đoạn video
Một hạn chế của hàm mất mát MIL là nó chỉ tập trung vào các thể hiện có điểm số cao nhất, dẫn đến việc các phân đoạn bình thường trong một video bất thường vẫn bị coi là "bất thường" trong quá trình huấn luyện. Để giảm nhiễu nhãn này, luận văn đề xuất một mô hình cải tiến sử dụng thuật toán phân cụm K-means. Các đặc trưng của tất cả các phân đoạn trong một video được đưa vào K-means để chia thành hai cụm. Dựa vào điểm số dự đoán, mô hình có thể gán nhãn giả (bình thường/bất thường) cho hai cụm này. Một thành phần mất mát mới được thêm vào để khuyến khích mô hình đẩy hai cụm ra xa nhau trong video bất thường và gần nhau trong video bình thường. Mục tiêu là giúp mô hình học cách phân biệt rõ ràng hơn giữa các phân đoạn thực sự chứa bất thường và các phân đoạn nền.
V. Kết quả thực nghiệm phát hiện bất thường từ video giám sát
Việc đánh giá hiệu năng là một phần không thể thiếu trong bất kỳ báo cáo khoa học hay luận văn nào. Các thực nghiệm trong nghiên cứu về phát hiện bất thường từ video giám sát được tiến hành trên các tập dữ liệu chuẩn hóa để đảm bảo tính khách quan và khả năng so sánh. Luận văn của Hắc Tiến Thành đã sử dụng tập dữ liệu UCF-Crime, một bộ dữ liệu quy mô lớn và đầy thách thức với 13 loại bất thường khác nhau được ghi lại từ camera an ninh thực tế. Độ đo hiệu năng chính được sử dụng là AUC (Area Under The Curve) của đường cong ROC, một chỉ số phổ biến để đánh giá các mô hình phân loại trên dữ liệu mất cân bằng. Kết quả thực nghiệm đã cung cấp những phân tích sâu sắc về hiệu quả của các phương pháp đề xuất. Mô hình C3D-ATT-MIL, với việc tích hợp cơ chế chú ý, đã cho thấy sự cải thiện rõ rệt so với mô hình C3D-MIL gốc, khẳng định rằng việc gán trọng số thông minh cho các clip giúp mô hình tập trung tốt hơn vào các sự kiện quan trọng. Tuy nhiên, mô hình C3D-ATT-CLT-MIL, sử dụng thêm K-means để tạo nhãn giả, lại không mang lại hiệu quả như kỳ vọng và thậm chí cho kết quả thấp hơn. Điều này cho thấy rằng việc phân cụm không giám sát trong không gian đặc trưng phức tạp có thể không hiệu quả và cần các kỹ thuật tinh vi hơn để có thể tạo ra nhãn giả chất lượng.
5.1. Phân tích hiệu năng trên tập dữ liệu UCF Crime
Tập dữ liệu UCF-Crime là một trong những bộ dữ liệu tiêu chuẩn cho bài toán anomaly detection in video. Nó bao gồm 1900 video dài, chứa cả các hoạt động bình thường và 13 loại sự kiện bất thường như Arson, Burglary, Fighting, Robbery. Một đặc điểm quan trọng của UCF-Crime là nó được gán nhãn yếu, phù hợp với bối cảnh thực tế của bài toán. Luận văn đã tiến hành huấn luyện và đánh giá ba mô hình trên tập dữ liệu này: C3D-MIL (gốc), C3D-ATT-MIL (cải tiến với attention), và C3D-ATT-CLT-MIL (cải tiến với attention và K-means). Việc sử dụng một bộ dữ liệu công khai và tuân theo quy trình đánh giá chuẩn giúp kết quả của computer vision thesis này có độ tin cậy cao và có thể so sánh trực tiếp với các công trình khác trong cộng đồng nghiên cứu.
5.2. So sánh hiệu quả giữa các mô hình nghiên cứu
Kết quả đánh giá trên UCF-Crime cho thấy mô hình C3D-ATT-MIL đạt AUC ở mức khung hình là 76.7%, cao hơn so với 75.69% của mô hình C3D-MIL gốc. Sự cải thiện này chứng minh tính hiệu quả của cơ chế chú ý trong việc tổng hợp đặc trưng phân đoạn. Ngược lại, mô hình C3D-ATT-CLT-MIL chỉ đạt 74.5% AUC, cho thấy việc thêm thuật toán K-means không giúp cải thiện mà còn làm giảm hiệu năng. Phân tích từ luận văn chỉ ra rằng K-means có thể đã không phân cụm hiệu quả, dẫn đến việc tạo ra các nhãn giả nhiễu, tác động tiêu cực đến quá trình huấn luyện. Những kết quả này cung cấp một bài học quan trọng: không phải mọi cải tiến lý thuyết đều mang lại hiệu quả thực tiễn, và việc lựa chọn phương pháp cần dựa trên phân tích thực nghiệm cẩn thận.
VI. Hướng phát triển cho luận văn phát hiện sự kiện bất thường
Lĩnh vực phát hiện sự kiện bất thường từ video vẫn còn rất nhiều tiềm năng để khám phá, mở ra nhiều hướng đi hấp dẫn cho các luận văn và nghiên cứu khoa học sinh viên trong tương lai. Dựa trên những kết quả và hạn chế được chỉ ra trong nghiên cứu của Hắc Tiến Thành, có thể xác định một số định hướng phát triển quan trọng. Thứ nhất, có thể khám phá các kiến trúc trích xuất đặc trưng video mới và mạnh mẽ hơn thay thế cho C3D, ví dụ như I3D, SlowFast, hoặc các mô hình dựa trên Transformer vốn đang rất thành công trong nhiều bài toán thị giác máy tính. Thứ hai, cần nghiên cứu các phương pháp tạo nhãn giả tinh vi hơn thay cho K-means. Các kỹ thuật học bán giám sát hoặc tự giám sát có thể cung cấp một cách tiếp cận hiệu quả hơn để tận dụng lượng lớn dữ liệu không nhãn và giảm nhiễu từ các nhãn yếu. Một hướng đi khác là tích hợp các nguồn thông tin đa phương thức, chẳng hạn như âm thanh, để tăng cường độ chính xác cho hệ thống giám sát an ninh thông minh. Âm thanh từ một vụ nổ hoặc tiếng la hét có thể là một dấu hiệu rất mạnh mẽ về sự bất thường. Cuối cùng, việc tối ưu hóa các mô hình này để có thể xử lý video thời gian thực trên các thiết bị có tài nguyên hạn chế là một yêu cầu cấp thiết để có thể triển khai rộng rãi trong thực tế, góp phần xây dựng các hệ thống video surveillance hiệu quả và thông minh hơn.
6.1. Hướng phát triển cho nghiên cứu khoa học sinh viên
Đối với các nghiên cứu khoa học sinh viên và đồ án tốt nghiệp, việc cải tiến các mô hình hiện có là một hướng đi đầy hứa hẹn. Sinh viên có thể tập trung vào việc thử nghiệm các hàm mất mát khác nhau cho MIL, khám phá các kiến trúc attention phức tạp hơn (ví dụ: self-attention), hoặc áp dụng các kỹ thuật tăng cường dữ liệu (data augmentation) dành riêng cho video để cải thiện khả năng khái quát hóa của mô hình. Ngoài ra, việc phân tích sâu hơn về lý do thất bại của các phương pháp như K-means và đề xuất giải pháp khắc phục cũng là một chủ đề nghiên cứu có giá trị. Khám phá các tập dữ liệu khác ngoài UCF-Crime, như dataset Avenue hay ShanghaiTech, cũng giúp đánh giá mô hình một cách toàn diện hơn.
6.2. Tiềm năng ứng dụng trong giám sát an ninh thông minh
Tương lai của giám sát an ninh thông minh phụ thuộc rất lớn vào sự tiến bộ của các mô hình học sâu trong việc phân tích hành vi con người và phát hiện sự kiện. Các hệ thống được phát triển từ những luận văn như thế này có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực: giám sát giao thông thông minh để phát hiện tai nạn, giám sát nơi công cộng để cảnh báo các hành vi bạo lực hoặc tụ tập bất thường, giám sát trong các cửa hàng bán lẻ để phát hiện hành vi trộm cắp. Việc tích hợp các mô hình này vào các hệ thống giám sát video hiện có sẽ tạo ra một lớp phòng thủ chủ động, giúp các cơ quan chức năng phản ứng nhanh hơn và hiệu quả hơn, góp phần xây dựng một xã hội an toàn hơn.