Xây Dựng Mô Hình Học Sâu Đa Tầng Phát Hiện Hành Vi Bạo Lực

Luận văn thạc sĩ kỹ thuật nghiên cứu xây dựng mô hình học sâu đa tầng phát hiện hành vi bạo lực, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Đề án tốt nghiệp thạc sĩ kỹ thuật

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN HÀNH VI BẠO LỰC

1.1. Bài toán phát hiện hành vi bạo lực

1.1.1. Giới thiệu bài toán

1.2. Hướng tiếp cận

1.3. Các nghiên cứu liên quan

1.4. Kiến thức cơ sở

1.5. Kết luận chương

2. CHƯƠNG 2: MÔ HÌNH HỌC SÂU ĐA TẦNG

2.1. Mô hình học sâu đa tầng

2.2. Tầng phát hiện đối tượng

2.3. Tầng theo dõi đối tượng

2.4. Tầng phân loại hành vi bạo lực

2.5. Kết luận chương

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Mô tả dữ liệu

3.2. Mô tả thực nghiệm

3.3. Phương pháp đánh giá

3.4. Kết quả thực nghiệm và đánh giá

3.5. Quá trình huấn luyện

3.6. So sánh kết quả với các biến thể

3.7. Kết luận chương

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phát Hiện Hành Vi Bạo Lực Giới Thiệu

Phát hiện hành vi bạo lực là quá trình giám sát, theo dõi và phân tích hành vi** của các đối tượng và trạng thái môi trường xung quanh nhằm suy diễn/nhận dạng những hoạt động đang xảy ra có phải hành vi bạo lực hay không. Trong phạm vi đề án, hành vi bạo lực bao gồm các hành vi cố ý xâm hại tính mạng hoặc gây ra thương tích trên cơ thể cho nạn nhân. Một trong những mục tiêu của phát hiện hành vi bạo lực là cung cấp thông tin về hành vi của các đối tượng có phải là bạo lực hay không, từ đó cho phép hệ thống chủ động đưa ra cảnh báo đến cơ quan chức năng hay bộ phận liên quan, giúp họ can thiệp kịp thời, hỗ trợ giảm thiểu tối đa thiệt hại của hành vi bạo lực. So với những phương pháp khác, phương pháp do đề án trình bày không chỉ đưa ra cảnh báo mà còn có thể chỉ ra vị trí chính xác của nhóm người có hành vi bạo lực trong video.

1.1. Bài Toán Phát Hiện Hành Vi Bạo Lực

Đầu vào của bài toán là: Video có chứa hành vi bạo lực, hành vi bình thường hoặc cả hai, với độ dài bất kỳ. Đầu ra là cảnh báo khi hành vi bạo lực xuất hiện trong video. Như vậy, bài toán cần xác định xem trong một đoạn video có hành vi bạo lực hay không, và nếu có thì vị trí của các đối tượng thực hiện hành vi đó ở đâu. Điều này đòi hỏi khả năng phân tích cả không gian và thời gian của video. Việc này có thể sử dụng các mô hình học sâu có khả năng trích xuất đặc trưng từ video và phân loại hành vi.

1.2. Hướng Tiếp Cận Với Mô Hình Học Sâu

Phát hiện hành vi bạo lực sử dụng học sâu là một hướng tiếp cận hiệu quả với chi phí thấp cho thu thập dữ liệu nhờ hệ thống camera rộng lớn và nguồn video khổng lồ trên Internet. Hướng nghiên cứu này gần đây thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu do tình trạng bạo lực hiện nay đang ngày càng gia tăng. Thêm vào đó, sự tiến bộ không ngừng của công nghệ giúp chất lượng dữ liệu thu thập ngày càng tốt và hệ thống phần cứng mạnh mẽ có thể thực thi được những thuật toán phức tạp, giúp ích rất nhiều cho các công trình nghiên cứu.

II. Thách Thức Trong Phát Hiện Hành Vi Bạo Lực Bằng AI

Mặc dù tiềm năng ứng dụng của AI trong phát hiện hành vi bạo lực là rất lớn, vẫn còn nhiều thách thức cần vượt qua. Sự đa dạng trong các tình huống bạo lực, từ các hành động đơn lẻ đến các cuộc ẩu đả phức tạp, đòi hỏi mô hình học sâu phải có khả năng tổng quát hóa cao. Hơn nữa, việc thiếu dữ liệu huấn luyện chất lượng cao, đặc biệt là các video được gán nhãn chính xác, là một trở ngại lớn. Các vấn đề về quyền riêng tư và đạo đức liên quan đến việc sử dụng công nghệ này cũng cần được xem xét cẩn thận để đảm bảo rằng nó được triển khai một cách có trách nhiệm và minh bạch. Cuối cùng, tính toán hiệu quả là rất quan trọng để cho phép giám sát thời gian thực trong các môi trường khác nhau.

2.1. Sự Đa Dạng Của Hành Vi Bạo Lực

Các hành vi bạo lực có thể rất khác nhau về hình thức, cường độ và bối cảnh. Điều này gây khó khăn cho việc xây dựng các mô hình học sâu có khả năng nhận biết và phân loại chính xác tất cả các loại hành vi bạo lực. Ví dụ, một mô hình được huấn luyện trên dữ liệu về các cuộc ẩu đả đường phố có thể không hoạt động tốt trong việc phát hiện bạo lực gia đình. Do đó, cần có các tập dữ liệu huấn luyện đa dạng và các kỹ thuật học sâu tiên tiến để giải quyết thách thức này.

2.2. Thiếu Dữ Liệu Huấn Luyện Chất Lượng

Để mô hình học sâu hoạt động hiệu quả, chúng cần được huấn luyện trên một lượng lớn dữ liệu được gán nhãn chính xác. Tuy nhiên, việc thu thập và gán nhãn dữ liệu video về hành vi bạo lực là một quá trình tốn thời gian, công sức và có thể gây ra các vấn đề về đạo đức. Ngoài ra, sự chủ quan trong việc xác định hành vi bạo lực có thể dẫn đến sự không nhất quán trong việc gán nhãn, làm giảm hiệu suất của mô hình.

2.3. Quyền Riêng Tư và Đạo Đức

Việc sử dụng AI để phát hiện hành vi bạo lực có thể xâm phạm quyền riêng tư của người dân nếu không được thực hiện đúng cách. Ví dụ, việc giám sát liên tục bằng camera có thể tạo ra một cảm giác bị theo dõi và hạn chế tự do cá nhân. Ngoài ra, có những lo ngại về việc sử dụng sai mục đích công nghệ này, chẳng hạn như để đàn áp các cuộc biểu tình hoặc phân biệt đối xử với các nhóm thiểu số. Vì vậy, cần có các quy định và biện pháp bảo vệ rõ ràng để đảm bảo rằng công nghệ này được sử dụng một cách có trách nhiệm và minh bạch.

III. Mô Hình Học Sâu Đa Tầng Cho Phát Hiện Bạo Lực

Để giải quyết các thách thức trên, đề án này đề xuất một mô hình học sâu đa tầng kết hợp nhiều kỹ thuật học sâu khác nhau. Mô hình này bao gồm ba tầng chính: tầng phát hiện đối tượng, tầng theo dõi đối tượng và tầng phân loại hành vi bạo lực. Tầng phát hiện đối tượng sử dụng một mạng nơ-ron tích chập (CNN) để phát hiện các đối tượng quan trọng trong video, chẳng hạn như con người và các vật thể có thể được sử dụng làm vũ khí. Tầng theo dõi đối tượng sử dụng một thuật toán theo dõi đa đối tượng để theo dõi chuyển động của các đối tượng này theo thời gian. Cuối cùng, tầng phân loại hành vi bạo lực sử dụng một mạng nơ-ron hồi quy (RNN), cụ thể là một mạng LSTM, để phân tích chuỗi chuyển động của các đối tượng và xác định xem có hành vi bạo lực hay không.

3.1. Tầng Phát Hiện Đối Tượng Sử Dụng YOLOv7

Tầng phát hiện đối tượng có nhiệm vụ xác định vị trí của con người trong mỗi khung hình. Đề án sử dụng YOLOv7, một mô hình phát hiện đối tượng hiện đại nhất, để thực hiện nhiệm vụ này. YOLOv7 có khả năng phát hiện đối tượng nhanh chóng và chính xác, cho phép mô hình xử lý video thời gian thực. YOLOv7 là một cải tiến lớn so với các phiên bản YOLO trước đó, với kiến trúc hiệu quả hơn và khả năng học các đặc trưng phức tạp từ dữ liệu.

3.2. Tầng Theo Dõi Đối Tượng Dựa Trên ByteTrack

Sau khi các đối tượng đã được phát hiện, tầng theo dõi đối tượng sẽ theo dõi chuyển động của chúng theo thời gian. Đề án sử dụng ByteTrack, một thuật toán theo dõi đa đối tượng mạnh mẽ, để thực hiện nhiệm vụ này. ByteTrack có khả năng xử lý các trường hợp đối tượng bị che khuất hoặc di chuyển nhanh, giúp mô hình duy trì theo dõi chính xác các đối tượng trong suốt video. ByteTrack hoạt động bằng cách liên kết các phát hiện đối tượng từ các khung hình liên tiếp dựa trên sự tương đồng về ngoại hình và vị trí.

3.3. Tầng Phân Loại Hành Vi Bạo Lực Với CNN LSTM

Tầng phân loại hành vi bạo lực có nhiệm vụ phân tích chuỗi chuyển động của các đối tượng và xác định xem có hành vi bạo lực hay không. Đề án sử dụng kiến trúc CNN-LSTM, kết hợp khả năng trích xuất đặc trưng không gian của CNN với khả năng xử lý chuỗi thời gian của LSTM. Cụ thể, CNN được sử dụng để trích xuất các đặc trưng từ mỗi khung hình, và sau đó LSTM được sử dụng để phân tích chuỗi các đặc trưng này và đưa ra dự đoán về hành vi.

IV. Kết Quả Thực Nghiệm Mô Hình Học Sâu Đa Tầng Hiệu Quả

Để đánh giá hiệu quả của mô hình học sâu đa tầng, đề án đã tiến hành các thử nghiệm trên ba tập dữ liệu công khai: HockeyFight, Peliculas và PTIT. Kết quả cho thấy mô hình đạt được độ chính xác cao trong việc phát hiện hành vi bạo lực trên cả ba tập dữ liệu. Điều này chứng tỏ rằng mô hình có khả năng tổng quát hóa tốt và có thể được áp dụng cho các tình huống thực tế khác nhau. Hơn nữa, mô hình cũng cho thấy khả năng hoạt động thời gian thực, cho phép giám sát hành vi bạo lực trong các môi trường khác nhau.

4.1. Đánh Giá Trên Tập Dữ Liệu HockeyFight

Trên tập dữ liệu HockeyFight, mô hình đạt được độ chính xác [đưa ra số liệu cụ thể]. Tập dữ liệu này bao gồm các video về các cuộc ẩu đả trong các trận đấu khúc côn cầu trên băng, với độ phức tạp và đa dạng cao. Kết quả này cho thấy mô hình có khả năng xử lý tốt các tình huống bạo lực có tính chất thể thao.

4.2. Đánh Giá Trên Tập Dữ Liệu Peliculas

Trên tập dữ liệu Peliculas, mô hình đạt được độ chính xác [đưa ra số liệu cụ thể]. Tập dữ liệu này bao gồm các đoạn phim hành động có chứa các cảnh bạo lực. Kết quả này cho thấy mô hình có khả năng nhận biết các hành vi bạo lực trong bối cảnh phim ảnh.

4.3. Đánh Giá Trên Tập Dữ Liệu PTIT

Trên tập dữ liệu PTIT, mô hình đạt được độ chính xác [đưa ra số liệu cụ thể]. Tập dữ liệu này được xây dựng và chuẩn hóa trong môi trường Việt Nam, bao gồm các video về các hành vi bạo lực xảy ra trong các tình huống thực tế. Kết quả này cho thấy mô hình có khả năng thích ứng tốt với các đặc điểm của môi trường Việt Nam.

V. Ứng Dụng Tiềm Năng Của Mô Hình An Ninh Giám Sát

Mô hình học sâu đa tầng có nhiều ứng dụng tiềm năng trong lĩnh vực an ninh và giám sát. Nó có thể được sử dụng trong các hệ thống camera giám sát để tự động phát hiện và cảnh báo về các hành vi bạo lực trong thời gian thực, giúp cơ quan chức năng can thiệp kịp thời và giảm thiểu thiệt hại. Ngoài ra, mô hình cũng có thể được sử dụng trong các bộ lọc video trên mạng xã hội để ngăn chặn sự lan truyền của các video bạo lực và bảo vệ người dùng khỏi những nội dung độc hại. Hơn nữa, trong tương lai, mô hình có thể được tích hợp vào các hệ thống robot an ninh để tăng cường khả năng phản ứng và bảo vệ trong các tình huống nguy hiểm.

5.1. Ứng Dụng Trong Hệ Thống Camera Giám Sát

Mô hình có thể được tích hợp vào các hệ thống camera giám sát hiện có để tăng cường khả năng phát hiện hành vi bạo lực. Khi mô hình phát hiện một hành vi bạo lực, nó có thể tự động gửi cảnh báo đến cơ quan chức năng hoặc bộ phận an ninh, giúp họ phản ứng nhanh chóng và hiệu quả.

5.2. Kiểm Duyệt Nội Dung Trên Mạng Xã Hội

Mô hình có thể được sử dụng để lọc các video bạo lực trên mạng xã hội, giúp bảo vệ người dùng khỏi những nội dung độc hại và giảm thiểu tác động tiêu cực của bạo lực đến xã hội.

VI. Kết Luận Hướng Phát Triển Phát Hiện Bạo Lực Tương Lai

Đề án đã trình bày một mô hình học sâu đa tầng hiệu quả cho bài toán phát hiện hành vi bạo lực. Mô hình này kết hợp nhiều kỹ thuật học sâu khác nhau để đạt được độ chính xác cao và khả năng hoạt động thời gian thực. Kết quả thực nghiệm cho thấy mô hình có khả năng tổng quát hóa tốt và có thể được áp dụng cho các tình huống thực tế khác nhau. Trong tương lai, hướng nghiên cứu có thể tập trung vào việc cải thiện hiệu suất của mô hình trên các tập dữ liệu lớn hơn và phức tạp hơn, cũng như tích hợp mô hình vào các hệ thống thực tế để đánh giá hiệu quả của nó trong môi trường thực tế.

6.1. Cải Thiện Hiệu Suất Với Dữ Liệu Lớn Hơn

Để cải thiện khả năng tổng quát hóa của mô hình, cần huấn luyện nó trên một lượng lớn dữ liệu đa dạng hơn. Điều này có thể được thực hiện bằng cách thu thập thêm dữ liệu từ các nguồn khác nhau hoặc bằng cách sử dụng các kỹ thuật tăng cường dữ liệu để tạo ra các biến thể của dữ liệu hiện có.

6.2. Tích Hợp Vào Hệ Thống Thực Tế Để Đánh Giá

Để đánh giá hiệu quả thực tế của mô hình, cần tích hợp nó vào các hệ thống thực tế, chẳng hạn như hệ thống camera giám sát hoặc hệ thống lọc video trên mạng xã hội. Điều này sẽ cho phép đánh giá khả năng của mô hình trong việc phát hiện hành vi bạo lực trong các tình huống thực tế và xác định các vấn đề cần được giải quyết.

27/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ xây dựng mô hình học sâu đa tầng phát hiện hành vi bạo lực

Tải đầy đủ

Trích đoạn nội dung tài liệu

chương 1 sẽ giới thiệu về bài toán phát hiện hành vi bạo lực và hướng tiếp cận bài toán. Do phạm vi nghiên cứu của luận án tập trung chủ yếu phát hiện hành vi bạo lực từ video, nên để làm cơ sở trình bày chương sau, phần tiếp theo sẽ trình bày các kết quả nghiên cứu đã có về nội dung này cùng những vấn đề tồn tại trong từng phương pháp. Các kiến thức cơ sở cần thiết được đưa ra ở phần tiếp theo và cuối cùng là kết luận chương. Bài toán phát hiện hành vi bạo lực 1.

Giới thiệu bài toán Phát hiện hành vi bạo lực là quá trình giám sát, theo dõi và phân tích hành vi của các đối tượng và trạng thái môi trường xung quanh nhằm suy diễn/nhận dạng những hoạt động đang xảy ra có phải hành vi bạo lực hay không. Trong phạm vi đề án, hành vi bạo lực bao gồm các hành vi cố ý xâm hại tính mạng hoặc gây ra thương tích trên cơ thể cho nạn nhân. Một trong những mục tiêu của phát hiện hành vi bạo lực là cung cấp thông tin về hành vi của các đối tượng có phải là bạo lực hay không, từ đó cho phép hệ thống chủ động đưa ra cảnh báo đến cơ quan chức năng hay bộ phận liên quan, giúp họ can thiệp kịp thời, hỗ trợ giảm thiểu tối đa thiệt hại của hành vi bạo lực.  Đầu vào: Video có chứa hành vi bạo lực, hành vi bình thường hoặc cả hai, với độ dài bất kỳ.

 Đầu ra: Cảnh báo khi hành vi bạo lực xuất hiện trong video. So với những phương pháp khác, phương pháp do đề án trình bày không chỉ đưa ra cảnh báo mà còn có thể chỉ ra vị trí chính xác của nhóm người có hành vi bạo lực trong video. Hướng tiếp cận Phát hiện hành vi bạo lực sử dụng học sâu là một hướng tiếp cận hiệu quả với chi phí thấp cho thu thập dữ liệu nhờ hệ thống camera rộng lớn và nguồn video khổng lồ trên Internet. Hướng nghiên cứu này gần đây thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu do tình trạng bạo lực hiện nay đang ngày càng gia tăng.

Thêm vào đó, sự tiến bộ không ngừng của công nghệ giúp chất lượng dữ liệu thu thập ngày càng tốt và hệ thống phần cứng mạnh mẽ có thể thực thi được những thuật toán phức tạp, giúp ích rất nhiều cho các công trình nghiên cứu. Phát hiện hành vi bạo lực sử dụng học sâu có thể được chia thành 3 bước cơ bản, bao gồm:  Bước 1: thu thập, lưu trữ và gán nhãn các video về hành vi bạo lực và video bình thường (bước gán nhãn sẽ bao gồm các thao tác chia cắt, phân loại video thành 2 nhóm chỉ chứa video bạo lực và video bình thường).  Bước 2: huấn luyện, kiểm tra các mô hình học sâu dựa trên dữ liệu đã được gán nhãn.  Bước 3: phân tích kết quả, từ đó đưa ra các phương án cải thiện dữ liệu hoặc mô hình nếu cần thiết để đạt được kết quả tốt nhất có thể.

Các nghiên cứu liên quan Trong những năm gần đây, bài toán phát hiện hành vi bạo lực đang nhận được rất nhiều sự quan tâm. Chính vì vậy, nhiều phương pháp đã được đề xuất để giải quyết bài toán [12], [15], [25], [26], [31]. Các phương pháp này tập trung vào sử dụng xử lý ảnh truyền thống để trích xuất đặc trưng sau đó dùng mô hình học máy để phân loại hành vi. Phương pháp đạt kết quả tốt có thể kể đến Fast Fight Detection [15] của nhóm tác giả I.

Trong bài nghiên cứu, nhóm tác giả đề xuất một phương pháp dựa trên việc phát hiện các vùng màu chuyển động. Sau đó các đặc trưng trích xuất từ những vùng màu này được sử dụng để phân biệt hành vi là bạo lực hay bình thường. Sơ đồ hoạt động của phương pháp được mô tả ở hình 1.1 Sơ đồ hoạt động của “Fast Fight Detection” (Nguồn: [15]) Các bước chính trong phương pháp:  Bước 1: Tính toán và lấy giá trị tuyệt đối sự khác biệt giữa những khung hình liên tiếp.  Bước 2: Nhị phân hoá ảnh kết quả, tạo ra những vùng màu chuyển động.

 Bước 3: Chọn ra K vùng màu chuyển động lớn nhất – những vùng màu quan trọng, mang nhiều đặc trưng. So sánh hai hình ảnh nhị phân chứa các vùng màu đã đánh dấu trong hình 1.2, có thể thấy trong hình ảnh bạo lực, các vùng màu chuyển động có kích thước khá lớn và được tập trung thành cụm, đối với hình ảnh bình thường, các vùng màu nhỏ và phân bố rời rạc.2 Các vùng màu chuyển động trong hình ảnh bạo lực và bình thường (Nguồn: [15])  Bước 4: trích xuất các đặc trưng. Các thông số khác nhau được tính toán và sử dụng làm đặc trưng phân loại như diện tích, tâm hình, chu vi,. cũng như khoảng cách tâm giữa các vùng màu.

Bộ dữ liệu được dùng để thử nghiệm trong nghiên cứu là Movies, Hockey và UCF101: Bộ dữ liệu Movies bao gồm 200 video, các video bạo lực được cắt từ các cảnh trong những bộ phim hành động, các cảnh không bạo lực được cắt từ các video công khai không chứa hành vi bạo lực. Bộ dữ liệu Hockey bao gồm 1000 video từ trò chơi khúc côn cầu trên băng trong giải đấu National Hockey League (NHL), được phân thành hai nhóm, 500 bạo lực và 500 không, mỗi video có giới hạn là 50 khung hình. Bộ dữ liệu UCF101 là tập dữ liệu gồm các video hành động thực tế được thu thập từ YouTube, có 101 danh mục hành động. “Punching” and “Sumo” trong bộ dữ liệu UCF101 được thêm vào dữ liệu bạo lực.

Để thử nghiệm kết quả với các cách trích rút đặc trưng khác nhau, tác giả đã chia phương pháp thành hai biến thể khác nhau: 8  Biến thể đầu tiên (v1) giả định rằng vị trí và hình dạng của K vùng màu lớn nhất có thể phân biệt giữa hành vi bạo lực và không. Để mô tả vị trí và hình dạng biến thể này sử dụng thông tin tâm và khoảng cách giữa các tâm vùng màu. Sau đó, biến thể này (v1) sử dụng K khu vực tốt nhất, K tâm của các khu vực này và khoảng cách giữa các tâm. Do đó, một chuỗi S có 3K + K (K - 1) / 2 đặc điểm.

 Biến thể thứ hai (v2) sử dụng các đặc trưng sau để mô tả vị trí và hình dạng: trọng tâm, khoảng cách giữa các tâm khối và độ nén. Cuối cùng, biến thể này (v2) sử dụng K khu vực tốt nhất, K trọng tâm của những khu vực này, khoảng cách giữa các trọng tâm này và độ nén K. Do đó, dãy S có 2K + K (K - 1) / 2 đặc điểm. Sử dụng những đặc trưng trên, tác giả thực nghiệm với ba mô hình phân loại là KNN (K-nearest neighbor), Adaboot và Random Forests.

Kết quả cho thấy độ chính xác của phương pháp với từng biến thể khi sử dụng mô hình KNN và AdaBoost là khá tốt, còn mô hình Random Forests cho kết quả rất tốt. Tuy nhiên độ chính xác của phương pháp chưa được tốt khi so với những phương pháp hiện đại khác. Ngoài ra phương pháp còn gặp khó khăn trong việc phân loại các video có chuyển động liên tục hay những video có cảnh bạo lực chỉ chiếm một phần nhỏ khung hình. Nhìn chung, phương pháp chưa thể áp dụng vào các hệ thống phát hiện hành vi bạo lực trong thực tế.

Học sâu là một tập hợp con của học máy, tập trung chủ yếu vào sử dụng mạng nơ-ron nhiều lớp. Học sâu đã đạt được độ chính xác và hiệu quả cao trong rất nhiều bài toán thị giác máy tính so với học máy truyền thống, trong đó phải kể đến phân loại hình ảnh. Mạng nơ-ron tích chập CNN (Convolutional Neural Network) [28] là một trong những kiến trúc được sử dụng rộng rãi nhất được dùng để phân loại ảnh. CNN ra đời dựa vào việc mô phỏng một phần cách thức hoạt động của não bộ con người - sử dụng những đặc trưng từ không gian để phân loại một bức ảnh.

CNN sử dụng rất nhiều bộ lọc có khả năng học hỏi để tự động trích xuất đặc trưng 9 từ hình ảnh, vì vậy CNN có thể “nhìn được” những đặc trưng quan trọng mà trích xuất đặc trưng thủ công khó có thể phát hiện. Bài toán phát hiện hành vi bạo lực là bài toán con của phân loại hành vi. Vì vậy, những nghiên cứu ứng dụng CNN cho bài toán phân loại hành vi cũng có thể được áp dụng cho bài toán phát hiện hành vi bạo lực. Một ví dụ đó là Single-Frame CNN (hình 1.3)- coi bài toán phân loại hành vi như một bài toán phân loại ảnh thông thường, sử dụng từng khung hình làm hình ảnh đầu vào cho CNN.

Phương pháp có hiệu quả trong một số loại hành vi nhất định như chạy hay đi bộ nhưng không hiệu quả với bài toán phân loại hành vi. Nguyên nhân chính do hành động là một chuỗi hình ảnh liên tiếp, nên nếu chỉ sử dụng một hình ảnh đơn lẻ thì khó có thể đưa ra được dự đoán chính xác. Ví dụ với hình ảnh từ tập dữ liệu Hockey ở hình 1.4, không thể phân biệt được đây là hành vi bạo lực hay chỉ là một hoạt động thể thao thông thường. Nhằm khắc phục nhược điểm này, tác giả Shuiwang Ji đã đề xuất phương pháp 3D Convolutional Neural Networks [29], được mô tả ở hình 1.

Cách tiếp cận này sử dụng mạng nơ-ron tích chập 3 chiều, cho phép xử lý thông tin không gian và thời gian. Phương pháp này kết hợp thông tin không gian và thời gian một cách chậm rãi tại mỗi lớp CNN trong toàn bộ mạng. Một tensor bốn chiều (hai chiều không gian, một chiều kênh màu và một chiều thời gian) có hình dạng [H, W, C, T] được truyền qua mô hình, cho phép mô hình dễ dàng tìm hiểu tất cả các loại tương tác của không gian và thời gian giữa các khung hình liên tiếp.3 Kiến trúc Single-Frame CNN (Nguồn: [7]) 10 Hình 1.4 Hình ảnh từ tập dữ liệu HockeyFight Hình 1.5 Kiến trúc 3D CNN (Nguồn: [29]) 3D CNN cho kết quả tốt trong bài toán phân loại hành vi và có thể áp dụng cho bài toán phát hiện hành vi bạo lực. Tuy nhiên, 3D CNN cần được chạy trên những máy tính có cấu hình phần cứng cao, nếu không tốc độ sẽ rất chậm.

Yêu cầu như vậy không phù hợp cho những hệ thống thời gian thực, khi mà những hệ thống này cần tối giản chi phí cấu hình phần cứng máy tính mà vẫn đạt được tốc độ đủ thấp để chạy trong thực tế.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Mô Hình Học Sâu Đa Tầng Phát Hiện Hành Vi Bạo Lực" trình bày một phương pháp tiên tiến trong việc phát hiện hành vi bạo lực thông qua các mô hình học sâu đa tầng. Bài viết nhấn mạnh tầm quan trọng của việc ứng dụng công nghệ học máy trong việc nhận diện và ngăn chặn các hành vi bạo lực, từ đó góp phần nâng cao an ninh và an toàn trong xã hội. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng mô hình này, bao gồm khả năng phát hiện sớm và chính xác các hành vi đáng ngờ, giúp các cơ quan chức năng có thể can thiệp kịp thời.

Để mở rộng kiến thức về các ứng dụng của học sâu trong lĩnh vực an ninh và giám sát, bạn có thể tham khảo thêm tài liệu Nhận dạng hành vi con người trong hệ thống giám sát thông minh, nơi cung cấp cái nhìn sâu sắc về cách thức nhận diện hành vi trong các hệ thống giám sát hiện đại. Ngoài ra, tài liệu Nghiên cứu kỹ thuật học sâu trong nhận dạng đối tượng cũng sẽ giúp bạn hiểu rõ hơn về các kỹ thuật học sâu và ứng dụng của chúng trong giám sát thông minh. Cuối cùng, tài liệu Kỹ thuật mạng nơron và giải thuật di truyền trong khai phá dữ liệu sẽ cung cấp thêm thông tin về các phương pháp học máy khác có thể hỗ trợ trong việc phát hiện hành vi bạo lực. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về lĩnh vực này.

#mô hình học sâu

#hệ thống giám sát thông minh

#công nghệ AI trong an ninh

#phát hiện hành vi bạo lực

#học sâu đa tầng

#phân tích dữ liệu hành vi

Chủ đề

Tương lai của trí tuệ nhân tạo

Phân tích hành vi con người

Công nghệ học sâu và ứng dụng

an ninh và bảo mật trong xã hội