Tổng quan nghiên cứu
Trong bối cảnh phát triển đô thị thông minh và nhu cầu đảm bảo an ninh trật tự tại các khu vực công cộng, việc phát hiện tụ tập đông người trái phép trở thành một vấn đề cấp thiết. Theo nghị định số 38/2005/NĐ-CP và Thông tư số 09/2005/TT-BCA, tập trung từ 5 người trở lên tại các khu vực cấm là hành vi vi phạm pháp luật cần được phát hiện và xử lý kịp thời. Tỉnh Bà Rịa – Vũng Tàu đã triển khai đề án phát triển đô thị thông minh giai đoạn 2020-2025, trong đó có nhiệm vụ ứng dụng công nghệ thông tin để quản lý an ninh trật tự. Luận văn tập trung nghiên cứu và ứng dụng mô hình deep learning YOLOv4 nhằm phát hiện tụ tập đông người trái phép qua hình ảnh camera giám sát tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu. Mục tiêu cụ thể là phát triển mô hình phát hiện người hiệu quả, nhanh chóng, có độ chính xác cao, từ đó cảnh báo kịp thời các tình huống vi phạm. Phạm vi nghiên cứu bao gồm dữ liệu hình ảnh tĩnh trích xuất từ camera quan sát tại khu vực cổng phụ và khu vực để xe dành cho nhân viên, ghi nhận trong điều kiện ánh sáng bình thường. Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ lực lượng an ninh xử lý các tình huống tụ tập trái phép, góp phần nâng cao hiệu quả quản lý an ninh đô thị thông minh.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực thị giác máy tính và học máy:
Mô hình YOLOv4 (You Only Look Once phiên bản 4): Đây là mô hình deep learning hiện đại, được thiết kế để phát hiện đối tượng trong ảnh với tốc độ nhanh và độ chính xác cao. YOLOv4 sử dụng kiến trúc mạng nơ-ron tích chập (CNN) kết hợp các kỹ thuật tối ưu như CSPDarknet53, PANet và SAM để cải thiện khả năng nhận diện và phân loại đối tượng người trong ảnh.
Mô hình kết hợp HOG (Histogram of Oriented Gradients) và SVM (Support Vector Machine): Thuật toán HOG trích xuất đặc trưng hình ảnh dựa trên phân phối gradient hướng, giúp nhận diện các cạnh và hình dạng đặc trưng của đối tượng người. SVM là thuật toán học có giám sát, tìm siêu mặt phẳng tối ưu phân chia hai lớp dữ liệu, được sử dụng để phân loại các đặc trưng HOG thành đối tượng người hoặc không phải người.
Các khái niệm chính bao gồm:
Nhóm người, đám đông và tập trung đông người: Được phân loại dựa trên số lượng và mức độ tương tác xã hội, từ nhóm nhỏ (2-6 người) đến đám đông lớn (trên 13 người), với các kiểu tương tác như không tập trung, tập trung chung chung và tập trung mang ý nghĩa cụ thể.
Social Signal Processing (SSP): Xử lý tín hiệu tương tác xã hội giúp phân tích hành vi tập trung đông người dựa trên các đặc điểm như hướng nhìn, tư thế và trạng thái di chuyển.
Đặc trưng HOG: Biểu diễn phân phối histogram của gradient hướng trong các ô cục bộ 8×8 pixel, chuẩn hóa theo block 16×16 pixel để giảm ảnh hưởng của ánh sáng.
Siêu mặt phẳng tối ưu trong SVM: Tìm đường phân chia dữ liệu với lề lớn nhất nhằm tối ưu hóa khả năng phân loại.
Phương pháp nghiên cứu
Nghiên cứu sử dụng dữ liệu hình ảnh tĩnh được trích xuất từ video camera đặt tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu, với khoảng 1000 hình ảnh được gán nhãn đối tượng người bằng công cụ LabelImg. Cỡ mẫu huấn luyện gồm 800 ảnh, kiểm tra trên 200 ảnh còn lại. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ dữ liệu thu thập được trong điều kiện ánh sáng bình thường, không mưa và không bị ngược sáng.
Quá trình nghiên cứu gồm các bước:
Thu thập và tổng hợp tài liệu nghiên cứu trong và ngoài nước về phát hiện đối tượng người và deep learning.
Tiền xử lý dữ liệu: chuyển đổi video sang ảnh tĩnh, gán nhãn đối tượng người.
Huấn luyện mô hình YOLOv4 trên nền tảng Google Colab sử dụng GPU, với thời gian huấn luyện khoảng 48 giờ.
So sánh hiệu suất mô hình YOLOv4 với mô hình kết hợp HOG và SVM về độ chính xác, tốc độ xử lý và khả năng phát hiện người trong các điều kiện khác nhau.
Thực nghiệm phát hiện tụ tập đông người dựa trên số lượng người được đếm trong ảnh, với ngưỡng cảnh báo từ 5 người trở lên theo quy định pháp luật.
Phân tích kết quả sử dụng các chỉ số như độ chính xác trung bình (Average Precision - AP), thời gian xử lý trung bình trên mỗi ảnh, và tỷ lệ phát hiện đúng (True Positive Rate).
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất mô hình YOLOv4: Mô hình đạt độ chính xác trung bình AP khoảng 85%, thời gian xử lý trung bình 0.03 giây trên mỗi ảnh, cho phép phát hiện người nhanh và chính xác trong điều kiện ánh sáng bình thường. Tỷ lệ phát hiện đúng người đạt 92%, vượt trội so với mô hình HOG+SVM.
Hiệu quả mô hình HOG kết hợp SVM: Độ chính xác trung bình khoảng 75%, thời gian xử lý trung bình 0.1 giây trên mỗi ảnh, tỷ lệ phát hiện đúng người đạt 80%. Mô hình này gặp khó khăn khi người bị che khuất một phần hoặc trong điều kiện ánh sáng yếu.
Khả năng phát hiện tụ tập đông người: Khi số lượng người trong ảnh bằng hoặc lớn hơn 5, mô hình YOLOv4 cảnh báo chính xác 95% các trường hợp tụ tập trái phép. Mô hình HOG+SVM chỉ đạt 85% trong cùng điều kiện.
Giới hạn và sai số: Cả hai mô hình đều gặp khó khăn khi người đứng sát nhau quá gần hoặc bị che khuất một phần, dẫn đến cảnh báo sai hoặc bỏ sót. Ví dụ, YOLOv4 bỏ lỡ một số đối tượng khi khoảng cách quá gần, hoặc phát hiện sai đối tượng như hình nộm trẻ em.
Thảo luận kết quả
Nguyên nhân hiệu suất vượt trội của YOLOv4 là do kiến trúc mạng nơ-ron tích chập sâu, khả năng học đặc trưng phức tạp và xử lý đồng thời nhiều đối tượng trong ảnh. So với phương pháp truyền thống HOG+SVM, YOLOv4 giảm thiểu bước tiền xử lý phức tạp và tăng tốc độ xử lý nhờ tính toán song song trên GPU.
Kết quả phù hợp với các nghiên cứu trong ngành thị giác máy tính, cho thấy deep learning là hướng đi hiệu quả trong phát hiện đối tượng người và cảnh báo tụ tập đông người. Việc ứng dụng mô hình này tại các khu vực cấm tụ tập đông người giúp nâng cao khả năng giám sát, giảm thiểu chi phí nhân lực và tăng tính kịp thời trong xử lý vi phạm.
Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và thời gian xử lý giữa hai mô hình, cũng như bảng thống kê tỷ lệ cảnh báo đúng và sai trong các điều kiện thực nghiệm.
Đề xuất và khuyến nghị
Triển khai hệ thống phát hiện tụ tập đông người dựa trên mô hình YOLOv4: Áp dụng tại các khu vực cấm tụ tập đông người trong tỉnh Bà Rịa – Vũng Tàu, nhằm cảnh báo kịp thời và hỗ trợ lực lượng an ninh xử lý. Thời gian thực hiện trong vòng 6 tháng, do Trung tâm Công nghệ thông tin và Truyền thông tỉnh chủ trì.
Nâng cấp hệ thống camera và hạ tầng mạng: Đảm bảo chất lượng hình ảnh và tốc độ truyền dữ liệu để mô hình hoạt động hiệu quả, đặc biệt trong điều kiện ánh sáng yếu hoặc thời tiết xấu. Thời gian thực hiện 12 tháng, phối hợp với các đơn vị quản lý hạ tầng đô thị.
Đào tạo nhân lực vận hành và bảo trì hệ thống: Tổ chức các khóa đào tạo kỹ thuật cho cán bộ an ninh và kỹ thuật viên về vận hành mô hình deep learning và xử lý cảnh báo. Thời gian đào tạo 3 tháng, do Trường Đại học Bà Rịa – Vũng Tàu phối hợp thực hiện.
Phát triển thêm module phân tích hành vi: Nghiên cứu mở rộng để phân tích hành vi cụ thể trong nhóm người tụ tập như mang vũ khí, biểu tình quá khích nhằm nâng cao hiệu quả giám sát. Thời gian nghiên cứu và phát triển 18 tháng, do nhóm nghiên cứu công nghệ thông tin đảm nhiệm.
Đối tượng nên tham khảo luận văn
Cơ quan quản lý an ninh trật tự: Sử dụng kết quả nghiên cứu để triển khai hệ thống giám sát tự động, nâng cao hiệu quả phát hiện vi phạm tụ tập đông người trái phép.
Các đơn vị phát triển công nghệ giám sát và camera thông minh: Áp dụng mô hình YOLOv4 và phương pháp huấn luyện để phát triển sản phẩm phù hợp với yêu cầu thực tế.
Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Thị giác máy tính: Tham khảo phương pháp, thuật toán và quy trình huấn luyện mô hình deep learning trong phát hiện đối tượng người.
Đơn vị quản lý đô thị thông minh: Tích hợp giải pháp phát hiện tụ tập đông người vào hệ thống quản lý đô thị nhằm đảm bảo an ninh, trật tự và an toàn xã hội.
Câu hỏi thường gặp
Mô hình YOLOv4 có thể áp dụng trong điều kiện ánh sáng yếu không?
Mô hình hoạt động tốt trong điều kiện ánh sáng bình thường, tuy nhiên hiệu suất giảm khi ánh sáng yếu hoặc bị che khuất. Cần kết hợp nâng cấp camera hoặc sử dụng thêm kỹ thuật xử lý ảnh để cải thiện.Phương pháp HOG kết hợp SVM có ưu điểm gì?
Phương pháp này đơn giản, dễ triển khai và ít yêu cầu tài nguyên tính toán hơn so với deep learning, phù hợp với các hệ thống có hạn chế về phần cứng.Làm thế nào để xác định ngưỡng cảnh báo tụ tập đông người?
Theo quy định pháp luật, ngưỡng là từ 5 người trở lên tại khu vực cấm tụ tập. Mô hình sẽ đếm số người trong ảnh và cảnh báo khi vượt ngưỡng này.Mô hình có thể phát hiện người bị che khuất một phần không?
Khả năng phát hiện giảm khi người bị che khuất hoặc đứng sát nhau quá gần, dẫn đến sai sót hoặc bỏ sót. Cần cải tiến mô hình hoặc bổ sung dữ liệu huấn luyện đa dạng hơn.Thời gian huấn luyện mô hình trên dữ liệu thực tế là bao lâu?
Trên nền tảng Google Colab sử dụng GPU, thời gian huấn luyện khoảng 48 giờ với dataset khoảng 800 ảnh đã gán nhãn.
Kết luận
Đề tài nghiên cứu thành công trong việc ứng dụng mô hình deep learning YOLOv4 để phát hiện tụ tập đông người trái phép với độ chính xác trung bình đạt 85% và tốc độ xử lý nhanh.
So sánh với phương pháp truyền thống HOG+SVM, YOLOv4 vượt trội về hiệu suất và khả năng ứng dụng thực tiễn.
Nghiên cứu góp phần nâng cao hiệu quả giám sát an ninh trật tự tại các khu vực cấm tụ tập đông người, hỗ trợ lực lượng chức năng xử lý kịp thời.
Các đề xuất về triển khai hệ thống, nâng cấp hạ tầng và đào tạo nhân lực được xây dựng dựa trên kết quả thực nghiệm.
Bước tiếp theo là phát triển module phân tích hành vi chi tiết và mở rộng ứng dụng trong các lĩnh vực an ninh đô thị thông minh.
Luận văn kêu gọi các cơ quan, đơn vị liên quan phối hợp triển khai ứng dụng công nghệ nhằm đảm bảo an ninh, trật tự xã hội hiệu quả và bền vững.