Nghiên Cứu và Ứng Dụng Deep Learning Trong Phát Hiện Tụ Tập Đông Người

Chuyên khảo phân tích Nghiên cứu và ứng dụng deep learning trong việc phát hiện tụ tập đông người trái phép, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Bà Rịa - Vũng Tàu

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2021

113

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. MỞ ĐẦU: TỔNG QUAN VỀ NHÓM NGƯỜI, ĐÁM ĐÔNG TRONG XỬ LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI TỤ TẬP TRONG NHÓM NGƯỜI. TỔNG QUAN CÁC PHƯƠNG PHÁP, THUẬT TOÁN NHẬN DẠNG ĐỐI TƯỢNG

3. CHƯƠNG 3: MÔ HÌNH PHÁT HIỆN NGƯỜI SỬ DỤNG YOLOV4. KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT

KẾT LUẬN VÀ KHUYẾN NGHỊ

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Nghiên Cứu Deep Learning Phát Hiện Tụ Tập Đông Người

Nghiên cứu về Deep Learning trong việc phát hiện tụ tập đông người đang trở nên ngày càng quan trọng, đặc biệt trong bối cảnh đô thị hóa và các sự kiện công cộng. Bài toán này không chỉ là một thách thức về mặt kỹ thuật mà còn mang ý nghĩa thiết thực trong việc đảm bảo an ninh công cộng, quản lý đám đông và phòng chống dịch bệnh. Các phương pháp truyền thống thường gặp khó khăn trong việc xử lý các tình huống phức tạp, nơi mật độ người cao và điều kiện ánh sáng thay đổi. Do đó, việc ứng dụng mô hình học sâu như mạng nơ-ron tích chập (CNN) và các biến thể của chúng đang mở ra những hướng đi mới đầy tiềm năng. Nghiên cứu này tập trung vào việc khám phá và đánh giá các kỹ thuật Deep Learning hiện đại để nhận dạng đám đông một cách chính xác và hiệu quả, đồng thời đề xuất các giải pháp cải tiến để nâng cao hiệu suất trong các điều kiện thực tế.

1.1. Giới Thiệu Bài Toán Phát Hiện Tụ Tập Đông Người

Bài toán phát hiện tụ tập đông người là một lĩnh vực nghiên cứu quan trọng trong Computer Vision. Mục tiêu chính là xác định vị trí và số lượng người trong một khu vực nhất định, thường là từ hình ảnh hoặc video. Các ứng dụng của nó rất đa dạng, từ giám sát an ninh đến quản lý giao thông và phân tích hành vi đám đông. Theo nghiên cứu của Huỳnh Thị Hồng Nguyên, việc phát hiện tụ tập đông người trái phép là một vấn đề cần được giải quyết để đảm bảo trật tự công cộng. Các phương pháp tiếp cận truyền thống thường dựa trên các đặc trưng được thiết kế thủ công, nhưng Deep Learning đã chứng minh được khả năng vượt trội trong việc tự động học các đặc trưng phức tạp từ dữ liệu.

1.2. Ứng Dụng AI trong Giám Sát và Quản Lý Đám Đông

Ứng dụng AI trong giám sát an ninh và quản lý đám đông đang trở nên phổ biến hơn bao giờ hết. Các hệ thống phát hiện tụ tập sử dụng Deep Learning có thể giúp các nhà quản lý đưa ra quyết định kịp thời để ngăn chặn các tình huống nguy hiểm hoặc cải thiện luồng di chuyển của người dân. Ví dụ, trong lĩnh vực an ninh công cộng, các hệ thống này có thể phát hiện các hành vi bất thường hoặc các cuộc biểu tình trái phép. Trong lĩnh vực quản lý giao thông, chúng có thể giúp điều chỉnh đèn tín hiệu để giảm ùn tắc. Theo nghiên cứu, việc ứng dụng công nghệ thông tin trong phát hiện tụ tập đông người trái phép và cảnh báo tức thì giúp các lực lượng đảm bảo an ninh, trật tự nhanh chóng và có kế hoạch ứng phó hiệu quả.

II. Thách Thức Phát Hiện Tụ Tập Bài Toán Xử Lý Ảnh Khó

Việc phát hiện tụ tập đông người đặt ra nhiều thách thức đáng kể trong lĩnh vực xử lý ảnh và Computer Vision. Các yếu tố như mật độ người cao, sự che khuất lẫn nhau, điều kiện ánh sáng thay đổi và góc nhìn khác nhau có thể ảnh hưởng đến độ chính xác của các thuật toán. Ngoài ra, việc xử lý video thời gian thực đòi hỏi các thuật toán phải có tốc độ xử lý nhanh chóng để đáp ứng yêu cầu của các ứng dụng thực tế. Một trong những khó khăn lớn nhất là việc thu thập và gán nhãn dữ liệu huấn luyện, đặc biệt là trong các tình huống đám đông có hành vi phức tạp. Các thuật toán cần phải có khả năng nhận dạng đám đông trong nhiều điều kiện khác nhau và phải có khả năng phân biệt giữa các nhóm người có tương tác khác nhau.

2.1. Các Yếu Tố Ảnh Hưởng Đến Độ Chính Xác Phát Hiện

Độ chính xác của các thuật toán phát hiện tụ tập có thể bị ảnh hưởng bởi nhiều yếu tố. Mật độ người cao có thể gây ra sự che khuất lẫn nhau, khiến cho việc nhận dạng từng cá nhân trở nên khó khăn. Điều kiện ánh sáng thay đổi, chẳng hạn như ánh sáng yếu hoặc ánh sáng mạnh, cũng có thể làm giảm hiệu suất của các thuật toán. Góc nhìn của camera cũng là một yếu tố quan trọng, vì các thuật toán cần phải có khả năng xử lý các biến dạng hình học. Theo nghiên cứu, các camera quan sát hiện tại chỉ mới có chức năng phục vụ mục đích quan sát, thu thập dữ liệu phục vụ tra cứu chứ chưa ứng dụng công nghệ nhằm phục vụ mục đích phát hiện kịp thời các tình huống vi phạm an ninh trật tự.

2.2. Vấn Đề Dữ Liệu Huấn Luyện và Gán Nhãn Đối Tượng

Việc thu thập và gán nhãn dữ liệu huấn luyện là một thách thức lớn trong lĩnh vực Deep Learning. Để huấn luyện một mô hình phát hiện tụ tập hiệu quả, cần phải có một lượng lớn dữ liệu được gán nhãn chính xác. Tuy nhiên, việc gán nhãn dữ liệu cho các tình huống đám đông có thể tốn thời gian và công sức, đặc biệt là khi cần phải xác định vị trí và số lượng người trong mỗi khung hình. Ngoài ra, cần phải đảm bảo rằng dữ liệu huấn luyện bao gồm nhiều tình huống khác nhau để mô hình có thể hoạt động tốt trong các điều kiện thực tế. Theo nghiên cứu, dữ liệu được xử lý là hình ảnh tĩnh được trích xuất từ camera của Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu.

III. Phương Pháp Deep Learning YOLOv4 Phát Hiện Tụ Tập Đông

Mô hình YOLOv4 là một trong những phương pháp Deep Learning tiên tiến nhất hiện nay để phát hiện đối tượng. Với khả năng xử lý thời gian thực và độ chính xác cao, YOLOv4 đã được chứng minh là một giải pháp hiệu quả cho bài toán phát hiện tụ tập đông người. Mô hình này sử dụng một kiến trúc mạng nơ-ron duy nhất để dự đoán đồng thời vị trí và loại đối tượng trong ảnh, giúp giảm thiểu thời gian xử lý. YOLOv4 cũng tích hợp nhiều kỹ thuật cải tiến, chẳng hạn như mạng nơ-ron tích chập (CNN), augmentation dữ liệu và loss function được tối ưu hóa, để nâng cao hiệu suất trong các điều kiện khác nhau. Nghiên cứu này tập trung vào việc đánh giá và tùy chỉnh YOLOv4 để nhận dạng đám đông một cách chính xác và hiệu quả.

3.1. Kiến Trúc và Nguyên Lý Hoạt Động của YOLOv4

YOLOv4 là một mô hình phát hiện đối tượng dựa trên kiến trúc mạng nơ-ron tích chập (CNN). Mô hình này chia ảnh đầu vào thành một lưới các ô và dự đoán đồng thời vị trí và loại đối tượng trong mỗi ô. YOLOv4 sử dụng một kiến trúc mạng duy nhất để thực hiện cả hai nhiệm vụ này, giúp giảm thiểu thời gian xử lý. Mô hình này cũng tích hợp nhiều kỹ thuật cải tiến, chẳng hạn như CSPDarknet53 làm backbone, PANet làm neck và YOLOv3 head để nâng cao hiệu suất. Theo nghiên cứu, YOLO sử dụng S×S dự đoán với B boundary boxes (khung giới hạn).

3.2. Tối Ưu Hóa YOLOv4 Cho Bài Toán Phát Hiện Đám Đông

Để tối ưu hóa YOLOv4 cho bài toán phát hiện đám đông, cần phải điều chỉnh các tham số và kỹ thuật huấn luyện để phù hợp với đặc điểm của dữ liệu. Ví dụ, có thể sử dụng các kỹ thuật augmentation dữ liệu để tăng cường sự đa dạng của dữ liệu huấn luyện và giúp mô hình hoạt động tốt hơn trong các điều kiện khác nhau. Cũng có thể điều chỉnh loss function để tập trung vào việc giảm thiểu sai số trong việc đếm số lượng người và xác định vị trí của họ. Theo nghiên cứu, cần cập nhật file “.darknet/src/image.c” in log trên Notebook để hiển thị thông tin trên file hình ảnh kết quả.

IV. Ứng Dụng Thực Tế Giám Sát An Ninh và Quản Lý Sự Kiện

Các hệ thống phát hiện tụ tập đông người dựa trên Deep Learning có nhiều ứng dụng thực tế trong các lĩnh vực như giám sát an ninh, quản lý sự kiện và phòng chống dịch bệnh. Trong giám sát an ninh, các hệ thống này có thể giúp phát hiện các hành vi bất thường hoặc các cuộc biểu tình trái phép. Trong quản lý sự kiện, chúng có thể giúp điều chỉnh luồng di chuyển của người dân để tránh ùn tắc. Trong phòng chống dịch bệnh, chúng có thể giúp phát hiện các khu vực có mật độ người quá cao và đưa ra cảnh báo để giảm thiểu nguy cơ lây lan. Việc triển khai các hệ thống này đòi hỏi sự kết hợp giữa phần cứng và phần mềm, cũng như sự hợp tác giữa các nhà nghiên cứu, nhà phát triển và người dùng cuối.

4.1. Triển Khai Hệ Thống Giám Sát An Ninh Thời Gian Thực

Việc triển khai một hệ thống giám sát an ninh thời gian thực dựa trên Deep Learning đòi hỏi sự kết hợp giữa các camera quan sát, máy tính xử lý và phần mềm phát hiện tụ tập. Các camera quan sát sẽ thu thập hình ảnh hoặc video, sau đó được truyền đến máy tính xử lý để phân tích. Phần mềm phát hiện tụ tập sẽ sử dụng các thuật toán Deep Learning để nhận dạng đám đông và đưa ra cảnh báo nếu cần thiết. Hệ thống này cần phải được cấu hình để hoạt động ổn định và chính xác trong các điều kiện khác nhau. Theo nghiên cứu, cần thực hiện gắn kết ổ đĩa Google Colab và Google Drive để thực hiện tải mã nguồn darknet để huấn luyện YOLOv4.

4.2. Quản Lý Đám Đông Hiệu Quả Tại Các Sự Kiện Lớn

Trong các sự kiện lớn, việc quản lý đám đông là một thách thức lớn. Các hệ thống phát hiện tụ tập có thể giúp các nhà quản lý đưa ra quyết định kịp thời để điều chỉnh luồng di chuyển của người dân và tránh ùn tắc. Ví dụ, nếu một khu vực nào đó trở nên quá đông đúc, hệ thống có thể đưa ra cảnh báo để điều hướng người dân đến các khu vực khác. Hệ thống này cũng có thể được sử dụng để phát hiện các hành vi bất thường hoặc các tình huống nguy hiểm. Theo nghiên cứu, tại mỗi góc đường đều có các biển “Khu vực cấm tập trung đông người”.

V. Đánh Giá Hiệu Suất và So Sánh Các Thuật Toán Deep Learning

Việc đánh giá hiệu suất và so sánh các thuật toán Deep Learning là rất quan trọng để xác định phương pháp tốt nhất cho bài toán phát hiện tụ tập đông người. Các chỉ số đánh giá thường được sử dụng bao gồm độ chính xác (Precision), độ phủ (Recall), F1-score và mAP (mean Average Precision). Ngoài ra, cũng cần phải xem xét thời gian xử lý và yêu cầu về tài nguyên tính toán của các thuật toán. Việc so sánh các thuật toán khác nhau trên cùng một bộ dữ liệu chuẩn giúp đảm bảo tính khách quan và công bằng. Nghiên cứu này tập trung vào việc đánh giá YOLOv4 và so sánh nó với các thuật toán khác như SSD, Faster R-CNN và Mask R-CNN.

5.1. Các Chỉ Số Đánh Giá Hiệu Suất Phát Hiện Đối Tượng

Các chỉ số đánh giá hiệu suất phát hiện đối tượng như độ chính xác (Precision), độ phủ (Recall), F1-score và mAP (mean Average Precision) được sử dụng để đo lường khả năng của một thuật toán trong việc nhận dạng và định vị đối tượng một cách chính xác. Độ chính xác đo lường tỷ lệ các dự đoán đúng trong số tất cả các dự đoán. Độ phủ đo lường tỷ lệ các đối tượng thực tế được phát hiện trong số tất cả các đối tượng thực tế. F1-score là trung bình điều hòa của độ chính xác và độ phủ. mAP là trung bình của Average Precision trên tất cả các lớp đối tượng.

5.2. So Sánh YOLOv4 Với Các Mô Hình Phát Hiện Khác

YOLOv4 thường được so sánh với các mô hình phát hiện đối tượng khác như SSD, Faster R-CNN và Mask R-CNN. YOLOv4 nổi bật với tốc độ xử lý nhanh và độ chính xác cao, làm cho nó phù hợp cho các ứng dụng thời gian thực. Faster R-CNN thường có độ chính xác cao hơn nhưng chậm hơn YOLOv4. Mask R-CNN có khả năng phân đoạn đối tượng, nhưng nó cũng chậm hơn YOLOv4. Việc lựa chọn mô hình phù hợp phụ thuộc vào yêu cầu cụ thể của ứng dụng. Theo nghiên cứu, mô hình so sánh hiệu suất giữa YOLOv4 và các bộ phát hiện đối tượng tiên tiến khác.

VI. Kết Luận và Hướng Phát Triển Nghiên Cứu Deep Learning

Nghiên cứu về Deep Learning trong việc phát hiện tụ tập đông người đã đạt được những tiến bộ đáng kể trong những năm gần đây. Các mô hình như YOLOv4 đã chứng minh được khả năng vượt trội trong việc nhận dạng đám đông một cách chính xác và hiệu quả. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết, chẳng hạn như việc cải thiện độ chính xác trong các điều kiện phức tạp và giảm thiểu yêu cầu về tài nguyên tính toán. Hướng phát triển trong tương lai bao gồm việc khám phá các kiến trúc mạng mới, sử dụng các kỹ thuật học không giám sát và học bán giám sát, và tích hợp thông tin từ nhiều nguồn khác nhau. Việc ứng dụng Deep Learning trong giám sát an ninh và quản lý đám đông hứa hẹn sẽ mang lại nhiều lợi ích cho xã hội.

6.1. Tổng Kết Các Kết Quả Nghiên Cứu Đạt Được

Nghiên cứu này đã tập trung vào việc khám phá và đánh giá các kỹ thuật Deep Learning hiện đại để phát hiện tụ tập đông người. Các kết quả cho thấy rằng YOLOv4 là một mô hình hiệu quả cho bài toán này, với khả năng xử lý thời gian thực và độ chính xác cao. Tuy nhiên, vẫn còn nhiều cơ hội để cải thiện hiệu suất của mô hình, chẳng hạn như việc tối ưu hóa kiến trúc mạng và sử dụng các kỹ thuật augmentation dữ liệu tiên tiến hơn. Theo nghiên cứu, nếu được đưa vào thực tiễn, đây thực sự là một giải pháp thiết thực góp phần duy trì và đảm bảo tính kịp thời trong công tác giữ gìn an ninh, trật tự, an toàn tại các khu vực cấm.

6.2. Hướng Nghiên Cứu Mở Rộng và Ứng Dụng Tiềm Năng

Hướng nghiên cứu mở rộng trong tương lai bao gồm việc khám phá các kiến trúc mạng mới, chẳng hạn như Transformer và Vision Transformer (ViT), để cải thiện khả năng nhận dạng đám đông trong các điều kiện phức tạp. Cũng có thể sử dụng các kỹ thuật học không giám sát và học bán giám sát để giảm thiểu sự phụ thuộc vào dữ liệu gán nhãn. Ngoài ra, việc tích hợp thông tin từ nhiều nguồn khác nhau, chẳng hạn như dữ liệu GPS và dữ liệu mạng xã hội, có thể giúp cải thiện độ chính xác và độ tin cậy của các hệ thống phát hiện tụ tập. Theo nghiên cứu, ứng dụng Công nghệ thông tin trong việc phát hiện tụ tập đông người trái phép và cảnh báo tức thì giúp các lực lượng đảm bảo an ninh, trật tự nhanh chóng và có kế hoạch ứng phó hiệu quả với các tình huống vi phạm.

07/06/2025

Bạn đang xem trước tài liệu:

Nghiên cứu và ứng dụng deep learning trong việc phát hiện tụ tập đông người trái phép

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển đô thị thông minh và nhu cầu đảm bảo an ninh trật tự tại các khu vực công cộng, việc phát hiện tụ tập đông người trái phép trở thành một vấn đề cấp thiết. Theo nghị định số 38/2005/NĐ-CP và Thông tư số 09/2005/TT-BCA, tập trung từ 5 người trở lên tại các khu vực cấm là hành vi vi phạm pháp luật cần được phát hiện và xử lý kịp thời. Tỉnh Bà Rịa – Vũng Tàu đã triển khai đề án phát triển đô thị thông minh giai đoạn 2020-2025, trong đó có nhiệm vụ ứng dụng công nghệ thông tin để quản lý an ninh trật tự. Luận văn tập trung nghiên cứu và ứng dụng mô hình deep learning YOLOv4 nhằm phát hiện tụ tập đông người trái phép qua hình ảnh camera giám sát tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu. Mục tiêu cụ thể là phát triển mô hình phát hiện người hiệu quả, nhanh chóng, có độ chính xác cao, từ đó cảnh báo kịp thời các tình huống vi phạm. Phạm vi nghiên cứu bao gồm dữ liệu hình ảnh tĩnh trích xuất từ camera quan sát tại khu vực cổng phụ và khu vực để xe dành cho nhân viên, ghi nhận trong điều kiện ánh sáng bình thường. Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ lực lượng an ninh xử lý các tình huống tụ tập trái phép, góp phần nâng cao hiệu quả quản lý an ninh đô thị thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực thị giác máy tính và học máy:

Mô hình YOLOv4 (You Only Look Once phiên bản 4): Đây là mô hình deep learning hiện đại, được thiết kế để phát hiện đối tượng trong ảnh với tốc độ nhanh và độ chính xác cao. YOLOv4 sử dụng kiến trúc mạng nơ-ron tích chập (CNN) kết hợp các kỹ thuật tối ưu như CSPDarknet53, PANet và SAM để cải thiện khả năng nhận diện và phân loại đối tượng người trong ảnh.
Mô hình kết hợp HOG (Histogram of Oriented Gradients) và SVM (Support Vector Machine): Thuật toán HOG trích xuất đặc trưng hình ảnh dựa trên phân phối gradient hướng, giúp nhận diện các cạnh và hình dạng đặc trưng của đối tượng người. SVM là thuật toán học có giám sát, tìm siêu mặt phẳng tối ưu phân chia hai lớp dữ liệu, được sử dụng để phân loại các đặc trưng HOG thành đối tượng người hoặc không phải người.

Các khái niệm chính bao gồm:

Nhóm người, đám đông và tập trung đông người: Được phân loại dựa trên số lượng và mức độ tương tác xã hội, từ nhóm nhỏ (2-6 người) đến đám đông lớn (trên 13 người), với các kiểu tương tác như không tập trung, tập trung chung chung và tập trung mang ý nghĩa cụ thể.
Social Signal Processing (SSP): Xử lý tín hiệu tương tác xã hội giúp phân tích hành vi tập trung đông người dựa trên các đặc điểm như hướng nhìn, tư thế và trạng thái di chuyển.
Đặc trưng HOG: Biểu diễn phân phối histogram của gradient hướng trong các ô cục bộ 8×8 pixel, chuẩn hóa theo block 16×16 pixel để giảm ảnh hưởng của ánh sáng.
Siêu mặt phẳng tối ưu trong SVM: Tìm đường phân chia dữ liệu với lề lớn nhất nhằm tối ưu hóa khả năng phân loại.

Phương pháp nghiên cứu

Nghiên cứu sử dụng dữ liệu hình ảnh tĩnh được trích xuất từ video camera đặt tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu, với khoảng 1000 hình ảnh được gán nhãn đối tượng người bằng công cụ LabelImg. Cỡ mẫu huấn luyện gồm 800 ảnh, kiểm tra trên 200 ảnh còn lại. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ dữ liệu thu thập được trong điều kiện ánh sáng bình thường, không mưa và không bị ngược sáng.

Quá trình nghiên cứu gồm các bước:

Thu thập và tổng hợp tài liệu nghiên cứu trong và ngoài nước về phát hiện đối tượng người và deep learning.
Tiền xử lý dữ liệu: chuyển đổi video sang ảnh tĩnh, gán nhãn đối tượng người.
Huấn luyện mô hình YOLOv4 trên nền tảng Google Colab sử dụng GPU, với thời gian huấn luyện khoảng 48 giờ.
So sánh hiệu suất mô hình YOLOv4 với mô hình kết hợp HOG và SVM về độ chính xác, tốc độ xử lý và khả năng phát hiện người trong các điều kiện khác nhau.
Thực nghiệm phát hiện tụ tập đông người dựa trên số lượng người được đếm trong ảnh, với ngưỡng cảnh báo từ 5 người trở lên theo quy định pháp luật.

Phân tích kết quả sử dụng các chỉ số như độ chính xác trung bình (Average Precision - AP), thời gian xử lý trung bình trên mỗi ảnh, và tỷ lệ phát hiện đúng (True Positive Rate).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình YOLOv4: Mô hình đạt độ chính xác trung bình AP khoảng 85%, thời gian xử lý trung bình 0.03 giây trên mỗi ảnh, cho phép phát hiện người nhanh và chính xác trong điều kiện ánh sáng bình thường. Tỷ lệ phát hiện đúng người đạt 92%, vượt trội so với mô hình HOG+SVM.
Hiệu quả mô hình HOG kết hợp SVM: Độ chính xác trung bình khoảng 75%, thời gian xử lý trung bình 0.1 giây trên mỗi ảnh, tỷ lệ phát hiện đúng người đạt 80%. Mô hình này gặp khó khăn khi người bị che khuất một phần hoặc trong điều kiện ánh sáng yếu.
Khả năng phát hiện tụ tập đông người: Khi số lượng người trong ảnh bằng hoặc lớn hơn 5, mô hình YOLOv4 cảnh báo chính xác 95% các trường hợp tụ tập trái phép. Mô hình HOG+SVM chỉ đạt 85% trong cùng điều kiện.
Giới hạn và sai số: Cả hai mô hình đều gặp khó khăn khi người đứng sát nhau quá gần hoặc bị che khuất một phần, dẫn đến cảnh báo sai hoặc bỏ sót. Ví dụ, YOLOv4 bỏ lỡ một số đối tượng khi khoảng cách quá gần, hoặc phát hiện sai đối tượng như hình nộm trẻ em.

Thảo luận kết quả

Nguyên nhân hiệu suất vượt trội của YOLOv4 là do kiến trúc mạng nơ-ron tích chập sâu, khả năng học đặc trưng phức tạp và xử lý đồng thời nhiều đối tượng trong ảnh. So với phương pháp truyền thống HOG+SVM, YOLOv4 giảm thiểu bước tiền xử lý phức tạp và tăng tốc độ xử lý nhờ tính toán song song trên GPU.

Kết quả phù hợp với các nghiên cứu trong ngành thị giác máy tính, cho thấy deep learning là hướng đi hiệu quả trong phát hiện đối tượng người và cảnh báo tụ tập đông người. Việc ứng dụng mô hình này tại các khu vực cấm tụ tập đông người giúp nâng cao khả năng giám sát, giảm thiểu chi phí nhân lực và tăng tính kịp thời trong xử lý vi phạm.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và thời gian xử lý giữa hai mô hình, cũng như bảng thống kê tỷ lệ cảnh báo đúng và sai trong các điều kiện thực nghiệm.

Đề xuất và khuyến nghị

Triển khai hệ thống phát hiện tụ tập đông người dựa trên mô hình YOLOv4: Áp dụng tại các khu vực cấm tụ tập đông người trong tỉnh Bà Rịa – Vũng Tàu, nhằm cảnh báo kịp thời và hỗ trợ lực lượng an ninh xử lý. Thời gian thực hiện trong vòng 6 tháng, do Trung tâm Công nghệ thông tin và Truyền thông tỉnh chủ trì.
Nâng cấp hệ thống camera và hạ tầng mạng: Đảm bảo chất lượng hình ảnh và tốc độ truyền dữ liệu để mô hình hoạt động hiệu quả, đặc biệt trong điều kiện ánh sáng yếu hoặc thời tiết xấu. Thời gian thực hiện 12 tháng, phối hợp với các đơn vị quản lý hạ tầng đô thị.
Đào tạo nhân lực vận hành và bảo trì hệ thống: Tổ chức các khóa đào tạo kỹ thuật cho cán bộ an ninh và kỹ thuật viên về vận hành mô hình deep learning và xử lý cảnh báo. Thời gian đào tạo 3 tháng, do Trường Đại học Bà Rịa – Vũng Tàu phối hợp thực hiện.
Phát triển thêm module phân tích hành vi: Nghiên cứu mở rộng để phân tích hành vi cụ thể trong nhóm người tụ tập như mang vũ khí, biểu tình quá khích nhằm nâng cao hiệu quả giám sát. Thời gian nghiên cứu và phát triển 18 tháng, do nhóm nghiên cứu công nghệ thông tin đảm nhiệm.

Đối tượng nên tham khảo luận văn

Cơ quan quản lý an ninh trật tự: Sử dụng kết quả nghiên cứu để triển khai hệ thống giám sát tự động, nâng cao hiệu quả phát hiện vi phạm tụ tập đông người trái phép.
Các đơn vị phát triển công nghệ giám sát và camera thông minh: Áp dụng mô hình YOLOv4 và phương pháp huấn luyện để phát triển sản phẩm phù hợp với yêu cầu thực tế.
Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, Thị giác máy tính: Tham khảo phương pháp, thuật toán và quy trình huấn luyện mô hình deep learning trong phát hiện đối tượng người.
Đơn vị quản lý đô thị thông minh: Tích hợp giải pháp phát hiện tụ tập đông người vào hệ thống quản lý đô thị nhằm đảm bảo an ninh, trật tự và an toàn xã hội.

Câu hỏi thường gặp

Mô hình YOLOv4 có thể áp dụng trong điều kiện ánh sáng yếu không?
Mô hình hoạt động tốt trong điều kiện ánh sáng bình thường, tuy nhiên hiệu suất giảm khi ánh sáng yếu hoặc bị che khuất. Cần kết hợp nâng cấp camera hoặc sử dụng thêm kỹ thuật xử lý ảnh để cải thiện.
Phương pháp HOG kết hợp SVM có ưu điểm gì?
Phương pháp này đơn giản, dễ triển khai và ít yêu cầu tài nguyên tính toán hơn so với deep learning, phù hợp với các hệ thống có hạn chế về phần cứng.
Làm thế nào để xác định ngưỡng cảnh báo tụ tập đông người?
Theo quy định pháp luật, ngưỡng là từ 5 người trở lên tại khu vực cấm tụ tập. Mô hình sẽ đếm số người trong ảnh và cảnh báo khi vượt ngưỡng này.
Mô hình có thể phát hiện người bị che khuất một phần không?
Khả năng phát hiện giảm khi người bị che khuất hoặc đứng sát nhau quá gần, dẫn đến sai sót hoặc bỏ sót. Cần cải tiến mô hình hoặc bổ sung dữ liệu huấn luyện đa dạng hơn.
Thời gian huấn luyện mô hình trên dữ liệu thực tế là bao lâu?
Trên nền tảng Google Colab sử dụng GPU, thời gian huấn luyện khoảng 48 giờ với dataset khoảng 800 ảnh đã gán nhãn.

Kết luận

Đề tài nghiên cứu thành công trong việc ứng dụng mô hình deep learning YOLOv4 để phát hiện tụ tập đông người trái phép với độ chính xác trung bình đạt 85% và tốc độ xử lý nhanh.
So sánh với phương pháp truyền thống HOG+SVM, YOLOv4 vượt trội về hiệu suất và khả năng ứng dụng thực tiễn.
Nghiên cứu góp phần nâng cao hiệu quả giám sát an ninh trật tự tại các khu vực cấm tụ tập đông người, hỗ trợ lực lượng chức năng xử lý kịp thời.
Các đề xuất về triển khai hệ thống, nâng cấp hạ tầng và đào tạo nhân lực được xây dựng dựa trên kết quả thực nghiệm.
Bước tiếp theo là phát triển module phân tích hành vi chi tiết và mở rộng ứng dụng trong các lĩnh vực an ninh đô thị thông minh.

Luận văn kêu gọi các cơ quan, đơn vị liên quan phối hợp triển khai ứng dụng công nghệ nhằm đảm bảo an ninh, trật tự xã hội hiệu quả và bền vững.

Trích đoạn nội dung tài liệu

MỞ ĐẦU. TỔNG QUAN VỀ NHÓM NGƯỜI, ĐÁM ĐÔNG TRONG XỬ LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI TỤ TẬP TRONG NHÓM NGƯỜI. TỔNG QUAN CÁC PHƯƠNG PHÁP, THUẬT TOÁN NHẬN DẠNG ĐỐI TƯỢNG.18 iv Chương 3. MÔ HÌNH PHÁT HIỆN NGƯỜI SỬ DỤNG YOLOV4.

KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT.54 KẾT LUẬN VÀ KHUYẾN NGHỊ.91 DANH MỤC TÀI LIỆU THAM KHẢO.93 v DANH MỤC CÁC TỪ VIẾT TẮT STT Chữ viết tắt Chữ viết đầy đủ Ý nghĩa 1 AP Average Precision Độ chính xác trung bình 2 CPU Central Processing Unit Bộ xử lý trung tâm Convolutional Neural 3 CNN Mạng nơ rơ tích chập Network Conference on Computer Hội nghị về Thị giác máy 4 CVPR Vision and Pattern tính và Nhận dạng mẫu Recognition Bộ xử lý đồ họa chuyên 5 GPU Graphics Processing Unit dụng Kênh màu RGB trong xử lý 6 RGB Red Green Blue ảnh Xử lý tín hiệu tương tác 7 SSP Social Signal Processing trong xã hội 8 SVM Support Vector Machine Máy véc-tơ hỗ trợ Thuật toán deep learning 9 YOLO You Only Look Once YOLO vi DANH MỤC CÔNG THỨC (2.50 viii DANH MỤC CÁC HÌNH Hình 1. Vị trí đặt Camera tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu. Hình ảnh có sự hiện diện của nhóm người: đang trò chuyện (a), đang đi bộ (b), đang xếp hàng (c) [5]. Hình ảnh đám đông (Web Dataset: Abnormal/Normal Crowd activities [Mehran CVPR ‘09] [5].

Unfocused interaction – tương tác không tập trung: (a) xếp hàng tính tiền ở cửa hàng; (b) xem lịch trình máy bay/ tàu điện; (c) ăn tại căn tin [5]. Nhóm người đang xem tivi (common –focused ) [5]. Jointly focused interaction – tương tác tập trung mang ý nghĩa cụ thể (a) Cùng chơi trò chơi; (b) Trò chuyện nhóm; (c) Đánh nhau [5]. Minh hoạ khái niệm SSP (xử lý tín hiệu tương tác xã hội) [5].

Minh hoạ nhóm người với số lượng ít có tương tác không tập trung [5]. Minh hoạ nhóm người có tương tác tập trung mang tính chung chung [5]. Minh hoạ nhóm người có tương tác tập trung mang ý nghĩa cụ thể [5]. Minh hoạ tập trung đông người với số lượng lớn có tương tác không tập trung [5].

Các bước thực hiện nhằm trích xuất đặc trưng và nhận dạng đối tượng [6]. Ảnh dữ liệu đầu vào được cắt ra từ ảnh lớn [7]. Bộ lọc Sobel được áp dụng trong thuật toán HOG [7]. Độ lớn gradient theo trục 𝑥 (a); độ lớn gradient theo trục 𝑦 (b); cường độ gradient (c) [7].

Hình được chia thành ô cục bộ 8×8 pixel (hình được phóng to gấp 4 lần thực tế để dễ quan sát) [7]. Phần ảnh nhỏ 8×8 pixel và các mũi tên biểu diễn gradient của phần ảnh này (b); Cường độ gradient và phương gradient của cùng 1 phần ảnh 8×8 pixel (c). Cung tròn minh họa 9 bin bình chọn cho việc thống kê Histogram. Minh họa cách bình chọn phương gradient.

Minh họa chuẩn hóa biểu đồ véc-tơ histogram theo block 2×2 [7]. Minh họa biểu diễn phân phối HOG trên hình ảnh [7]. Biểu diễn đường nét khuôn mặt với phương và độ lớn gradient [8]. Siêu phẳng phân chia 2 lớp chưa tối ưu (a); Siêu phẳng phân chia 2 lớp đã tối ưu (margin của 2 lớp bằng nhau và lớn nhất) (b) [11].

Minh họa bài toán SVM trong không gian 2 chiều. Các điểm khoanh tròn là các điểm gần mặt phân chia hyperlane nhất [11]. Lược đồ mô hình kết hợp HOG và SVM để phát hiện đối tượng áp dụng thực nghiệm. Mô hình so sánh hiệu suất giữa YOLOv4 và các bộ phát hiện đối tượng tiên tiến khác.

Mô hình hệ thống dự kiến. Mô hình tổng quát của YOLO dùng phát hiện đối tượng [20]. Mô phỏng cách thức hoạt động của mô hình. Hình minh họa mỗi ô lưới phát hiện 1 đối tượng [31].

Minh họa mỗi ô lưới tạo số lượng cố định các khung giới hạn dự đoán cho đối tượng [31]. YOLO bỏ lỡ một số đối tượng vì khoảng cách quá gần [31]. YOLO sử dụng S×S dự đoán với B boundary boxes (khung giới hạn) [31]. Hình minh họa kiến trúc của mô hình YOLO [20].

Minh họa khung giới hạn cho mỗi ô và kết quả dự đoán cuối cùng [25] [31]. Kết quả phát hiện nhóm người bằng cách kiểm tra bounding box giao nhau [32]. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong một phạm vi [33]. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong ứng dụng cảnh báo giãn cách xã hội do Covid 19 [34].

Tổng quát các bước giải bài toán deep learning. Khởi tạo Google Colab Notebook. Notebook của Google Colaboratory. Thực thi câu lệnh command line trên Notebook của Google Colab.

Thay đổi thông tin trong chức năng “Runtime” của Notebook. Cập nhật giá trị thanh “GPU” trong Notebook settings. Kiểm tra cấu hình GPU trên Google Colab. Gắn kết ổ đĩa từ Google Colab vào Google Drive.

Thực hiện gắn kết ổ đĩa với Google Drive. Token xác thực được cấp để gắn kết ổ đĩa với Google Drive. File chứa các đoạn video thu thập dữ liệu từ camera đặt tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu. Công cụ AVC chuyển đổi file video từ định dạng “*.dav” sang định dạng “*.

Kết quả sau khi sử dụng công cụ AVC để chuyển file video sang định dạng “*. Công cụ “Free Video to JPG Converter” để trích xuất file hình ảnh từ file video. Kết quả trích xuất file hình ảnh từ file video. Sử dụng công cụ LabelImg để gán nhãn đối tượng.

Kết quả sau khi gán nhãn đối tượng bằng công cụ LabelImg để thu được dữ liệu huấn luyện cho mô hình Yolov4. Thư mục “data” chứa dữ liệu huấn luyện gồm hình ảnh và file lưu thông tin gán nhãn đối tượng. Thực hiện gắn kết ổ đĩa Google Colab và Google Drive. Thực hiện tải mã nguồn darknet để huấn luyện YOLOv4.

Mã nguồn darknet được tải và lưu thành công trên Google Drive. Thực hiện giải nén file data. Tạo file chứa tên class đối tượng muốn huấn luyện. Đoạn code tạo 2 file train.txt và val.

Hai file train.txt và val.txt được tạo ra trong thư mục darknet. Tạo file yolo.data trong thư mục darknet. Biên dịch mã nguồn darknet bằng lệnh make. Tải file weights đã được huấn luyện sẵn.

Dòng lệnh thực hiện huấn luyện mô hình. Các file weights được sinh ra khi huấn luyện mô hình YOLOv4. Màn hình hiển thị thông tin log phần kết thúc quá trình huấn luyện. Biểu đồ quá trình huấn luyện.

Bộ dataset dùng để huấn luyện mô hình YOLOv4. Cập nhật file “.darknet/src/image.c” in log trên Notebook. Cập nhật file “.darknet/src/image.c” in thông tin trên file hình ảnh kết quả. Dòng lệnh Python trên Google Colab để gọi hàm make cập nhật mô hình darknet.

Dòng lệnh Python phát hiện đối tượng người trong file ảnh sử dụng mô hình YOLOv4. Dòng lệnh Python phát hiện đối tượng người trong file video dùng mô hình YOLOv4. Hình ảnh chụp kết quả hiển thị log ghi nhận quá trình phát hiện đối tượng người trên từng frame hình của video thực nghiệm. Hình ảnh cắt ra từ file video (*.avi) kết quả phát hiện đối tượng người.

Kết quả phát hiện đối tượng người có độ tin cậy tối đa (1 đối tượng người) – không có cảnh báo tụ tập đông người. Kết quả phát hiện đối tượng người có độ tin cậy tối đa (2 đối tượng người) – không có cảnh báo tụ tập đông người. Kết quả phát hiện đối tượng người với độ tin cậy cao – Hiển thị cảnh báo tụ tập đông người. Kết quả phát hiện đối tượng người với độ tin cậy không đạt mức tối đa do người bị che khuất 1 phần do vật hoặc người khác – Cảnh báo tụ tập đông người.

Kết quả phát hiện đối tượng người với độ tin cậy không cao do hình người đứng sát xe máy và bị che khuất 1 phần – Cảnh báo tụ tập đông người. Kết quả phát hiện đối tượng người với độ tin cậy không cao do người bị che khuất 1 phần – Cảnh báo tụ tập đông người. Kết quả phát hiện đối tượng với độ tin cậy không cao do thiếu sáng. Kết quả phát hiện sai đối tượng người do khi thực hiện gán nhãn người có lẫn hình ảnh xe máy do người ngồi trên xe máy.

Chỉ phát hiện được 1 đối tượng người mặc dù có 2 người ngồi cạnh nhau trên xe máy. Hình ảnh có độ tin cậy không cao do người bị che khuất một phần và chất lượng hình ảnh kém. Đối tượng phát hiện có độ tin cậy không cao do bị che khuất một phần, không thể phát hiện đối tượng phía sau hàng rào chắn. Không phát hiện được người ở xa camera đối với hình ảnh chụp trên đường phố được sưu tầm trên mạng.

Phát hiện đối tượng không chính xác (phát hiện hình nộm nhân vật bé trai là đối tượng người), không thể phát hiện đối tượng người ở xa camera, hình ảnh chất lượng kém. Lý do chọn đề tài Ngày nay, cùng với hạ tầng kỹ thuật hiện đại, công nghệ vượt bậc, phát triển đô thị là động lực cơ bản cho phát triển kinh tế - xã hội của quốc gia và các vùng miền trên cả nước; các trung tâm đô thị đã và đang là những trung tâm của các hoạt động kinh tế xã hội, đồng thời cũng là trung tâm của hoạt động đổi mới sáng tạo, giáo dục, nghiên cứu khoa học công nghệ, sản xuất, thương mại và hội nhập quốc tế; việc xây dựng đô thị thông minh là yêu cầu tất yếu nhằm đáp ứng nhu cầu hưởng thụ môi trường sống tiện ích, thân thiện và an toàn của người dân - theo như lời của Thứ trưởng Bộ Thông tin và Truyền thông Nguyễn Thành Hưng tại Hội thảo Xây dựng đô thị thông minh trong tiến trình chuyển đổi số quốc gia diễn ra chiều ngày 2 tháng 10 năm 2019 tại Hà Nội [1]. Tại tỉnh Bà Rịa – Vũng Tàu, vấn đề xây dựng đô thị thông minh cũng rất được quan tâm và đã được Hội đồng nhân dân tỉnh thông qua tại nghị quyết số 112/NQ-HĐND ngày 13 tháng 12 năm 2019 về “Đề án phát triển đô thị thông minh tỉnh Bà Rịa – Vũng Tàu giai đoạn 2020 – 2022, định hướng đến năm 2025, tầm nhìn đến năm 2030”. Tại cuộc họp ngày 04 tháng 06 năm 2020, kế hoạch triển khai Đề án phát triển đô thị thông minh tỉnh Bà Rịa – Vũng Tàu cũng đã được Ủy ban nhân dân tỉnh thông qua [2].

Trong số 12 nhiệm vụ, dự án theo Nghị quyết 112/NQ-HĐND nêu trên, vấn đề xây dựng, triển khai các dịch vụ, tiện ích thông minh phục vụ quản lý giao thông và đảm bảo an ninh trật tự cũng rất được quan tâm và đưa vào nghị quyết lần này.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Ứng Dụng Deep Learning Phát Hiện Tụ Tập Đông Người" cung cấp cái nhìn sâu sắc về việc áp dụng công nghệ học sâu (deep learning) trong việc phát hiện và phân tích các tụ tập đông người. Nghiên cứu này không chỉ nêu rõ các phương pháp và thuật toán hiện đại mà còn chỉ ra những lợi ích mà công nghệ này mang lại, như khả năng nhận diện nhanh chóng và chính xác, từ đó hỗ trợ các cơ quan chức năng trong việc quản lý an ninh và tổ chức sự kiện.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo tài liệu Ụng đề tài ứng dụng ngôn ngữ r trong bài toán phân tích cảm xúc sentiment ana, nơi bạn sẽ tìm thấy thông tin về ứng dụng của deep learning trong phân tích cảm xúc và nhận diện đối tượng, một khía cạnh quan trọng trong việc hiểu và xử lý dữ liệu lớn.

Tài liệu này không chỉ giúp bạn nắm bắt các khái niệm cơ bản mà còn mở ra những hướng nghiên cứu mới trong lĩnh vực công nghệ thông tin và an ninh. Hãy khám phá để nâng cao hiểu biết của bạn về các ứng dụng của deep learning trong cuộc sống thực!

#công nghệ nhận diện khuôn mặt

#hệ thống giám sát thông minh

#Deep Learning trong phát hiện tụ tập

#Ứng dụng AI trong nhận diện đám đông

#Mô hình học sâu cho phân tích hình ảnh

#Phát hiện tụ tập đông người bằng công nghệ

Chủ đề

Công nghệ Deep Learning và ứng dụng

Phát hiện và giám sát đám đông

An ninh công cộng và công nghệ

Phân tích hình ảnh trong AI