Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghệ lần thứ tư, việc ứng dụng trí tuệ nhân tạo và Internet of Things (IoT) đã thúc đẩy sự phát triển của các thành phố thông minh (Smart City). Một trong những yêu cầu quan trọng là xây dựng hệ thống giám sát đám đông thông minh dựa trên camera CCTV nhằm tự động hóa việc quản lý và giám sát các hoạt động của con người. Theo ước tính, mật độ dân cư tại các đô thị lớn ngày càng tăng, đồng thời các sự kiện thể thao, mít tinh, biểu tình cũng diễn ra thường xuyên, làm tăng nhu cầu giám sát đám đông chính xác và kịp thời. Việc này không chỉ giúp phòng tránh các sự cố an ninh mà còn hỗ trợ quản lý hiệu quả các khu vực công cộng.

Luận văn tập trung vào bài toán ước lượng mật độ và đếm số người trong đám đông từ hình ảnh camera giám sát, với phạm vi nghiên cứu trên các bộ dữ liệu chuẩn như UCF_CC_50 và ShanghaiTech Part A, B. Mục tiêu chính là xây dựng một hệ thống giám sát đám đông sử dụng các kỹ thuật học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), nhằm cải thiện độ chính xác trong việc ước lượng số người và bản đồ mật độ. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả giám sát an ninh, quản lý sự kiện và hỗ trợ các dịch vụ công cộng như siêu thị, rạp chiếu phim thông qua việc phân tích mật độ người.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

  1. Phân phối chuẩn (Gaussian distribution): Đây là mô hình phân phối xác suất quan trọng, được sử dụng để xây dựng bản đồ mật độ xác thực. Mỗi điểm đầu người trong ảnh được biểu diễn bằng một hàm Gaussian hai chiều với giá trị trung bình tại vị trí điểm đầu người và phương sai được xác định dựa trên khoảng cách đến các điểm lân cận. Phân phối này giúp mô phỏng mật độ người trong ảnh một cách chính xác.

  2. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN được sử dụng để xây dựng các mô hình ước lượng bản đồ mật độ và phân loại ảnh. Kiến trúc CNN bao gồm các tầng convolutional, hàm kích hoạt ReLU, tầng pooling và tầng fully connected. CNN giúp trích xuất đặc trưng không gian từ ảnh đầu vào, hỗ trợ việc ước lượng số người trong đám đông.

Các khái niệm chính bao gồm: bản đồ mật độ (density map), bộ phân lớp Human Classifier để phân loại ảnh có người hay không, Regressor với các bộ lọc kích thước khác nhau để ước lượng mật độ người, và Switch Classifier để kết hợp các bản đồ mật độ từ các Regressor.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ dữ liệu chuẩn: UCF_CC_50 và ShanghaiTech Part A, B, với tổng cộng khoảng 1.198 hình ảnh và hơn 330.000 điểm đầu người được đánh dấu. Dữ liệu được chia thành các patch ảnh (lưới 3x3 hoặc 4x4) để tăng số lượng mẫu và áp dụng tiền phân loại.

Phương pháp phân tích bao gồm:

  • Tiền phân loại ảnh: Sử dụng mạng VGG-16 làm Human Classifier để phân loại patch ảnh có người hay không, giúp loại bỏ các vùng không có người nhằm giảm sai số ước lượng.
  • Xây dựng bản đồ mật độ xác thực: Áp dụng nhân Gaussian với tham số σ cố định hoặc thích ứng dựa trên khoảng cách trung bình đến các điểm lân cận.
  • Huấn luyện mô hình Regressor: Ba mô hình CNN với các bộ lọc kích thước khác nhau (lớn, vừa, nhỏ) được huấn luyện để ước lượng bản đồ mật độ tương ứng với mật độ người thấp, vừa và cao.
  • Kết hợp bản đồ mật độ: Sử dụng Switch Classifier để phân lớp patch ảnh theo mật độ và kết hợp các bản đồ mật độ từ các Regressor dựa trên xác suất phân lớp.

Quá trình nghiên cứu được thực hiện trong hai giai đoạn: ngoại tuyến (huấn luyện mô hình) và trực tuyến (ứng dụng mô hình để ước lượng số người từ ảnh mới). Cỡ mẫu huấn luyện được cân bằng bằng cách nhân bản các mẫu ít để giải quyết vấn đề mất cân bằng dữ liệu. Phương pháp phân tích chính là học sâu với hàm mất mát cross-entropy cho phân loại và hàm mất mát bình phương cho ước lượng bản đồ mật độ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của bộ phân lớp Human Classifier: Việc sử dụng mạng VGG-16 để phân loại patch ảnh có người hay không giúp giảm sai số ước lượng số người trong các vùng không có người. Kết quả thực nghiệm cho thấy, số đếm ước lượng trong các vùng không có người được gán bằng 0, tránh được việc ước lượng sai lệch như các phương pháp trước đây.

  2. Ước lượng bản đồ mật độ chính xác hơn: Sử dụng nhân Gaussian với tham số σ thích ứng cho các ảnh có mật độ người phân bố đều (ShanghaiTech Part A, UCF_CC_50) và σ cố định cho ảnh có mật độ không đồng đều (ShanghaiTech Part B) giúp cải thiện độ chính xác của bản đồ mật độ xác thực. Ví dụ, với σ = 15 cho bộ dữ liệu ShanghaiTech Part B, độ sai số giảm đáng kể so với việc sử dụng σ cố định cho tất cả các ảnh.

  3. Mô hình đa cột Regressor và Switch Classifier: Ba Regressor với các bộ lọc kích thước khác nhau (R1, R2, R3) tương ứng với mật độ người thấp, vừa và cao cho ra ba bản đồ mật độ khác nhau. Switch Classifier phân lớp patch ảnh và kết hợp các bản đồ mật độ dựa trên xác suất phân lớp, giúp tăng độ chính xác tổng thể. Kết quả trên bộ dữ liệu UCF_CC_50 cho thấy phương pháp này giảm sai số trung bình tuyệt đối (MAE) so với các phương pháp MCNN và Switch-CNN truyền thống.

  4. So sánh với các phương pháp hiện có: Phương pháp đề xuất khắc phục được nhược điểm của MCNN và Switch-CNN khi ước lượng số người trong các vùng không có người và trong môi trường có mật độ người vừa và đông. Độ chính xác ước lượng được cải thiện khoảng 10-15% so với các phương pháp trước.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do việc tiền phân loại ảnh có người hay không giúp loại bỏ các vùng nhiễu, đồng thời việc sử dụng mô hình đa cột với Switch Classifier cho phép mô hình thích ứng tốt với các mật độ người khác nhau trong ảnh. So với các nghiên cứu trước, phương pháp này không chỉ dựa vào một mô hình CNN cố định mà còn kết hợp linh hoạt các mô hình phù hợp với từng vùng ảnh.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh MAE và MRE (Mean Relative Error) trên các bộ dữ liệu chuẩn, cũng như bảng tổng hợp kết quả ước lượng số người giữa các phương pháp. Các biểu đồ bản đồ mật độ xác thực và bản đồ mật độ ước lượng cũng minh họa rõ sự tương đồng và cải tiến của phương pháp.

Kết quả nghiên cứu có ý nghĩa thực tiễn cao trong việc phát triển các hệ thống giám sát đám đông thông minh, giúp nâng cao khả năng phát hiện sớm các tình huống bất thường và hỗ trợ quản lý an ninh hiệu quả.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống giám sát đám đông thông minh: Áp dụng mô hình Human Classifier kết hợp Regressor và Switch Classifier vào các hệ thống camera giám sát tại các đô thị lớn nhằm tự động ước lượng mật độ và số người trong thời gian thực. Mục tiêu giảm thiểu sai số ước lượng xuống dưới 10% trong vòng 12 tháng.

  2. Mở rộng bộ dữ liệu huấn luyện: Thu thập và đánh dấu thêm các bộ dữ liệu đa dạng về môi trường, góc quay và mật độ người để tăng khả năng tổng quát hóa của mô hình. Thực hiện trong 6-9 tháng tiếp theo bởi các trung tâm nghiên cứu và doanh nghiệp công nghệ.

  3. Tối ưu hóa mô hình cho thiết bị nhúng: Nghiên cứu và phát triển phiên bản mô hình nhẹ, tối ưu cho các thiết bị giám sát có tài nguyên hạn chế như camera thông minh hoặc thiết bị biên (edge devices). Mục tiêu giảm thời gian xử lý ảnh xuống dưới 1 giây trên thiết bị nhúng trong 1 năm.

  4. Phát triển hệ thống cảnh báo sớm: Kết hợp hệ thống ước lượng mật độ với các thuật toán phân tích hành vi để phát hiện các tình huống nguy hiểm như quá tải đám đông hoặc các hành vi bất thường. Triển khai thử nghiệm tại các sự kiện lớn trong vòng 18 tháng.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng CNN trong bài toán ước lượng mật độ đám đông, giúp phát triển các nghiên cứu tiếp theo về thị giác máy tính và học sâu.

  2. Chuyên gia phát triển hệ thống giám sát an ninh: Các kỹ sư và nhà phát triển phần mềm có thể áp dụng mô hình và phương pháp đề xuất để nâng cao hiệu quả giám sát đám đông trong các hệ thống camera thông minh.

  3. Quản lý đô thị và an ninh công cộng: Cơ quan quản lý có thể sử dụng kết quả nghiên cứu để triển khai các giải pháp giám sát tự động, hỗ trợ quản lý sự kiện và phòng ngừa rủi ro an ninh.

  4. Doanh nghiệp công nghệ và nhà cung cấp thiết bị giám sát: Các công ty phát triển camera và phần mềm giám sát có thể tích hợp mô hình vào sản phẩm, nâng cao giá trị và tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

  1. Phương pháp nào được sử dụng để ước lượng số người trong đám đông?
    Phương pháp chính là sử dụng mạng nơ-ron tích chập (CNN) để ước lượng bản đồ mật độ người từ ảnh, sau đó lấy tổng giá trị bản đồ mật độ để tính số người. Mô hình bao gồm ba Regressor với bộ lọc kích thước khác nhau và Switch Classifier để kết hợp kết quả.

  2. Làm thế nào để xử lý các vùng ảnh không có người?
    Luận văn đề xuất sử dụng bộ phân lớp Human Classifier dựa trên mạng VGG-16 để phân loại patch ảnh có người hay không. Các vùng không có người sẽ được gán số đếm bằng 0, giúp giảm sai số ước lượng.

  3. Bản đồ mật độ xác thực được xây dựng như thế nào?
    Bản đồ mật độ xác thực được tạo bằng cách áp dụng nhân Gaussian hai chiều tại mỗi điểm đầu người đã được đánh dấu trong ảnh, với tham số σ được chọn cố định hoặc thích ứng dựa trên khoảng cách đến các điểm lân cận.

  4. Phương pháp này có thể áp dụng cho các đối tượng khác ngoài người không?
    Mặc dù nghiên cứu tập trung vào đám đông người, phương pháp ước lượng mật độ dựa trên CNN và bản đồ mật độ có thể mở rộng cho các đối tượng khác như xe cộ, động vật hoặc tế bào trong các ứng dụng tương tự.

  5. Hiệu quả của mô hình so với các phương pháp trước đó như thế nào?
    Mô hình đề xuất cải thiện độ chính xác ước lượng số người khoảng 10-15% so với các phương pháp MCNN và Switch-CNN, đồng thời giảm sai số trong các vùng không có người nhờ bộ phân lớp Human Classifier.

Kết luận

  • Luận văn đã xây dựng thành công hệ thống giám sát đám đông sử dụng mạng nơ-ron tích chập kết hợp bộ phân lớp Human Classifier và Switch Classifier, nâng cao độ chính xác ước lượng số người và bản đồ mật độ.
  • Việc áp dụng nhân Gaussian thích ứng giúp mô hình phù hợp với các loại mật độ người khác nhau trong ảnh.
  • Kết quả thực nghiệm trên bộ dữ liệu chuẩn UCF_CC_50 và ShanghaiTech cho thấy sự cải tiến rõ rệt so với các phương pháp hiện có.
  • Hệ thống có tiềm năng ứng dụng rộng rãi trong giám sát an ninh, quản lý sự kiện và các dịch vụ công cộng.
  • Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu hóa mô hình cho thiết bị nhúng và phát triển hệ thống cảnh báo sớm nhằm nâng cao tính ứng dụng thực tiễn.

Để tiếp tục phát triển và ứng dụng nghiên cứu này, các nhà nghiên cứu và doanh nghiệp công nghệ được khuyến khích hợp tác triển khai thử nghiệm thực tế và mở rộng phạm vi nghiên cứu.