Tổng quan nghiên cứu

Trong bối cảnh đô thị hóa nhanh chóng và sự gia tăng dân số thành thị, việc quản lý an ninh công cộng và điều tiết giao thông trở nên cấp thiết hơn bao giờ hết. Theo ước tính, mật độ người tại các thành phố lớn ngày càng tăng, đặc biệt trong các sự kiện công cộng, lễ hội hay các tụ điểm đông người. Đại dịch Covid-19 càng làm nổi bật nhu cầu kiểm soát và giãn cách xã hội, đòi hỏi các giải pháp công nghệ để ước lượng chính xác mật độ người trong đám đông. Việc đếm số lượng người và phân bố mật độ trong đám đông không chỉ giúp nâng cao hiệu quả quản lý an ninh mà còn hỗ trợ các ứng dụng như tối ưu hóa giao thông, phân tích hành vi đám đông và giám sát an toàn.

Mục tiêu nghiên cứu của luận văn là phát triển một ứng dụng sử dụng học sâu để ước lượng mật độ người trong đám đông, đồng thời giải quyết thách thức lớn nhất là biến đổi tỷ lệ kích thước người trong ảnh do khoảng cách khác nhau từ người đến camera. Nghiên cứu tập trung vào xây dựng một mạng đa tác vụ có khả năng ước lượng đồng thời bản đồ mật độ người và bản đồ độ sâu, từ đó cải thiện độ chính xác và hiệu suất của mô hình. Phạm vi nghiên cứu bao gồm các bộ dữ liệu đám đông và độ sâu có sẵn, với thời gian thực hiện từ năm 2019 đến 2022 tại thành phố Hồ Chí Minh.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao độ chính xác trong ước lượng mật độ người, góp phần cải thiện các hệ thống giám sát an ninh, quản lý sự kiện công cộng và hỗ trợ các biện pháp phòng chống dịch bệnh. Các chỉ số đánh giá như Mean Absolute Error (MAE) và Mean Square Error (MSE) được sử dụng để đo lường hiệu quả của mô hình, với mục tiêu giảm thiểu sai số so với các phương pháp hiện có.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: học đa tác vụ (multi-task learning) và mạng nơ-ron tích chập (Convolutional Neural Network - CNN). Học đa tác vụ cho phép mô hình học đồng thời nhiều nhiệm vụ liên quan, trong đó nhiệm vụ chính là ước lượng bản đồ mật độ người và nhiệm vụ phụ là ước lượng bản đồ độ sâu. Việc chia sẻ trọng số giữa các nhánh mạng giúp nhúng thông tin độ sâu vào quá trình huấn luyện, từ đó cải thiện khả năng xử lý biến đổi tỷ lệ kích thước người trong ảnh.

Mạng nơ-ron tích chập được sử dụng với kiến trúc bao gồm các lớp chập, lớp gộp và lớp kết nối đầy đủ. Đặc biệt, luận văn áp dụng khối tích chập giãn nở dày đặc (Dense Dilated Convolution Block - DDCB) để học các đặc trưng đa tỷ lệ một cách trực tiếp. DDCB sử dụng các tỉ lệ giãn nở tăng dần (1, 2, 3) giúp mở rộng trường tiếp nhận mà không làm tăng số lượng tham số, đồng thời tránh hiện tượng gridding artifacts. Ngoài ra, dense residual connection (DRC) được áp dụng để tăng cường luồng thông tin giữa các khối, bảo tồn các đặc trưng quan trọng và nâng cao hiệu quả học tập.

Ba khái niệm chính trong nghiên cứu gồm:

  • Bản đồ mật độ người (Crowd Density Map): biểu diễn mật độ phân bố người trong ảnh dưới dạng bản đồ số.
  • Học đa tác vụ (Multi-task Learning): kỹ thuật học máy cho phép mô hình học đồng thời nhiều nhiệm vụ liên quan.
  • Khối tích chập giãn nở dày đặc (DDCB): cấu trúc mạng giúp trích xuất đặc trưng đa tỷ lệ hiệu quả.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu bao gồm các bộ dữ liệu đám đông như ShanghaiTech, UCF_CC_50 và bộ dữ liệu độ sâu KITTI. Các bộ dữ liệu này cung cấp hình ảnh có gán nhãn bản đồ mật độ người và bản đồ độ sâu tương ứng, phục vụ cho việc huấn luyện và đánh giá mô hình.

Phương pháp phân tích chính là xây dựng và huấn luyện mạng đa tác vụ sử dụng thư viện PyTorch trên ngôn ngữ Python. Mạng gồm hai nhánh độc lập cho hai nhiệm vụ ước lượng bản đồ mật độ và bản đồ độ sâu, chia sẻ phần khối mã hóa (encoder). Quá trình huấn luyện sử dụng hàm mất mát tổng hợp gồm hàm mất mát Euclidean và hàm mất mát mức độ mật độ đa tỉ lệ, với trọng số điều chỉnh giữa các thành phần.

Cỡ mẫu huấn luyện bao gồm hàng nghìn ảnh từ các bộ dữ liệu, được chọn ngẫu nhiên để đảm bảo tính đa dạng và đại diện. Phương pháp chọn mẫu là ngẫu nhiên có kiểm soát nhằm tránh lệch dữ liệu. Timeline nghiên cứu kéo dài từ tháng 9/2019 đến tháng 4/2022, bao gồm các giai đoạn khảo sát tài liệu, xây dựng mô hình, huấn luyện, đánh giá và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của học đa tác vụ: Mạng đa tác vụ với nhánh ước lượng bản đồ độ sâu bổ trợ cho nhánh ước lượng bản đồ mật độ đã giảm MAE trung bình xuống khoảng 8% so với mô hình đơn tác vụ. Điều này chứng tỏ việc nhúng thông tin độ sâu giúp mạng hiểu rõ hơn về biến đổi tỷ lệ kích thước người trong ảnh.

  2. Tác động của khối DDCB: Việc sử dụng các khối tích chập giãn nở dày đặc với tỉ lệ giãn nở 1, 2, 3 đã giúp tăng độ đa dạng về tỷ lệ đặc trưng, cải thiện độ chính xác ước lượng mật độ người lên khoảng 10% so với các kiến trúc không sử dụng DDCB.

  3. Tăng tốc độ tính toán: Nhờ thiết kế đa tác vụ, nhánh ước lượng độ sâu có thể được loại bỏ trong giai đoạn kiểm tra, giúp giảm thời gian xử lý xuống khoảng 30% mà không làm giảm hiệu suất ước lượng mật độ.

  4. So sánh với các phương pháp hiện có: Mô hình đề xuất đạt MAE và MSE thấp hơn đáng kể so với các phương pháp như DSNet và PGCNet trên bộ dữ liệu ShanghaiTech, với MAE giảm từ khoảng 70 xuống còn khoảng 60.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do sự kết hợp đồng thời hai cách tiếp cận: trực tiếp học đặc trưng đa tỷ lệ qua DDCB và gián tiếp nhúng thông tin độ sâu qua học đa tác vụ. Việc này giúp mạng có khả năng thích ứng tốt với sự biến đổi tỷ lệ kích thước người trong ảnh do khoảng cách khác nhau đến camera, một thách thức lớn trong ước lượng mật độ đám đông.

So với các nghiên cứu trước đây, mô hình đề xuất không chỉ cải thiện độ chính xác mà còn giảm chi phí tính toán nhờ khả năng loại bỏ nhánh phụ trợ trong giai đoạn kiểm tra. Kết quả này phù hợp với các báo cáo của ngành về hiệu quả của học đa tác vụ trong các bài toán phức tạp.

Dữ liệu có thể được trình bày qua biểu đồ so sánh MAE và MSE giữa các mô hình, cũng như bảng thống kê thời gian xử lý và độ chính xác trên các bộ dữ liệu khác nhau, giúp minh họa rõ ràng sự vượt trội của phương pháp đề xuất.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống giám sát đám đông thông minh: Áp dụng mô hình ước lượng mật độ người trong các hệ thống camera giám sát tại các khu vực công cộng, sân bay, trung tâm thương mại để nâng cao hiệu quả quản lý an ninh và phòng chống dịch bệnh. Thời gian thực hiện đề xuất trong vòng 6-12 tháng, do các cơ quan quản lý và đơn vị công nghệ phối hợp thực hiện.

  2. Tối ưu hóa giao thông đô thị: Sử dụng dữ liệu mật độ người để điều chỉnh tín hiệu giao thông, đặc biệt trong giờ cao điểm, nhằm giảm ùn tắc và cải thiện lưu thông. Giải pháp này nên được triển khai thí điểm tại các thành phố lớn trong vòng 1 năm.

  3. Phát triển ứng dụng phân tích hành vi đám đông: Kết hợp với các công nghệ AI khác để phân tích hành vi và dự báo nguy cơ tại các sự kiện đông người, giúp cảnh báo sớm và phòng ngừa tai nạn. Các đơn vị tổ chức sự kiện và an ninh nên áp dụng trong vòng 2 năm tới.

  4. Nâng cao hiệu quả truyền thông mạng không dây: Ứng dụng mô hình để phân bổ tài nguyên mạng 4G/5G tại các khu vực đông người, đặc biệt khi sử dụng UAV để cung cấp sóng di động ngoài trời. Các nhà mạng và đơn vị công nghệ cần phối hợp triển khai trong 1-2 năm.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành kỹ thuật điện tử, công nghệ thông tin: Luận văn cung cấp kiến thức chuyên sâu về học sâu, mạng nơ-ron tích chập và học đa tác vụ trong bài toán ước lượng mật độ người, hỗ trợ phát triển các đề tài nghiên cứu liên quan.

  2. Chuyên gia phát triển hệ thống giám sát an ninh: Các kỹ sư và nhà phát triển phần mềm có thể áp dụng mô hình và phương pháp đề xuất để xây dựng các hệ thống giám sát đám đông chính xác và hiệu quả hơn.

  3. Cơ quan quản lý đô thị và an ninh công cộng: Thông tin và kết quả nghiên cứu giúp các nhà quản lý hiểu rõ hơn về công nghệ ước lượng mật độ người, từ đó đưa ra các chính sách và giải pháp quản lý phù hợp.

  4. Doanh nghiệp công nghệ và nhà cung cấp dịch vụ mạng: Các công ty phát triển giải pháp AI, mạng di động có thể tận dụng mô hình để tối ưu hóa dịch vụ, nâng cao trải nghiệm người dùng trong các khu vực đông đúc.

Câu hỏi thường gặp

  1. Mô hình học đa tác vụ có ưu điểm gì so với mô hình đơn tác vụ?
    Học đa tác vụ cho phép mạng học đồng thời nhiều nhiệm vụ liên quan, giúp chia sẻ thông tin và cải thiện hiệu suất tổng thể. Ví dụ, việc thêm nhiệm vụ ước lượng độ sâu giúp mạng hiểu rõ hơn về biến đổi tỷ lệ kích thước người, giảm sai số ước lượng mật độ.

  2. Khối tích chập giãn nở dày đặc (DDCB) hoạt động như thế nào?
    DDCB sử dụng các lớp chập với tỉ lệ giãn nở tăng dần (1, 2, 3) để mở rộng trường tiếp nhận mà không tăng số lượng tham số, giúp mạng học được đặc trưng đa tỷ lệ một cách hiệu quả, phù hợp với sự biến đổi kích thước người trong ảnh.

  3. Làm thế nào để giảm chi phí tính toán khi sử dụng mạng đa tác vụ?
    Trong giai đoạn kiểm tra, nhánh ước lượng độ sâu có thể được loại bỏ mà không ảnh hưởng đến hiệu suất ước lượng mật độ, giúp giảm thời gian xử lý khoảng 30%, tăng tốc độ tính toán.

  4. Các chỉ số MAE và MSE phản ánh điều gì trong đánh giá mô hình?
    MAE đo sai số trung bình tuyệt đối giữa dự đoán và giá trị thực, còn MSE đo sai số bình phương trung bình, nhấn mạnh các sai số lớn hơn. Cả hai đều dùng để đánh giá độ chính xác của mô hình ước lượng mật độ người.

  5. Ứng dụng thực tế của mô hình này là gì?
    Mô hình có thể được ứng dụng trong giám sát an ninh công cộng, quản lý sự kiện, tối ưu hóa giao thông và phân bổ tài nguyên mạng di động tại các khu vực đông người, góp phần nâng cao an toàn và hiệu quả quản lý đô thị.

Kết luận

  • Đề tài đã phát triển thành công một mạng học sâu đa tác vụ kết hợp ước lượng bản đồ mật độ người và bản đồ độ sâu, giải quyết hiệu quả vấn đề biến đổi tỷ lệ kích thước người trong ảnh.
  • Việc sử dụng khối tích chập giãn nở dày đặc và dense residual connection giúp mạng học được đặc trưng đa tỷ lệ phong phú, nâng cao độ chính xác ước lượng.
  • Kết quả thực nghiệm trên các bộ dữ liệu chuẩn cho thấy mô hình đạt hiệu suất vượt trội so với các phương pháp hiện có, giảm sai số MAE và MSE đáng kể.
  • Thiết kế đa tác vụ cho phép loại bỏ nhánh phụ trợ trong giai đoạn kiểm tra, giảm chi phí tính toán và tăng tốc độ xử lý.
  • Hướng phát triển tiếp theo là mở rộng mô hình cho các ứng dụng thực tế, tích hợp với các hệ thống giám sát và phân tích đám đông thông minh, đồng thời nghiên cứu các phương pháp học không giám sát để giảm phụ thuộc vào dữ liệu gán nhãn.

Để tiếp tục phát triển và ứng dụng mô hình, các nhà nghiên cứu và doanh nghiệp công nghệ được khuyến khích hợp tác triển khai thử nghiệm thực tế, đồng thời mở rộng phạm vi nghiên cứu sang các lĩnh vực liên quan như phân tích hành vi đám đông và dự báo nguy cơ an ninh.