Hệ Thống Giám Sát Đám Đông: Nghiên Cứu và Ứng Dụng Khoa Học Máy Tính

Tài liệu nghiên cứu Xây dựng hệ thống giám sát đám đông, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về kỹ thuật.

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Động lực nghiên cứu

1.1.1. Tính khoa học

1.1.2. Tính ứng dụng

1.2. Phát biểu bài toán

1.3. Phạm vi bài toán

1.4. Mô tả chung về hệ thống

1.5. Đóng góp của luận văn

1.6. Cấu trúc luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Một số cơ sở lý thuyết

2.1.1. Phân phối chuẩn

2.1.2. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN)

2.2. Các phương pháp giải quyết hiện có

2.2.1. Các phương pháp dựa trên phát hiện đối tượng

2.2.2. Các phương pháp dựa trên hồi quy

2.2.3. Các phương pháp dựa trên ước lượng mật độ

2.3. Các công trình nghiên cứu liên quan

3. CHƯƠNG 3: HƯỚNG TIẾP CẬN CỦA LUẬN VĂN

3.1. Hệ Thống Ước Lượng Đám Đông

3.1.1. Mô hình phân lớp Human Classifier

3.1.2. Ước lượng số người trong đám đông

3.1.3. Xây dựng bản đồ mật độ xác thực

3.1.4. Mô hình ước lượng số người trong đám đông

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Các bộ dữ liệu chuẩn để thực nghiệm

4.1.1. Bộ dữ liệu UCF_CC_50

4.1.2. Bộ dữ liệu ShanghaiTech

4.2. Phương pháp đánh giá

4.3. Cài đặt chương trình ứng dụng demo

4.3.1. Môi trường và ngôn ngữ cài đặt

4.3.2. Giao diện chương trình

4.4. Tạo dữ liệu để huấn luyện và kiểm thử mô hình

4.4.1. Huấn luyện mô hình trên giao diện console

4.4.2. Kiểm thử mô hình trên giao diện console

4.5. Kết quả thực nghiệm

4.5.1. Tập dữ liệu UCF_CC_50

4.5.2. Tập dữ liệu ShanghaiTech

4.6. Hướng phát triển

CÔNG TRÌNH CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Hệ Thống Giám Sát Đám Đông và Khoa Học Máy Tính

Hệ thống giám sát đám đông đang trở thành một phần quan trọng trong việc quản lý an ninh công cộng. Với sự phát triển của khoa học máy tính, các công nghệ như trí tuệ nhân tạo và phân tích dữ liệu lớn đã được áp dụng để cải thiện khả năng giám sát. Hệ thống này không chỉ giúp phát hiện và theo dõi đám đông mà còn cung cấp thông tin chi tiết về hành vi của người dùng trong các tình huống khác nhau.

1.1. Định nghĩa và vai trò của hệ thống giám sát đám đông

Hệ thống giám sát đám đông là công nghệ sử dụng cảm biến và camera để theo dõi và phân tích hành vi của đám đông. Vai trò của nó rất quan trọng trong việc đảm bảo an ninh công cộng và quản lý các sự kiện lớn.

1.2. Lịch sử phát triển của công nghệ giám sát

Công nghệ giám sát đã trải qua nhiều giai đoạn phát triển từ những năm 1960 với các hệ thống camera đơn giản đến các hệ thống hiện đại sử dụng học máy và phân tích hình ảnh. Sự phát triển này đã mở ra nhiều cơ hội mới cho việc giám sát đám đông.

II. Thách thức trong việc giám sát đám đông hiện nay

Mặc dù công nghệ giám sát đám đông đã phát triển mạnh mẽ, nhưng vẫn còn nhiều thách thức cần phải giải quyết. Các vấn đề như che khuất, ánh sáng không đồng đều, và độ giãn của đám đông gây khó khăn cho việc phân tích chính xác. Những thách thức này đòi hỏi các giải pháp sáng tạo và hiệu quả hơn.

2.1. Vấn đề che khuất và ánh sáng

Che khuất và ánh sáng không đồng đều có thể làm giảm độ chính xác của các hệ thống giám sát. Việc phát hiện người trong các tình huống này trở nên khó khăn hơn, yêu cầu các thuật toán phải được cải tiến để xử lý tốt hơn.

2.2. Độ giãn và mật độ đám đông

Khi mật độ đám đông tăng lên, việc phân tích hành vi trở nên phức tạp hơn. Các hệ thống hiện tại thường gặp khó khăn trong việc ước lượng số lượng người trong các tình huống đông đúc, dẫn đến sai lệch trong kết quả.

III. Phương pháp chính trong giám sát đám đông

Để giải quyết các thách thức trong giám sát đám đông, nhiều phương pháp đã được phát triển. Các phương pháp này bao gồm phát hiện đối tượng, hồi quy, và ước lượng mật độ. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng.

3.1. Phương pháp phát hiện đối tượng

Phương pháp phát hiện đối tượng tập trung vào việc xác định và theo dõi từng cá nhân trong đám đông. Tuy nhiên, khi mật độ người tăng cao, hiệu suất của phương pháp này thường giảm sút.

3.2. Phương pháp hồi quy

Phương pháp hồi quy giúp ánh xạ các đặc trưng từ ảnh đến số lượng người. Mặc dù phương pháp này tránh được việc phát hiện đối tượng, nhưng lại bỏ qua thông tin không gian quan trọng.

3.3. Phương pháp ước lượng mật độ

Phương pháp ước lượng mật độ sử dụng hàm mật độ xác suất để ước lượng số lượng người trong đám đông. Đây là phương pháp hiệu quả nhất trong các tình huống đông đúc, giúp cải thiện độ chính xác của việc đếm số người.

IV. Ứng dụng thực tiễn của hệ thống giám sát đám đông

Hệ thống giám sát đám đông có nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau. Từ việc quản lý sự kiện lớn đến việc cải thiện an ninh công cộng, công nghệ này đang ngày càng trở nên quan trọng trong xã hội hiện đại.

4.1. Quản lý sự kiện và an ninh công cộng

Hệ thống giám sát đám đông giúp các nhà tổ chức sự kiện theo dõi và quản lý đám đông hiệu quả hơn. Điều này không chỉ giúp đảm bảo an toàn mà còn cải thiện trải nghiệm của người tham gia.

4.2. Ứng dụng trong thương mại và dịch vụ

Trong lĩnh vực thương mại, việc ước lượng mật độ đám đông có thể giúp các nhà quản lý tối ưu hóa quy trình phục vụ khách hàng, từ đó nâng cao hiệu quả kinh doanh.

V. Kết luận và tương lai của hệ thống giám sát đám đông

Hệ thống giám sát đám đông đang phát triển nhanh chóng và có tiềm năng lớn trong tương lai. Với sự tiến bộ của khoa học máy tính và công nghệ cảm biến, các giải pháp giám sát sẽ ngày càng chính xác và hiệu quả hơn. Điều này không chỉ giúp cải thiện an ninh mà còn nâng cao chất lượng cuộc sống cho người dân.

5.1. Xu hướng phát triển công nghệ giám sát

Công nghệ giám sát sẽ tiếp tục phát triển với sự tích hợp của trí tuệ nhân tạo và học máy. Các hệ thống sẽ trở nên thông minh hơn, có khả năng tự động phân tích và đưa ra cảnh báo kịp thời.

5.2. Thách thức và cơ hội trong tương lai

Mặc dù có nhiều cơ hội, nhưng cũng cần phải đối mặt với các thách thức về quyền riêng tư và an ninh dữ liệu. Việc phát triển các giải pháp bảo mật hiệu quả sẽ là một yếu tố quan trọng trong tương lai của hệ thống giám sát đám đông.

17/06/2025

Bạn đang xem trước tài liệu:

Xây dựng hệ thống giám sát đám đông

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghệ lần thứ tư, việc ứng dụng trí tuệ nhân tạo và Internet of Things (IoT) đã thúc đẩy sự phát triển của các thành phố thông minh (Smart City). Một trong những yêu cầu quan trọng là xây dựng hệ thống giám sát đám đông thông minh dựa trên camera CCTV nhằm tự động hóa việc quản lý và giám sát các hoạt động của con người. Theo ước tính, mật độ dân cư tại các đô thị lớn ngày càng tăng, đồng thời các sự kiện thể thao, mít tinh, biểu tình cũng diễn ra thường xuyên, làm tăng nhu cầu giám sát đám đông chính xác và kịp thời. Việc này không chỉ giúp phòng tránh các sự cố an ninh mà còn hỗ trợ quản lý hiệu quả các khu vực công cộng.

Luận văn tập trung vào bài toán ước lượng mật độ và đếm số người trong đám đông từ hình ảnh camera giám sát, với phạm vi nghiên cứu trên các bộ dữ liệu chuẩn như UCF_CC_50 và ShanghaiTech Part A, B. Mục tiêu chính là xây dựng một hệ thống giám sát đám đông sử dụng các kỹ thuật học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), nhằm cải thiện độ chính xác trong việc ước lượng số người và bản đồ mật độ. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả giám sát an ninh, quản lý sự kiện và hỗ trợ các dịch vụ công cộng như siêu thị, rạp chiếu phim thông qua việc phân tích mật độ người.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Phân phối chuẩn (Gaussian distribution): Đây là mô hình phân phối xác suất quan trọng, được sử dụng để xây dựng bản đồ mật độ xác thực. Mỗi điểm đầu người trong ảnh được biểu diễn bằng một hàm Gaussian hai chiều với giá trị trung bình tại vị trí điểm đầu người và phương sai được xác định dựa trên khoảng cách đến các điểm lân cận. Phân phối này giúp mô phỏng mật độ người trong ảnh một cách chính xác.
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): CNN được sử dụng để xây dựng các mô hình ước lượng bản đồ mật độ và phân loại ảnh. Kiến trúc CNN bao gồm các tầng convolutional, hàm kích hoạt ReLU, tầng pooling và tầng fully connected. CNN giúp trích xuất đặc trưng không gian từ ảnh đầu vào, hỗ trợ việc ước lượng số người trong đám đông.

Các khái niệm chính bao gồm: bản đồ mật độ (density map), bộ phân lớp Human Classifier để phân loại ảnh có người hay không, Regressor với các bộ lọc kích thước khác nhau để ước lượng mật độ người, và Switch Classifier để kết hợp các bản đồ mật độ từ các Regressor.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai bộ dữ liệu chuẩn: UCF_CC_50 và ShanghaiTech Part A, B, với tổng cộng khoảng 1.198 hình ảnh và hơn 330.000 điểm đầu người được đánh dấu. Dữ liệu được chia thành các patch ảnh (lưới 3x3 hoặc 4x4) để tăng số lượng mẫu và áp dụng tiền phân loại.

Phương pháp phân tích bao gồm:

Tiền phân loại ảnh: Sử dụng mạng VGG-16 làm Human Classifier để phân loại patch ảnh có người hay không, giúp loại bỏ các vùng không có người nhằm giảm sai số ước lượng.
Xây dựng bản đồ mật độ xác thực: Áp dụng nhân Gaussian với tham số σ cố định hoặc thích ứng dựa trên khoảng cách trung bình đến các điểm lân cận.
Huấn luyện mô hình Regressor: Ba mô hình CNN với các bộ lọc kích thước khác nhau (lớn, vừa, nhỏ) được huấn luyện để ước lượng bản đồ mật độ tương ứng với mật độ người thấp, vừa và cao.
Kết hợp bản đồ mật độ: Sử dụng Switch Classifier để phân lớp patch ảnh theo mật độ và kết hợp các bản đồ mật độ từ các Regressor dựa trên xác suất phân lớp.

Quá trình nghiên cứu được thực hiện trong hai giai đoạn: ngoại tuyến (huấn luyện mô hình) và trực tuyến (ứng dụng mô hình để ước lượng số người từ ảnh mới). Cỡ mẫu huấn luyện được cân bằng bằng cách nhân bản các mẫu ít để giải quyết vấn đề mất cân bằng dữ liệu. Phương pháp phân tích chính là học sâu với hàm mất mát cross-entropy cho phân loại và hàm mất mát bình phương cho ước lượng bản đồ mật độ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của bộ phân lớp Human Classifier: Việc sử dụng mạng VGG-16 để phân loại patch ảnh có người hay không giúp giảm sai số ước lượng số người trong các vùng không có người. Kết quả thực nghiệm cho thấy, số đếm ước lượng trong các vùng không có người được gán bằng 0, tránh được việc ước lượng sai lệch như các phương pháp trước đây.
Ước lượng bản đồ mật độ chính xác hơn: Sử dụng nhân Gaussian với tham số σ thích ứng cho các ảnh có mật độ người phân bố đều (ShanghaiTech Part A, UCF_CC_50) và σ cố định cho ảnh có mật độ không đồng đều (ShanghaiTech Part B) giúp cải thiện độ chính xác của bản đồ mật độ xác thực. Ví dụ, với σ = 15 cho bộ dữ liệu ShanghaiTech Part B, độ sai số giảm đáng kể so với việc sử dụng σ cố định cho tất cả các ảnh.
Mô hình đa cột Regressor và Switch Classifier: Ba Regressor với các bộ lọc kích thước khác nhau (R1, R2, R3) tương ứng với mật độ người thấp, vừa và cao cho ra ba bản đồ mật độ khác nhau. Switch Classifier phân lớp patch ảnh và kết hợp các bản đồ mật độ dựa trên xác suất phân lớp, giúp tăng độ chính xác tổng thể. Kết quả trên bộ dữ liệu UCF_CC_50 cho thấy phương pháp này giảm sai số trung bình tuyệt đối (MAE) so với các phương pháp MCNN và Switch-CNN truyền thống.
So sánh với các phương pháp hiện có: Phương pháp đề xuất khắc phục được nhược điểm của MCNN và Switch-CNN khi ước lượng số người trong các vùng không có người và trong môi trường có mật độ người vừa và đông. Độ chính xác ước lượng được cải thiện khoảng 10-15% so với các phương pháp trước.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến là do việc tiền phân loại ảnh có người hay không giúp loại bỏ các vùng nhiễu, đồng thời việc sử dụng mô hình đa cột với Switch Classifier cho phép mô hình thích ứng tốt với các mật độ người khác nhau trong ảnh. So với các nghiên cứu trước, phương pháp này không chỉ dựa vào một mô hình CNN cố định mà còn kết hợp linh hoạt các mô hình phù hợp với từng vùng ảnh.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh MAE và MRE (Mean Relative Error) trên các bộ dữ liệu chuẩn, cũng như bảng tổng hợp kết quả ước lượng số người giữa các phương pháp. Các biểu đồ bản đồ mật độ xác thực và bản đồ mật độ ước lượng cũng minh họa rõ sự tương đồng và cải tiến của phương pháp.

Kết quả nghiên cứu có ý nghĩa thực tiễn cao trong việc phát triển các hệ thống giám sát đám đông thông minh, giúp nâng cao khả năng phát hiện sớm các tình huống bất thường và hỗ trợ quản lý an ninh hiệu quả.

Đề xuất và khuyến nghị

Triển khai hệ thống giám sát đám đông thông minh: Áp dụng mô hình Human Classifier kết hợp Regressor và Switch Classifier vào các hệ thống camera giám sát tại các đô thị lớn nhằm tự động ước lượng mật độ và số người trong thời gian thực. Mục tiêu giảm thiểu sai số ước lượng xuống dưới 10% trong vòng 12 tháng.
Mở rộng bộ dữ liệu huấn luyện: Thu thập và đánh dấu thêm các bộ dữ liệu đa dạng về môi trường, góc quay và mật độ người để tăng khả năng tổng quát hóa của mô hình. Thực hiện trong 6-9 tháng tiếp theo bởi các trung tâm nghiên cứu và doanh nghiệp công nghệ.
Tối ưu hóa mô hình cho thiết bị nhúng: Nghiên cứu và phát triển phiên bản mô hình nhẹ, tối ưu cho các thiết bị giám sát có tài nguyên hạn chế như camera thông minh hoặc thiết bị biên (edge devices). Mục tiêu giảm thời gian xử lý ảnh xuống dưới 1 giây trên thiết bị nhúng trong 1 năm.
Phát triển hệ thống cảnh báo sớm: Kết hợp hệ thống ước lượng mật độ với các thuật toán phân tích hành vi để phát hiện các tình huống nguy hiểm như quá tải đám đông hoặc các hành vi bất thường. Triển khai thử nghiệm tại các sự kiện lớn trong vòng 18 tháng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về ứng dụng CNN trong bài toán ước lượng mật độ đám đông, giúp phát triển các nghiên cứu tiếp theo về thị giác máy tính và học sâu.
Chuyên gia phát triển hệ thống giám sát an ninh: Các kỹ sư và nhà phát triển phần mềm có thể áp dụng mô hình và phương pháp đề xuất để nâng cao hiệu quả giám sát đám đông trong các hệ thống camera thông minh.
Quản lý đô thị và an ninh công cộng: Cơ quan quản lý có thể sử dụng kết quả nghiên cứu để triển khai các giải pháp giám sát tự động, hỗ trợ quản lý sự kiện và phòng ngừa rủi ro an ninh.
Doanh nghiệp công nghệ và nhà cung cấp thiết bị giám sát: Các công ty phát triển camera và phần mềm giám sát có thể tích hợp mô hình vào sản phẩm, nâng cao giá trị và tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

Phương pháp nào được sử dụng để ước lượng số người trong đám đông?
Phương pháp chính là sử dụng mạng nơ-ron tích chập (CNN) để ước lượng bản đồ mật độ người từ ảnh, sau đó lấy tổng giá trị bản đồ mật độ để tính số người. Mô hình bao gồm ba Regressor với bộ lọc kích thước khác nhau và Switch Classifier để kết hợp kết quả.
Làm thế nào để xử lý các vùng ảnh không có người?
Luận văn đề xuất sử dụng bộ phân lớp Human Classifier dựa trên mạng VGG-16 để phân loại patch ảnh có người hay không. Các vùng không có người sẽ được gán số đếm bằng 0, giúp giảm sai số ước lượng.
Bản đồ mật độ xác thực được xây dựng như thế nào?
Bản đồ mật độ xác thực được tạo bằng cách áp dụng nhân Gaussian hai chiều tại mỗi điểm đầu người đã được đánh dấu trong ảnh, với tham số σ được chọn cố định hoặc thích ứng dựa trên khoảng cách đến các điểm lân cận.
Phương pháp này có thể áp dụng cho các đối tượng khác ngoài người không?
Mặc dù nghiên cứu tập trung vào đám đông người, phương pháp ước lượng mật độ dựa trên CNN và bản đồ mật độ có thể mở rộng cho các đối tượng khác như xe cộ, động vật hoặc tế bào trong các ứng dụng tương tự.
Hiệu quả của mô hình so với các phương pháp trước đó như thế nào?
Mô hình đề xuất cải thiện độ chính xác ước lượng số người khoảng 10-15% so với các phương pháp MCNN và Switch-CNN, đồng thời giảm sai số trong các vùng không có người nhờ bộ phân lớp Human Classifier.

Kết luận

Luận văn đã xây dựng thành công hệ thống giám sát đám đông sử dụng mạng nơ-ron tích chập kết hợp bộ phân lớp Human Classifier và Switch Classifier, nâng cao độ chính xác ước lượng số người và bản đồ mật độ.
Việc áp dụng nhân Gaussian thích ứng giúp mô hình phù hợp với các loại mật độ người khác nhau trong ảnh.
Kết quả thực nghiệm trên bộ dữ liệu chuẩn UCF_CC_50 và ShanghaiTech cho thấy sự cải tiến rõ rệt so với các phương pháp hiện có.
Hệ thống có tiềm năng ứng dụng rộng rãi trong giám sát an ninh, quản lý sự kiện và các dịch vụ công cộng.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, tối ưu hóa mô hình cho thiết bị nhúng và phát triển hệ thống cảnh báo sớm nhằm nâng cao tính ứng dụng thực tiễn.

Để tiếp tục phát triển và ứng dụng nghiên cứu này, các nhà nghiên cứu và doanh nghiệp công nghệ được khuyến khích hợp tác triển khai thử nghiệm thực tế và mở rộng phạm vi nghiên cứu.

Trích đoạn nội dung tài liệu

Chương 1: Trình bảy tổng quan về đề tài của luận văn, phát biểu bài toán, động lực, các thách thức và đóng góp của luận văn. - Chương 2: Trình bày chi tiết về bài toán, cơ sở lý thuyết quan trọng và một số nghiên cứu liên quan đến dề tài của luận văn. - Chương 3: Mô tả chi tiết về hệ thống và các cải tiến so với các cách tiếp cận trước đó. - Chương 4: Cài đặt hệ thống, thử nghiệm và đánh giá trên các bộ dữ liệu chuẩn.

- Chương 5: Kết luận và hướng phát triển. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan Một số cơ sở lý thuyết 2. Phân phối chuẩn Dữ liệu có thể được phân phối theo nhiều cách như trải về bên phải, trải về bên trái phải hoặc không đồng đều. Nhưng trong đa số trường hợp, dữ liệu có xu hướng tập trung quanh một giá trị trung tâm (0).

Phân phối này được gọi là phân phối chuẩn. Phân phối chuẩn hay còn được gọi là phân phối Gauss là một trong những phân phối quan trọng nhất và được ứng dụng rất rộng rãi trong thực tế. Giống như các phân phối khác, phân phối chuẩn được định nghĩa dựa vào hàm mật độ xác suất: 1 − − f x √2 với là giá trị trung bình, là độ lệch chuẩn, là phương sai. Một số dạng phân phối dữ liệu.com/data/standard-normal-distribution.

Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) Mạng Nơ-ron tích chập rất giống với mạng Nơ-ron thông thường, chúng được tạo thành từ các nơ-ron có trọng số, bias và hàm mất mát (ví dụ: SVM, Softmax…) trên tầng kết nối đầy đủ (fully connected) cuối cùng. Kiến trúc CNN được tạo thành từ các tầng cơ bản như sau: Hình 2. Kiến trúc CNN cơ bản.2 - Tầng Convolutional: Bao gồm các bộ lọc (filter) là một ma trận vuông có kích thước nhỏ cho trượt qua toàn bộ ma trận các pixel của ảnh đầu vào. Các bộ lọc này có các thông số như Depth (chiều sâu của bộ lọc), Stride (khoảng cách giữa mỗi lần trượt) và Padding (kích thước viền cho ảnh đầu vào).

Khi trượt, ta tính tích chập của ma trận này và ma trận các pixel của vùng ảnh đang xét tới (cách tính như hình 2. Sau khi tính trên toàn bộ ảnh ta sẽ được bản đồ đặc trưng (feature map). Ví dụ: 2 https://en.org/wiki/Convolutional_neural_network 17 Hình 2. Mô tả cách tính tích chập của các bộ lọc.3 - Kết quả đầu ra được tính bằng công thức:.

Với wi là trọng số của filter, là giá trị pixel của ảnh đầu vào, b là bias. Ở đây 3 ma trận vuông xếp theo cột thể hiện 3 kênh màu (Red, Green, Blue) của ảnh đầu vào. Viền gồm các giá trị 0 (zero padding) cũng được tạo để không làm giảm kích thước ảnh đầu vào. Ví dụ trên gồm 2 bộ lọc nên kết quả sẽ ra 2 feature map.

- Tầng ReLU: Là một dạng hàm kích hoạt (activation function). Sau mỗi tầng conv, chỉ có phép nhân và cộng được sử dụng, vì vậy hàm kích hoạt này để loại bỏ tính tuyến tính của mô hình. Có nhiều hàm kích hoạt được sử dụng như tanh, sigmoid 3 http://cs231n.io/convolutional-networks/ 18 nhưng người ta thường sử dụng ReLU do khả năng tính toán nhanh của nó. Hàm kích hoạt có dạng:.

Hình dạng hàm kích hoạt ReLU. - Tầng pooling: Thường dùng nhất là max pooling, tức là trong một cửa sổ thì sẽ lấy giá trị lớn nhất làm đại diện. Chức năng của tầng này là làm giảm kích thước ảnh, tránh overfitting vì các chi tiết nhỏ thường không quan trọng trong việc dự đoán. Ngoài max pooling còn có min pooling là lấy giá trị nhỏ nhất làm đại diện và average pooling là lấy giá trị trung bình làm đại diện.

Ví dụ về maxpooling với filter 2x2 và stride là 2.4 - Tầng kết nối đầy đủ (fully connected): Tương tự như mạng nơ -ron bình thường. Sau khi qua các tầng trên thì dữ liệu đã được rút trích thành những đặc trưng, nhờ đó ta có thể dùng tầng fully connected như một bộ phân lớp.org/wiki/Convolutional_neural_network 19 Để huấn luyện cho mạng, tức là cập nhật bộ trọng số của các bộ lọc cũng như của tầng FC, ta sử dụng thuật toán lan truyền ngược như gradient descent. Các phương pháp giải quyết hiện có Hiện nay có nhiều cách tiếp cận để giải quyết việc ước lượng và đếm số người trong đám đông. Có thể chia thành như sau: - Các phương pháp dựa trên phát hiện đối tượng (Detection-based) - Các phương pháp dựa trên hồi quy (Regression-based) - Các phương pháp dựa trên ước lượng mật độ (Density estimation-based) 2.

Các phương pháp dựa trên phát hiện đối tượng Hầu hết các phương pháp này tập trung vào việc phát hiện đối tượng bằng cách dùng cửa sổ trượt để phát hiện người trong ảnh hay video và dùng thông tin này để đếm số người. Nhược điểm của phương pháp này là khi mật độ người càng đông thì hiệu quả của nó càng thấp. Các phương pháp dựa trên hồi quy Các phương pháp này gồm 2 phần: rút trích các đặc trưng từ ảnh và xây dựng một mô hình hồi quy để ánh xạ các đặc trưng này với kết quả đếm được. Các phương pháp này tránh được việc giải quyết bài toán khó là việc phát hiện đối tượng.

Tuy nhiên lại bỏ qua thông tin về không gian trong ảnh như là vị trí người có trong ảnh. Các phương pháp dựa trên ước lượng mật độ Các phương pháp dựa trên hồi quy tuy tránh được các thách thức về che khuất tuy nhiên lại bỏ qua thông tin về không gian mà chỉ ước lượng ra số đếm. Vì vậy, việc đếm số người trong đám đông chuyển sang hướng mới là đếm số người dựa trên ước lượng mật độ. Bản chất của phương pháp này là hàm mật độ xác suất và số đếm được tính bằng cách lấy tích phân hàm mật độ này trên khoảng xác định.

Phương pháp này có ưu điểm tránh được bài toán khó là phát hiện và định vị đối tượng trong ảnh và chú yếu dựa vào 20 việc ước tính bản đồ mật độ (density map). Để hiểu đơn giản thì bản đồ mật độ là một mảng 2 chiều và tổng các giá trị trong mảng này chính là số đếm. Trong phạm vi luận văn này, học viên chỉ tập trung theo hướng sử dụng phương pháp dựa trên ước lượng mật độ. Các công trình nghiên cứu liên quan Bài toán đếm đối tượng ở đây là ước lượng số lượng đối tượng ở trong ảnh hay video.

Tác giả Lempitsky [9] đã đề xuất một phương pháp xây dựng một hàm mật độ F (density function) từ ảnh I. Thì số đối tượng có trong ảnh sẽ được ước lượng bằng cách lấy tích phân trên toàn bộ ảnh. Gần đây, do sự thành công của mạng Nơ-ron tích chập (CNN) trong nhiều ứng dụng của ngành Thị giác máy tính. Nhiều công trình dựa trên CNN cho bài toán đếm người trong đám đông được phát triển.

Tác giả Wang [25] là một trong những người đầu tiên áp dụng CNN vào bài toán ước lượng số người trong đám đông với nền tảng là phương pháp dựa trên hồi quy. Tác giả chọn mạng AlexNet [8] làm cơ sở để xây dựng mô hình mạng của mình, tầng kết nối đầy đủ cuối cùng của mạng AlexNet được thay thế bằng 1 nơ-ron để ước lượng số đếm. Họ cũng mở rộng thêm các mẫu âm bằng cách thêm vào những mẫu không có người và đặt số người cho mẫu này là 0. Mục đích của việc làm này là để giảm sự sai lệch khi gặp các đối tượng khác như nhà cửa, cây cối, mây… Tác giả Zhang [26] cho rằng cách xây dựng bản đồ mật độ của Lempitsky [9] chỉ phù hợp với các đối tượng tròn như tế bào hay vi khuẩn.

Cách làm này có thể không tối khi áp dụng cho đám đông do tầm nhìn của camera thường bị nghiêng. Để giải quyết vấn đề này, tác giả đề xuất áp dụng Gaussian kernel cho cả phần đầu và phần thân thể. Tác giả cũng chỉ ra rằng các cách tiếp cận trước hiệu năng sẽ giảm khi áp dụng cho các ảnh mới khác với tập dữ liệu huấn luyện. Để giái quyết vấn đề này, tác giả đào tạo mô hình mạng của họ bằng cách huấn luyện luân phiên 2 tác vụ: đếm và ước lượng mật độ.

Khi gặp các ảnh mới (không nằm trong tập huấn luyện và tập kiểm thử) thì sẽ tìm kiếm các 21 mẫu trong tập huấn luyện có phối cảnh (perspective) tương tự với ảnh này. Điều này làm cho mô hình mạng có thể thích nghi với các cảnh mới mà không cần thêm thông t in vị trí các đầu người có trong ảnh. Tuy nhiên, tác giả Boominathan [2] lại cho rằng việc làm này khá tốn thời gian so với hiệu quả mà nó mang lại. Tác giả Zhang [27] đã đề xuất một kiến trúc đa cột (multi-column) để xử lý các ảnh đầu vào.

Phương pháp được sử dụng tạo ra một mạng gồm 3 cột, mỗi cột sẽ các bộ lọc với kích thước khác nhau (lớn, vừa, nhỏ) (Hình 2. Tuy nhiên khác với cách tiếp cận trước là cố định giá trị trong nhân Gaussian (Gaussian kernel), tác giả chỉ ra mối liên quan giữa kích thước đầu người và khoảng cách với các đầu người bên cạnh. Tức là khoảng cách giữa các đầu người được đánh dấu càng gần thì có thể đầu người đó nhỏ. Vì thế, họ dùng 2 phương pháp để chọn tham số σ là kernel cố định (fixed kernel) và kernel thích ứng hình học (geometry-adapter kernel) để xây dựng bản đồ mật độ xác thực.

Dựa vào thực nghiệm, khi bộ dữ liệu ảnh có mật độ vừa thì tác giả dùng σ cố định còn khi bộ dữ liệu có mật độ đông thì dùng σ thích ứng. Tác giả cũng tạo ra một bộ dữ liệu mới gọi là ShanghaiTech gồm 1198 hình ảnh và 330000 đầu người đã được đánh dấu. Kiến trúc MCNN. 22 Do đây là một trong hai mô hình học viên lấy làm nền, vì thế học viên sẽ mô tả chi tiết về mô hình mạng.

MCNN bao gồm 3 cột CNN, kiến trúc mỗi cột được miêu tả ở hình 2. Cột CNN đầu tiên (conv-ReLU-pooling-conv-ReLU-pooling-conv-ReLU- conv-ReLU) bao gồm tầng conv (16 filter 9x9), tầng max pooling (2x2), tầng conv (32 filter 7x7), tầng max pooling (2x2), tầng conv (16 filter 7x7), tầng conv (8 filter 7x7) (Lưu ý, sau mỗi tầng fully connected đều có sử dụng hàm kích hoạt ReLu) Tương tự với các cột CNN thứ 2 và 3 nhưng chỉ thay đổi số lượng và kích thước bộ lọc. Mục đích là dùng bộ lọc kích thước lớn để rút đặc trưng từ những đầu người lớn và bộ lọc kích thước nhỏ để rút đặc trưng từ những đầu người nhỏ. Để đỡ phức tạp cho việc tính toán thì kích thước bộ lọc càng lớn thì số bộ lọc sẽ càng nhỏ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Hệ Thống Giám Sát Đám Đông: Nghiên Cứu và Ứng Dụng Khoa Học Máy Tính" cung cấp cái nhìn sâu sắc về việc áp dụng các công nghệ khoa học máy tính trong việc giám sát và phân tích đám đông. Tài liệu này không chỉ trình bày các phương pháp và thuật toán hiện đại mà còn nêu bật những lợi ích mà hệ thống giám sát này mang lại, như khả năng phát hiện sớm các tình huống khẩn cấp và cải thiện an ninh công cộng. Độc giả sẽ tìm thấy thông tin hữu ích về cách mà công nghệ có thể hỗ trợ trong việc quản lý đám đông, từ đó nâng cao hiệu quả trong các sự kiện lớn.

Để mở rộng kiến thức của bạn về các ứng dụng công nghệ trong giám sát và phân tích dữ liệu, bạn có thể tham khảo thêm tài liệu Suivi de personnes en temps réel à laide dune caméra fisheye par deep learning, nơi trình bày về việc theo dõi người bằng camera fisheye và công nghệ học sâu. Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính nghiên cứu xây dựng các giải thuật dự báo tốc độ phương tiện của dòng xe dựa vào dữ liệu camera sẽ giúp bạn hiểu rõ hơn về việc sử dụng dữ liệu camera trong việc dự đoán và phân tích hành vi giao thông. Cuối cùng, tài liệu Luận văn thạc sĩ khoa học máy tính nghiên cứu xây dựng hệ thống giám sát và dự đoán bất thường mạng vô tuyến 4g sử dụng trí tuệ nhân tạo sẽ cung cấp thêm thông tin về việc áp dụng trí tuệ nhân tạo trong giám sát mạng, mở rộng khả năng ứng dụng của công nghệ trong nhiều lĩnh vực khác nhau.

#nghiên cứu khoa học máy tính

#công nghệ nhận diện khuôn mặt

#phát hiện hành vi bất thường

#ứng dụng AI trong giám sát

#Giám sát an ninh công cộng

#hệ thống cảm biến thông minh

Chủ đề

Phân tích và xử lý dữ liệu lớn

an ninh và an toàn công cộng

Công nghệ giám sát hiện đại

Ứng dụng khoa học máy tính trong xã hội