Tổng quan nghiên cứu

Trong thập kỷ qua, phát hiện người trong giám sát an ninh đã trở thành một lĩnh vực nghiên cứu trọng điểm trong ngành kỹ thuật điện tử và thị giác máy tính. Theo báo cáo của ngành, các hệ thống tự động phát hiện người đóng vai trò quan trọng trong việc nâng cao hiệu quả giám sát an ninh, đặc biệt trong các khu vực công cộng và các cơ sở trọng yếu. Tuy nhiên, việc phát hiện người trong ảnh và video vẫn gặp nhiều thách thức do sự đa dạng về môi trường, điều kiện ánh sáng, trang phục và tư thế của đối tượng. Mục tiêu chính của luận văn là nghiên cứu và ứng dụng kỹ thuật phát hiện người đi bộ dựa trên phương pháp trượt cửa sổ (sliding window) kết hợp trích xuất đặc trưng HOG (Histogram of Oriented Gradients) và phân loại bằng thuật toán SVM (Support Vector Machines). Nghiên cứu tập trung trên bộ dữ liệu chuẩn INRIA với hơn 2.400 mẫu ảnh người và 2.200 mẫu ảnh không phải người để huấn luyện, cùng hơn 1.100 mẫu ảnh cho bộ kiểm thử. Phạm vi nghiên cứu thực hiện tại thành phố Hồ Chí Minh trong giai đoạn 2016-2017, với ứng dụng chính là hệ thống giám sát an ninh cảnh báo tự động. Kết quả nghiên cứu góp phần nâng cao độ chính xác và tốc độ xử lý trong phát hiện người, từ đó cải thiện hiệu quả giám sát an ninh trong thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

  1. Phương pháp trượt cửa sổ (Sliding Window): Đây là kỹ thuật quét toàn bộ ảnh hoặc video tại nhiều vị trí và tỷ lệ khác nhau để phát hiện sự hiện diện của người. Mỗi cửa sổ con được phân tích độc lập nhằm xác định có người hay không.

  2. Đặc trưng HOG (Histogram of Oriented Gradients): HOG là bộ mô tả đặc trưng dựa trên phân bố hướng gradient trong các vùng nhỏ của ảnh. Ảnh được chia thành các cell 8x8 pixel, mỗi cell tính histogram hướng gradient với 9 bin, các cell được nhóm thành block 2x2 để chuẩn hóa. Vector đặc trưng cuối cùng có kích thước 3780 phần tử cho mỗi cửa sổ 64x128 pixel. HOG giữ lại thông tin biên cục bộ, phù hợp cho mô tả hình dáng người.

  3. Thuật toán SVM (Support Vector Machines): SVM là thuật toán phân loại nhị phân với mục tiêu tìm siêu phẳng phân tách tối ưu giữa hai lớp dữ liệu (người và không người). Luận văn sử dụng SVM tuyến tính với lề mềm để xử lý dữ liệu có nhiễu, đồng thời áp dụng hàm nhân tuyến tính và phi tuyến để nâng cao hiệu quả phân loại.

Các khái niệm chính bao gồm: vector gradient ảnh, chuẩn hóa gamma và tỉ lệ tương phản, histogram hướng gradient, siêu phẳng phân tách, vector hỗ trợ, hàm nhân kernel, và kỹ thuật loại bỏ không cực đại (Non-Maximum Suppression) để xử lý các phát hiện trùng lặp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu INRIA chuẩn gồm 2.416 mẫu ảnh người (positive) và 2.215 mẫu ảnh không người (negative) dùng để huấn luyện, cùng 1.126 mẫu ảnh người và 1.131 mẫu ảnh không người dùng để kiểm thử. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ bộ dữ liệu chuẩn nhằm đảm bảo tính đại diện và đa dạng.

Quá trình nghiên cứu gồm các bước:

  • Tiền xử lý ảnh: chuyển ảnh sang ảnh xám, chuẩn hóa gamma để giảm ảnh hưởng ánh sáng.
  • Trích xuất đặc trưng HOG cho từng cửa sổ 64x128 pixel theo phương pháp sliding window.
  • Huấn luyện bộ phân loại SVM tuyến tính trên vector đặc trưng HOG.
  • Cải tiến phương pháp tính toán HOG bằng kỹ thuật tổng tích lũy gradient nhằm tăng tốc độ xử lý.
  • Áp dụng bộ phát hiện người vào hệ thống nhận dạng cảnh báo an ninh.
  • Đánh giá hiệu quả bằng các chỉ số độ chính xác, tốc độ xử lý và tỷ lệ phát hiện sai trên bộ dữ liệu kiểm thử.

Timeline nghiên cứu kéo dài từ tháng 2 đến tháng 10 năm 2017, trong đó giai đoạn xây dựng và huấn luyện mô hình diễn ra từ tháng 6 đến tháng 8, phần viết luận văn và báo cáo từ tháng 9 đến tháng 10.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác phát hiện người: Bộ phân loại SVM tuyến tính kết hợp đặc trưng HOG đạt tỷ lệ phát hiện chính xác trên 90% trên bộ dữ liệu kiểm thử INRIA, với tỷ lệ phát hiện sai (False Positive Rate) dưới 10%. Kết quả này tương đương hoặc vượt trội so với các phương pháp truyền thống sử dụng HOG gốc.

  2. Tăng tốc độ tính toán HOG: Phương pháp cải tiến tính toán HOG dựa trên tổng tích lũy gradient giúp giảm thời gian trích xuất đặc trưng xuống khoảng 40-50% so với phương pháp gốc, cho phép xử lý ảnh và video gần như thời gian thực.

  3. Hiệu quả phát hiện trên video: Ứng dụng bộ phát hiện người trên video giám sát cho thấy khả năng nhận dạng người đi bộ trong các cảnh quay có điều kiện ánh sáng và phông nền đa dạng, với tỷ lệ phát hiện thành công trên 85% trong các thử nghiệm thực tế tại một số địa phương.

  4. Loại bỏ phát hiện trùng lặp: Kỹ thuật Non-Maximum Suppression hiệu quả trong việc giảm các phát hiện trùng lặp, giúp hệ thống đưa ra cảnh báo chính xác và rõ ràng hơn, giảm thiểu sai số do nhiều cửa sổ phát hiện cùng một đối tượng.

Thảo luận kết quả

Nguyên nhân chính giúp đạt được độ chính xác cao là nhờ việc sử dụng đặc trưng HOG, vốn giữ lại thông tin biên cục bộ và hình dáng người, kết hợp với thuật toán SVM có khả năng phân loại tốt trong không gian đặc trưng cao chiều. Việc cải tiến phương pháp tính HOG bằng tổng tích lũy gradient không chỉ tăng tốc độ xử lý mà còn giữ nguyên độ chính xác, phù hợp với yêu cầu xử lý thời gian thực trong giám sát an ninh.

So sánh với các nghiên cứu trong nước và quốc tế, kết quả của luận văn tương đồng với các công trình sử dụng HOG và SVM, đồng thời cải thiện về mặt tốc độ xử lý nhờ kỹ thuật tính toán nhanh. Ví dụ, các nghiên cứu trước đây thường gặp hạn chế về tốc độ do tính toán HOG lặp lại nhiều lần trên ảnh tỉ lệ khác nhau, trong khi phương pháp tổng tích lũy gradient giải quyết hiệu quả vấn đề này.

Dữ liệu có thể được trình bày qua biểu đồ ROC thể hiện độ nhạy và độ đặc hiệu của bộ phân loại, cùng bảng so sánh thời gian xử lý trước và sau cải tiến tính HOG, minh họa rõ ràng hiệu quả của phương pháp đề xuất.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống giám sát an ninh tự động: Áp dụng bộ phát hiện người dựa trên HOG và SVM trong các hệ thống camera giám sát tại các khu vực công cộng nhằm nâng cao khả năng cảnh báo sớm các hành vi bất thường. Thời gian thực hiện trong vòng 6-12 tháng, chủ thể thực hiện là các cơ quan an ninh và đơn vị công nghệ thông tin.

  2. Nâng cao tốc độ xử lý bằng phần cứng chuyên dụng: Đề xuất sử dụng các thiết bị xử lý đồ họa (GPU) hoặc FPGA để tăng tốc độ tính toán đặc trưng HOG, hướng tới xử lý video độ phân giải cao và đa luồng. Thời gian nghiên cứu và triển khai khoảng 12 tháng, do các đơn vị nghiên cứu công nghệ và doanh nghiệp công nghệ thực hiện.

  3. Mở rộng mô hình phát hiện đa đối tượng: Phát triển thêm các bộ phân loại để nhận dạng các đối tượng khác như xe cộ, vật thể nguy hiểm, kết hợp với phát hiện người để tạo hệ thống giám sát toàn diện. Thời gian thực hiện 18 tháng, do các nhóm nghiên cứu chuyên sâu về thị giác máy tính đảm nhiệm.

  4. Tích hợp trí tuệ nhân tạo nâng cao: Áp dụng các mô hình học sâu (deep learning) kết hợp với đặc trưng HOG để cải thiện độ chính xác và khả năng nhận dạng trong điều kiện phức tạp như che khuất, ánh sáng yếu. Thời gian nghiên cứu 24 tháng, do các viện nghiên cứu và trường đại học thực hiện.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành kỹ thuật điện tử, thị giác máy tính: Luận văn cung cấp kiến thức chuyên sâu về kỹ thuật trích xuất đặc trưng HOG và thuật toán SVM, phù hợp để phát triển các đề tài nghiên cứu liên quan.

  2. Chuyên gia phát triển hệ thống giám sát an ninh: Các kỹ sư và nhà phát triển phần mềm có thể ứng dụng phương pháp phát hiện người trong các sản phẩm giám sát, camera thông minh.

  3. Cơ quan an ninh và quản lý đô thị: Tham khảo để triển khai các giải pháp giám sát tự động, nâng cao hiệu quả quản lý an ninh trật tự tại các khu vực đông dân cư.

  4. Doanh nghiệp công nghệ và startup: Tận dụng kết quả nghiên cứu để phát triển các sản phẩm công nghệ giám sát, cảnh báo an ninh có tính cạnh tranh trên thị trường.

Câu hỏi thường gặp

  1. Phương pháp trượt cửa sổ hoạt động như thế nào trong phát hiện người?
    Phương pháp này quét toàn bộ ảnh tại nhiều vị trí và tỷ lệ khác nhau bằng các cửa sổ kích thước cố định (64x128 pixel), sau đó trích xuất đặc trưng HOG và phân loại bằng SVM để xác định sự hiện diện của người. Ví dụ, trong một cảnh video, cửa sổ sẽ trượt qua từng vùng ảnh để phát hiện người đi bộ.

  2. Đặc trưng HOG có ưu điểm gì so với các phương pháp khác?
    HOG giữ lại thông tin biên cục bộ và hình dáng đối tượng thông qua phân bố hướng gradient, giúp mô tả chính xác hình dạng người. So với các đặc trưng như Haar hay SIFT, HOG có độ nhạy cao với hình dáng và tư thế người, phù hợp cho phát hiện người đi bộ.

  3. Làm thế nào để tăng tốc độ tính toán đặc trưng HOG?
    Luận văn áp dụng kỹ thuật tổng tích lũy gradient (integral histogram) giúp tính toán histogram hướng gradient nhanh hơn bằng cách lưu trữ các giá trị cộng dồn, giảm thiểu việc tính toán lặp lại trên các vùng ảnh khác nhau. Kết quả cho thấy thời gian xử lý giảm gần một nửa.

  4. SVM được sử dụng như thế nào trong phân loại?
    SVM xây dựng siêu phẳng phân tách tối ưu giữa hai lớp dữ liệu (người và không người) dựa trên vector đặc trưng HOG. Thuật toán sử dụng lề mềm để xử lý dữ liệu có nhiễu, đảm bảo độ chính xác cao trong phân loại.

  5. Hệ thống có thể áp dụng trong điều kiện ánh sáng yếu hoặc che khuất không?
    Mặc dù phương pháp HOG và SVM có độ chính xác cao trong điều kiện ánh sáng và phông nền đa dạng, nhưng khi đối tượng bị che khuất hoặc ánh sáng yếu, hiệu quả giảm. Do đó, cần kết hợp thêm các kỹ thuật nâng cao như học sâu hoặc cảm biến bổ sung để cải thiện.

Kết luận

  • Nghiên cứu đã phát triển thành công hệ thống phát hiện người đi bộ dựa trên phương pháp trượt cửa sổ, đặc trưng HOG và phân loại SVM với độ chính xác trên 90%.
  • Phương pháp cải tiến tính toán HOG bằng tổng tích lũy gradient giúp tăng tốc độ xử lý gần 50%, phù hợp với yêu cầu xử lý thời gian thực.
  • Ứng dụng bộ phát hiện người vào hệ thống giám sát an ninh cảnh báo tự động có hiệu quả cao trong thực tế.
  • Luận văn đề xuất các hướng phát triển mở rộng như tích hợp học sâu, phát hiện đa đối tượng và sử dụng phần cứng chuyên dụng.
  • Các bước tiếp theo bao gồm triển khai thử nghiệm thực tế quy mô lớn và nghiên cứu nâng cao khả năng phát hiện trong điều kiện phức tạp.

Để tiếp tục phát triển và ứng dụng công nghệ này, các nhà nghiên cứu và doanh nghiệp được khuyến khích hợp tác triển khai các giải pháp giám sát an ninh thông minh, góp phần nâng cao an toàn xã hội.