I. Tổng quan Nhận diện tương tác người người qua video giám sát
Video ngày càng đóng vai trò quan trọng trong truyền thông nhờ kết hợp hình ảnh, âm thanh và văn bản. Sự phát triển của công nghệ và internet đã tạo ra lượng lớn dữ liệu video. Theo thống kê năm 2016, mỗi ngày có 5 tỷ video được xem trên YouTube và 300 giờ video được tải lên mỗi phút. Điều này cho thấy sự cần thiết của các kỹ thuật phân tích video tiên tiến để hiểu nội dung video một cách có hệ thống. Mục tiêu lâu dài của thị giác máy tính là tự động hiểu nội dung video, đặc biệt là xác định các đối tượng quan trọng nhất trong video. Nghiên cứu chỉ ra rằng con người chiếm khoảng 35% pixel trên màn hình phim, chương trình TV và video YouTube, và 25% pixel trên Flickr. Điều này nhấn mạnh sự cần thiết phải phát triển các phương pháp tự động phân tích và diễn giải hình ảnh người trong video. Các cấp độ diễn giải bao gồm phát hiện người, theo dõi người và phân tích hành vi của họ. Nghiên cứu này tập trung vào việc nhận diện tương tác người-người trong video giám sát và các ứng dụng thực tế.
1.1. Tầm quan trọng của phân tích video trong thời đại số
Với sự bùng nổ của dữ liệu video, việc tự động hóa quá trình phân tích trở nên cấp thiết. Các phương pháp truyền thống dựa vào chú thích thủ công tốn nhiều thời gian và công sức, không đáp ứng được nhu cầu thực tế. Do đó, cần phát triển các thuật toán hiệu quả để hiểu nội dung video, đặc biệt là các hành vi và tương tác người-người. Việc hiểu được tương tác người-người có thể ứng dụng trong nhiều lĩnh vực như an ninh, giám sát, và phân tích hành vi xã hội.
1.2. Ứng dụng của nhận diện hành vi trong video giám sát an ninh
Hệ thống giám sát video tự động cần có khả năng phát hiện các hoạt động bất thường và đáng ngờ. Do đó, nhu cầu về hệ thống nhận diện hành vi ngày càng tăng. Mặc dù con người có khả năng nhận biết hành vi tốt hơn máy tính, việc mô phỏng bộ não người có thể cải thiện hiệu suất của hệ thống nhận diện hành vi. Các quá trình tri giác chủ yếu được thực hiện bởi vỏ não, và vỏ não thị giác sơ cấp nhận tín hiệu thị giác từ võng mạc. Các thuật toán phân tích không gian con độc lập (ISA) tạo ra kết quả tương tự như tế bào phức tạp trong vỏ não thị giác sơ cấp. Deep learning, lấy cảm hứng từ bộ não người, đã đạt được kết quả đầy hứa hẹn trong thị giác máy tính và xử lý ngôn ngữ tự nhiên. Do đó, kỳ vọng phương pháp nhận diện hành vi dựa trên phân tích không gian con độc lập và kỹ thuật deep learning sẽ đạt được hiệu suất tốt hơn so với các phương pháp khác. Cụ thể, nó giúp phát hiện tương tác người-người tốt hơn.
II. Thách thức trong nhận diện tương tác người người từ video
Có nhiều loại hoạt động của con người. Aggarwal et al. phân loại hoạt động của con người thành bốn cấp độ theo độ phức tạp: cử chỉ, hành động, tương tác và hoạt động nhóm. Tương tác được chia thành hai loại con: tương tác người-người và tương tác người-vật. Ngoài ra, loại dữ liệu video cũng ảnh hưởng đến độ phức tạp của nhận diện hành vi. Dữ liệu video có thể được phân loại thành hai loại: dữ liệu video không thực tế (được ghi trong môi trường đơn giản) và dữ liệu video thực tế (đặc trưng bởi sự thay đổi lớn và thiếu kiến thức trước). Luận án này tập trung vào vấn đề nhận diện hành vi, đặc biệt là tương tác người-người trong tài liệu video thực tế, chẳng hạn như phim và video giám sát. Mục tiêu của nhận diện hành vi là tự động phân tích các hoạt động từ một video chưa biết. Luận án này giải quyết hai nhiệm vụ chính: phân loại và định vị. Mục tiêu của định vị hoạt động là xác định không chỉ loại hoạt động nào xảy ra mà còn vị trí của nó trong video. Khả năng định vị hoạt động đặc biệt quan trọng trong hệ thống video giám sát. Vì định vị hoạt động là một thách thức, hầu hết các phương pháp gần đây chỉ tập trung vào phân loại hoạt động, đây là một phiên bản đơn giản của định vị hoạt động.
2.1. Các yếu tố ảnh hưởng đến độ chính xác của nhận diện hành vi
Sự khác biệt lớn giữa các loại hoạt động (inter-class variations) và sự đa dạng trong cùng một loại hoạt động (intra-class variations) là những thách thức lớn. Điều kiện ánh sáng, góc quay, và chất lượng video cũng ảnh hưởng đáng kể đến hiệu suất của các thuật toán nhận diện hành vi. Ngoài ra, sự phức tạp của tương tác người-người, với nhiều người tham gia và các hành động diễn ra đồng thời, làm cho việc phân tích trở nên khó khăn hơn.
2.2. Khó khăn trong việc định vị tương tác người người trong video dài
Định vị tương tác người-người đòi hỏi phải xác định chính xác thời điểm bắt đầu và kết thúc của hành động. Trong các video dài và phức tạp, việc này trở nên cực kỳ khó khăn do sự xuất hiện của nhiều hoạt động khác nhau và sự thay đổi liên tục của bối cảnh. Các phương pháp hiện tại thường gặp khó khăn trong việc xử lý các video có chứa nhiều tương tác người-người xảy ra liên tiếp hoặc đồng thời.
III. Giải pháp Mạng CNN cho nhận diện tương tác người người hiệu quả
Để giải quyết vấn đề nhận diện tương tác người-người, nghiên cứu này điều tra một mạng nơ-ron tích chập ba lớp (CNN) sử dụng thuật toán Phân tích không gian con độc lập (ISA) để tìm hiểu các đặc trưng bất biến phân cấp. Thuật toán ISA là một tổng quát hóa của Phân tích thành phần độc lập (ICA), rất nổi tiếng trong thống kê hình ảnh tự nhiên. So với thuật toán ICA, ưu điểm đáng chú ý nhất của ISA là nó có thể học các đặc trưng bất biến theo pha trong khi chọn lọc theo hướng và tần số. Tuy nhiên, thuật toán ISA trở nên chậm khi áp dụng nó trên dữ liệu video. Để giải quyết vấn đề tính toán này, chúng ta kết hợp ý tưởng của mạng nơ-ron tích chập với thuật toán ISA. Cụ thể, thay vì đào tạo thuật toán ISA trực tiếp trên dữ liệu video thô, trước tiên chúng ta đào tạo nó trên các khối video nhỏ được trích xuất bằng quy trình của chúng ta. Các đặc trưng thu được sau đó được tích chập với các khối video lớn hơn. Kết quả của bước tích chập này được đưa vào lớp tiếp theo, được triển khai bằng một thuật toán ISA khác. Tổ chức này cho phép mạng ISA tích chập ba lớp học các đặc trưng bất biến phân cấp.
3.1. Ứng dụng thuật toán ISA trong mạng CNN để trích xuất đặc trưng
Thuật toán ISA cho phép mạng CNN học được các đặc trưng bất biến đối với những thay đổi nhỏ trong dữ liệu video, giúp tăng cường khả năng nhận diện của mô hình. Việc kết hợp ISA với CNN giúp tận dụng ưu điểm của cả hai phương pháp: khả năng trích xuất đặc trưng tự động của CNN và khả năng tìm kiếm các đặc trưng bất biến của ISA.
3.2. Tối ưu hóa hiệu suất tính toán của thuật toán ISA trên video
Để giảm thiểu thời gian tính toán, thuật toán ISA được áp dụng trên các khối video nhỏ thay vì toàn bộ video. Điều này giúp giảm đáng kể số lượng dữ liệu cần xử lý, đồng thời vẫn đảm bảo khả năng trích xuất các đặc trưng quan trọng. Việc tích chập các đặc trưng đã học được với các khối video lớn hơn giúp mô hình học được các đặc trưng phức tạp hơn.
3.3. Lớp pooling giảm thiểu ảnh hưởng của đặc trưng ở lớp thấp hơn
Hơn nữa, chúng ta giới thiệu một lớp pooling để giảm sự đóng góp của các đặc trưng được học ở các lớp thấp hơn trong khi vẫn đạt được sự bất biến dịch chuyển. Sử dụng các đặc trưng bất biến được học bởi mạng ISA tích chập ba lớp, chúng ta xây dựng một biểu diễn bag-of-features cho video. Cuối cùng, chúng ta áp dụng Support Vector Machine (SVM) để phân loại tương tác người-người.
IV. Phương pháp Định vị tương tác bằng cửa sổ trượt thời gian trong video
Để định vị theo thời gian, chúng ta trượt các cửa sổ phát hiện thời gian với các khoảng thời gian khác nhau trên một chuỗi video liên tục với bước nhảy 10 khung hình. Đối với mỗi cửa sổ thời gian, mạng ISA tích chập của chúng ta trích xuất các đặc trưng bất biến phân cấp trên một lưới dày đặc. Sau khi chấm điểm các cửa sổ phát hiện thời gian, một sự triệt tiêu không tối đa được áp dụng để đảm bảo rằng không có cửa sổ nào được giữ lại bị chồng chéo. Trong hai trường hợp, chúng ta đã tiến hành các thử nghiệm kỹ lưỡng trên các video thực tế từ các chuẩn điểm đầy thách thức được sử dụng bởi cộng đồng nhận diện hành vi.
4.1. Cách tiếp cận cửa sổ trượt thời gian để xác định thời điểm xảy ra tương tác
Việc sử dụng cửa sổ trượt thời gian cho phép hệ thống xác định chính xác thời điểm bắt đầu và kết thúc của tương tác người-người trong video. Các cửa sổ có độ dài khác nhau giúp phát hiện các tương tác có thời lượng khác nhau.
4.2. Triệt tiêu không tối đa để loại bỏ các cửa sổ phát hiện trùng lặp
Kỹ thuật triệt tiêu không tối đa giúp loại bỏ các cửa sổ phát hiện bị chồng chéo, đảm bảo rằng mỗi tương tác chỉ được phát hiện một lần. Điều này giúp cải thiện độ chính xác của hệ thống định vị.
4.3. Trích xuất đặc trưng bất biến phân cấp trên lưới dày đặc
Việc trích xuất đặc trưng bất biến phân cấp trên một lưới dày đặc trong mỗi cửa sổ thời gian giúp hệ thống nắm bắt được các chi tiết quan trọng của tương tác người-người. Các đặc trưng này được sử dụng để phân loại và định vị tương tác một cách chính xác.
V. Ứng dụng thực tiễn và kết quả nghiên cứu về nhận diện tương tác
Chúng ta cho thấy rằng mạng ISA tích chập ba lớp của chúng ta có hiệu quả để biểu diễn các hoạt động phức tạp như tương tác người-người trong môi trường thực tế. Bên cạnh đó, chúng ta tin rằng phương pháp định vị thời gian của chúng ta là công trình đầu tiên báo cáo kết quả thử nghiệm trên các chuỗi video liên tục của tương tác người-người. Mặc dù kết quả định vị thời gian là không đủ cho các ứng dụng thực tế, nhưng nó là một bước đầu tiên cho nghiên cứu sâu hơn về định vị tương tác người-người.
5.1. Đánh giá hiệu quả của mô hình trên bộ dữ liệu UT Interaction
Nghiên cứu đã tiến hành đánh giá hiệu quả của mô hình trên bộ dữ liệu UT-Interaction, một bộ dữ liệu phổ biến cho việc đánh giá các thuật toán nhận diện tương tác người-người. Kết quả cho thấy mô hình đạt được độ chính xác cao trong việc phân loại và định vị tương tác.
5.2. So sánh hiệu suất với các phương pháp nhận diện hành vi khác
So sánh với các phương pháp nhận diện hành vi khác cho thấy mô hình đề xuất có hiệu suất tốt hơn, đặc biệt là trong môi trường thực tế với nhiều yếu tố gây nhiễu. Điều này chứng tỏ tính hiệu quả của việc kết hợp thuật toán ISA và mạng CNN.
VI. Kết luận Hướng phát triển cho nhận diện tương tác nâng cao
Nghiên cứu này đã trình bày một phương pháp hiệu quả để nhận diện tương tác người-người trong video giám sát bằng cách sử dụng mạng CNN và thuật toán ISA. Phương pháp này cho phép trích xuất các đặc trưng bất biến phân cấp và định vị tương tác một cách chính xác. Mặc dù kết quả ban đầu đầy hứa hẹn, vẫn còn nhiều hướng phát triển tiềm năng cho nghiên cứu trong tương lai. Cần cải thiện khả năng xử lý các video phức tạp hơn với nhiều tương tác xảy ra đồng thời. Nghiên cứu cũng có thể tập trung vào việc phát triển các phương pháp định vị tương tác chính xác hơn và giảm thiểu thời gian tính toán. Ngoài ra, việc tích hợp các thông tin ngữ cảnh khác (ví dụ: âm thanh, văn bản) có thể cải thiện độ chính xác của hệ thống nhận diện hành vi.
6.1. Các hướng nghiên cứu tiềm năng trong lĩnh vực thị giác máy tính
Các hướng nghiên cứu tiềm năng bao gồm việc sử dụng các kiến trúc mạng CNN tiên tiến hơn, phát triển các thuật toán trích xuất đặc trưng hiệu quả hơn, và tích hợp các thông tin đa phương tiện để cải thiện độ chính xác của hệ thống nhận diện hành vi. Nghiên cứu cũng có thể tập trung vào việc giải quyết các vấn đề như xử lý video có độ phân giải thấp và các yếu tố gây nhiễu khác.
6.2. Ứng dụng tiềm năng của trí tuệ nhân tạo trong giám sát an ninh
Các ứng dụng tiềm năng của trí tuệ nhân tạo trong giám sát an ninh bao gồm việc tự động phát hiện các hoạt động bất thường và đáng ngờ, cảnh báo cho nhân viên an ninh khi có nguy cơ xảy ra sự cố, và cung cấp thông tin chi tiết về các sự kiện đã xảy ra. Điều này có thể giúp cải thiện đáng kể hiệu quả và khả năng phản ứng của hệ thống giám sát an ninh.