I. Giới thiệu
Phân đoạn vật thể trong video là một bài toán quan trọng trong lĩnh vực thị giác máy tính. Nhiệm vụ chính là phân tách các pixels thuộc đối tượng và phông nền trong tất cả các frames của video. AI và các phương pháp học sâu (deep learning) đã được áp dụng để giải quyết bài toán này. Hướng tiếp cận bán giám sát cho phép sử dụng object mask của frame đầu tiên để phân tách đối tượng cho các frame còn lại. Thách thức lớn nhất là sự thay đổi của đối tượng theo thời gian và mối quan hệ giữa các pixels trong từng frame. Sự phụ thuộc này được thể hiện qua hai mối quan hệ: thời gian và không gian.
1.1 Tổng quan về phân đoạn đối tượng trên video
Phân đoạn đối tượng trong video (Video Object Segmentation - VOS) là một trong những bài toán cơ bản trong thị giác máy tính. VOS có nhiều ứng dụng thực tiễn như trong xe tự lái, tóm tắt video, và nén video. Mục tiêu của VOS là phân tách các đối tượng cụ thể trong toàn bộ chuỗi video frame. Các phương pháp hiện tại bao gồm phân đoạn không giám sát, bán giám sát và tương tác. Đặc biệt, phân đoạn bán giám sát yêu cầu object mask cho frame đầu tiên, từ đó tự động phân tách cho các frame tiếp theo. Điều này giúp cải thiện độ chính xác trong việc nhận diện và theo dõi đối tượng.
II. Nghiên cứu liên quan
Nghiên cứu về phân đoạn vật thể đã phát triển mạnh mẽ trong những năm gần đây. Các phương pháp như Mạng Residual Neural Network (ResNet) và các hướng tiếp cận dựa trên học bán giám sát đã được áp dụng để cải thiện độ chính xác. Các phương pháp như Detection based approach và Propagation based approach đã cho thấy hiệu quả trong việc phân đoạn đối tượng. Sự phát triển của Attention mechanism trong computer vision đã mở ra nhiều cơ hội mới cho việc cải thiện các mô hình phân đoạn. Cơ chế Attention cho phép mô hình tập trung vào các đặc trưng quan trọng, từ đó nâng cao khả năng phân đoạn chính xác.
2.1 Các phương pháp ứng dụng cơ chế Attention
Cơ chế Attention đã được áp dụng trong nhiều mô hình phân đoạn video, như Non-local Attention và Vision Transformer. Những mô hình này cho phép khai thác mối quan hệ giữa các pixels trong các frame khác nhau, từ đó cải thiện khả năng phân đoạn. Các nghiên cứu gần đây đã chỉ ra rằng việc sử dụng Attention có thể giúp mô hình nhận diện và phân tách các đối tượng phức tạp hơn. Việc áp dụng Attention trong phân đoạn đối tượng không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian tính toán, tạo điều kiện cho các ứng dụng thực tiễn trong lĩnh vực AI.
III. Thực nghiệm
Trong phần thực nghiệm, nhóm nghiên cứu đã sử dụng tập dữ liệu DAVIS2017 để huấn luyện và đánh giá các mô hình phân đoạn. Các thông số cài đặt cho các mô hình được tối ưu hóa để đạt được kết quả tốt nhất. Kết quả thực nghiệm cho thấy rằng các mô hình áp dụng cơ chế Attention có hiệu suất vượt trội so với các mô hình truyền thống. Việc so sánh giữa các mô hình cho thấy rằng Deformable TransVOS đạt được kết quả tốt nhất trong việc phân đoạn các đối tượng phức tạp. Các kết quả trực quan cũng cho thấy sự khác biệt rõ rệt giữa các mô hình, từ đó khẳng định giá trị của việc áp dụng Attention mechanism trong phân đoạn vật thể.
3.1 Kết quả đánh giá thực nghiệm
Kết quả thực nghiệm cho thấy rằng các mô hình sử dụng cơ chế Attention có khả năng phân đoạn chính xác hơn so với các mô hình không sử dụng. Các chỉ số đánh giá như J&F mean cho thấy sự cải thiện đáng kể. Việc áp dụng các phương pháp như Space Time Memory Network và Transformer đã giúp cải thiện khả năng nhận diện và phân tách các đối tượng trong video. Những kết quả này không chỉ có ý nghĩa trong nghiên cứu mà còn có thể được áp dụng trong các lĩnh vực thực tiễn như xe tự lái và phân tích video.