Khóa luận tốt nghiệp: Phân đoạn vật thể trong video sử dụng phương pháp Attention

Luận văn tốt nghiệp kỹ thuật nghiên cứu tốt nghiệp công nghệ thông tin phân đoạn vật thể trong video với hướng tiếp cận attention, điều tra thực trạng, phân tích số liệu, đề xuất

Trường đại học

Đại học Công nghệ Thông tin

Chuyên ngành

Thị giác máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ƠN

TÓM TẮT NỘI DUNG

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Phân đoạn đối tượng trên video và ứng dụng

1.2. Thách thức

1.3. Mục tiêu

2. CHƯƠNG 2: NGHIÊN CỨU LIÊN QUAN

3. CHƯƠNG 3: CÁC PHƯƠNG PHÁP ỨNG DỤNG CƠ CHẾ ATTENTION TRONG PHÂN ĐOẠN ĐỐI TƯỢNG VIDEO

3.1. Phương pháp so khớp đặc trưng theo không-thời gian

3.1.1. Cơ chế Non-local Attention và Non-local Neural Network

3.1.2. Mô hình Space Time Memory Network

3.1.3. Những cải tiến với mô hình Space-Time Correspondence Networks

3.1.4. Phương pháp Vision Transformer

3.2. Cơ chế Self-Attention trong xử lý ảnh với mô hình DETR

3.3. Mô hình TransVOS

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Tập dữ liệu sử dụng trong quá trình huấn luyện

4.1.1. Tập dữ liệu ảnh tĩnh

4.1.2. Tập dữ liệu Phân đoạn đối tượng trong video DAVIS2017

4.2. Thực nghiệm và đánh giá

4.2.1. Thông số cài đặt cho các mô hình

4.2.2. So sánh, đánh giá kết quả thực nghiệm các mô hình

4.2.2.1. Kết quả đánh giá thực nghiệm các mô hình

4.2.2.2. Kết quả trực quan thực nghiệm

4.3. Hướng nghiên cứu trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Phân đoạn vật thể trong video là một bài toán quan trọng trong lĩnh vực thị giác máy tính. Nhiệm vụ chính là phân tách các pixels thuộc đối tượng và phông nền trong tất cả các frames của video. AI và các phương pháp học sâu (deep learning) đã được áp dụng để giải quyết bài toán này. Hướng tiếp cận bán giám sát cho phép sử dụng object mask của frame đầu tiên để phân tách đối tượng cho các frame còn lại. Thách thức lớn nhất là sự thay đổi của đối tượng theo thời gian và mối quan hệ giữa các pixels trong từng frame. Sự phụ thuộc này được thể hiện qua hai mối quan hệ: thời gian và không gian.

1.1 Tổng quan về phân đoạn đối tượng trên video

Phân đoạn đối tượng trong video (Video Object Segmentation - VOS) là một trong những bài toán cơ bản trong thị giác máy tính. VOS có nhiều ứng dụng thực tiễn như trong xe tự lái, tóm tắt video, và nén video. Mục tiêu của VOS là phân tách các đối tượng cụ thể trong toàn bộ chuỗi video frame. Các phương pháp hiện tại bao gồm phân đoạn không giám sát, bán giám sát và tương tác. Đặc biệt, phân đoạn bán giám sát yêu cầu object mask cho frame đầu tiên, từ đó tự động phân tách cho các frame tiếp theo. Điều này giúp cải thiện độ chính xác trong việc nhận diện và theo dõi đối tượng.

II. Nghiên cứu liên quan

Nghiên cứu về phân đoạn vật thể đã phát triển mạnh mẽ trong những năm gần đây. Các phương pháp như Mạng Residual Neural Network (ResNet) và các hướng tiếp cận dựa trên học bán giám sát đã được áp dụng để cải thiện độ chính xác. Các phương pháp như Detection based approach và Propagation based approach đã cho thấy hiệu quả trong việc phân đoạn đối tượng. Sự phát triển của Attention mechanism trong computer vision đã mở ra nhiều cơ hội mới cho việc cải thiện các mô hình phân đoạn. Cơ chế Attention cho phép mô hình tập trung vào các đặc trưng quan trọng, từ đó nâng cao khả năng phân đoạn chính xác.

2.1 Các phương pháp ứng dụng cơ chế Attention

Cơ chế Attention đã được áp dụng trong nhiều mô hình phân đoạn video, như Non-local Attention và Vision Transformer. Những mô hình này cho phép khai thác mối quan hệ giữa các pixels trong các frame khác nhau, từ đó cải thiện khả năng phân đoạn. Các nghiên cứu gần đây đã chỉ ra rằng việc sử dụng Attention có thể giúp mô hình nhận diện và phân tách các đối tượng phức tạp hơn. Việc áp dụng Attention trong phân đoạn đối tượng không chỉ giúp cải thiện độ chính xác mà còn giảm thiểu thời gian tính toán, tạo điều kiện cho các ứng dụng thực tiễn trong lĩnh vực AI.

III. Thực nghiệm

Trong phần thực nghiệm, nhóm nghiên cứu đã sử dụng tập dữ liệu DAVIS2017 để huấn luyện và đánh giá các mô hình phân đoạn. Các thông số cài đặt cho các mô hình được tối ưu hóa để đạt được kết quả tốt nhất. Kết quả thực nghiệm cho thấy rằng các mô hình áp dụng cơ chế Attention có hiệu suất vượt trội so với các mô hình truyền thống. Việc so sánh giữa các mô hình cho thấy rằng Deformable TransVOS đạt được kết quả tốt nhất trong việc phân đoạn các đối tượng phức tạp. Các kết quả trực quan cũng cho thấy sự khác biệt rõ rệt giữa các mô hình, từ đó khẳng định giá trị của việc áp dụng Attention mechanism trong phân đoạn vật thể.

3.1 Kết quả đánh giá thực nghiệm

Kết quả thực nghiệm cho thấy rằng các mô hình sử dụng cơ chế Attention có khả năng phân đoạn chính xác hơn so với các mô hình không sử dụng. Các chỉ số đánh giá như J&F mean cho thấy sự cải thiện đáng kể. Việc áp dụng các phương pháp như Space Time Memory Network và Transformer đã giúp cải thiện khả năng nhận diện và phân tách các đối tượng trong video. Những kết quả này không chỉ có ý nghĩa trong nghiên cứu mà còn có thể được áp dụng trong các lĩnh vực thực tiễn như xe tự lái và phân tích video.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp công nghệ thông tin phân đoạn vật thể trong video với hướng tiếp cận attention

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1. Giới Thiệu 6 sau nay được áp dụng trong các bài toán thị giác máy tính với việc có thé làm rõ được các mối liên hệ giữa các pixels trong ảnh đầu vào. Cơ chế Attention cho phép mô hình chú ý và hiểu được mức độ quan trọng của từng phần của câu hoặc ảnh một cách rõ ràng. Đối với Phân đoạn đối tượng trong video, cơ chế này chính là chìa khóa để có thể tận dụng hiệu quả các mối quan hệ thời gian và không gian giữa các pixels.

Trong bài nghiên cứu này, mục tiêu của nhóm là: * Tìm hiểu tổng quan về bài toán Phân đoạn đối tượng trong video * Tìm hiểu tổng quan về 2 cơ chế Attention sử dụng cho xử lý ảnh video: Non-local Atten- tion [43] và Self-Attention [40]. » Nghiên cứu các phương pháp sử dụng cơ chế Attention cho bài toán Phân đoạn đối tượng trong video: So khớp đặc trưng theo không-thời gian (Matching Spatial-Temporal Infor- mation) va Vision Transformer. * Tiến hành thực nghiệm và đánh giá.3 Đóng gop của đề tai Những đóng góp chính của đề tài này: s Tap trung nghiên cứu và phân tích các mô hình dựa trên phương pháp sử dụng cơ chế At- tention: Space Time Memory Network (STM) [32] cùng với mô hình cải tiến Space Time Correspondence Network (STCN) [8] và Video Object Segmentation with Transformer (TransVOS) [28] * Tiến hành thực nghiệm trên tập dữ liệu anh tinh và tập dữ liệu DAVIS 2017 [35]. Đánh giá kết quả của các mô hình trên tập Validation của DAVIS 2017.

¢ So sánh, đánh giá wu, nhược điểm của các mô hình. « Giới thiệu hướng tiếp cận sử dụng cơ chế Deformable Attention cho bài toán Phân đoạn vật thể trong video. Chương 2 Nghiên cứu liên quan Chương này sẽ tổng hợp những kiến thức nền tảng và giới thiệu chung về các hướng tiếp cận liên quan cho bài toán Phân đoạn đối tượng trong video. Trong phần kiến thức nền tảng, chúng tôi sẽ tổng quát lại các kiến thức cơ bản về mạng Tích chập (Convolution Neural Network) và mô hình mạng sử dụng cho việc trích xuất đặc trưng cho ảnh là ResNet, cùng với đó là cơ chế lưu trữ đặc trưng của Memory Network.

Trong phần các hướng tiếp cận, chúng tôi sẽ giới thiệu tổng quan về các nghiên cứu liên quan đến Phân đoạn đối tượng trong video theo phương pháp học bán giám sát với hai hướng tiếp cận cơ bản bao gồm Phương pháp học Lan truyền (Propagation based approach) và Phương pháp Nhận diện (Detection based approach).1 Kiến thức nền tang 2.1 Mang Residual Neural Network (ResNet) Trong những năm gần day, Convolutional Neural Network (CNN) hay Mang tích chap được xem là kiến trúc mang then chốt trong các ứng dụng thuộc lĩnh vực thị giác máy tinh. CNN là một kiến trúc mạng nơ ron nhân tạo bao gồm nhiều lớp tích chập (Convolution), lớp gộp (Pooling) và lớp kết nối (Fully connected). Về mặt kĩ thuật, khi sử dụng mô hình CNN để huấn luyện hoặc dự đoán, hình ảnh đầu vào sẽ được đưa vào một loạt các lớp Convolution với bộ lọc (filter) với hàm kích hoạt phi tuyến để trích xuất các đặc trưng của tấm ảnh và lớp Pooling dé chat lọc các thông tin hữu ích, loại bỏ thông tin gây nhiễu. Mỗi một lớp sau khi thông qua hàm kích hoạt sé tạo ra thông tin trừu tượng hơn cho các lớp tiếp theo.

Lớp ở sau là kết quả sau khi nhân tích chập từ lớp trước đó nhờ vậy sẽ tạo ra được một mạng với các kết nối cục bộ, nói cách khác mỗi neuron ở lớp kế tiếp được tạo ra từ kết quả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước nó. Sau đó được tổng hợp Chương 2. Nghiên cứu liên quan 8 v. L Convolution filter l Source pixel Target pixel HÌNH 2.1: CONVOLUTION LAYER: bộ lọc tích chập sẽ quét qua toàn bộ ma trận ảnh gốc và nhân tích chập với vùng tương ứng để tao ra feauture map.

(Nguồn:[23]) hàn ` | SSSss oe = À2 ch A `XS ANY, LOX FKY sa egy BLESS HINH 2.2: FULLY CONNECTED LAYER: Toàn bộ các pixels sẽ được làm phẳng và mỗi pixels đó được kết nối đến tat cả các neurons.(Nguôn:[30]) lại bằng lớp Fully Connected và áp dụng hàm softmax để phân loại đối tượng trong ảnh. Trong quá trình huấn luyện, mạng CNN sẽ tự động học và tìm ra trọng số tối ưu cho các filter. — CAR ® | — TRUCK \ — VAN be H — BICYCLE INPUT 4 CONVOLUTION + RELU — POOLING CONVOLUTION + RELU POOLING FLATTEN FULLY CONNECTED SOFTMAX J FEATURE LEARNING CLASSIFICATION HÌNH 2.3: Ví du minh họa về một mang CNN cơ bản. (Nguôn:[14]) Đối với các mạng tích chập, về lý thuyết mô hình sẽ có gắng học và điều chỉnh trọng số để trích xuất các đặc trưng theo các mức độ thấp, trung bình, cao.

Càng nhiều lớp hay mô hình càng sâu thì càng có thể trích xuất các đặc trưng ở mức độ cao (high-level features). Quá trình Chương 2. Nghiên cứu liên quan 9 học được diễn ra dựa trên thuật toán được gọi là lan truyền ngược (Backprobagation). Ý tưởng của thuật toán này là sé đi ngược từ đầu ra kết qua (output) về lại các lớp ẩn (hidden layers) và tính toán gradient tương ứng với các cost function tương ứng cho từng trọng số của các lớp cho tới lớp đầu vào.

Gradient Descent được sử dụng để tối ưu hàm mất mát và cập nhật lại trong số. Toàn bộ quá trình trên sẽ được lặp đi lặp lại cho tới khi mà các trọng số của mô hình mạng được hội tụ. Thông thường chúng ta sẽ có một hyperparameter (số Epoch - số lần mà toàn bộ tập dữ liệu huấn luyện được duyệt qua một lần và trọng số được cập nhật) định nghĩa cho số lượng vòng lặp để thực hiện quá trình này. Nếu số lượng vòng lặp quá nhỏ thì mô hình có thể sẽ không cho ra kết quả tốt và ngược lại thời gian huấn luyện mô hình sẽ lâu nếu số lượng vòng lặp quá lớn.

Tuy nhiên, trong thực tế Gradients thường sẽ có giá trị nhỏ dần khi đi xuống các lớp thấp hơn vì vậy trọng số các lớp đầu ở mô hình mạng thay đổi rất ít hoặc không thay đổi dẫn đến việc học ở các lớp này không hiệu quả. Trong quá trình huấn luyện, kết quả ban đầu sẽ tốt dần nhưng khi đến một epoch nhất định, Gradients trở nên quá nhỏ hoặc bằng 0 dẫn đến kết quả là các cập nhật thực hiện bởi Gradients Descent không làm thay đổi nhiều trọng số của các lớp đó và làm chúng không thể hội tụ và mạng sẽ không thu được kết quả tốt. Hiện tượng như vậy gọi là Vanishing Gradients. Và ResNet [17] ra đời để giải quyết hiện tượng này.

Residual Block ResNet [17] hay Residual Network mang đến giải pháp cho việc xây dựng một mô hình mang sâu với việc sử dụng các nồi tắt (Skip Connections) xuyên qua một hoặc nhiều lớp Convolution. Một khối như vậy được gọi là Residual Block[17] hay Identity Block. Khi không có các nối tắt, đầu vào ’x’ nhân với trọng số của lớp và cộng thêm bias. Di qua hàm kích hoạt Relu F() sẽ có đầu ra: H(g§) := F(wx+b) hay H(x) := F(x) (2.1) Với việc sử dung nối tat, đầu vào ’x’ được cộng vào kết qua của dau ra: H(x) := F(x) +x (2.2) Trong quá trình lan truyền ngược, lúc này sẽ có 2 đường để gradient lan truyền ngược lại Chương 2.

Nghiên cứu liên quan 10 weight layer x identity HÌNH 2. Khi lan truyền qua Residual mapping, giá trị gradient mới được tính toán và trọng số các lớp được cập nhật. Ở những lớp dau, giá trị gradient này quá nhỏ và để ngăn quá trình tính toán gradient, gradient sẽ được lan truyền qua Indentity mapping và bỏ qua khối Residual này. Khi không gặp phải trọng số nào, giá trị gradient được bảo toàn nhờ đó giá trị gradient này đến được các lớp ở đầu và cập nhật trọng số chính xác ở các lớp đó.

28 x 29X128 Si E(x) +x Convolutional Block HÌNH 2.5: Convolutional Block: Nối tắt được bổ sung lớp tích chập. (Nguồn:[12]) Đối với việc thực hiện nối tắt, đầu vào và đầu ra phải có cùng kích thước hay x và F(x) phải có cùng chiều. Khi x và F(x) khác chiều, một lớp tích chập 1x1 được sử dụng để thay đổi chiều của x khi đi qua nối tắt (Hình 2. Nghiên cứu liên quan 11 ResNet-50 ResNet [17] (Residual Network) được giới thiệu đến công chúng vào năm 2015 và thậm chi đã giành được vị trí thứ 1 trong cuộc thi ILSVRC 2015 với ti lệ lỗi top 5 chỉ 3.

Không những thế nó còn đứng vị trí đầu tiên trong cuộc thi ILSVRC and COCO 2015 với ImageNet Detection, ImageNet localization, Coco detection và Coco segmentation. Hiện tại thì có rat nhiều biến thể của kiến trúc ResNet tùy vào kích thước của các lớp trong mô hình va số lượng lớp của mô hình như ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet- 152,. ResNet-50 bao gồm 48 lớp tích chập cùng với 1 lớp max pooling và 1 lớp average pooling. Với việc mô hình mạng có nhiều lớp tích chập, các khối Residual trong ResNet-50 được thiết kế theo dạng bottleneck, mỗi khối sẽ bao gồm3 lớp tích chập theo thứ tự conv 1x1, conv 3x3, conv 1x1.6: Residual block trong ResNet50.

Đối với ResNet-50, stage 1 có 3 khối Residual, stage 2 có 4 khối, stage 3 có 6 khối và stage 4 có 3 khối. Qua mỗi stage, kích thước đầu vào sẽ giảm đi một nửa và chiều sâu tăng lên gấp đôi 256 -> 512 -> 1024 -> 2048. Trong nghiên cứu này, chúng tôi sẽ tập trung vào mô hình ResNet-50 được pretrain trên bộ dữ liệu ImageNet [15] và sử dụng mô hình như một module cho bước trích xuất đặc trưng từ video frame. Nghiên cứu liên quan 12 Input Tin 224x224x3 b Tước (1x nClasses) 1x1,1024 Layer Name Conv1 Conv2 Conv3 Conva (Output Size) (112x112) (56x56) (28x28) (14x14) Convs (7x7) HÌNH 2.7: Kiến trúc ResNet50.2 Memory Network Dinh nghia Một Memory Network cung cấp một phan bộ nhớ có thé được đọc từ va ghi vào với khả năng suy luận của một mô hình mạng nơ-ron.

Xuất phát từ động cơ là nhiều mạng nơ-ron thiếu thành phần bộ nhớ dài hạn và thành phần bộ nhớ hiện có của chúng được mã hóa bởi các trạng thái và trọng số quá nhỏ và không đủ để nhớ chính xác các sự kiện trong quá khứ (ví dụ: RNNs, khó ghi nhớ và thực hiện các tác vụ sao chép). Memory network được được giới thiệu và huấn luyện end-to-end lần đầu tiên trong một nghiên cứu về NLP cho bài toán QA ( Question and Anwsering), nơi bộ nhớ dài hạn hoạt động hiệu quả như một cơ sở tri thức (động).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân đoạn vật thể trong video bằng AI với hướng tiếp cận Attention" giới thiệu một phương pháp tiên tiến sử dụng trí tuệ nhân tạo (AI) để phân đoạn vật thể trong video, tập trung vào cơ chế Attention nhằm cải thiện độ chính xác và hiệu suất. Phương pháp này không chỉ giúp xác định và tách biệt các đối tượng trong khung hình một cách hiệu quả mà còn mở ra nhiều ứng dụng thực tiễn trong lĩnh vực xử lý video, như giám sát an ninh, phân tích hành vi, và tự động hóa công nghiệp. Đây là một bước tiến quan trọng trong việc áp dụng AI vào các bài toán thị giác máy tính phức tạp.

Để hiểu sâu hơn về các kỹ thuật AI và ứng dụng của chúng, bạn có thể tham khảo Luận văn thạc sĩ nghiên cứu và ứng dụng deep learning phát hiện người xâm nhập, tài liệu này cung cấp cái nhìn chi tiết về cách deep learning được sử dụng để phát hiện xâm nhập. Ngoài ra, Luận văn thạc sĩ xây dựng mạng neuron trong phát hiện xâm nhập mạng sẽ giúp bạn khám phá cách mạng neuron được áp dụng trong bảo mật. Cuối cùng, Luận văn thạc sĩ nghiên cứu phương pháp học sâu cho lọc cộng tác là một tài liệu hữu ích để hiểu rõ hơn về các phương pháp học sâu trong xử lý dữ liệu. Mỗi liên kết là cơ hội để bạn mở rộng kiến thức và khám phá các ứng dụng đa dạng của AI.

#khóa luận tốt nghiệp

#công nghệ AI

#phương pháp attention

#Phân đoạn vật thể

#AI trong video

#Xử lý video AI

Chủ đề

Trí tuệ nhân tạo

Công nghệ máy tính