Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ

1. PHẦN MỞ ĐẦU

1.1. Tính cấp thiết

1.2. Mục tiêu nghiên cứu của luận án

1.3. Đối tượng, phạm vi nghiên cứu của luận án

1.4. Đóng góp chính của luận án

1.5. Phương pháp và nội dung nghiên cứu

1.6. Cấu trúc luận án

2. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO

2.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video

2.2. Khái quát về video

2.3. Bài toán thay thế đối tượng trong video

2.4. Một số khái niệm

2.5. Dò tìm đối tượng trong video

2.6. Nhận dạng hình dạng đối tượng trong video

2.7. Phát hiện đối tượng trong video. Phân vùng đối tượng

2.8. Thay thế đối tượng trong video

2.9. Các thách thức cho bài toán thay thế đối tượng

2.10. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng trong video. Dựa trên điểm đặc trưng

2.11. Dựa trên các mô hình từng phần của đối tượng. Dựa trên mạng nơron nhân chập. Phát hiện đối tượng quảng cáo. Nhận dạng hình dạng đối tượng

2.12. Lượng tử hóa vector

2.13. Lượng tử hóa tích đề các. Nhận dạng hình dạng dựa trên tìm kiếm ANN

2.14. Các kỹ thuật hoàn thiện video

2.15. Video inpainting dựa trên lấy mẫu

2.16. Inpainting ảnh sử dụng DCNN cho không gian 2D

2.17. Video inpainting sử dụng DCNN cho không gian 3D

2.18. Kết luận chương 1

3. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO

3.1. Dò tìm đối tượng trong video

3.2. Khái quát về mô hình dò tìm đối tượng YOLO

3.3. Mô hình dò tìm đối tượng cải tiến YOLO-Adv

3.4. Cải tiến trong hàm loss

3.5. Cải tiến trong kiến trúc mạng

3.6. Trích chọn đặc trưng

3.7. Ước lượng, đánh giá mô hình cải tiến

3.8. Dữ liệu kiểm thử

3.9. Môi trường cài đặt

3.10. Ước lượng, đánh giá

3.11. Nhận dạng hình dạng đối tượng

3.12. Mô hình lập chỉ mục PSVQ

3.13. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc

3.14. Ước lượng, đánh giá

3.15. Dữ liệu và cấu hình hệ thống kiểm thử

3.16. Ước lượng, đánh giá chất lượng mã hóa của PSVQ

3.17. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ

3.18. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ bậc kết hợp PSVQ

3.19. Kết luận chương 2

4. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

4.1. Phân vùng đối tượng

4.2. Các kỹ thuật phân vùng thực thể

4.3. Mô hình phân vùng thực thể

4.4. Phát sinh mặt nạ vùng

4.5. Phân vùng thực thể bằng Mask R-CNN

4.6. Kết quả thực nghiệm mô hình phân vùng

4.7. Mô hình hoàn thiện video

4.8. Kiến trúc mô hình V-RBPconv

4.9. Mô hình kiến trúc mạng RBPconv

4.10. Ước lượng, đánh giá mô hình hoàn thiện video

4.11. Môi trường thực nghiệm

4.12. Kết quả so sánh định tính

4.13. Kết quả so sánh định lượng

4.14. Kết luận chương 3

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Nghiên cứu và cải tiến kỹ thuật phát hiện đối tượng trong video

Luận án tập trung vào nghiên cứu và cải tiến kỹ thuật phát hiện đối tượng trong video, đặc biệt là các đối tượng quảng cáo. Phương pháp tiếp cận dựa trên mạng nơron tích chập sâu (DCNN) được sử dụng để tăng hiệu năng và độ chính xác. Mô hình YOLO-Adv được cải tiến từ YOLO để phù hợp với bài toán dò tìm đối tượng trong video. Kết quả thực nghiệm trên tập dữ liệu Flickrlogos-47 cho thấy mô hình cải tiến đạt tốc độ và độ chính xác cao hơn so với các phiên bản trước.

1.1. Mô hình YOLO Adv

Mô hình YOLO-Adv được cải tiến từ YOLO với các thay đổi trong hàm loss và kiến trúc mạng. Cải tiến này giúp tăng tốc độ dò tìm đối tượng trong video theo thời gian thực. Kết quả thực nghiệm cho thấy mô hình này đạt mAP (Mean Average Precision) cao hơn trên tập dữ liệu Flickrlogos-47, đồng thời duy trì tốc độ xử lý nhanh.

1.2. Trích chọn đặc trưng

Quá trình trích chọn đặc trưng được tối ưu hóa để tăng độ chính xác trong việc nhận dạng đối tượng. Các vector đặc trưng được trích xuất từ mô hình YOLO-Adv giàu thông tin, hỗ trợ tốt cho các bước xử lý tiếp theo như nhận dạng hình dạng đối tượng.

II. Kỹ thuật nhận dạng và thay thế đối tượng trong video

Luận án đề xuất các kỹ thuật nhận dạng và thay thế đối tượng trong video dựa trên phương pháp lượng tử hóa tích đề các (PQ) và cây phân cụm thứ bậc. Kỹ thuật PSVQ (Product sub-vector quantization) được sử dụng để lập chỉ mục các vector đặc trưng, giúp tăng tốc độ tìm kiếm và nhận dạng đối tượng. Kết quả thực nghiệm trên các tập dữ liệu lớn như ANN_GIST và VGG cho thấy hiệu quả vượt trội của phương pháp này.

2.1. Lượng tử hóa tích đề các PQ

Phương pháp PQ được cải tiến thành PSVQ để tối ưu hóa việc lập chỉ mục các vector đặc trưng. Kỹ thuật này giúp giảm thời gian tìm kiếm và tăng độ chính xác trong việc nhận dạng hình dạng đối tượng.

2.2. Cây phân cụm thứ bậc

Cây phân cụm thứ bậc được kết hợp với PSVQ để tăng tốc độ tìm kiếm các đối tượng tương đồng. Kết quả thực nghiệm cho thấy phương pháp này đạt hiệu suất cao trên các tập dữ liệu lớn.

III. Hoàn thiện video sau thay thế đối tượng

Luận án nghiên cứu các kỹ thuật hoàn thiện video sau khi thay thế đối tượng, đặc biệt là video inpainting. Mô hình V-RBPconv được đề xuất để tái tạo các vùng bị phá hủy trong video, đảm bảo tính kết cấu không gian và thời gian. Kết quả thực nghiệm trên tập dữ liệu Places2 và FVI cho thấy mô hình này vượt trội so với các phương pháp hiện có.

3.1. Video inpainting

Kỹ thuật video inpainting được sử dụng để hoàn thiện các vùng bị phá hủy trong video. Mô hình V-RBPconv được cải tiến để tăng độ chính xác và tốc độ xử lý. Kết quả thực nghiệm cho thấy mô hình này đạt PSNR (Peak Signal-to-Noise Ratio) và SSIM (Structural Similarity Index) cao hơn so với các phương pháp khác.

3.2. Mô hình V RBPconv

Mô hình V-RBPconv được thiết kế để tối ưu hóa quá trình tái tạo video. Kết quả thực nghiệm trên tập dữ liệu FVI cho thấy mô hình này đạt hiệu suất cao trong việc hoàn thiện các vùng bị phá hủy.

Luận án tiến sĩ khoa học máy tính: Cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video