I. Nghiên cứu và cải tiến kỹ thuật phát hiện đối tượng trong video
Luận án tập trung vào nghiên cứu và cải tiến kỹ thuật phát hiện đối tượng trong video, đặc biệt là các đối tượng quảng cáo. Phương pháp tiếp cận dựa trên mạng nơron tích chập sâu (DCNN) được sử dụng để tăng hiệu năng và độ chính xác. Mô hình YOLO-Adv được cải tiến từ YOLO để phù hợp với bài toán dò tìm đối tượng trong video. Kết quả thực nghiệm trên tập dữ liệu Flickrlogos-47 cho thấy mô hình cải tiến đạt tốc độ và độ chính xác cao hơn so với các phiên bản trước.
1.1. Mô hình YOLO Adv
Mô hình YOLO-Adv được cải tiến từ YOLO với các thay đổi trong hàm loss và kiến trúc mạng. Cải tiến này giúp tăng tốc độ dò tìm đối tượng trong video theo thời gian thực. Kết quả thực nghiệm cho thấy mô hình này đạt mAP (Mean Average Precision) cao hơn trên tập dữ liệu Flickrlogos-47, đồng thời duy trì tốc độ xử lý nhanh.
1.2. Trích chọn đặc trưng
Quá trình trích chọn đặc trưng được tối ưu hóa để tăng độ chính xác trong việc nhận dạng đối tượng. Các vector đặc trưng được trích xuất từ mô hình YOLO-Adv giàu thông tin, hỗ trợ tốt cho các bước xử lý tiếp theo như nhận dạng hình dạng đối tượng.
II. Kỹ thuật nhận dạng và thay thế đối tượng trong video
Luận án đề xuất các kỹ thuật nhận dạng và thay thế đối tượng trong video dựa trên phương pháp lượng tử hóa tích đề các (PQ) và cây phân cụm thứ bậc. Kỹ thuật PSVQ (Product sub-vector quantization) được sử dụng để lập chỉ mục các vector đặc trưng, giúp tăng tốc độ tìm kiếm và nhận dạng đối tượng. Kết quả thực nghiệm trên các tập dữ liệu lớn như ANN_GIST và VGG cho thấy hiệu quả vượt trội của phương pháp này.
2.1. Lượng tử hóa tích đề các PQ
Phương pháp PQ được cải tiến thành PSVQ để tối ưu hóa việc lập chỉ mục các vector đặc trưng. Kỹ thuật này giúp giảm thời gian tìm kiếm và tăng độ chính xác trong việc nhận dạng hình dạng đối tượng.
2.2. Cây phân cụm thứ bậc
Cây phân cụm thứ bậc được kết hợp với PSVQ để tăng tốc độ tìm kiếm các đối tượng tương đồng. Kết quả thực nghiệm cho thấy phương pháp này đạt hiệu suất cao trên các tập dữ liệu lớn.
III. Hoàn thiện video sau thay thế đối tượng
Luận án nghiên cứu các kỹ thuật hoàn thiện video sau khi thay thế đối tượng, đặc biệt là video inpainting. Mô hình V-RBPconv được đề xuất để tái tạo các vùng bị phá hủy trong video, đảm bảo tính kết cấu không gian và thời gian. Kết quả thực nghiệm trên tập dữ liệu Places2 và FVI cho thấy mô hình này vượt trội so với các phương pháp hiện có.
3.1. Video inpainting
Kỹ thuật video inpainting được sử dụng để hoàn thiện các vùng bị phá hủy trong video. Mô hình V-RBPconv được cải tiến để tăng độ chính xác và tốc độ xử lý. Kết quả thực nghiệm cho thấy mô hình này đạt PSNR (Peak Signal-to-Noise Ratio) và SSIM (Structural Similarity Index) cao hơn so với các phương pháp khác.
3.2. Mô hình V RBPconv
Mô hình V-RBPconv được thiết kế để tối ưu hóa quá trình tái tạo video. Kết quả thực nghiệm trên tập dữ liệu FVI cho thấy mô hình này đạt hiệu suất cao trong việc hoàn thiện các vùng bị phá hủy.