Chương 1 TỔNG QUAN Đặt van đề Ngày nay, các thuật toán thuộc lĩnh vực tái tạo hình ảnh xuất hiện ngày càng phổ biến. Những thuật toán này ngày càng được cải tiến và mang lại độ chính xác cao. Tuy nhiên hầu hết các phương pháp tái tạo vùng ảnh bị mắt hiện nay đều chỉ cho ra một kết quả. Việc này dẫn đến sự hạn ché vẻ tinh da dạng ở nội dung ngữ nghĩa của mỗi ảnh kết quả.
Trong bài báo cáo này, chúng tôi sẽ giới thiệu về một phương pháp tái tạo vùng ảnh mới, phát triển dựa trên các thuật toán tái tạo vùng ảnh đã có, và mang lại kết quả đầu ra đa dạng. TỔNG QUAN 11 Giới thiệu bài toán 1.1 Mô ta: Mục đích của bài toán là thay thé phan bi mắt của hình anh sao cho ý nghĩa của phan bị mat ấy phù hợp với ý nghĩa toàn cục của hình ảnh và tạo ra được đa dang kết quả hơn. se Dau vào: Ảnh có phan cần tái tạo. Trong bài toán này phần cần tái tạo là phần có ý nghĩa sai lệch hoặc không mong muốn với hình ảnh được tạo ra bởi con người nhằm mục đích xoá hay thay thế phần cần tái tạo ấy.
© Dau ra: Tập các ảnh đã được thay thé phan cần tái tạo Input roy _—e HINH 1.1: Minh hoa input va output cua bai toan. TỔNG QUAN Input Mô hình dự đoán HÌNH 1.2: Minh họa input và output của bài toán.12 Giới han: s Tập dt liệu: - Nội dung khuôn mặt: Celeb-A HQ. — Nội dung tự nhiên: ImageNet. TỔNG QUAN 12 Nhung thách thức Thông thường bài toán tái tạo hình ảnh bị mat sẽ gặp các khó khăn sau: ® Nội dung của ảnh sinh ra từ mô hình phải phù hợp với nội dung ý nghĩa dựa trên bồi cảnh tổng thể của ảnh ® Đảm bảo được tính liên tục giữa phần không tái tao và phan tái tạo khiến chúng nhìn một cách tự nhiên hơn ¢ Tái tạo phan cần tái tạo sao cho nội dung của phan cần tái tạo mang tính trực quan cho phần bị thiếu.
Để đánh giá phần tái tạo với phần không cần tái tạo thì đều phải thông qua cảm quan của con người. Tuy nhiên với cảm quan của người có thể vẫn chưa đủ. Có thể có người đồng ý với kết quả và cũng có những người không đồng ý với kết quả đó. Mục tiêu của chúng tôi trong bài toán này là làm sao để có thể tạo ra càng nhiều ảnh đầu ra càng tốt để có thể phù hợp với ý kiến của mọi người và mang tính rộng rãi ý nghĩa của phần cần tái tạo.
Vì vậy mục đích của bài toán này sẽ là càng tạo ra càng nhiều phần tái tạo cùa ảnh càng tốt và chúng sẽ mang ý nghĩa khác nhau sao cho phù hợp với phần không bị che.3 Phạm vi nghiên cứu: Trong phạm vi thực hiện khoá luận này thì chúng tôi sẽ tập trung vào cách có thể tái tạo phần ảnh cần được tái tạo và có thể tạo ra càng nhiều trường hợp đầu ra và mang ý nghĩa phù hợp với tổng thể hình ảnh càng tốt.4 Phương pháp nghiên cứu: Phương pháp tổng luận: Phương pháp này dùng để định hướng nghiên cứu các vấn đề liên quan đến bài toán tái tạo vùng ảnh bị mắt. Việc khảo sát tổng luận giúp chúng tôi nhận biết được các ưu, nhược điểm của mô hình, vấn đề nào vẫn còn đang là thách thức của bài toán nhờ đó có thể làm định hướng để tìm các tài liệu liên quan. Phương pháp máy học: Phương pháp này dùng để nghiên cứu phân tích mô hình mạng học sâu. chúng tối sẽ nghiên cứu về kiến trúc mạng GAN hai đường song song kèm theo các độ đo đánh giá đầu ra mô hình như SSIM, PNSR và L1.
Phương pháp xử lý ảnh: Phương pháp này dùng để tiền xử lý hinh ảnh nhằm mục đích huấn luyện và thử nghiệm mô hình, hình sẽ được áp lên một layer nhằm che một phần của hình ảnh. Phương pháp thống kê: Phương pháp này dùng để đánh giá tổng thể các đầu ra của ảnh và kết quả tổng thể của mô hình. Phương pháp thực nghiệm: Phương pháp này dùng để thu thập dữ liệu, huấn luyện và đánh giá mô hình.5 Mục tiêu khóa luận Mục tiêu chính của khóa luận này là: © Xác định các thông tin cơ bản, thách thức và các van dé cần đặt ra cho bài toán. © Tìm hiểu kĩ thuật tái tao vùng ảnh bị mat và ứng dụng của GAN hai đường song song vào bài toán tái tạo vùng ảnh bị mắt.
® Cai đặt kĩ thuật tái tao lại vùng anh bị mat từ tập dữ liệu ảnh D và vùng r cần tái tạo. s® Ước lượng, đánh giá độ phù hợp của nội dung vùng r đã tái tạo với nội dung của ảnh. ¢ Rút ra ưu, nhược điểm của các phương pháp và cách khắc phục trong tương lai.6 Câu trúc Khóa luận Nội dung Khóa luận tốt nghiệp được tổ chức như sau: Chương} Giới thiệu tổng quan vẻ khóa luận. Trình bày tổng quan về lý do chon dé tài, nội dung, mục tiêu và phương pháp thực hiện khoá luận Chương|2 Những nghiên cứu liên quan.
Trong chương này sẽ trình bày các nghiên cứu, bài toán liên quan đến lĩnh vực tái tạo vùng ảnh bị mat Chuong|3} Hướng tiếp cận trong khoá luận. Trình bày hướng tiếp cận nghiên cứu của khoá luận, đưa ra cơ sở lí thuyết và mô hình bài toán. Chương [4| Thực nghiệm Trình bày môi trường thực nghiệm, tập dữ liệu,Phương pháp huấn luyện mô hình, Quá trình cài đặt chương trình, phương pháp đánh giá và kết quả thực nghiệm. Chuong|5} Kết luận Trình bày ưu, nhược điểm của mô hình và hướng phát triển của khóa luận.
Chương 2 NHỮNG NGHIÊN CỨU LIÊN QUAN Những nghiên cứu hiện tại về tái tạo ảnh sử dụng thông tin bên trong hình ảnh đầu vào hoặc thông tin từ một tập dữ liệu hình ảnh lớn i0, [24] 34], hầu hết các phương pháp này sẽ chỉ tạo ra một kết quả đầu ra cho mỗi hình ảnh đầu vào.1 Intra-Image Completion Tái tạo ảnh bằng phương pháp nội suy truyền thống, chẳng hạn như phương pháp dựa trên sự khuếch tán của chỉ tiết trong ảnh và phương pháp dựa trên các bản vá nền B|, giả sử rằng các vùng cần tái tạo ảnh chia sẻ nội dung tương tự với các vùng có thể nhìn thấy xung quanh; do đó họ sẽ trực tiếp khớp, sao chép và thiết kế lại các bản vá nền để tái tạo lại vùng ảnh. Các phương pháp này hoạt động tốt để tái tạo lại nền ảnh. NHỮNG NGHIÊN CUU LIÊN QUAN HINH 2.1: Vi du xoá vat thé dung phuong phap image inpainting 2.2 Inter-Image Completion Dé tạo ra nội dung mới về mặt ngữ nghĩa, việc tái tạo liên hình ảnh sẽ mượn thông tin từ một tập dt liệu lớn. Hays và Efros đã trình bày một phương pháp tái tạo hình ảnh bằng cách sử dụng hàng triệu hình ảnh, trong đó hình ảnh giống nhất với đầu vào bị che được truy xuất và các vùng tương ứng được chuyển.
Tuy nhiên, điều này đòi hỏi sự phù hợp theo ngữ cảnh cao, điều này không phải lúc nào cũng có sẵn. Gan day, các phương pháp tiếp cận dựa trên học tập đã được dé xuất. Các công trình ban đầu tập trung vào các lỗ nhỏ và mỏng. Tiếp theo là một số phương pháp dựa trên CNN, bao gồm sự kết hợp giữa độ đo toàn cục và cục bộ của điscriminators như là adversarial loss [H1], xác định các đặc điểm gần nhất trong không gian tiềm ẩn của hình ảnh bị che [32], sử dung các nhãn ngữ nghĩa để hướng dẫn mạng hoàn chỉnh [28], giới thiệu sự mắt phân tích khuôn mặt bổ sung để tái tạo khuôn mặt q9, và thiết kế các phức hợp cụ thể để giải quyết các lỗ không đều [20| 33].
Một nhược điểm chung của các phương pháp này là chúng thường tạo ra cấu trúc méo mó và kết cầu mờ không phù hợp với vùng nhìn thấy, đặc biệt là đối với các lỗ lớn. NHỮNG NGHIÊN CUU LIÊN QUAN HÌNH 2.2: Ví dụ phương pháp tái tạo hình ảnh bằng cách sử dụng hàng triệu hình ảnh. Combined Intra and Inter-Image Completion Một phương pháp kết hợp để khắc phục những van dé của 2 nghiên cứu trên, Yang và cộng sự [31] đề xuất phương pháp tổng hợp bản vá nơ-ron đa quy mô, tạo ra các chỉ tiết có tần số cao bằng cách sao chép các bản vá từ tính năng ở lớp giữa. Tuy nhiên, việc tối ưu hoá này rất tốn kém về mặt tính toán.
Gần đây hơn, một số nghiên cứu đã khai thác sự chú ý về không gian để có được các chỉ tiết có tần số cao. Yu và cộng sự trình bày một lớp chú ý theo ngữ cảnh để sao chép các đặc điểm tương tự từ các vùng có thể nhìn thấy vào các vùng cần tái tạo. Yan và cộng sự [30] và Song và cộng sự [27] đề xuất ý tưởng tương tự thuật toán PatchMatch trên miễn tính năng. Tuy nhiên, các phương pháp này xác định các tính năng tương tự bằng cách so sánh các đặc điểm của vùng cần tái tạo và đặc điểm của các vùng nhìn thấy, điều này hơi mâu thuẫn vì việc chuyển đối tượng là không cần thiết khi hai đối tượng rất giống nhau, nhưng khi cần các đặc điểm lại quá khác nhau để có thể khớp dễ dàng.
Hơn nữa, thông tin ở xa không được sử dụng cho nội dung mới khác với các vùng có thể nhìn thấy. Mô hình của chúng tôi sẽ giải quyết van dé này bằngcách mở rộng sự chú ý của bản thân [34] để khai thác bối cảnh phong phú. NHỮNG NGHIÊN CUU LIÊN QUAN 2.4 Image Generation Việc tạo hình anh đã tiến triển đáng kể bang cách sử dụng các phương pháp như bộ mã hóa tự động và mạng đối nghịch tạo sinh [9]. Chung đã được áp dụng cho các tác vụ tạo ảnh có điều kiện, chẳng hạn như dịch ảnh 12], tổng hợp thành hiện thực [36], du doan tuong lai va mô hình 3D (23).
Có lẽ phù hop nhất là bộ mã hóa tự động biến đổi có điều kiện (CVAE) và CVAE-GAN [2], nhưng chúng không được nhắm mục tiêu đặc biệt để hoàn thành hình ảnh. Các phương pháp dựa trên CVAE hữu ích nhất khi các nhãn có điều kiện ít và rời rạc, và có đủ các phiên bản huấn luyện cho mỗi nhãn. Một số công trình gần đây sử dụng chúng trong dịch hình ảnh có thể tạo ra đầu ra đa dạng [88/17], nhưng trong những trường hợp như vậy, ánh xạ mâu theo điều kiện có tính cục bộ hơn (ví dụ pixel-to-pixel) và chỉ thay đổi hình thức trực quan.