Chương 1 Giới thiệu 1.1 Giới thiệu bài toán Với sự phát triển mạnh mẽ của công nghệ camera trên thiết bị di động trong những năm gần đây, chúng ta ta dễ dàng ghi lại những khoảnh khắc ý nghĩa với chất lượng hình ảnh chân thật và sắc nét. Để chọn được bức ảnh ưng ý, việc chụp liên tục nhiều tấm ảnh là cần thiết, đặc biệt là với những người dùng phổ thông, không phải nhiếp ảnh gia chuyên nghiệp. Điều này dẫn đến một số lượng lớn ảnh dư thừa được lưu trữ trong bộ nhớ điện thoại hoặc trên các dịch vụ lưu trữ điện toán đám mây. Nếu có thể phát triển một mô hình biểu diễn được cấu trúc, vị trí, màu sắc, độ phản chiếu, sự dịch chuyển,.
của bối cảnh và chủ thể từ những ảnh chụp liên tục, chúng ta có thể tổng hợp hình ảnh của bối cảnh và chủ thể ở những góc nhìn khác với ảnh đầu vào. Từ đó kết hợp với hiệu ứng dịch chuyển camera (di chuyển từ xa tới gần, từ gần đi ra xa, hoặc di chuyển máy ảnh từ trái sáng phải, từ trên xuống dưới,. ), chúng ta có thể sinh được một bức ảnh động hoặc video ngắn về bối cảnh và chủ thể với một góc quay hoàn toàn mới. Nhận thấy việc phát triển mô hình biểu diễn chủ thể và bối cảnh trong thế giới thực tồn tại nhiều thách thức cần phải giải quyết, đặc biệt là khi đầu vào là bối cảnh động (con người, xe cộ di chuyển, .) và số lượng ảnh đầu vào hạn chế, luận văn mong muốn đóng góp những cải tiến mang lại giá trị nghiên cứu cũng như thực tiễn thông qua đề tài nghiên cứu này.2 Mục tiêu nghiên cứu của đề tài 1.
Tìm hiểu các mô hình, các nghiên cứu nhằm biểu diễn bối cảnh và chủ thể động trong thế giới thực từ những ảnh chụp liên tục và số lượng ảnh đầu vào hạn chế. Từ đó phân tích ưu, nhược điểm của các mô hình để đưa ra những hướng cải tiến PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 1/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính phù hợp. Đề xuất mô hình học máy biểu diễn cấu trúc, vị trí, màu sắc, độ phản chiếu, sự di chuyển,. của chủ thể và bối cảnh động từ những ảnh chụp liên tục và số lượng ảnh đầu vào là hạn chế.
Xác định phương pháp đánh giá kết quả mô hình đã đề xuất và so sánh với các mô hình hiện có.3 Đối tượng nghiên cứu chính Đề tài luận văn tập trung vào đối tượng chính là các mô hình học máy mạng nơ-ron có khả năng biểu diễn được cấu trúc 3D của bối cảnh và chủ thể động tại một thời điểm t bất kì. Các mô hình này sẽ mô hình hoá một ánh xạ f có đầu vào là toạ độ của một điểm trong không gian 3D và thời điểm t, đầu ra là màu sắc và mật độ vật chất (density) tại điểm đó.4 Phạm vi đề tài Trong đề tài này, ảnh đầu vào là những ảnh được chụp liên tục từ máy ảnh trên điện thoại di động. Số lượng ảnh đầu vào có thể dao động từ 3 đến 10 ảnh. Do những ảnh được chụp liên tục trong khoảng thời gian ngắn, nên không có nhiều sự thay đổi về vị trí và hướng quay của máy ảnh.
Chủ thể được chụp có thể là con người, động vật hoặc xe cộ đang hoạt động hoặc di chuyển trong điều kiện thời tiết đẹp, đủ ánh sáng, không bị ảnh hưởng nhiều bởi yếu tố môi trường và thời tiết xung quanh. Phần tiếp theo của luận văn sẽ trình bày những thông tin tổng quan về những công trình nguyên cứu trong nước và trên thế giới liên quan tới đề tài. Từ đó lựa chọn ra những mô hình và kiến thức nền tảng trong việc xây dựng mô hình đề xuất. Ở chương 4, luận văn sẽ trình bày kiến trúc của mô hình đề xuất và những cải tiến của mô hình so với những mô hình trước đó.
Chi tiết hiện thực và kết quả đánh giá mô hình đề xuất sẽ được trình bày tiếp theo ở Chương 5. Cuối cùng tại chương 6, luận văn sẽ tổng kết những giá trị và kết quả của việc nghiên cứu mang lại, đồng thời trình bày những điểm cần phải cải tiến và kế hoạch phát triển mô hình trong tương lai. PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 2/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Chương 2 Các công trình nghiên cứu liên quan 2.1 Tổng hợp góc nhìn mới (Novel-view synthesis) Để sinh được hình ảnh bối cảnh và chủ thể ở góc nhìn mới, nhiều phương pháp render hiện nay đề xuất việc biểu diễn bối cảnh và chủ thể trong không gian 3D bằng Point cloud hoặc Triangle mesh. Những phương pháp này đảm bảo chất lượng hình ảnh được render tốt, tuy nhiên để xây dựng đầy đủ Point cloud hoặc Triangle mesh cho một bối cảnh cần những thiết bị đặc biệt như máy scan 3D, hoặc áp dụng các kĩ thuật trong lĩnh vực Photogrammetry.
Sử dụng nhiều bộ nhớ cũng là một nhược điểm của những phương pháp biểu diễn này vì hầu như mọi điểm của bối cảnh trong không gian 3D phải được lưu trữ. Nổi lên trong những năm gần đây, Neural Radiance Field (NeRF)[2] đề xuất sử dụng một hàm liên tục được mô hình bởi một mạng nơ-ron multilayer perceptron (MLP) để biểu diễn bối cảnh trong không gian 3D.1 mô tả tổng quan kiến trúc của mô hình NeRF. Theo đó, mạng nơ-ron này nhận input đầu vào là toạ độ (x, y, z) của một điểm P trong không gian, và hướng nhìn (θ, ϕ). Đầu ra của mạng là màu sắc (RGB) và mật độ vật chất (α) tại điểm P đó.
Sử dụng kĩ thuật Volume Rendering [12], NeRF tổng hợp toàn bộ màu sắc và mật độ vật chất của các điểm trên cameray ray để sinh hình ảnh của bối cảnh. Tại thời điểm công bố, NeRF vượt trội các kĩ thuật view synthesis tốt nhất tại thời điểm đó (Neural Volumes[13], Scene Representation Networks[8], Local Light Field Fusion[9]) về cả chất lượng render và bộ nhớ lưu trữ. Vì mô hình NeRF thực hiện quá trình huấn luyện cho từng bối cảnh riêng biệt, nên cần rất nhiều hình ảnh về bối cảnh ở nhiều góc chụp và hướng chụp khác nhau. Ngoài ra, quá trình huấn luyện cũng cần nhiều thời gian và sức mạnh tính toán.
Thay vì sử dụng Posional Encoding như ở NeRF, pixelNeRF [3] đề xuất sử dụng một mạng CNN Encoder để trích xuất đặc trưng của ảnh đầu vào, và sử dụng những đặc trưng này làm đầu vào cho mạng nơ-ron MLP để dự đoán màu và mật độ vật chất tại một điểm trên camera ray. PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 3/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Hình 2.1: Tổng quan của mô hình Neural radiance field (NeRF) [2] Hình 2.2: Mô hình pixelNeRF chỉ với 3 ảnh đầu vào đã có thể sinh được ảnh bối cảnh ở góc nhìn hoàn toàn mới. [3] Mạng CNN Encoder này được huấn luyện trên nhiều bối cảnh trong tập dữ liệu, để có thể trích xuất đặc trưng cho một bối cảnh mới, không có trong tập dữ liệu. Nhờ đó, với một bối cảnh mới, mô hình NeRF chỉ cần 2, 3 hình ảnh để có biểu diễn bối cảnh trong không gian 3D từ đó sinh ảnh bối cảnh bối cảnh ở như trong hình 2.
Thời gian huấn luyện cho bối cảnh mới cũng ít hơn đáng kể so với mô hình NeRF.3 mô tả một cách tổng quan kiến trúc của mô hình pixelNeRF. Mô hình được thiết kế tương đồng với NeRF, tuy nhiên đầu vào là đặc trưng được trích xuất từ mạng CNN Encoder. Dù đạt được những kết quả ấn tượng trong việc mô hình hoá cấu trúc 3D của bối Hình 2.3: Tổng quan kiến trúc mô hình pixelNeRF [3] PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 4/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính cảnh và chủ thể, và tổng hợp hình ảnh ở góc nhìn mới. Những mô hình này hoạt động tốt trên các bối cảnh tĩnh, không thay đổi theo thời gian.
Tuy nhiên, đa phần các bức ảnh được chụp trên điện thoại cá nhân và được chia sẻ trên mạng xã hội ngày nay là về những bối cảnh và chủ thể như con người, động vật, xe cộ. Những bối cảnh này có đặc tính thay đổi theo thời gian. Do đó chúng ta cần những mô hình khác để mô hình hoá những bối cảnh động này.2 Nội suy khung ảnh (Frame interpolation) Là kĩ thuật nội suy khung ảnh tại thời điểm t bất kì nằm giữa hai hay nhiều khung ảnh liền kề trong một video. Nội suy khung ảnh giúp video gốc trở nên mượt mà hơn nhờ việc tăng số lượng khung hình trên giây.
Phased-based [14] là một trong những phương pháp được sử dụng trong nội suy khung ảnh. Theo đó, Phase-based dựa trên giả định rằng, những dịch chuyển nhỏ từ một khung ảnh sang khung ảnh tiếp theo có thể được mô hình bằng sự dịch chuyển pha màu của từng pixel riêng lẻ. Phương pháp này hoạt động tốt khi sự chuyển dịch giữa các khung hình không lớn. Ngoài ra, bằng việc sử dụng mạng tích chập (Convolution Neural network), phương pháp Kernel-based [15], [16] dự đoán màu của môt điểm ảnh tại toạ độ (x, y) ở khung ảnh mục tiêu từ việc tích chập vùng ảnh của những khung ảnh lân cận với một bộ lọc (kernel) K.
Để mô hình những chuyển động lớn từ khung ảnh này qua khung ảnh tiếp theo, cần tăng kích thước bộ lọc, từ đó gia tăng số lượng tham số cần phải huấn luyện. Tuy nhiên, đa phần khung ảnh được sinh ra theo hướng tiếp cận Phased-base hoặc Kernel-based tồn tại những vùng ảnh bị mờ hoặc nhoè, đặc biệt là những nơi có sự chuyển động nhanh của các đối tượng trong ảnh. Gần đây hướng tiếp cận Motion-based [17], [6], [5] mang lại nhiều kết quả ấn tượng. Phương pháp này mô hình hoá optical flow (luồng quang) giữa hai khung ảnh sử dụng mạng học sâu, kết hợp với các kĩ thuật warping để nội suy ra khung ảnh mục tiêu.
Nhiều mô hình theo hướng tiếp cận này có thể mô hình hoá một chuyển động phi tuyến tính [18], [19], hoặc việc bất đối xứng của chuyển động theo thời gian từ khung ảnh này qua khung ảnh kia [20]. Được đề xuất bởi Liying Lu et al.