Luận Văn Thạc Sĩ Về Mô Hình Tổng Hợp Video Spacetime Từ Tập Ảnh Chụp Liên Tục

Luận văn thạc sĩ phân tích máy tính phát triển mô hình tổng hợp novel spacetime video từ tập ảnh chụp liên tục, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu bài toán

1.2. Mục tiêu nghiên cứu của đề tài

1.3. Đối tượng nghiên cứu chính

1.4. Phạm vi đề tài

2. CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Tổng hợp góc nhìn mới (Novel-view synthesis)

2.2. Nội suy khung ảnh (Frame interpolation)

2.3. Tổng hợp góc nhìn với thời không mới (Space-time view synthesis)

3. CHƯƠNG 3: KIẾN THỨC NỀN TẢNG

3.1. Mô hình mạng Neural Radiance Fields (NeRF)

3.2. Mô hình mạng Neural Scene Flow Fields (NSFF)

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT: NEURAL SCENE FLOW FIELDS WITH ENCODER (NSFFWE)

4.1. Kiến trúc mô hình đề xuất

5. CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ

5.1. Hiện thực và huấn luyện mô hình đề xuất

5.2. Hướng phát triển trong tương lai

DANH SÁCH CÁC CÔNG TRÌNH KHOA HỌC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu Mô Hình Tổng Hợp Video Spacetime Từ Ảnh Chụp Liên Tục

Mô hình tổng hợp video spacetime từ ảnh chụp liên tục đang trở thành một trong những xu hướng nghiên cứu nổi bật trong lĩnh vực công nghệ video. Với sự phát triển của các mô hình học máy, việc tổng hợp video từ các bức ảnh chụp liên tục không chỉ giúp cải thiện chất lượng hình ảnh mà còn mở ra nhiều ứng dụng thực tiễn trong các lĩnh vực như giải trí, giáo dục và truyền thông. Mô hình này cho phép tạo ra các video động từ những bức ảnh tĩnh, mang lại trải nghiệm hình ảnh phong phú hơn.

1.1. Tổng quan về Mô Hình Tổng Hợp Video

Mô hình tổng hợp video sử dụng các kỹ thuật học sâu để tạo ra hình ảnh động từ các bức ảnh tĩnh. Điều này giúp giảm thiểu số lượng ảnh cần thiết mà vẫn đảm bảo chất lượng hình ảnh cao.

1.2. Tại sao cần Mô Hình Tổng Hợp Video Spacetime

Việc tổng hợp video spacetime giúp giải quyết vấn đề thiếu hụt dữ liệu đầu vào, đồng thời cải thiện khả năng biểu diễn các bối cảnh động trong không gian 3 chiều.

II. Thách Thức Trong Việc Phát Triển Mô Hình Tổng Hợp Video

Mặc dù có nhiều tiến bộ trong công nghệ, việc phát triển mô hình tổng hợp video từ ảnh chụp liên tục vẫn gặp phải nhiều thách thức. Một trong những vấn đề lớn nhất là khả năng xử lý các bối cảnh động với số lượng ảnh đầu vào hạn chế. Điều này đòi hỏi các mô hình phải có khả năng học hỏi và tổng hợp thông tin từ các đặc trưng của ảnh chụp liên tục.

2.1. Vấn đề về Số Lượng Ảnh Đầu Vào

Số lượng ảnh đầu vào hạn chế có thể dẫn đến việc mô hình không đủ thông tin để tổng hợp hình ảnh chính xác, gây ra hiện tượng mờ hoặc thiếu chi tiết.

2.2. Khó Khăn Trong Việc Biểu Diễn Bối Cảnh Động

Các bối cảnh động như con người hoặc phương tiện di chuyển thường thay đổi nhanh chóng, điều này làm cho việc mô hình hóa trở nên phức tạp hơn.

III. Phương Pháp Phát Triển Mô Hình Tổng Hợp Video Spacetime

Để giải quyết các thách thức nêu trên, nhiều phương pháp đã được đề xuất. Một trong số đó là việc sử dụng các mạng nơ-ron để trích xuất đặc trưng từ ảnh chụp liên tục, từ đó tổng hợp hình ảnh động một cách hiệu quả. Mô hình Neural Scene Flow Fields With Encoder (NSFFwE) là một ví dụ điển hình cho phương pháp này.

3.1. Mô Hình Neural Scene Flow Fields

Mô hình NSFF sử dụng các đặc trưng trích xuất từ ảnh để dự đoán hình ảnh động, giúp cải thiện chất lượng tổng hợp so với các mô hình trước đó.

3.2. Kỹ Thuật Huấn Luyện Mô Hình

Mô hình được huấn luyện trên tập dữ liệu lớn, cho phép nó học hỏi từ nhiều bối cảnh khác nhau, từ đó cải thiện khả năng tổng hợp hình ảnh.

IV. Ứng Dụng Thực Tiễn Của Mô Hình Tổng Hợp Video

Mô hình tổng hợp video spacetime có nhiều ứng dụng thực tiễn trong các lĩnh vực như mạng xã hội, trò chơi điện tử và thiết kế đồ họa. Việc sử dụng mô hình này không chỉ giúp cải thiện trải nghiệm người dùng mà còn mở ra nhiều cơ hội mới trong việc sáng tạo nội dung.

4.1. Ứng Dụng Trong Mạng Xã Hội

Người dùng có thể tạo ra các video động từ những bức ảnh chụp liên tục, giúp tăng cường sự tương tác và thu hút người xem.

4.2. Ứng Dụng Trong Trò Chơi Điện Tử

Mô hình này có thể được sử dụng để tạo ra các cảnh động trong trò chơi, mang lại trải nghiệm sống động hơn cho người chơi.

V. Kết Luận Về Mô Hình Tổng Hợp Video Spacetime

Mô hình tổng hợp video spacetime từ ảnh chụp liên tục không chỉ là một bước tiến lớn trong công nghệ video mà còn mở ra nhiều cơ hội nghiên cứu mới. Với khả năng tổng hợp hình ảnh động từ các bức ảnh tĩnh, mô hình này hứa hẹn sẽ có nhiều ứng dụng trong tương lai.

5.1. Tương Lai Của Mô Hình Tổng Hợp Video

Nghiên cứu và phát triển mô hình tổng hợp video sẽ tiếp tục được mở rộng, với nhiều cải tiến về chất lượng và hiệu suất.

5.2. Định Hướng Nghiên Cứu Tiếp Theo

Các nghiên cứu tiếp theo có thể tập trung vào việc cải thiện khả năng xử lý bối cảnh động và giảm thiểu số lượng ảnh đầu vào cần thiết.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phát triển mô hình tổng hợp novel spacetime video từ tập ảnh chụp liên tục

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ camera trên thiết bị di động phát triển mạnh mẽ, việc chụp liên tục nhiều ảnh để ghi lại khoảnh khắc ý nghĩa trở nên phổ biến. Tuy nhiên, điều này dẫn đến lượng lớn ảnh dư thừa được lưu trữ, gây lãng phí bộ nhớ và khó khăn trong quản lý dữ liệu. Nghiên cứu tập trung vào phát triển mô hình tổng hợp video không gian-thời gian mới (novel space-time video) từ tập ảnh chụp liên tục với số lượng ảnh đầu vào hạn chế, nhằm biểu diễn chính xác cấu trúc 3D, vị trí, màu sắc và chuyển động của chủ thể và bối cảnh động. Mục tiêu cụ thể là xây dựng mô hình học máy có khả năng tổng hợp hình ảnh bối cảnh và chủ thể ở góc nhìn và thời điểm bất kỳ, đồng thời cải thiện chất lượng tổng hợp so với các mô hình hiện có khi số lượng ảnh đầu vào ít. Phạm vi nghiên cứu tập trung vào ảnh chụp liên tục từ điện thoại di động, với số lượng ảnh đầu vào từ 3 đến 10, trong điều kiện ánh sáng tốt và chủ thể có thể là con người, động vật hoặc phương tiện di chuyển. Ý nghĩa nghiên cứu được thể hiện qua việc nâng cao hiệu quả lưu trữ, xử lý ảnh và mở rộng ứng dụng trong mạng xã hội, trò chơi điện tử, thiết kế đồ họa và giảng dạy đa phương tiện. Theo đánh giá trên tập dữ liệu Nvidia Dynamic Scenes Dataset, mô hình đề xuất cho kết quả tổng hợp ảnh vượt trội hơn các mô hình trước đó trong điều kiện số lượng ảnh đầu vào hạn chế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai mô hình học máy chính trong lĩnh vực tổng hợp góc nhìn mới và biểu diễn bối cảnh động:

Neural Radiance Fields (NeRF): Mô hình sử dụng mạng nơ-ron đa lớp (MLP) để biểu diễn hàm liên tục ánh xạ tọa độ 3D và hướng nhìn sang màu sắc và mật độ vật chất. NeRF áp dụng kỹ thuật Volume Rendering để tổng hợp hình ảnh từ nhiều điểm trên camera ray, đạt chất lượng render vượt trội so với các phương pháp truyền thống. Tuy nhiên, NeRF yêu cầu nhiều ảnh đầu vào và thời gian huấn luyện lâu.
Neural Scene Flow Fields (NSFF): Mở rộng NeRF bằng cách thêm tham số thời gian và dự đoán scene flow (chuyển động không gian 3D) giữa các thời điểm, cho phép biểu diễn bối cảnh và chủ thể động. NSFF sử dụng các hàm mục tiêu như photometric consistency, scene flow priors và data-driven priors để huấn luyện mạng MLP dự đoán màu sắc, mật độ vật chất và chuyển động. Mô hình này vẫn cần nhiều ảnh đầu vào và thời gian huấn luyện dài.

Các khái niệm chính bao gồm:

Volume Rendering: Kỹ thuật tổng hợp màu sắc từ mật độ vật chất trên camera ray.
Scene Flow: Vector dịch chuyển 3D của điểm trong không gian theo thời gian.
Positional Encoding: Phương pháp ánh xạ tọa độ và hướng nhìn sang không gian nhiều chiều để cải thiện khả năng học của mạng MLP.
Photometric Consistency: Đảm bảo tính nhất quán màu sắc giữa các khung hình liên tiếp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập Nvidia Dynamic Scenes Dataset, gồm 8 bối cảnh động được quay bởi 12 máy ảnh đồng bộ, bao gồm các chủ thể như con người, phương tiện và đồ vật chuyển động. Dữ liệu ảnh đầu vào được xử lý bằng COLMAP để ước lượng ma trận camera và Mask R-CNN để phân đoạn vùng chuyển động.

Mô hình đề xuất Neural Scene Flow Fields With Encoder (NSFFwE) mở rộng NSFF bằng cách tích hợp mạng ResNet34 làm encoder trích xuất đặc trưng ảnh đầu vào, giúp mô hình tận dụng kiến thức học được từ nhiều bối cảnh khác nhau, cải thiện khả năng tổng quát hóa khi số lượng ảnh đầu vào hạn chế. Mạng tích chập f nhận đầu vào là tọa độ, hướng nhìn và đặc trưng trích xuất để dự đoán màu sắc, mật độ vật chất và hệ số pha màu.

Quá trình huấn luyện sử dụng 3 ảnh liên tiếp làm đầu vào, lấy mẫu 128 điểm trên camera ray mỗi bước, chuẩn hóa time step về [0,1]. Mô hình được huấn luyện đồng thời biểu diễn bối cảnh tĩnh và động với hàm mục tiêu tổng hợp gồm photometric loss, scene flow consistency, và regularization. Thời gian huấn luyện khoảng 10 tiếng trên GPU NVIDIA A100-SXM4. Phương pháp đánh giá bao gồm cả định lượng (PSNR, SSIM, LPIPS) và định tính so sánh hình ảnh tổng hợp với ảnh gốc.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Chất lượng tổng hợp ảnh vượt trội: Mô hình NSFFwE đạt PSNR trung bình cao hơn khoảng 1.5 điểm so với NSFF, SSIM tăng trung bình 0.03 và LPIPS giảm đáng kể, thể hiện hình ảnh tổng hợp sắc nét và chân thực hơn khi chỉ sử dụng 3 ảnh đầu vào.
Khả năng tổng quát hóa tốt hơn: Nhờ encoder trích xuất đặc trưng từ ảnh đầu vào, mô hình có thể tái sử dụng kiến thức học được từ các bối cảnh trước đó, giúp tổng hợp hình ảnh ở góc nhìn mới với chất lượng cao hơn, đặc biệt khi số lượng ảnh đầu vào hạn chế.
Hội tụ ổn định: Quá trình huấn luyện mô hình trên bối cảnh mẫu "kid-running" cho thấy hàm mục tiêu hội tụ sau khoảng 8000 iteration, với các thành phần loss giảm đều, đảm bảo tính ổn định và hiệu quả của mô hình.
Hiệu quả biểu diễn bối cảnh tĩnh và động: Việc kết hợp mô hình biểu diễn bối cảnh tĩnh và động giúp hình ảnh tổng hợp chi tiết hơn, đặc biệt ở vùng tĩnh như mặt sân, xe ô tô, đồng thời giữ được chuyển động chân thực của chủ thể.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đề xuất vượt trội là việc sử dụng mạng encoder ResNet34 để trích xuất đặc trưng ảnh đầu vào, thay vì chỉ dựa vào tọa độ và hướng nhìn như NSFF. Điều này giúp mô hình tận dụng được thông tin phong phú hơn, giảm hiện tượng overfitting khi số lượng ảnh đầu vào ít. Kết quả này phù hợp với các nghiên cứu gần đây về việc tích hợp encoder trong mô hình NeRF để cải thiện khả năng tổng quát hóa.

So sánh với các mô hình frame interpolation và novel view synthesis truyền thống, NSFFwE không chỉ tổng hợp ảnh ở góc nhìn mới mà còn mô hình hóa chuyển động không gian-thời gian, mở rộng ứng dụng trong video và hình ảnh động. Tuy nhiên, mô hình vẫn còn hạn chế về thời gian huấn luyện và tổng hợp ảnh, do kiến trúc phức tạp và số lượng tham số lớn.

Dữ liệu có thể được trình bày qua biểu đồ hội tụ hàm mục tiêu theo iteration, bảng so sánh các chỉ số PSNR, SSIM, LPIPS giữa NSFFwE và NSFF trên từng bối cảnh, cùng hình ảnh minh họa tổng hợp từ hai mô hình và ảnh gốc để đánh giá trực quan.

Đề xuất và khuyến nghị

Tối ưu hóa kiến trúc mô hình: Cải tiến mạng encoder và mạng tích chập để giảm số lượng tham số, tăng tốc độ huấn luyện và tổng hợp ảnh, hướng tới khả năng ứng dụng thực tế trong thời gian thực.
Mở rộng tập huấn luyện: Huấn luyện mô hình trên toàn bộ tập dữ liệu Nvidia Dynamic Scenes Dataset và các tập dữ liệu đa dạng khác như UCF101 để nâng cao khả năng tổng quát hóa và độ chính xác biểu diễn bối cảnh động.
Phát triển mô hình biểu diễn bối cảnh động: Nghiên cứu các kiến trúc mạng mới nhằm cải thiện khả năng mô hình hóa chuyển động phức tạp, đặc biệt với các chuyển động lớn và phi tuyến tính, nhằm nâng cao chất lượng tổng hợp video không gian-thời gian.
Ứng dụng trong các lĩnh vực đa phương tiện: Đề xuất triển khai mô hình trong các ứng dụng mạng xã hội, trò chơi điện tử, thiết kế đồ họa và giảng dạy đa phương tiện, giúp tạo ra nội dung hình ảnh và video động chân thực từ số lượng ảnh đầu vào hạn chế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển trong lĩnh vực thị giác máy tính và học sâu: Luận văn cung cấp kiến thức chuyên sâu về mô hình NeRF, NSFF và các kỹ thuật tổng hợp góc nhìn mới, hỗ trợ phát triển các mô hình biểu diễn 3D động.
Kỹ sư phát triển ứng dụng đa phương tiện và thực tế ảo: Các giải pháp tổng hợp video không gian-thời gian từ ảnh đầu vào hạn chế có thể ứng dụng trong tạo nội dung VR/AR, trò chơi điện tử và thiết kế đồ họa.
Chuyên gia xử lý ảnh và video: Nghiên cứu cung cấp phương pháp mới để nâng cao chất lượng tổng hợp ảnh và video từ dữ liệu đầu vào hạn chế, hữu ích cho các hệ thống nén, truyền tải và chỉnh sửa video.
Giảng viên và sinh viên ngành khoa học máy tính, kỹ thuật phần mềm: Luận văn là tài liệu tham khảo quý giá về ứng dụng mạng nơ-ron trong biểu diễn và tổng hợp hình ảnh động, giúp nâng cao kiến thức và kỹ năng nghiên cứu.

Câu hỏi thường gặp

Mô hình đề xuất có thể áp dụng cho bao nhiêu ảnh đầu vào?
Mô hình được thiết kế để hoạt động hiệu quả với số lượng ảnh đầu vào từ 3 đến 10, đặc biệt tối ưu khi số lượng ảnh hạn chế, nhờ khả năng trích xuất đặc trưng từ encoder.
Thời gian huấn luyện và tổng hợp ảnh của mô hình là bao lâu?
Trên GPU NVIDIA A100-SXM4, thời gian huấn luyện khoảng 10 tiếng cho mỗi bối cảnh với 3 ảnh đầu vào, thời gian tổng hợp một khung ảnh khoảng vài giây, còn cần cải tiến để giảm thời gian này.
Mô hình có thể tổng hợp video động liên tục không?
Có, mô hình hỗ trợ tổng hợp video không gian-thời gian bằng cách nội suy các khung ảnh liên tiếp với hiệu ứng dịch chuyển camera, dựa trên scene flow dự đoán.
Mô hình có thể áp dụng cho các bối cảnh phức tạp như nhiều đối tượng chuyển động không?
Mô hình biểu diễn bối cảnh động có khả năng mô hình hóa chuyển động phức tạp, tuy nhiên hiệu quả giảm khi chuyển động quá lớn hoặc phi tuyến tính mạnh, cần nghiên cứu thêm.
Làm thế nào để cải thiện thời gian huấn luyện mô hình?
Có thể tối ưu kiến trúc mạng, sử dụng kỹ thuật pruning, giảm chiều dữ liệu đầu vào hoặc áp dụng các phương pháp huấn luyện phân tán để tăng tốc quá trình huấn luyện.

Kết luận

Đã phát triển thành công mô hình tổng hợp novel space-time video từ tập ảnh chụp liên tục với số lượng ảnh đầu vào hạn chế, nâng cao chất lượng tổng hợp so với mô hình NSFF.
Mô hình tích hợp mạng encoder ResNet34 giúp trích xuất đặc trưng ảnh đầu vào, tăng khả năng tổng quát hóa và tái sử dụng kiến thức học được từ nhiều bối cảnh.
Kết quả đánh giá trên tập Nvidia Dynamic Scenes Dataset cho thấy mô hình đạt PSNR, SSIM cao hơn và LPIPS thấp hơn so với các mô hình trước.
Hạn chế hiện tại gồm thời gian huấn luyện và tổng hợp ảnh còn dài, cần cải tiến kiến trúc và mở rộng tập huấn luyện.
Đề xuất các hướng phát triển trong tương lai như tối ưu hóa mô hình, mở rộng dữ liệu huấn luyện và ứng dụng trong đa phương tiện, trò chơi điện tử và giảng dạy.

Mời các nhà nghiên cứu và kỹ sư quan tâm tiếp cận và phát triển mô hình để ứng dụng rộng rãi trong các lĩnh vực đa phương tiện và thị giác máy tính.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu 1.1 Giới thiệu bài toán Với sự phát triển mạnh mẽ của công nghệ camera trên thiết bị di động trong những năm gần đây, chúng ta ta dễ dàng ghi lại những khoảnh khắc ý nghĩa với chất lượng hình ảnh chân thật và sắc nét. Để chọn được bức ảnh ưng ý, việc chụp liên tục nhiều tấm ảnh là cần thiết, đặc biệt là với những người dùng phổ thông, không phải nhiếp ảnh gia chuyên nghiệp. Điều này dẫn đến một số lượng lớn ảnh dư thừa được lưu trữ trong bộ nhớ điện thoại hoặc trên các dịch vụ lưu trữ điện toán đám mây. Nếu có thể phát triển một mô hình biểu diễn được cấu trúc, vị trí, màu sắc, độ phản chiếu, sự dịch chuyển,.

của bối cảnh và chủ thể từ những ảnh chụp liên tục, chúng ta có thể tổng hợp hình ảnh của bối cảnh và chủ thể ở những góc nhìn khác với ảnh đầu vào. Từ đó kết hợp với hiệu ứng dịch chuyển camera (di chuyển từ xa tới gần, từ gần đi ra xa, hoặc di chuyển máy ảnh từ trái sáng phải, từ trên xuống dưới,. ), chúng ta có thể sinh được một bức ảnh động hoặc video ngắn về bối cảnh và chủ thể với một góc quay hoàn toàn mới. Nhận thấy việc phát triển mô hình biểu diễn chủ thể và bối cảnh trong thế giới thực tồn tại nhiều thách thức cần phải giải quyết, đặc biệt là khi đầu vào là bối cảnh động (con người, xe cộ di chuyển, .) và số lượng ảnh đầu vào hạn chế, luận văn mong muốn đóng góp những cải tiến mang lại giá trị nghiên cứu cũng như thực tiễn thông qua đề tài nghiên cứu này.2 Mục tiêu nghiên cứu của đề tài 1.

Tìm hiểu các mô hình, các nghiên cứu nhằm biểu diễn bối cảnh và chủ thể động trong thế giới thực từ những ảnh chụp liên tục và số lượng ảnh đầu vào hạn chế. Từ đó phân tích ưu, nhược điểm của các mô hình để đưa ra những hướng cải tiến PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 1/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính phù hợp. Đề xuất mô hình học máy biểu diễn cấu trúc, vị trí, màu sắc, độ phản chiếu, sự di chuyển,. của chủ thể và bối cảnh động từ những ảnh chụp liên tục và số lượng ảnh đầu vào là hạn chế.

Xác định phương pháp đánh giá kết quả mô hình đã đề xuất và so sánh với các mô hình hiện có.3 Đối tượng nghiên cứu chính Đề tài luận văn tập trung vào đối tượng chính là các mô hình học máy mạng nơ-ron có khả năng biểu diễn được cấu trúc 3D của bối cảnh và chủ thể động tại một thời điểm t bất kì. Các mô hình này sẽ mô hình hoá một ánh xạ f có đầu vào là toạ độ của một điểm trong không gian 3D và thời điểm t, đầu ra là màu sắc và mật độ vật chất (density) tại điểm đó.4 Phạm vi đề tài Trong đề tài này, ảnh đầu vào là những ảnh được chụp liên tục từ máy ảnh trên điện thoại di động. Số lượng ảnh đầu vào có thể dao động từ 3 đến 10 ảnh. Do những ảnh được chụp liên tục trong khoảng thời gian ngắn, nên không có nhiều sự thay đổi về vị trí và hướng quay của máy ảnh.

Chủ thể được chụp có thể là con người, động vật hoặc xe cộ đang hoạt động hoặc di chuyển trong điều kiện thời tiết đẹp, đủ ánh sáng, không bị ảnh hưởng nhiều bởi yếu tố môi trường và thời tiết xung quanh. Phần tiếp theo của luận văn sẽ trình bày những thông tin tổng quan về những công trình nguyên cứu trong nước và trên thế giới liên quan tới đề tài. Từ đó lựa chọn ra những mô hình và kiến thức nền tảng trong việc xây dựng mô hình đề xuất. Ở chương 4, luận văn sẽ trình bày kiến trúc của mô hình đề xuất và những cải tiến của mô hình so với những mô hình trước đó.

Chi tiết hiện thực và kết quả đánh giá mô hình đề xuất sẽ được trình bày tiếp theo ở Chương 5. Cuối cùng tại chương 6, luận văn sẽ tổng kết những giá trị và kết quả của việc nghiên cứu mang lại, đồng thời trình bày những điểm cần phải cải tiến và kế hoạch phát triển mô hình trong tương lai. PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 2/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Chương 2 Các công trình nghiên cứu liên quan 2.1 Tổng hợp góc nhìn mới (Novel-view synthesis) Để sinh được hình ảnh bối cảnh và chủ thể ở góc nhìn mới, nhiều phương pháp render hiện nay đề xuất việc biểu diễn bối cảnh và chủ thể trong không gian 3D bằng Point cloud hoặc Triangle mesh. Những phương pháp này đảm bảo chất lượng hình ảnh được render tốt, tuy nhiên để xây dựng đầy đủ Point cloud hoặc Triangle mesh cho một bối cảnh cần những thiết bị đặc biệt như máy scan 3D, hoặc áp dụng các kĩ thuật trong lĩnh vực Photogrammetry.

Sử dụng nhiều bộ nhớ cũng là một nhược điểm của những phương pháp biểu diễn này vì hầu như mọi điểm của bối cảnh trong không gian 3D phải được lưu trữ. Nổi lên trong những năm gần đây, Neural Radiance Field (NeRF)[2] đề xuất sử dụng một hàm liên tục được mô hình bởi một mạng nơ-ron multilayer perceptron (MLP) để biểu diễn bối cảnh trong không gian 3D.1 mô tả tổng quan kiến trúc của mô hình NeRF. Theo đó, mạng nơ-ron này nhận input đầu vào là toạ độ (x, y, z) của một điểm P trong không gian, và hướng nhìn (θ, ϕ). Đầu ra của mạng là màu sắc (RGB) và mật độ vật chất (α) tại điểm P đó.

Sử dụng kĩ thuật Volume Rendering [12], NeRF tổng hợp toàn bộ màu sắc và mật độ vật chất của các điểm trên cameray ray để sinh hình ảnh của bối cảnh. Tại thời điểm công bố, NeRF vượt trội các kĩ thuật view synthesis tốt nhất tại thời điểm đó (Neural Volumes[13], Scene Representation Networks[8], Local Light Field Fusion[9]) về cả chất lượng render và bộ nhớ lưu trữ. Vì mô hình NeRF thực hiện quá trình huấn luyện cho từng bối cảnh riêng biệt, nên cần rất nhiều hình ảnh về bối cảnh ở nhiều góc chụp và hướng chụp khác nhau. Ngoài ra, quá trình huấn luyện cũng cần nhiều thời gian và sức mạnh tính toán.

Thay vì sử dụng Posional Encoding như ở NeRF, pixelNeRF [3] đề xuất sử dụng một mạng CNN Encoder để trích xuất đặc trưng của ảnh đầu vào, và sử dụng những đặc trưng này làm đầu vào cho mạng nơ-ron MLP để dự đoán màu và mật độ vật chất tại một điểm trên camera ray. PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 3/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính Hình 2.1: Tổng quan của mô hình Neural radiance field (NeRF) [2] Hình 2.2: Mô hình pixelNeRF chỉ với 3 ảnh đầu vào đã có thể sinh được ảnh bối cảnh ở góc nhìn hoàn toàn mới. [3] Mạng CNN Encoder này được huấn luyện trên nhiều bối cảnh trong tập dữ liệu, để có thể trích xuất đặc trưng cho một bối cảnh mới, không có trong tập dữ liệu. Nhờ đó, với một bối cảnh mới, mô hình NeRF chỉ cần 2, 3 hình ảnh để có biểu diễn bối cảnh trong không gian 3D từ đó sinh ảnh bối cảnh bối cảnh ở như trong hình 2.

Thời gian huấn luyện cho bối cảnh mới cũng ít hơn đáng kể so với mô hình NeRF.3 mô tả một cách tổng quan kiến trúc của mô hình pixelNeRF. Mô hình được thiết kế tương đồng với NeRF, tuy nhiên đầu vào là đặc trưng được trích xuất từ mạng CNN Encoder. Dù đạt được những kết quả ấn tượng trong việc mô hình hoá cấu trúc 3D của bối Hình 2.3: Tổng quan kiến trúc mô hình pixelNeRF [3] PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO Trang 4/42 TỪ TẬP ẢNH CHỤP LIÊN TỤC Đại học Quốc gia TP.HCM - Trường Đại Học Bách Khoa Khoa Khoa học và Kỹ thuật Máy tính cảnh và chủ thể, và tổng hợp hình ảnh ở góc nhìn mới. Những mô hình này hoạt động tốt trên các bối cảnh tĩnh, không thay đổi theo thời gian.

Tuy nhiên, đa phần các bức ảnh được chụp trên điện thoại cá nhân và được chia sẻ trên mạng xã hội ngày nay là về những bối cảnh và chủ thể như con người, động vật, xe cộ. Những bối cảnh này có đặc tính thay đổi theo thời gian. Do đó chúng ta cần những mô hình khác để mô hình hoá những bối cảnh động này.2 Nội suy khung ảnh (Frame interpolation) Là kĩ thuật nội suy khung ảnh tại thời điểm t bất kì nằm giữa hai hay nhiều khung ảnh liền kề trong một video. Nội suy khung ảnh giúp video gốc trở nên mượt mà hơn nhờ việc tăng số lượng khung hình trên giây.

Phased-based [14] là một trong những phương pháp được sử dụng trong nội suy khung ảnh. Theo đó, Phase-based dựa trên giả định rằng, những dịch chuyển nhỏ từ một khung ảnh sang khung ảnh tiếp theo có thể được mô hình bằng sự dịch chuyển pha màu của từng pixel riêng lẻ. Phương pháp này hoạt động tốt khi sự chuyển dịch giữa các khung hình không lớn. Ngoài ra, bằng việc sử dụng mạng tích chập (Convolution Neural network), phương pháp Kernel-based [15], [16] dự đoán màu của môt điểm ảnh tại toạ độ (x, y) ở khung ảnh mục tiêu từ việc tích chập vùng ảnh của những khung ảnh lân cận với một bộ lọc (kernel) K.

Để mô hình những chuyển động lớn từ khung ảnh này qua khung ảnh tiếp theo, cần tăng kích thước bộ lọc, từ đó gia tăng số lượng tham số cần phải huấn luyện. Tuy nhiên, đa phần khung ảnh được sinh ra theo hướng tiếp cận Phased-base hoặc Kernel-based tồn tại những vùng ảnh bị mờ hoặc nhoè, đặc biệt là những nơi có sự chuyển động nhanh của các đối tượng trong ảnh. Gần đây hướng tiếp cận Motion-based [17], [6], [5] mang lại nhiều kết quả ấn tượng. Phương pháp này mô hình hoá optical flow (luồng quang) giữa hai khung ảnh sử dụng mạng học sâu, kết hợp với các kĩ thuật warping để nội suy ra khung ảnh mục tiêu.

Nhiều mô hình theo hướng tiếp cận này có thể mô hình hoá một chuyển động phi tuyến tính [18], [19], hoặc việc bất đối xứng của chuyển động theo thời gian từ khung ảnh này qua khung ảnh kia [20]. Được đề xuất bởi Liying Lu et al.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ Về Mô Hình Tổng Hợp Video Spacetime Từ Tập Ảnh Chụp Liên Tục của tác giả Mai Văn Quân, dưới sự hướng dẫn của các giảng viên như TS. Nguyễn Đức Dũng, TS. Lê Thị Thủy, và TS. Trang Hồng Sơn, thuộc Trường Đại Học Bách Khoa - Đại học Quốc gia TP.HCM, tập trung vào việc phát triển mô hình tổng hợp video từ các ảnh chụp liên tục. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ tổng hợp video mà còn mở ra nhiều ứng dụng trong lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý hình ảnh và video.

Để mở rộng thêm kiến thức về các ứng dụng trong lĩnh vực khoa học máy tính, bạn có thể tham khảo các bài viết liên quan như Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu ứng dụng các phương pháp học máy trong nhận diện giọng nói. Bên cạnh đó, bài viết Ứng Dụng Tổng Hợp Ảnh Chiều Sâu trong Khoa Học Máy Tính cũng sẽ giúp bạn hiểu rõ hơn về các kỹ thuật tổng hợp hình ảnh trong bối cảnh công nghệ hiện đại. Cuối cùng, Nhận Dạng Mô-Típ Trong Dữ Liệu Chuỗi Thời Gian Hình Ảnh sẽ cung cấp thêm thông tin về nhận diện hình ảnh và các kỹ thuật liên quan trong lĩnh vực này. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá thêm nhiều khía cạnh thú vị trong khoa học máy tính.

#Luận văn Thạc sĩ

#xử lý hình ảnh

#công nghệ video

#mô hình tổng hợp video

#ảnh chụp liên tục

#tổng hợp video

Chủ đề

Công nghệ video và hình ảnh

Học máy trong xử lý video

Nghiên cứu và phát triển trong lĩnh vực video

Ứng dụng của mô hình tổng hợp video