Luận Văn Thạc Sĩ Về Mô Hình Tổng Hợp Video Spacetime Từ Tập Ảnh Chụp Liên Tục

2023

53
1
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Bài toán tổng hợp video từ ảnh chụp liên tục đã trở thành một lĩnh vực nghiên cứu quan trọng trong công nghệ hình ảnh hiện đại. Sự phát triển của công nghệ videocông nghệ camera trên các thiết bị di động đã tạo điều kiện thuận lợi cho việc ghi lại những khoảnh khắc đáng nhớ. Tuy nhiên, việc lưu trữ một lượng lớn ảnh chụp liên tục mà không có cách thức hiệu quả để xử lý và tổng hợp chúng thành video có thể dẫn đến tình trạng lãng phí tài nguyên. Mô hình đề xuất trong luận văn này nhằm giải quyết vấn đề này bằng cách phát triển một mô hình tổng hợp video từ những ảnh chụp liên tục, giúp tạo ra những video động với chất lượng cao từ số lượng ảnh đầu vào hạn chế. Mô hình này không chỉ giúp tiết kiệm không gian lưu trữ mà còn tối ưu hóa quy trình sản xuất video. Việc ứng dụng mô hình này có thể mang lại lợi ích lớn trong các lĩnh vực như thiết kế đồ họa, giảng dạy đa phương tiện, và trò chơi điện tử.

1.1 Mục tiêu nghiên cứu

Mục tiêu chính của nghiên cứu là tìm hiểu và phát triển một mô hình tổng hợp video từ ảnh chụp liên tục. Mô hình này sẽ sử dụng các đặc trưng trích xuất từ ảnh đầu vào để tái tạo bối cảnh và chủ thể động trong không gian 3 chiều. Một trong những thách thức lớn là xử lý các bối cảnh động với số lượng ảnh đầu vào hạn chế. Mô hình đề xuất sẽ giúp giải quyết vấn đề này bằng cách sử dụng các kỹ thuật học máy để trích xuất thông tin từ ảnh, từ đó tổng hợp hình ảnh của đối tượng tại thời điểm và góc nhìn bất kỳ. Việc cải tiến mô hình này sẽ đóng góp vào lĩnh vực tổng hợp góc nhìn mớitổng hợp video trong tương lai.

II. Các công trình nghiên cứu liên quan

Nghiên cứu về tổng hợp góc nhìn mới (Novel-view synthesis) đã trở thành một lĩnh vực nghiên cứu sôi nổi với nhiều phương pháp khác nhau được phát triển. Một trong những phương pháp nổi bật là Neural Radiance Fields (NeRF), cho phép mô hình hóa bối cảnh trong không gian 3D từ nhiều ảnh chụp khác nhau. Tuy nhiên, NeRF chủ yếu hoạt động hiệu quả với các bối cảnh tĩnh và yêu cầu một lượng lớn hình ảnh để huấn luyện. Các mô hình như pixelNeRF đã cải thiện khả năng tổng hợp bằng cách sử dụng mạng CNN để trích xuất đặc trưng từ ảnh đầu vào, giúp giảm thiểu số lượng ảnh cần thiết. Tuy nhiên, những mô hình này vẫn gặp khó khăn trong việc mô hình hóa các bối cảnh động. Do đó, việc phát triển các phương pháp như Nội suy khung ảnh (Frame interpolation) và tổng hợp góc nhìn với thời không mới (Space-time view synthesis) trở nên cần thiết để xử lý các tình huống có sự chuyển động nhanh và phức tạp.

2.1 Tổng hợp góc nhìn mới

Để tổng hợp hình ảnh ở góc nhìn mới, các phương pháp hiện tại thường sử dụng Point cloud hoặc Triangle mesh để biểu diễn bối cảnh trong không gian 3D. Mặc dù các phương pháp này cho chất lượng hình ảnh tốt, nhưng chúng yêu cầu thiết bị đặc biệt và tiêu tốn nhiều bộ nhớ. NeRF đã nổi lên như một giải pháp khả thi với khả năng mô hình hóa bối cảnh thông qua mạng nơ-ron, giúp giảm thiểu yêu cầu về bộ nhớ và thời gian huấn luyện. Tuy nhiên, NeRF vẫn cần nhiều hình ảnh để đạt được kết quả tốt. Các nghiên cứu gần đây đã chỉ ra rằng việc kết hợp các kỹ thuật khác nhau có thể cải thiện khả năng tổng hợp video từ ảnh chụp liên tục.

III. Mô hình đề xuất Neural Scene Flow Fields With Encoder NSFFwE

Mô hình Neural Scene Flow Fields With Encoder (NSFFwE) được đề xuất nhằm cải thiện khả năng tổng hợp video từ ảnh chụp liên tục. Mô hình này sử dụng kiến trúc mạng nơ-ron với một encoder để trích xuất đặc trưng từ ảnh đầu vào. Bằng cách kết hợp các đặc trưng này, mô hình có thể dự đoán màu sắc và mật độ vật chất tại bất kỳ điểm nào trong không gian 3D. NSFFwE cho phép tổng hợp hình ảnh động từ số lượng ảnh đầu vào hạn chế, đồng thời duy trì chất lượng hình ảnh cao hơn so với các mô hình trước đó. Việc áp dụng các kỹ thuật học sâu trong mô hình này không chỉ giúp cải thiện độ chính xác mà còn tối ưu hóa quá trình tổng hợp video, mở ra hướng đi mới trong việc phát triển các ứng dụng thực tế trong các lĩnh vực như trò chơi điện tửgiảng dạy đa phương tiện.

3.1 Kiến trúc mô hình đề xuất

Kiến trúc của NSFFwE bao gồm nhiều lớp nơ-ron với khả năng học tập cao, cho phép mô hình xử lý các bối cảnh động phức tạp. Mô hình này được thiết kế để nhận diện các đặc trưng quan trọng từ ảnh chụp liên tục, từ đó tái tạo lại bối cảnh và chủ thể động một cách chính xác. Qua các thí nghiệm, NSFFwE đã chứng minh được khả năng vượt trội trong việc tổng hợp video so với các mô hình truyền thống. Việc ứng dụng NSFFwE có thể mang lại nhiều lợi ích trong việc phát triển các sản phẩm công nghệ mới, đặc biệt trong lĩnh vực video và hình ảnh động.

10/01/2025
Luận văn thạc sĩ khoa học máy tính phát triển mô hình tổng hợp novel spacetime video từ tập ảnh chụp liên tục
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính phát triển mô hình tổng hợp novel spacetime video từ tập ảnh chụp liên tục

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tiêu đề Luận Văn Thạc Sĩ Về Mô Hình Tổng Hợp Video Spacetime Từ Tập Ảnh Chụp Liên Tục của tác giả Mai Văn Quân, dưới sự hướng dẫn của các giảng viên như TS. Nguyễn Đức Dũng, TS. Lê Thị Thủy, và TS. Trang Hồng Sơn, thuộc Trường Đại Học Bách Khoa - Đại học Quốc gia TP.HCM, tập trung vào việc phát triển mô hình tổng hợp video từ các ảnh chụp liên tục. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về công nghệ tổng hợp video mà còn mở ra nhiều ứng dụng trong lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý hình ảnh và video.

Để mở rộng thêm kiến thức về các ứng dụng trong lĩnh vực khoa học máy tính, bạn có thể tham khảo các bài viết liên quan như Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói, nơi nghiên cứu ứng dụng các phương pháp học máy trong nhận diện giọng nói. Bên cạnh đó, bài viết Ứng Dụng Tổng Hợp Ảnh Chiều Sâu trong Khoa Học Máy Tính cũng sẽ giúp bạn hiểu rõ hơn về các kỹ thuật tổng hợp hình ảnh trong bối cảnh công nghệ hiện đại. Cuối cùng, Nhận Dạng Mô-Típ Trong Dữ Liệu Chuỗi Thời Gian Hình Ảnh sẽ cung cấp thêm thông tin về nhận diện hình ảnh và các kỹ thuật liên quan trong lĩnh vực này. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá thêm nhiều khía cạnh thú vị trong khoa học máy tính.

Tải xuống (53 Trang - 3.57 MB)