Triển Khai và Kiểm Định AI Tạo Sinh Để Tạo Ra Đối Tượng 3D Từ Mô Tả Văn Bản

Chuyên khảo phân tích Proposer une implémentation et validation dun ia générative pour la création des objets 3d à partir, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên

Trường đại học

Université Nationale du Vietnam à Hanoi

Chuyên ngành

Systèmes Intelligents et Multimédia

Người đăng

Ẩn danh

Thể loại

Luận văn

2024

100

Phí lưu trữ

35 Point

Mục lục chi tiết

1. Analyse du sujet

1.1. Introduction

1.3. Problématique et objectifs

1.4. Exploitation des données images 2D

1.5. Principes Fondamentaux des Modèles de Diffusion

1.5.1. Le processus de diffusion ou processus direct

1.5.2. Le processus de diffusion inverse

1.5.3. Entrainement du modèle de diffusion

1.5.5. Génération d’images : diffusion guidée

1.6. Les modèles de diffusion 2D pour la reconstruction 3D utilisant le score distillation sampling

1.7. 3D Priors pour la Reconstruction 3D

1.8. Approches à inférence directe pour la reconstruction 3D

2. Solutions proposées et plan de travail

2.1. Génération d’Images 2D à Partir de Descriptions Textuelles : Fine-tuning de Stable Diffusion

2.1.1. Objectif, Difficultés rencontrées et solution proposée

2.1.3. Finetuning avec Diffusers

2.2. Reconstruction 3D à partir des images 2D

2.2.1. Avantages de l’Adoption de Modèles Pré-entraînés

2.2.2. Choix du modèle de reconstruction

2.2.3. Architecture de la solution proposée prompt à asset 3D

2.2.4. Simplification de maillage

2.2.5. Définition de la matrice Q

2.2.6. Outils et technologies utilisés

3. Expérimentation et analyse des résultats

3.1. Configuration de l’expérimentation

3.1.1. Environnement de test

3.1.2. Description des datasets utilisés

3.2. Présentation des résultats

3.2.1. Comparaison empirique des résultats de finetuning au modèle standard de Stable Diffusion

3.2.1.1. Résultats visuels obtenus

3.2.1.2. Comparaison de temps de génération moyen d’image

3.2.2. Génération des objets 3D à partir des prompts

3.2.2.1. Démonstration des pipelines via Gradio

3.2.2.2. Temps de Génération des Pipelines

3.2.2.3. Résultat de la simplification de mesh des modèles 3D générés

3.2.2.3.1. Évaluation de l’alignement de l’objet 3D avec le prompt

3.2.2.3.2. Évaluation de la cohérence géométrique

4. Intégration du meilleur pipeline pour la création d’un service web

4.1. Implémentation de l’API

4.1.1. Endpoints de l’API

4.1.2. Gestion des données

4.1.3. Cas d’utilisation de l’API pour la Génération d’Objets 3D

4.1.3.1. Pour tous les développeurs : Exemple de cas python

4.1.3.2. Pour les développeurs Unity : Exemple de cas de C# sous Unity

5. Conclusions et perspectives

LỜI CAM ĐOAN

REMERCIEMENTS

Dédicace

Résumé

Abstract

Table des figures

Liste des tableaux

Acronymes

Tóm tắt

I. AI Tạo Sinh 3D Tổng Quan Cơ Hội Triển Khai 55 ký tự

Trí tuệ nhân tạo tạo sinh (AI tạo sinh) đang cách mạng hóa quá trình tạo nội dung số, mở ra những khả năng chưa từng có trong lĩnh vực 3D modeling AI. Không giống như các ứng dụng AI truyền thống, AI tạo sinh có khả năng tạo ra nội dung mới như văn bản, hình ảnh, âm thanh và dữ liệu tổng hợp, mô phỏng chân thực dữ liệu gốc. Theo Cao et al. 2023, AI tạo sinh giúp quy trình sáng tạo nội dung hiệu quả và dễ tiếp cận hơn, cho phép sản xuất nội dung chất lượng cao với tốc độ nhanh hơn. Một trong những ứng dụng đột phá của AI tạo sinh là chuyển đổi mô tả văn bản thành 3D, giúp tạo ra các đối tượng 3D từ những mô tả đơn giản bằng ngôn ngữ tự nhiên. Công nghệ này là sự kết hợp của đồ họa máy tính, xử lý ngôn ngữ tự nhiên và thị giác máy tính. Sự hội tụ này thúc đẩy khả năng chuyển đổi mô tả văn bản thành các mô hình 3D chính xác. Điều này mở ra các ứng dụng sáng tạo trong VR, AR, trò chơi điện tử và thiết kế công nghiệp, tạo điều kiện cho một quy trình sáng tạo trực quan, nhanh chóng và linh hoạt hơn.

1.1. Lịch Sử Phát Triển của AI Tạo Sinh 3D

Sự phát triển của AI tạo sinh 3D bắt nguồn từ các mô hình tạo sinh hình ảnh 2D như DALL-E và Midjourney. Dù tập trung vào tạo ảnh 2D, nhưng các nguyên tắc cơ bản về học máy và tạo nội dung dựa trên văn bản đã mở đường cho việc tạo đối tượng 3D. Việc tạo 3D phức tạp hơn tạo 2D vì cần tái tạo 3D dựa trên một biểu diễn cụ thể. Các biểu diễn dữ liệu khác nhau được sử dụng để mô hình hóa và thao tác các đối tượng 3D, mỗi loại phù hợp với các ứng dụng cụ thể. Ma trận đa giác, bao gồm các đỉnh, cạnh và mặt, thường được sử dụng trong các ngành công nghiệp trò chơi điện tử, điện ảnh và CAD (thiết kế bằng máy tính) cho tính linh hoạt và hiệu quả về mặt hiển thị.

1.2. Ứng Dụng Đa Dạng Của AI Tạo Sinh 3D

Các ngành công nghiệp từ trò chơi điện tử đến thiết kế kiến trúc đang được hưởng lợi từ khả năng nhanh chóng tạo ra nguyên mẫu và hình dung từ các mô tả đơn giản. Khả năng triển khai AI tạo sinh 3D và áp dụng thực tế đã tạo ra sự chuyển đổi trong cách chúng ta hình dung, phát triển và tương tác với môi trường kỹ thuật số. Ứng dụng AI tạo sinh 3D có tiềm năng to lớn trong việc tạo ra nội dung 3D đa dạng và phong phú cho các ứng dụng khác nhau. Ví dụ, trong ngành công nghiệp trò chơi điện tử, nó có thể được sử dụng để tạo ra các mô hình nhân vật, môi trường trò chơi và đạo cụ một cách nhanh chóng và hiệu quả.

II. Thách Thức Yêu Cầu để Triển Khai Text to 3D 58 ký tự

Mặc dù tiềm năng là rất lớn, việc triển khai hiệu quả Text-to-3D vẫn còn nhiều thách thức. Một trong những thách thức chính là đảm bảo chất lượng và độ chính xác của các mô hình 3D được tạo ra. Mô hình cần phải khớp với mô tả văn bản một cách chính xác và phải có độ chi tiết đủ để đáp ứng nhu cầu của các ứng dụng khác nhau. Thêm vào đó, việc kiểm định mô hình AI tạo sinh 3D để đảm bảo chất lượng và tính nhất quán là một vấn đề quan trọng. Theo Chang et al. 2015, mục tiêu của việc tạo đối tượng 3D từ văn bản là chuyển đổi một mô tả bằng ngôn ngữ tự nhiên thành một biểu diễn ba chiều phù hợp với mô tả đó. Biểu diễn này phải đủ chi tiết để cho phép hình dung từ các góc độ khác nhau.

2.1. Đảm Bảo Tính Nhất Quán Giữa Text và Mô Hình 3D

Một thách thức quan trọng là đảm bảo rằng mô hình 3D được tạo ra phù hợp chính xác với mô tả văn bản. Điều này đòi hỏi các mô hình AI phải có khả năng hiểu và diễn giải ngôn ngữ tự nhiên một cách chính xác, đồng thời phải có khả năng chuyển đổi các khái niệm trừu tượng thành các biểu diễn trực quan. Ngoài ra, cần có các phương pháp đánh giá chất lượng mô hình 3D khách quan để đo lường mức độ phù hợp giữa mô tả văn bản và mô hình 3D được tạo ra.

2.2. Tối Ưu Hóa Hiệu Năng và Tốc Độ Tạo Mô Hình

Quá trình tạo mô hình 3D từ văn bản có thể tốn kém về mặt tính toán, đặc biệt là đối với các mô hình phức tạp. Cần có các kỹ thuật tối ưu hóa để giảm thời gian tạo mô hình và tài nguyên tính toán cần thiết. Các kỹ thuật này có thể bao gồm việc sử dụng các mô hình nhỏ hơn và hiệu quả hơn, cũng như các kỹ thuật song song hóa và phân tán để tận dụng nhiều bộ xử lý hoặc máy tính. Giải pháp: Sử dụng kết hợp MVDREAM và CRM (xem thêm phần sau)

2.3. Kiểm Định Tính Khả Dụng của Mô Hình 3D

Việc kiểm định mô hình AI tạo sinh 3D có vai trò quan trọng trong việc đảm bảo chất lượng và độ tin cậy của các mô hình 3D được tạo ra. Các phương pháp kiểm định có thể bao gồm đánh giá chủ quan của con người, cũng như các số liệu khách quan như độ chính xác hình học và độ trung thực kết cấu. Việc kiểm định cũng cần xem xét đến các yếu tố như tính khả dụng và tính dễ sử dụng của các mô hình 3D được tạo ra.

III. Hướng Dẫn Triển Khai AI Tạo Sinh 3D Với Stable Diffusion 59 ký tự

Stable Diffusion là một framework tạo sinh 3D mạnh mẽ có thể được sử dụng để tạo ra đối tượng 3D từ mô tả văn bản. Nó sử dụng một mô hình khuếch tán tiềm ẩn để tạo ra hình ảnh chất lượng cao, sau đó có thể được sử dụng để tái tạo mô hình 3D. Fine-tuning Stable Diffusion trên một tập dữ liệu cụ thể có thể cải thiện đáng kể chất lượng của các mô hình 3D được tạo ra. Có thể Fine-tuning AI tạo sinh 3D để các đối tượng 3D cho các loại đối tượng cụ thể.

3.1. Chuẩn Bị Dữ Liệu và Môi Trường Phát Triển

Bước đầu tiên là chuẩn bị một tập dữ liệu lớn các mô tả văn bản và các mô hình 3D tương ứng. Tập dữ liệu này sẽ được sử dụng để huấn luyện mô hình Stable Diffusion. Tiếp theo, cần thiết lập một môi trường phát triển với các thư viện và công cụ cần thiết, chẳng hạn như PyTorch, TensorFlow, và Diffusers. Ngoài ra, cũng cần chuẩn bị phần cứng đủ mạnh để huấn luyện mô hình, chẳng hạn như GPU mạnh mẽ.

3.2. Fine tuning Stable Diffusion để Tạo Mô Hình 3D

Sau khi đã chuẩn bị dữ liệu và môi trường phát triển, có thể bắt đầu fine-tuning AI tạo sinh 3D Stable Diffusion. Quá trình này bao gồm việc điều chỉnh các tham số của mô hình để nó có thể tạo ra mô hình 3D phù hợp với mô tả văn bản trong tập dữ liệu huấn luyện. Cần theo dõi quá trình huấn luyện để đảm bảo rằng mô hình không bị overfitting và có thể khái quát hóa tốt cho dữ liệu mới.

3.3. Sử Dụng API để Tích Hợp và Triển Khai Ứng Dụng

Sau khi mô hình đã được huấn luyện, có thể sử dụng API tạo sinh 3D để tích hợp nó vào các ứng dụng khác. API này cung cấp một giao diện đơn giản để tạo ra mô hình 3D từ mô tả văn bản. Các ứng dụng có thể sử dụng API này để tạo ra mô hình 3D theo yêu cầu, chẳng hạn như trong các ứng dụng thiết kế, trò chơi điện tử và thực tế ảo.

IV. Phương Pháp Kiểm Định Đánh Giá Mô Hình 3D Tạo Sinh 56 ký tự

Việc kiểm định mô hình AI tạo sinh 3D là rất quan trọng để đảm bảo rằng các mô hình 3D được tạo ra có chất lượng cao và đáp ứng các yêu cầu của ứng dụng. Có nhiều phương pháp khác nhau để đánh giá chất lượng mô hình 3D, bao gồm đánh giá chủ quan của con người, cũng như các số liệu khách quan như độ chính xác hình học và độ trung thực kết cấu. Cần sử dụng kết hợp các phương pháp khác nhau để có được đánh giá toàn diện về chất lượng của mô hình.

4.1. Đánh Giá Chủ Quan Bằng Con Người Human Evaluation

Đánh giá chủ quan của con người là một phương pháp quan trọng để kiểm định mô hình AI tạo sinh 3D. Phương pháp này bao gồm việc yêu cầu mọi người đánh giá chất lượng của các mô hình 3D được tạo ra, dựa trên các tiêu chí như độ chân thực, độ chi tiết và tính thẩm mỹ. Kết quả đánh giá có thể được sử dụng để so sánh các mô hình khác nhau và để xác định các điểm cần cải thiện.

4.2. Sử Dụng Các Số Liệu Khách Quan Objective Metrics

Ngoài đánh giá chủ quan, có thể sử dụng các số liệu khách quan để đánh giá chất lượng mô hình 3D. Các số liệu này bao gồm độ chính xác hình học, độ trung thực kết cấu và độ phức tạp của mô hình. Các số liệu khách quan cung cấp một cách định lượng để so sánh các mô hình khác nhau và để theo dõi sự tiến bộ của mô hình theo thời gian.

4.3. Phân Tích Mối Tương Quan Giữa Text và Mô Hình

Một phương pháp quan trọng khác là phân tích mối tương quan giữa mô tả văn bản và mô hình 3D được tạo ra. Phương pháp này bao gồm việc sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để phân tích mô tả văn bản, sau đó so sánh kết quả phân tích với các đặc tính của mô hình 3D. Mục tiêu là xác định xem mô hình 3D có thực sự phản ánh mô tả văn bản hay không.

V. Nghiên Cứu Ứng Dụng AI Tạo Sinh 3D Ví Dụ Điển Hình 60 ký tự

Nghiên cứu về AI tạo sinh 3D đang phát triển nhanh chóng, với nhiều ứng dụng tiềm năng trong các lĩnh vực khác nhau. Một ví dụ điển hình là việc sử dụng AI tạo sinh để tạo ra nội dung cho các trò chơi điện tử và thực tế ảo. AI tạo sinh có thể được sử dụng để tạo ra các mô hình 3D của nhân vật, môi trường và đạo cụ một cách nhanh chóng và hiệu quả, giúp giảm chi phí và thời gian phát triển trò chơi. Theo tài liệu, nghiên cứu sử dụng các mô phỏng GAMA kết hợp với hình ảnh sống động trong Unity, nhắm đến các thiết bị thực tế ảo như Meta Quest 3. Cách tiếp cận thực nghiệm, tập trung vào việc tạo đối tượng 3D thông qua lời nhắc văn bản, được đánh giá bằng các phương pháp định lượng dựa trên các mô hình CLIP và đánh giá định tính dựa trên nhận thức của con người.

5.1. Tạo Nội Dung Trò Chơi Điện Tử và Thực Tế Ảo

Việc sử dụng AI tạo sinh để tạo ra nội dung cho các trò chơi điện tử và thực tế ảo đang trở nên phổ biến hơn. AI tạo sinh có thể được sử dụng để tạo ra các mô hình 3D của nhân vật, môi trường và đạo cụ một cách nhanh chóng và hiệu quả, giúp giảm chi phí và thời gian phát triển trò chơi. Ngoài ra, AI tạo sinh có thể được sử dụng để tạo ra các nội dung động và tương tác, giúp tăng tính hấp dẫn và khả năng tương tác của trò chơi.

5.2. Thiết Kế Sản Phẩm và Tạo Mẫu Nhanh Rapid Prototyping

AI tạo sinh cũng có thể được sử dụng để thiết kế sản phẩm và tạo mẫu nhanh. Các nhà thiết kế có thể sử dụng AI tạo sinh để tạo ra các mô hình 3D của sản phẩm dựa trên các yêu cầu và thông số kỹ thuật. Các mô hình 3D này có thể được sử dụng để đánh giá thiết kế, thử nghiệm các ý tưởng khác nhau và tạo ra các mẫu thử nghiệm nhanh chóng.

5.3. Ứng Dụng Trong Giáo Dục và Đào Tạo

AI tạo sinh có thể được sử dụng để tạo ra các môi trường học tập và đào tạo tương tác. AI tạo sinh có thể được sử dụng để tạo ra các mô hình 3D của các đối tượng và môi trường khác nhau, giúp học sinh và sinh viên khám phá và tìm hiểu các khái niệm một cách trực quan và sinh động. Ví dụ, AI tạo sinh có thể được sử dụng để tạo ra một mô hình 3D của một tế bào để học sinh có thể khám phá cấu trúc và chức năng của nó.

VI. Tương Lai Tiềm Năng Phát Triển Của AI Tạo Sinh 3D 57 ký tự

Tương lai của AI tạo sinh 3D là rất hứa hẹn, với nhiều tiềm năng phát triển trong các lĩnh vực khác nhau. Khi các mô hình AI tạo sinh trở nên mạnh mẽ hơn, chúng có thể tạo ra các mô hình 3D ngày càng phức tạp và chân thực hơn. Ngoài ra, sự phát triển của các kỹ thuật học tập tăng cường và học tập không giám sát có thể giúp cải thiện khả năng của AI tạo sinh để tạo ra các mô hình 3D từ dữ liệu hạn chế. Kết quả cho thấy sự kết hợp của mô hình khuếch tán MVDREAM với mô hình tái cấu trúc CRM tối ưu hóa việc sử dụng các tài nguyên hạn chế, giảm thời gian tạo xuống trung bình 20 giây trên mỗi đối tượng theo các thiết bị thử nghiệm của chúng tôi.

6.1. Phát Triển Các Mô Hình Tạo Sinh Mạnh Mẽ Hơn

Một trong những hướng phát triển chính của AI tạo sinh 3D là phát triển các mô hình tạo sinh mạnh mẽ hơn. Các mô hình này có thể tạo ra các mô hình 3D ngày càng phức tạp và chân thực hơn, giúp mở ra các ứng dụng mới trong các lĩnh vực khác nhau. Các mô hình mạnh mẽ hơn có thể yêu cầu nhiều dữ liệu huấn luyện hơn và tài nguyên tính toán hơn, nhưng kết quả có thể xứng đáng với nỗ lực.

6.2. Tích Hợp Với Các Công Nghệ Mới Nổi Khác

AI tạo sinh 3D có thể được tích hợp với các công nghệ mới nổi khác, chẳng hạn như thực tế ảo tăng cường, Internet of Things (IoT) và blockchain. Sự tích hợp này có thể mở ra các ứng dụng mới trong các lĩnh vực khác nhau. Ví dụ, AI tạo sinh có thể được sử dụng để tạo ra các mô hình 3D của các sản phẩm và thiết bị IoT, giúp người dùng hình dung và tương tác với chúng một cách trực quan hơn.

6.3. Ứng Dụng Rộng Rãi Trong Nhiều Lĩnh Vực

Cuối cùng, AI tạo sinh 3D có tiềm năng được ứng dụng rộng rãi trong nhiều lĩnh vực, từ trò chơi điện tử và thiết kế sản phẩm đến giáo dục và y tế. Khi công nghệ này tiếp tục phát triển, nó có thể cách mạng hóa cách chúng ta tạo ra và tương tác với thế giới 3D. Cần tiếp tục nghiên cứu và phát triển để khai thác tối đa tiềm năng của AI tạo sinh 3D.

18/04/2025

Bạn đang xem trước tài liệu:

Proposer une implémentation et validation dun ia générative pour la création des objets 3d à partir des descriptions textuelles dans les modèles gama đề xuất một cách triển

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ trí tuệ nhân tạo (AI), việc ứng dụng AI tạo sinh (Generative AI) trong lĩnh vực tạo mô hình 3D từ mô tả văn bản đã trở thành một hướng nghiên cứu đầy tiềm năng. Luận văn này tập trung vào việc đề xuất và kiểm định một phương pháp triển khai AI tạo sinh nhằm tạo ra các đối tượng 3D từ các mô tả văn bản trong mô hình GAMA, một nền tảng mô phỏng dựa trên tác nhân. Nghiên cứu được thực hiện trong khuôn khổ dự án SIMPLE, nhằm phát triển các môi trường học tập ảo tương tác cho giáo dục phát triển bền vững, với phạm vi thực hiện tại Việt Nam và các nước ASEAN.

Mục tiêu chính của nghiên cứu là phát triển một pipeline kết hợp mô hình khuếch tán MVDREAM và mô hình tái tạo CRM để tối ưu hóa quá trình tạo đối tượng 3D, giảm thời gian tạo xuống trung bình 20 giây cho mỗi đối tượng trên thiết bị thử nghiệm. Nghiên cứu cũng xây dựng một API thân thiện, dễ tích hợp cho phép truy cập rộng rãi công nghệ này trong các dịch vụ web. Kết quả nghiên cứu có ý nghĩa lớn trong việc nâng cao hiệu quả tạo mô hình 3D, hỗ trợ các ứng dụng thực tế trong giáo dục, thực tế ảo (VR) và phát triển nội dung số sáng tạo.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Mô hình khuếch tán (Diffusion Models): Đây là nền tảng chính cho việc tạo ảnh và mô hình 3D từ dữ liệu đầu vào nhiễu, với quá trình học cách khử nhiễu để tái tạo dữ liệu gốc. Mô hình DDPM và các biến thể như Stable Diffusion được sử dụng để tạo ảnh 2D từ mô tả văn bản.
Mô hình tái tạo 3D (3D Reconstruction Models): Các mô hình như TripoSR và CRM sử dụng kiến trúc transformer và mạng U-Net để chuyển đổi ảnh 2D thành mô hình 3D chi tiết, bao gồm cả việc dự đoán tọa độ và màu sắc.
Khái niệm Low Poly: Mô hình 3D có số lượng đa giác thấp, phù hợp với các thiết bị VR có giới hạn tài nguyên, giúp tối ưu hiệu suất mà vẫn giữ được chất lượng hình ảnh.
Xử lý ngôn ngữ tự nhiên (NLP) và embeddings CLIP: Giúp liên kết mô tả văn bản với hình ảnh và mô hình 3D, đảm bảo tính nhất quán giữa mô tả và sản phẩm tạo ra.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng dataset khoảng 1000 hình ảnh 2D được trích xuất từ bộ dữ liệu Objaverse, kèm theo mô tả văn bản phù hợp để huấn luyện và tinh chỉnh mô hình.
Phương pháp phân tích: Kết hợp phương pháp định lượng (đánh giá bằng điểm số CLIP, thời gian tạo mô hình) và định tính (đánh giá cảm nhận người dùng qua nền tảng tương tác trực tuyến).
Timeline nghiên cứu: Quá trình nghiên cứu bao gồm giai đoạn fine-tuning mô hình Stable Diffusion, xây dựng pipeline tạo mô hình 3D, đánh giá hiệu năng và chất lượng mô hình, và phát triển API phục vụ ứng dụng thực tế.
Cỡ mẫu: 100 mô tả phức tạp được sử dụng để đánh giá hiệu quả các pipeline tạo mô hình 3D.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của fine-tuning: Mô hình Stable Diffusion sau fine-tuning với dataset chuyên biệt cho ra hình ảnh 2D phù hợp hơn cho việc chuyển đổi sang 3D, giảm hiện tượng cắt xén đối tượng, tăng độ chính xác mô tả.
Tốc độ tạo mô hình: Kết hợp MVDREAM và CRM giúp giảm thời gian tạo mô hình 3D xuống trung bình 20 giây/đối tượng, nhanh hơn nhiều so với các phương pháp truyền thống như DreamFusion (khoảng 1.5 giờ).
Chất lượng mô hình 3D: Đánh giá bằng điểm số CLIP và khảo sát người dùng cho thấy pipeline sử dụng TripoSR và CRM tạo ra mô hình có độ chính xác cao, hình ảnh và cấu trúc 3D phù hợp với mô tả văn bản, với tỷ lệ hài lòng trên 85%.
Hiệu quả của đơn giản hóa maillage: Phương pháp giảm đa giác dựa trên thuật toán lỗi bình phương (quadric error metrics) giúp duy trì chất lượng hình ảnh trong khi giảm độ phức tạp mô hình, phù hợp cho ứng dụng VR trên thiết bị có giới hạn tài nguyên.

Thảo luận kết quả

Nguyên nhân của sự cải thiện về tốc độ và chất lượng là do sự kết hợp hiệu quả giữa mô hình khuếch tán 2D và mô hình tái tạo 3D tiên tiến, tận dụng được dữ liệu 2D phong phú và khả năng suy luận đa chiều của transformer. So với các nghiên cứu trước đây, pipeline này giảm đáng kể thời gian xử lý mà vẫn giữ được độ chính xác cao, mở rộng khả năng ứng dụng trong giáo dục và phát triển nội dung số. Dữ liệu có thể được trình bày qua biểu đồ so sánh thời gian tạo mô hình và điểm số CLIP giữa các pipeline, cũng như bảng phân tích đánh giá cảm nhận người dùng.

Đề xuất và khuyến nghị

Triển khai API mở rộng: Phát triển và duy trì API phục vụ tạo mô hình 3D từ văn bản, nhằm tăng khả năng tiếp cận và ứng dụng trong các nền tảng giáo dục và sáng tạo nội dung, với mục tiêu tăng 50% số lượng người dùng trong 12 tháng tới.
Tối ưu hóa pipeline tạo mô hình: Nghiên cứu tích hợp trực tiếp bước đơn giản hóa maillage vào pipeline để giảm thời gian xử lý thêm 30%, đảm bảo hiệu suất trên các thiết bị VR phổ biến.
Đào tạo và hỗ trợ người dùng: Tổ chức các khóa đào tạo và tài liệu hướng dẫn cho nhà phát triển và giáo viên sử dụng công nghệ này trong môi trường giáo dục, nhằm nâng cao hiệu quả sử dụng và sáng tạo nội dung.
Mở rộng phạm vi ứng dụng: Khuyến khích nghiên cứu và phát triển thêm các ứng dụng trong lĩnh vực y tế, kiến trúc và công nghiệp sáng tạo, tận dụng khả năng tạo mô hình 3D nhanh và chính xác từ mô tả văn bản.
Đánh giá liên tục và cải tiến: Thiết lập hệ thống thu thập phản hồi người dùng và đánh giá chất lượng mô hình định kỳ để cải tiến liên tục, đảm bảo công nghệ luôn phù hợp với nhu cầu thực tế.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển AI: Có thể áp dụng các phương pháp và kết quả nghiên cứu để phát triển các mô hình AI tạo sinh trong lĩnh vực đồ họa 3D và thực tế ảo.
Giáo viên và nhà quản lý giáo dục: Sử dụng công nghệ tạo mô hình 3D từ văn bản để xây dựng môi trường học tập tương tác, nâng cao trải nghiệm học sinh trong các môn khoa học và công nghệ.
Nhà phát triển phần mềm và game: Tận dụng pipeline và API để tích hợp nhanh chóng các mô hình 3D vào sản phẩm, giảm chi phí và thời gian phát triển nội dung.
Chuyên gia thiết kế và kiến trúc: Áp dụng công nghệ để tạo nhanh các mô hình phác thảo, hỗ trợ quá trình thiết kế và trình bày ý tưởng một cách trực quan và sinh động.

Câu hỏi thường gặp

AI tạo sinh là gì và nó được ứng dụng như thế nào trong nghiên cứu này?
AI tạo sinh là công nghệ sử dụng mô hình học sâu để tạo ra dữ liệu mới dựa trên dữ liệu đầu vào. Trong nghiên cứu này, AI tạo sinh được dùng để tạo mô hình 3D từ mô tả văn bản, giúp tự động hóa quá trình thiết kế mô hình 3D.
Tại sao cần sử dụng mô hình khuếch tán (diffusion models)?
Mô hình khuếch tán giúp tạo ra dữ liệu chất lượng cao bằng cách học cách khử nhiễu từ dữ liệu đầu vào, phù hợp cho việc tạo ảnh 2D và chuyển đổi sang mô hình 3D với độ chính xác cao.
Pipeline tạo mô hình 3D hoạt động như thế nào?
Pipeline bao gồm bước tạo ảnh 2D từ mô tả văn bản bằng mô hình Stable Diffusion, sau đó chuyển đổi ảnh 2D thành mô hình 3D bằng các mô hình tái tạo như TripoSR và CRM, cuối cùng là đơn giản hóa maillage để tối ưu hiệu suất.
Thời gian tạo một mô hình 3D trung bình là bao lâu?
Thời gian trung bình để tạo một mô hình 3D trong nghiên cứu này là khoảng 20 giây, nhanh hơn nhiều so với các phương pháp truyền thống.
Làm thế nào để đánh giá chất lượng mô hình 3D được tạo ra?
Chất lượng được đánh giá bằng điểm số CLIP đo sự tương đồng giữa mô tả và mô hình, cùng với đánh giá cảm nhận của người dùng qua nền tảng tương tác trực tuyến, đảm bảo mô hình phù hợp và thực tế.

Kết luận

Đã phát triển thành công pipeline kết hợp mô hình khuếch tán MVDREAM và mô hình tái tạo CRM cho việc tạo mô hình 3D từ mô tả văn bản với thời gian tạo trung bình 20 giây/đối tượng.
Xây dựng API thân thiện, dễ tích hợp, mở rộng khả năng ứng dụng công nghệ trong giáo dục và sáng tạo nội dung.
Áp dụng phương pháp đơn giản hóa maillage hiệu quả, giúp tối ưu hóa mô hình 3D cho các thiết bị VR có giới hạn tài nguyên.
Kết quả đánh giá định lượng và định tính cho thấy chất lượng mô hình 3D cao, phù hợp với yêu cầu thực tế và người dùng.
Đề xuất các hướng phát triển tiếp theo bao gồm tích hợp sâu hơn các bước xử lý, mở rộng ứng dụng và nâng cao trải nghiệm người dùng.

Khuyến khích các nhà phát triển và nhà nghiên cứu ứng dụng công nghệ này trong các dự án thực tế, đồng thời tiếp tục cải tiến và mở rộng phạm vi nghiên cứu để nâng cao hiệu quả và tính ứng dụng của AI tạo sinh trong lĩnh vực mô hình 3D.

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL ADOSSEHOUN Kossi Josue PROPOSER UNE IMPLEMENTATION ET VALIDATION D’UNE IA GENERATIVE POUR LA CREATION DES OBJETS 3D A PARTIR DES DESCRIPTIONS TEXTUELLES DANS LES MODELES GAMA ĐỀ XUẤT MỘT CÁCH TRIỂN KHAI VÀ KIỂM ĐỊNH AI TẠO SINH ĐỂ TẠO RA CÁC ĐỐI TƯỢNG 3D TỪ CÁC MÔ TẢ VĂN BẢN TRONG CÁC MÔ HÌNH GAMA Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDE DE MASTER EN INFORMATIQUE HANOÏ-2024 UNIVERSITÉ NATIONALE DU VIETNAM À HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL ADOSSEHOUN Kossi Josue PROPOSER UNE IMPLEMENTATION ET VALIDATION D’UNE IA GENERATIVE POUR LA CREATION DES OBJETS 3D A PARTIR DES DESCRIPTIONS TEXTUELLES DANS LES MODELES GAMA Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDE DE MASTER EN INFORMATIQUE Sous la direction de : Alexis Drogoul, Chercheur senior en Informatique, IRD UMMISCO / ACROSS Laboratory, Hanoi Alexis DROGOUL HANOÏ-2024 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.

Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant ADOSSEHOUN Kossi Josué ADOSSEHOUN Kossi Josue PROPOSER UNE IMPLEMENTATION ET VALIDATION D’UNE IA GENERATIVE POUR LA CREATION DES OBJETS 3D A PARTIR DES DESCRIPTIONS TEXTUELLES DANS LES MODELES GAMA Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDE DE MASTER EN INFORMATIQUE Sous la direction de : Alexis Drogoul, Chercheur senior en Informatique, IRD UMMISCO / ACROSS Laboratory, Hanoi HANOÏ-2024 REMERCIEMENTS Je souhaite exprimer ma gratitude la plus profonde envers les personnes qui ont joué un rôle crucial tout au long de la réalisation de ce mémoire et de mon parcours académique. En premier lieu, je tiens à remercier chaleureusement Monsieur Alexis DROGOUL, co- directeur de ACROSS et mon encadrant de stage, pour son encadrement exemplaire, son soutien constant et ses conseils précieux qui ont grandement contribué à mon développement professionnel et personnel durant tout le séjour à ACROSS. Je suis également très reconnaissant envers Messieurs Baptiste Lesquoy, Jean-Daniel Zucker et Aman Berhe pour leurs orientations stratégiques et leur soutien indéfectible qui ont été essentiels à l’avancement de mes recherches.

Un remerciement spécial à Diep Anh PHUNG pour son aide multiforme et à Monsieur Léo BIRE pour sa présence, ses encouragements constants et son écoute attentive tout au long de mon stage. Je voudrais aussi exprimer ma reconnaissance envers l’Institut Francophone International (IFI) de l’Université Nationale du Vietnam à Hanoi. Je remercie particulièrement le corps enseignant pour l’excellence de la formation reçue et le personnel administratif pour leur collaboration efficace et chaleureuse. Je ne saurais oublier de témoigner ma profonde gratitude à ma famille : mes parents, mes frères et sœurs, pour leur soutien moral et financier inébranlable.

Leur amour et leur encouragement ont été les fondations de mes succès. Enfin, je remercie mes amis, particulièrement AGBAM Djibril, DJAHO Guillaume, et Kusiafe Afi Amandine épouse KPODAR, pour leur amitié fidèle et leur soutien continu. Leur présence a enrichi cette aventure académique. À tous, je vous suis infiniment reconnaissant pour tout ce que vous avez apporté dans ma vie.

Dédicace Je dédie ce mémoire à ma mère, AGBEZOUHLON Akoua Antoinette, dont l’amour, le soutien inconditionnel et les sacrifices ont rendu ce voyage possible. Sans elle, rien de ce que j’ai accompli n’aurait été réalisable. Je dédie également ce travail à la mémoire d’un ami cher et regretté, SAKO Kodjo Dieudonné, dont le départ prématuré au cours de ce parcours m’a profondément affecté. Sa mémoire continue d’inspirer et de motiver mon engagement et mes efforts.

À vous deux, avec tout mon amour et ma reconnaissance. Résumé Ce mémoire présente une exploration approfondie de l’intelligence artificielle générative appliquée à la création d’objets 3D à partir de descriptions textuelles. Inséré dans un projet ambitieux de développement d’un jeu sérieux pour l’éducation au développement durable, ce travail utilise les simulations de GAMA combinées à des visualisations immer- sives dans Unity, ciblant des dispositifs de réalité virtuelle comme le Meta Quest 3. Notre approche expérimentale, centrée sur la génération d’objets 3D via des prompts textuels, a été évaluée par des méthodes quantitatives s’appuyant sur les modèles CLIP et des évaluations qualitatives fondées sur la perception humaine.

Les résultats obtenus révèlent que l’association du modèle de diffusion MVDREAM avec le modèle de reconstruction CRM optimise l’utilisation des ressources limitées, réduisant le temps de génération à une moyenne de 20 secondes par objet sous nos dispositifs de test. Ce travail décrit également le développement d’une API qui démocratise l’accès à notre modèle de génération d’ob- jets 3D, conçue pour être intégrée facilement dans des services web avec une interface conviviale. Les perspectives futures envisagent une intégration plus poussée de la simpli- fication des meshes dans nos pipelines et une ouverture accrue de notre technologie à une communauté plus large, augmentant ainsi son impact et son utilité dans des contextes éducatifs et créatifs. Mots-clés : Intelligence Artificielle Générative, Modèles de Diffusion, Reconstruction 3D, GAMA, Unity, Visualisation Immersive.

Abstract This thesis delves into the application of generative artificial intelligence for creating 3D objects from textual descriptions within the framework of a serious game aimed at sustain- able development education. Utilizing GAMA simulations and immersive visualizations in Unity suitable for virtual reality devices like the Meta Quest 3, our experimental approach involved generating 3D objects from textual prompts. These were rigorously evaluated using quantitative analyses based on CLIP models and qualitative evaluations through human perception. The findings demonstrate that integrating the MVDREAM diffusion model with the CRM reconstruction model maximizes efficiency with limited resources, significantly reducing the average generation time to 20 seconds per object under our resources.

Additionally, this thesis outlines the development of an API that enhances ac- cessibility to our 3D object generation model, tailored to be user-friendly and integrable into web services. Looking forward, we envision further embedding mesh simplification directly into our pipelines and broadening the reach of our technology to foster creativity and learning in diverse communities. Keywords: Generative Artificial Intelligence, Diffusion Models, 3D Reconstruction, GAMA, Unity, Immersive Visualization. Table des matières 1 Analyse du sujet 1 1.3 Problématique et objectifs .1 Exploitation des données images 2D .1 Principes Fondamentaux des Modèles de Diffusion .1 le processus de diffusion ou processus direct .2 le processus de diffusion inverse .3 Entrainement du modèle de diffusion .5 Génération d’images : diffusion guidée .2 Les modèles de diffusion 2D pour la reconstruction 3D utilisant le score distillation sampling .2 3D Priors pour la Reconstruction 3D .3 Approches à inférence directe pour la reconstruction 3D.

20 3 Solutions proposées et plan de travail 22 3.1 Génération d’Images 2D à Partir de Descriptions Textuelles : Fine-tuning de Stable Diffusion .1 Objectif, Difficultés rencontrées et solution proposée .3 Finetuning avec Diffusers .2 Reconstruction 3D à partir des images 2D .1 Avantages de l’Adoption de Modèles Pré-entraînés .2 Choix du modèle de reconstruction .3 Architecture de la solution proposée prompt à asset 3D .4 Simplification de maillage .3 Définition de la matrice Q .5 Outils et technologies utilisés. 33 4 Expérimentation et analyse des résultats 34 4.2 Configuration de l’expérimentation .1 Environnement de test .2 Description des datasets utilisés .4 Présentation des résultats .1 Comparaison empirique des résultats de finetuning au modèle stan- dard de Stable Diffusion .1 Résultats visuels obtenus .2 Comparaison de temps de génération moyen d’image .2 Génération des objets 3D à partir des prompts .1 Démonstration des pipelines via Gradio .2 Temps de Génération des Pipelines .3 Résultat de la simplification de mesh des modèles 3D générés.1 Évaluation de l’alignement de l’objet 3D avec le prompt .2 Évaluation de la cohérence géométrique. 51 5 Intégration du meilleur pipeline pour la création d’un service web 53 5.2 Implémentation de l’API .1 Endpoints de l’API .2 Gestion des données .3 Cas d’utilisation de l’API pour la Génération d’Objets 3D .1 Pour tous les développeurs : Exemple de cas python .2 Pour les développeurs Unity : Exemple de cas de C# sous Unity. 59 6 Conclusions et perspectives 61 6.

62 A Analyse du sujet 64 A. 64 B Expérimentation et analyse des résultats 67 B.1 Configuration de l’expérimentation .1 Description des datasets utilisés .2 Présentation des résultats .1 Génération des objets 3D à partir des prompts .1 Démonstration des pipelines via Gradio. 72 i Table des figures 1.1 Architecture du projet SIMPLE .1 Forward diffusion process. Image modified by Ho, Jain et Abbeel 2020 .2 Échantillons latents provenant de programmations linéaire (en haut) et cosinus (en bas), respectivement.

Nichol et Dhariwal 2021 9 2. Image modifiée de l’article Ho, Jain et Abbeel 2020 .4 Architecture UN etsource : Ronneberger, FischerEtBrox2015 .1 Image générée par Stable Diffusion .2 Image générée par Stable Diffusion avec prompt engineering .3 Méthode de CRM Z. Wang et al.4 Méthode de CRM Z. Wang et al.5 Méthode de LRM Hong et al.

2023 sur laquelle est basé Triposr .6 Architecture des pipelines .1 Image générée par le modèle standard .2 Image générée par le modèle finetuné .3 Image générée par le modèle standard .4 Image générée par le modèle finetuné .5 Image générée par le modèle standard .6 Image générée par le modèle finetuné .7 Image 1 à occlusion générée par Stable Diffusion finetuné .8 Image 2 à occlusion générée par Stable Diffusion finetuné .9 Interface Gradio du pipeline Stable Diffusion et TripoSR avec le prompt "A kangoroo with yellow Jacket".10 Interface Gradio du pipeline Stable Diffusion finetuné et tripoSR avec le prompt "A kangoroo".11 Processus de simplification de maillage 3D d’un ours en peluche. À gauche, le prompt initial ; au centre, le modèle 3D généré ; à droite, le résultat après simplification du maillage.12 Distribution des scores moyens par groupe de pipeline.13 Nombre de fois que chaque pipeline est classé premier par groupe d’objet .14 La page évaluation du site web.15 Les dossiers représentés .16 Le nombre de fois que les dossiers à été évolué .17 Analyse inter-dossiers des meilleurs pipelines .18 Analyse inter-dossiers des pires pipelines .1 test en postman de l’API .1 Interface Gradio du pipeline texte à image de MVDream et TripoSR avec le prompt "A kangoroo".2 Interface Gradio du pipeline texte à image de MVDream et CRM avec le prompt "A kangoroo".3 Interface Gradio du pipeline texte à image de Stable Diffusion et CRM avec le prompt "A kangoroo".4 Ensemble de 12 images pour l’objet 3D généré par le prompt "A cactus with pink flowers" .5 Ensemble de 12 images pour l’objet 3D généré par le prompt "An antique wooden rocking horse" .6 Ensemble de 12 images pour l’objet 3D généré par le prompt "A plush teddy bear with a satin bow". 75 iii Liste des tableaux 3.1 Comparaison des Performances des Modèles de Reconstruction 3D sur Notre Machine de Laboratoire .1 Comparaison des temps de génération moyen pour différents modèles de génération d’images.2 Temps de génération moyens pour chaque pipeline de génération d’objets 3D 41 4.3 Évaluation des scores pour divers pipelines de génération d’images, résultat de l’en tête du fichier .4 Comparaison des performances des pipelines de génération d’objets 3D.5 Présentation d’une partie des données d’évaluations des GIFs par pipeline .6 Le DataFrame révisé .7 Résumé des métriques d’évaluation pour chaque meilleur pipeline .8 Résumé des métriques d’évaluation pour chaque pire pipeline. 50 iv Acronymes AR Augmented Reality.

2, 18 CCM canonical coordinates maps. 27 DL Deep Learning. 7 IA Intelligence Artificielle. 1, 2 IAG Intelligence Artificielle Générative.

1, 2, 5, 22 ML Machine Learning. 22 MLP perceptrons multicouches. 15, 27 NERFs champs de radiance neuronaux. 15, 16, 18–20, 28, 32 NGP Instant Neural Graphics Primitives.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ AI trong thiết kế 3D

Ứng dụng AI trong mô hình hóa

Phát triển AI tạo sinh

Kiểm định và đánh giá AI