SceneFoundry: Generazione di Mondi 3D Interattivi e Infiniti

SceneFoundry: Generazione di Mondi 3D Interattivi e Infiniti

La capacità di generare automaticamente ambienti 3D su larga scala, interattivi e fisicamente realistici è fondamentale per l’avanzamento dell’apprendimento robotico e dell’intelligenza incarnata. Tuttavia, gli approcci generativi esistenti spesso non riescono a catturare la complessità funzionale degli interni del mondo reale, in particolare quelli contenenti oggetti articolati con parti mobili essenziali per la manipolazione e la navigazione.

Questo articolo presenta SceneFoundry, un framework di diffusione guidato dal linguaggio che genera mondi 3D su scala appartamento con mobili funzionalmente articolati e layout semanticamente diversi per l’addestramento robotico. Da prompt in linguaggio naturale, un modulo LLM controlla la generazione del layout del pavimento, mentre il campionamento a posteriori basato sulla diffusione popola in modo efficiente la scena con risorse articolate da repository 3D su larga scala.

Per garantire l’usabilità fisica, SceneFoundry utilizza funzioni di guida differenziabili per regolare la quantità di oggetti, prevenire le collisioni di articolazione e mantenere uno spazio percorribile sufficiente per la navigazione robotica. Ampie sperimentazioni dimostrano che il nostro framework genera ambienti strutturalmente validi, semanticamente coerenti e funzionalmente interattivi in diversi tipi di scene e condizioni, consentendo una ricerca su larga scala sull’IA incarnata.


Paper: ArXiv.org

Ruota il tuo personaggio: rivisitazione dei modelli di diffusione video per la generazione di personaggi 3D di alta qualità

Nuovo approccio per la generazione di personaggi 3D

La creazione di personaggi 3D di alta qualità da singole immagini è una sfida significativa nella creazione di contenuti digitali, soprattutto a causa delle pose complesse del corpo e dell’auto-occlusione. Un nuovo studio, pubblicato su arXiv (2601.05722v1), presenta RCM (Rotate your Character Model), un framework avanzato di diffusione da immagine a video progettato per la sintesi di nuove visuali (NVS) e la generazione di personaggi 3D di alta qualità.

RCM si distingue dagli approcci basati sulla diffusione esistenti per diversi motivi chiave. Innanzitutto, è in grado di trasferire personaggi con pose complesse in una posa canonica, consentendo una sintesi coerente di nuove visuali sull’intera orbita di visualizzazione. In secondo luogo, RCM supporta la generazione di video orbitali ad alta risoluzione a 1024×1024 pixel. Terzo, offre posizioni di osservazione controllabili in base alle diverse pose iniziali della telecamera. Infine, supporta il condizionamento multi-visuale con un massimo di 4 immagini in ingresso, adattandosi a diversi scenari utente.

Gli esperimenti condotti dimostrano che RCM supera i metodi all’avanguardia sia nella sintesi di nuove visuali che nella qualità della generazione 3D. Questo approccio innovativo apre nuove possibilità per la creazione di personaggi 3D più realistici e versatili.


Paper: ArXiv.org