SceneFoundry: Generazione di Mondi 3D Interattivi e Infiniti
La capacità di generare automaticamente ambienti 3D su larga scala, interattivi e fisicamente realistici è fondamentale per l’avanzamento dell’apprendimento robotico e dell’intelligenza incarnata. Tuttavia, gli approcci generativi esistenti spesso non riescono a catturare la complessità funzionale degli interni del mondo reale, in particolare quelli contenenti oggetti articolati con parti mobili essenziali per la manipolazione e la navigazione.
Questo articolo presenta SceneFoundry, un framework di diffusione guidato dal linguaggio che genera mondi 3D su scala appartamento con mobili funzionalmente articolati e layout semanticamente diversi per l’addestramento robotico. Da prompt in linguaggio naturale, un modulo LLM controlla la generazione del layout del pavimento, mentre il campionamento a posteriori basato sulla diffusione popola in modo efficiente la scena con risorse articolate da repository 3D su larga scala.
Per garantire l’usabilità fisica, SceneFoundry utilizza funzioni di guida differenziabili per regolare la quantità di oggetti, prevenire le collisioni di articolazione e mantenere uno spazio percorribile sufficiente per la navigazione robotica. Ampie sperimentazioni dimostrano che il nostro framework genera ambienti strutturalmente validi, semanticamente coerenti e funzionalmente interattivi in diversi tipi di scene e condizioni, consentendo una ricerca su larga scala sull’IA incarnata.
Paper: ArXiv.org