ReVision: Una Nuova Frontiera nella Generazione Video
La generazione di video ha fatto passi da gigante negli ultimi anni, ma la creazione di movimenti complessi e interazioni realistiche rimane una sfida. Per superare questi ostacoli, è stato sviluppato ReVision, un framework innovativo e plug-and-play. Questo sistema integra la conoscenza di modelli 3D parametrizzati in un modello di generazione video condizionale pre-addestrato, migliorando notevolmente la capacità di generare video di alta qualità con movimenti ed interazioni complesse.
ReVision opera in tre fasi principali. Inizia con un modello di diffusione video per generare un video preliminare. Successivamente, estrae caratteristiche 2D e 3D dal video grezzo per costruire una rappresentazione incentrata sull’oggetto in 3D, che viene poi raffinata da un modello di movimento parametrizzato. Infine, questa sequenza di movimento raffinata viene reintrodotta nel modello di diffusione video come condizionamento aggiuntivo, consentendo la generazione di video coerenti, anche in scenari che coinvolgono azioni e interazioni complesse.
I risultati ottenuti con Stable Video Diffusion dimostrano un notevole miglioramento nella fedeltà e nella coerenza del movimento. Sorprendentemente, con soli 1.5 miliardi di parametri, ReVision supera un modello di generazione video all’avanguardia con oltre 13 miliardi di parametri nella generazione di video complessi. Questo suggerisce che, incorporando la conoscenza del movimento 3D, anche un modello di diffusione video relativamente piccolo può generare movimenti ed interazioni complesse con maggiore realismo e controllabilità, offrendo una soluzione promettente per la generazione di video fisicamente plausibili.
Paper: ArXiv.org