VideoAR: Generazione video autoregressiva tramite predizione del fotogramma successivo e della scala

VideoAR: Un Nuovo Approccio alla Generazione Video Autoregressiva

La generazione di video ha visto notevoli progressi, con modelli di diffusione e di flusso che offrono risultati di alta qualità. Tuttavia, questi modelli richiedono una notevole potenza di calcolo e presentano difficoltà di scalabilità. In questo contesto, VideoAR si propone come una soluzione innovativa, rappresentando il primo framework Visual Autoregressive (VAR) su larga scala per la generazione video.

VideoAR combina la predizione del fotogramma successivo a multi-scala con la modellazione autoregressiva. Il framework è progettato per separare le dipendenze spaziali e temporali, integrando la modellazione VAR intra-frame con la predizione causale del fotogramma successivo. Un componente chiave è un tokenizer 3D multi-scala che codifica in modo efficiente le dinamiche spazio-temporali.

Per migliorare la coerenza a lungo termine, VideoAR utilizza diverse tecniche innovative: Multi-scale Temporal RoPE, Cross-Frame Error Correction e Random Frame Mask. Queste strategie mitigano la propagazione degli errori e stabilizzano la coerenza temporale. Il processo di pre-addestramento a più stadi allinea progressivamente l’apprendimento spaziale e temporale su diverse risoluzioni e durate.

I risultati empirici di VideoAR sono promettenti: il modello raggiunge risultati all’avanguardia tra i modelli autoregressivi, migliorando l’FVD su UCF-101 da 99.5 a 88.6 e riducendo i passaggi di inferenza di oltre 10 volte. Il punteggio VBench di 81.74 è competitivo con modelli basati sulla diffusione, dimostrando che VideoAR colma il divario di prestazioni tra i paradigmi autoregressivi e di diffusione. Questo rende VideoAR una base scalabile, efficiente e temporalmente coerente per la futura ricerca sulla generazione di video.


Paper: ArXiv.org