I modelli di generazione video sono buoni modelli di ricompensa latenti

Nuova ricerca mostra l’efficacia dei modelli di generazione video come modelli di ricompensa

Un nuovo studio pubblicato su arXiv (arXiv:2511.21541v3) propone un approccio innovativo per migliorare l’allineamento della generazione video con le preferenze umane. Il lavoro si concentra sull’uso dei modelli di generazione video pre-addestrati come modelli di ricompensa nello spazio latente, superando i limiti dei metodi precedenti.

La ricerca, intitolata “Video Generation Models Are Good Latent Reward Models”, introduce Process Reward Feedback Learning (PRFL). Questo framework ottimizza le preferenze direttamente nello spazio latente, permettendo una retropropagazione efficiente dei gradienti attraverso l’intera catena di denoising, senza la necessità di decodifica VAE. I metodi precedenti, che operavano nello spazio dei pixel, presentavano significativi svantaggi in termini di memoria, tempo di addestramento e supervisione limitata alle fasi finali del processo di generazione.

I risultati sperimentali dimostrano che PRFL migliora significativamente l’allineamento con le preferenze umane, riducendo al contempo il consumo di memoria e il tempo di addestramento rispetto ai metodi basati sullo spazio RGB. Questo approccio promette di rendere la generazione video più efficiente e più in linea con le aspettative umane, aprendo nuove possibilità per applicazioni creative e pratiche.

Lo studio suggerisce che i modelli di generazione video sono intrinsecamente adatti per la modellazione della ricompensa nello spazio latente, grazie alla loro capacità di elaborare rappresentazioni latenti rumorose a diversi passaggi temporali e di preservare le informazioni temporali attraverso le loro capacità di modellazione sequenziale.


Paper: ArXiv.org

ReVision: Perfezionare la Diffusione Video con la Modellazione Esplicita del Movimento 3D

ReVision: Una Nuova Frontiera nella Generazione Video

La generazione di video ha fatto passi da gigante negli ultimi anni, ma la creazione di movimenti complessi e interazioni realistiche rimane una sfida. Per superare questi ostacoli, è stato sviluppato ReVision, un framework innovativo e plug-and-play. Questo sistema integra la conoscenza di modelli 3D parametrizzati in un modello di generazione video condizionale pre-addestrato, migliorando notevolmente la capacità di generare video di alta qualità con movimenti ed interazioni complesse.

ReVision opera in tre fasi principali. Inizia con un modello di diffusione video per generare un video preliminare. Successivamente, estrae caratteristiche 2D e 3D dal video grezzo per costruire una rappresentazione incentrata sull’oggetto in 3D, che viene poi raffinata da un modello di movimento parametrizzato. Infine, questa sequenza di movimento raffinata viene reintrodotta nel modello di diffusione video come condizionamento aggiuntivo, consentendo la generazione di video coerenti, anche in scenari che coinvolgono azioni e interazioni complesse.

I risultati ottenuti con Stable Video Diffusion dimostrano un notevole miglioramento nella fedeltà e nella coerenza del movimento. Sorprendentemente, con soli 1.5 miliardi di parametri, ReVision supera un modello di generazione video all’avanguardia con oltre 13 miliardi di parametri nella generazione di video complessi. Questo suggerisce che, incorporando la conoscenza del movimento 3D, anche un modello di diffusione video relativamente piccolo può generare movimenti ed interazioni complesse con maggiore realismo e controllabilità, offrendo una soluzione promettente per la generazione di video fisicamente plausibili.


Paper: ArXiv.org

VideoAR: Generazione video autoregressiva tramite predizione del fotogramma successivo e della scala

VideoAR: Un Nuovo Approccio alla Generazione Video Autoregressiva

La generazione di video ha visto notevoli progressi, con modelli di diffusione e di flusso che offrono risultati di alta qualità. Tuttavia, questi modelli richiedono una notevole potenza di calcolo e presentano difficoltà di scalabilità. In questo contesto, VideoAR si propone come una soluzione innovativa, rappresentando il primo framework Visual Autoregressive (VAR) su larga scala per la generazione video.

VideoAR combina la predizione del fotogramma successivo a multi-scala con la modellazione autoregressiva. Il framework è progettato per separare le dipendenze spaziali e temporali, integrando la modellazione VAR intra-frame con la predizione causale del fotogramma successivo. Un componente chiave è un tokenizer 3D multi-scala che codifica in modo efficiente le dinamiche spazio-temporali.

Per migliorare la coerenza a lungo termine, VideoAR utilizza diverse tecniche innovative: Multi-scale Temporal RoPE, Cross-Frame Error Correction e Random Frame Mask. Queste strategie mitigano la propagazione degli errori e stabilizzano la coerenza temporale. Il processo di pre-addestramento a più stadi allinea progressivamente l’apprendimento spaziale e temporale su diverse risoluzioni e durate.

I risultati empirici di VideoAR sono promettenti: il modello raggiunge risultati all’avanguardia tra i modelli autoregressivi, migliorando l’FVD su UCF-101 da 99.5 a 88.6 e riducendo i passaggi di inferenza di oltre 10 volte. Il punteggio VBench di 81.74 è competitivo con modelli basati sulla diffusione, dimostrando che VideoAR colma il divario di prestazioni tra i paradigmi autoregressivi e di diffusione. Questo rende VideoAR una base scalabile, efficiente e temporalmente coerente per la futura ricerca sulla generazione di video.


Paper: ArXiv.org