Reflect3r: Ricostruzione Stereo 3D da Singola Vista Assistita da Riflessi Speculari

Reflect3r: Sfruttare i Riflessi per la Ricostruzione 3D

Un nuovo studio, pubblicato su arXiv (arXiv:2509.20607v2), presenta Reflect3r, un innovativo approccio per la ricostruzione 3D che utilizza i riflessi speculari presenti in ambienti comuni. L’idea chiave è considerare il riflesso come una vista ausiliaria, sfruttando l’informazione stereo presente in una singola immagine grazie alla contemporanea visibilità della scena reale e della sua immagine speculare.

Il metodo proposto trasforma il riflesso in una virtual camera, consentendo la generazione diretta nel dominio dei pixel di una vista virtuale, coerente con il processo di imaging reale. Questo approccio semplifica il processo di acquisizione, trasformando una singola immagine in un setup multi-vista stereo, e lo rende compatibile con modelli di ricostruzione feed-forward potenti e affidabili per una ricostruzione 3D generalizzabile e robusta.

Per ottimizzare l’utilizzo della simmetria geometrica intrinseca ai riflessi, i ricercatori hanno sviluppato una loss function simmetria-consapevole per affinare la stima della posa. L’efficacia del framework è stata dimostrata anche in scenari dinamici, dove ogni frame include un riflesso, permettendo una rapida ricostruzione geometrica fotogramma per fotogramma.

La valutazione quantitativa è stata eseguita su un dataset sintetico personalizzabile, creato con Blender, composto da 16 scene con ground-truth di nuvole di punti e pose delle camere. Estesi esperimenti su dati reali e sintetici hanno confermato l’efficacia del metodo.


Paper: ArXiv.org

VideoAR: Generazione video autoregressiva tramite predizione del fotogramma successivo e della scala

VideoAR: Un Nuovo Approccio alla Generazione Video Autoregressiva

La generazione di video ha visto notevoli progressi, con modelli di diffusione e di flusso che offrono risultati di alta qualità. Tuttavia, questi modelli richiedono una notevole potenza di calcolo e presentano difficoltà di scalabilità. In questo contesto, VideoAR si propone come una soluzione innovativa, rappresentando il primo framework Visual Autoregressive (VAR) su larga scala per la generazione video.

VideoAR combina la predizione del fotogramma successivo a multi-scala con la modellazione autoregressiva. Il framework è progettato per separare le dipendenze spaziali e temporali, integrando la modellazione VAR intra-frame con la predizione causale del fotogramma successivo. Un componente chiave è un tokenizer 3D multi-scala che codifica in modo efficiente le dinamiche spazio-temporali.

Per migliorare la coerenza a lungo termine, VideoAR utilizza diverse tecniche innovative: Multi-scale Temporal RoPE, Cross-Frame Error Correction e Random Frame Mask. Queste strategie mitigano la propagazione degli errori e stabilizzano la coerenza temporale. Il processo di pre-addestramento a più stadi allinea progressivamente l’apprendimento spaziale e temporale su diverse risoluzioni e durate.

I risultati empirici di VideoAR sono promettenti: il modello raggiunge risultati all’avanguardia tra i modelli autoregressivi, migliorando l’FVD su UCF-101 da 99.5 a 88.6 e riducendo i passaggi di inferenza di oltre 10 volte. Il punteggio VBench di 81.74 è competitivo con modelli basati sulla diffusione, dimostrando che VideoAR colma il divario di prestazioni tra i paradigmi autoregressivi e di diffusione. Questo rende VideoAR una base scalabile, efficiente e temporalmente coerente per la futura ricerca sulla generazione di video.


Paper: ArXiv.org