RobustFormer: Pre-training resistente al rumore per immagini e video

RobustFormer: Un Nuovo Approccio per la Robustezza al Rumore in Immagini e Video

Un recente studio pubblicato su arXiv (2411.13040v2) presenta RobustFormer, un innovativo framework di pre-training progettato per migliorare la robustezza dei modelli di deep learning, in particolare i transformer, contro il rumore presente in immagini e video. Il documento evidenzia come i modelli attuali, pur essendo potenti, siano vulnerabili al rumore, che può compromettere le prestazioni e portare all’overfitting.

Per affrontare questa sfida, i ricercatori hanno integrato la Discrete Wavelet Transform (DWT), una tecnica che scompone le immagini in diversi livelli di risoluzione, isolando il rumore nelle alte frequenze e preservando le informazioni essenziali nelle basse frequenze. A differenza dei metodi DWT tradizionali, RobustFormer elimina la necessità di una ricostruzione con Inverse Discrete Wavelet Transform (IDWT), riducendo la complessità computazionale. Il modello impiega un masked autoencoder (MAE) per il pre-training, focalizzandosi su rappresentazioni multi-scala resistenti al rumore.

I risultati sperimentali mostrano miglioramenti significativi, con un aumento fino all’8% nell’accuratezza di classificazione su ImageNet-C e fino al 2.7% su ImageNet-P in condizioni di rumore elevato. Su UCF-101, RobustFormer ha ottenuto fino al 13% in più di accuratezza, mantenendo prestazioni simili sui dataset puliti. Inoltre, l’approccio ha ridotto la complessità computazionale fino al 4.4% rispetto al modello VideoMAE di base, senza compromettere le prestazioni. Questo lo rende un progresso significativo per applicazioni pratiche dove il rumore è una costante.

Paper: ArXiv.org