Un modello di base senza linguaggio è sufficiente per il rilevamento universale di anomalie visive

Un nuovo approccio al rilevamento di anomalie visive

Un recente studio pubblicato su arXiv (2601.05552v1) presenta un nuovo approccio per il rilevamento universale di anomalie visive (AD). L’obiettivo è identificare immagini anomale e segmentare le regioni anomale in scenari aperti e dinamici, utilizzando paradigmi zero-shot e few-shot, senza alcun fine-tuning specifico per il set di dati.

Nonostante i progressi nell’utilizzo di modelli di base visivo-linguistici, i metodi attuali spesso faticano con complesse tecniche di prompt engineering e moduli di adattamento elaborati, limitando flessibilità e generalità. Questo studio propone un framework chiamato UniADet, che si basa su un’idea semplice ma efficace: l’encoder del linguaggio non è necessario per l’AD universale. Il metodo proposto decupla completamente la classificazione e la segmentazione, e separa le caratteristiche a diversi livelli, imparando pesi indipendenti per compiti e caratteristiche gerarchiche differenti.

UniADet si distingue per la sua semplicità (imparando solo pesi disaccoppiati), efficienza parametrica (0,002 M di parametri apprendibili), generalità (adattamento a vari modelli di base) ed efficacia (supera i metodi zero/few-shot e persino full-shot su 14 benchmark reali, sia industriali che medicali). Il codice e il modello UniADet sono disponibili su GitHub.

Paper: ArXiv.org