Un nuovo approccio al rilevamento di anomalie visive
Un recente studio pubblicato su arXiv (2601.05552v1) presenta un nuovo approccio per il rilevamento universale di anomalie visive (AD). L’obiettivo è identificare immagini anomale e segmentare le regioni anomale in scenari aperti e dinamici, utilizzando paradigmi zero-shot e few-shot, senza alcun fine-tuning specifico per il set di dati.
Nonostante i progressi nell’utilizzo di modelli di base visivo-linguistici, i metodi attuali spesso faticano con complesse tecniche di prompt engineering e moduli di adattamento elaborati, limitando flessibilità e generalità. Questo studio propone un framework chiamato UniADet, che si basa su un’idea semplice ma efficace: l’encoder del linguaggio non è necessario per l’AD universale. Il metodo proposto decupla completamente la classificazione e la segmentazione, e separa le caratteristiche a diversi livelli, imparando pesi indipendenti per compiti e caratteristiche gerarchiche differenti.
UniADet si distingue per la sua semplicità (imparando solo pesi disaccoppiati), efficienza parametrica (0,002 M di parametri apprendibili), generalità (adattamento a vari modelli di base) ed efficacia (supera i metodi zero/few-shot e persino full-shot su 14 benchmark reali, sia industriali che medicali). Il codice e il modello UniADet sono disponibili su GitHub.
Paper: ArXiv.org