CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Rivoluzione nell’Editing Vocale con Modelli Zero-Shot

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello innovativo per l’editing vocale end-to-end. A differenza dei sistemi tradizionali che si basano su complesse pipeline di pre-elaborazione e allineamento temporale esplicito, CosyEdit si basa su un approccio diretto e semplificato.

CosyEdit, derivato da CosyVoice, è stato adattato attraverso un fine-tuning specifico per il compito e una procedura di inferenza ottimizzata. Questo permette al modello di internalizzare l’allineamento testo-audio, garantendo al contempo un’elevata coerenza tra il parlato originale e quello modificato. Il modello, con soli 400 milioni di parametri, è stato addestrato su 250 ore di dati supervisionati del dataset GigaEdit, dimostrando prestazioni affidabili nell’editing vocale.

I risultati ottenuti sul benchmark RealEdit sono sorprendenti. CosyEdit non solo supera modelli basati su modelli linguistici con miliardi di parametri, ma eguaglia anche le prestazioni degli approcci a cascata all’avanguardia. Questo dimostra che, con un fine-tuning specifico e ottimizzazioni di inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end innovativa e conveniente per l’editing vocale di alta qualità.


Paper: ArXiv.org

Un modello di base senza linguaggio è sufficiente per il rilevamento universale di anomalie visive

Un nuovo approccio al rilevamento di anomalie visive

Un recente studio pubblicato su arXiv (2601.05552v1) presenta un nuovo approccio per il rilevamento universale di anomalie visive (AD). L’obiettivo è identificare immagini anomale e segmentare le regioni anomale in scenari aperti e dinamici, utilizzando paradigmi zero-shot e few-shot, senza alcun fine-tuning specifico per il set di dati.

Nonostante i progressi nell’utilizzo di modelli di base visivo-linguistici, i metodi attuali spesso faticano con complesse tecniche di prompt engineering e moduli di adattamento elaborati, limitando flessibilità e generalità. Questo studio propone un framework chiamato UniADet, che si basa su un’idea semplice ma efficace: l’encoder del linguaggio non è necessario per l’AD universale. Il metodo proposto decupla completamente la classificazione e la segmentazione, e separa le caratteristiche a diversi livelli, imparando pesi indipendenti per compiti e caratteristiche gerarchiche differenti.

UniADet si distingue per la sua semplicità (imparando solo pesi disaccoppiati), efficienza parametrica (0,002 M di parametri apprendibili), generalità (adattamento a vari modelli di base) ed efficacia (supera i metodi zero/few-shot e persino full-shot su 14 benchmark reali, sia industriali che medicali). Il codice e il modello UniADet sono disponibili su GitHub.


Paper: ArXiv.org

CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Una soluzione innovativa per l’editing vocale

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello di editing vocale end-to-end che promette di rivoluzionare il modo in cui modifichiamo i contenuti parlati. A differenza dei sistemi tradizionali, che si basano su pipeline complesse e allineamenti temporali espliciti, CosyEdit si basa su un approccio innovativo che integra l’allineamento testo-voce direttamente nel modello.

CosyEdit è stato sviluppato a partire da CosyVoice, un modello Text-to-Speech (TTS) zero-shot, attraverso un processo di fine-tuning specifico per il compito di editing vocale. Il modello è stato addestrato su un dataset di 250 ore di dati supervisionati, chiamato GigaEdit, e vanta 400 milioni di parametri. Nonostante le dimensioni relativamente contenute, CosyEdit ha dimostrato prestazioni eccezionali.

I risultati dei test, condotti sul benchmark RealEdit, mostrano che CosyEdit supera le prestazioni di diversi modelli linguistici con miliardi di parametri e si confronta con i migliori approcci a cascata attualmente disponibili. Questo successo dimostra che, con un’adeguata ottimizzazione del fine-tuning e dell’inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end di alta qualità e a basso costo.

Questa scoperta apre nuove prospettive nel campo dell’editing vocale, offrendo strumenti più accessibili e potenti per la modifica dei contenuti parlati.


Paper: ArXiv.org