CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Una soluzione innovativa per l’editing vocale

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello di editing vocale end-to-end che promette di rivoluzionare il modo in cui modifichiamo i contenuti parlati. A differenza dei sistemi tradizionali, che si basano su pipeline complesse e allineamenti temporali espliciti, CosyEdit si basa su un approccio innovativo che integra l’allineamento testo-voce direttamente nel modello.

CosyEdit è stato sviluppato a partire da CosyVoice, un modello Text-to-Speech (TTS) zero-shot, attraverso un processo di fine-tuning specifico per il compito di editing vocale. Il modello è stato addestrato su un dataset di 250 ore di dati supervisionati, chiamato GigaEdit, e vanta 400 milioni di parametri. Nonostante le dimensioni relativamente contenute, CosyEdit ha dimostrato prestazioni eccezionali.

I risultati dei test, condotti sul benchmark RealEdit, mostrano che CosyEdit supera le prestazioni di diversi modelli linguistici con miliardi di parametri e si confronta con i migliori approcci a cascata attualmente disponibili. Questo successo dimostra che, con un’adeguata ottimizzazione del fine-tuning e dell’inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end di alta qualità e a basso costo.

Questa scoperta apre nuove prospettive nel campo dell’editing vocale, offrendo strumenti più accessibili e potenti per la modifica dei contenuti parlati.


Paper: ArXiv.org