CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Rivoluzione nell’Editing Vocale con Modelli Zero-Shot

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello innovativo per l’editing vocale end-to-end. A differenza dei sistemi tradizionali che si basano su complesse pipeline di pre-elaborazione e allineamento temporale esplicito, CosyEdit si basa su un approccio diretto e semplificato.

CosyEdit, derivato da CosyVoice, è stato adattato attraverso un fine-tuning specifico per il compito e una procedura di inferenza ottimizzata. Questo permette al modello di internalizzare l’allineamento testo-audio, garantendo al contempo un’elevata coerenza tra il parlato originale e quello modificato. Il modello, con soli 400 milioni di parametri, è stato addestrato su 250 ore di dati supervisionati del dataset GigaEdit, dimostrando prestazioni affidabili nell’editing vocale.

I risultati ottenuti sul benchmark RealEdit sono sorprendenti. CosyEdit non solo supera modelli basati su modelli linguistici con miliardi di parametri, ma eguaglia anche le prestazioni degli approcci a cascata all’avanguardia. Questo dimostra che, con un fine-tuning specifico e ottimizzazioni di inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end innovativa e conveniente per l’editing vocale di alta qualità.


Paper: ArXiv.org

CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Una soluzione innovativa per l’editing vocale

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello di editing vocale end-to-end che promette di rivoluzionare il modo in cui modifichiamo i contenuti parlati. A differenza dei sistemi tradizionali, che si basano su pipeline complesse e allineamenti temporali espliciti, CosyEdit si basa su un approccio innovativo che integra l’allineamento testo-voce direttamente nel modello.

CosyEdit è stato sviluppato a partire da CosyVoice, un modello Text-to-Speech (TTS) zero-shot, attraverso un processo di fine-tuning specifico per il compito di editing vocale. Il modello è stato addestrato su un dataset di 250 ore di dati supervisionati, chiamato GigaEdit, e vanta 400 milioni di parametri. Nonostante le dimensioni relativamente contenute, CosyEdit ha dimostrato prestazioni eccezionali.

I risultati dei test, condotti sul benchmark RealEdit, mostrano che CosyEdit supera le prestazioni di diversi modelli linguistici con miliardi di parametri e si confronta con i migliori approcci a cascata attualmente disponibili. Questo successo dimostra che, con un’adeguata ottimizzazione del fine-tuning e dell’inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end di alta qualità e a basso costo.

Questa scoperta apre nuove prospettive nel campo dell’editing vocale, offrendo strumenti più accessibili e potenti per la modifica dei contenuti parlati.


Paper: ArXiv.org