CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Rivoluzione nell’Editing Vocale con Modelli Zero-Shot

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello innovativo per l’editing vocale end-to-end. A differenza dei sistemi tradizionali che si basano su complesse pipeline di pre-elaborazione e allineamento temporale esplicito, CosyEdit si basa su un approccio diretto e semplificato.

CosyEdit, derivato da CosyVoice, è stato adattato attraverso un fine-tuning specifico per il compito e una procedura di inferenza ottimizzata. Questo permette al modello di internalizzare l’allineamento testo-audio, garantendo al contempo un’elevata coerenza tra il parlato originale e quello modificato. Il modello, con soli 400 milioni di parametri, è stato addestrato su 250 ore di dati supervisionati del dataset GigaEdit, dimostrando prestazioni affidabili nell’editing vocale.

I risultati ottenuti sul benchmark RealEdit sono sorprendenti. CosyEdit non solo supera modelli basati su modelli linguistici con miliardi di parametri, ma eguaglia anche le prestazioni degli approcci a cascata all’avanguardia. Questo dimostra che, con un fine-tuning specifico e ottimizzazioni di inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end innovativa e conveniente per l’editing vocale di alta qualità.


Paper: ArXiv.org