CosyEdit: Rivoluzione nell’Editing Vocale con Modelli Zero-Shot
Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello innovativo per l’editing vocale end-to-end. A differenza dei sistemi tradizionali che si basano su complesse pipeline di pre-elaborazione e allineamento temporale esplicito, CosyEdit si basa su un approccio diretto e semplificato.
CosyEdit, derivato da CosyVoice, è stato adattato attraverso un fine-tuning specifico per il compito e una procedura di inferenza ottimizzata. Questo permette al modello di internalizzare l’allineamento testo-audio, garantendo al contempo un’elevata coerenza tra il parlato originale e quello modificato. Il modello, con soli 400 milioni di parametri, è stato addestrato su 250 ore di dati supervisionati del dataset GigaEdit, dimostrando prestazioni affidabili nell’editing vocale.
I risultati ottenuti sul benchmark RealEdit sono sorprendenti. CosyEdit non solo supera modelli basati su modelli linguistici con miliardi di parametri, ma eguaglia anche le prestazioni degli approcci a cascata all’avanguardia. Questo dimostra che, con un fine-tuning specifico e ottimizzazioni di inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end innovativa e conveniente per l’editing vocale di alta qualità.
Paper: ArXiv.org