Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

L’avanzamento rapido delle tecnologie di generazione audio ha aumentato i rischi di audio deepfake dannosi in discorsi, suoni, voci cantate e musica, minacciando la sicurezza e l’affidabilità multimediale. Mentre le attuali contromisure (CM) funzionano bene nel rilevamento di audio deepfake di un singolo tipo (ADD), le loro prestazioni diminuiscono negli scenari multi-tipo. Questo studio si concentra sul compito di rilevamento di audio deepfake di ogni tipo (all-type ADD).

Gli autori hanno creato un benchmark completo per valutare le attuali CM, incorporando il rilevamento di deepfake cross-type tra discorsi, suoni, voci cantate e musica. È stata introdotta la metodologia di addestramento prompt tuning self-supervised learning (PT-SSL), che ottimizza il front-end SSL attraverso l’apprendimento di token prompt specializzati per ADD, richiedendo 458 volte meno parametri addestrabili rispetto al fine-tuning (FT). Considerando la percezione uditiva dei diversi tipi di audio, è stato proposto il metodo wavelet prompt tuning (WPT)-SSL per catturare informazioni sui deepfake uditivi invarianti al tipo dal dominio della frequenza senza richiedere parametri di addestramento aggiuntivi, migliorando così le prestazioni rispetto a FT nel compito di all-type ADD.

Per raggiungere una CM universale, sono stati utilizzati tutti i tipi di audio deepfake per il co-addestramento. I risultati sperimentali dimostrano che WPT-XLSR-AASIST ha ottenuto le migliori prestazioni, con un EER medio del 3.58% su tutti i set di valutazione. I risultati di questa ricerca sono fondamentali per lo sviluppo di sistemi di sicurezza multimediale robusti e affidabili.


Paper: ArXiv.org