Rilevamento di DeepFake Audio Zero-Day tramite Aumento del Recupero e Corrispondenza del Profilo

Rilevamento di DeepFake Audio Zero-Day tramite Aumento del Recupero e Corrispondenza del Profilo

I moderni rilevatori di deepfake audio, costruiti su modelli di base e ampi set di dati di addestramento, ottengono prestazioni di rilevamento promettenti. Tuttavia, faticano con gli attacchi zero-day, in cui i campioni audio sono generati da nuovi metodi di sintesi che i modelli non hanno visto dai dati di addestramento regnanti. Gli approcci convenzionali mettono a punto il rilevatore, il che può essere problematico quando è necessaria una risposta rapida. Questo documento propone un framework di aumento del recupero senza addestramento per il rilevamento di deepfake audio zero-day che sfrutta le rappresentazioni della conoscenza e la corrispondenza del profilo vocale. All’interno di questo framework, proponiamo metodi di recupero e di ensemble semplici ma efficaci che raggiungono prestazioni paragonabili ai benchmark supervisionati e alle loro controparti messe a punto sul benchmark DeepFake-Eval-2024, senza alcun addestramento aggiuntivo del modello. Conduciamo anche un’ablazione sugli attributi del profilo vocale e dimostriamo la generalizzabilità cross-database del framework introducendo strategie di fusione semplici e senza addestramento.


Paper: ArXiv.org

Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

L’avanzamento rapido delle tecnologie di generazione audio ha aumentato i rischi di audio deepfake dannosi in discorsi, suoni, voci cantate e musica, minacciando la sicurezza e l’affidabilità multimediale. Mentre le attuali contromisure (CM) funzionano bene nel rilevamento di audio deepfake di un singolo tipo (ADD), le loro prestazioni diminuiscono negli scenari multi-tipo. Questo studio si concentra sul compito di rilevamento di audio deepfake di ogni tipo (all-type ADD).

Gli autori hanno creato un benchmark completo per valutare le attuali CM, incorporando il rilevamento di deepfake cross-type tra discorsi, suoni, voci cantate e musica. È stata introdotta la metodologia di addestramento prompt tuning self-supervised learning (PT-SSL), che ottimizza il front-end SSL attraverso l’apprendimento di token prompt specializzati per ADD, richiedendo 458 volte meno parametri addestrabili rispetto al fine-tuning (FT). Considerando la percezione uditiva dei diversi tipi di audio, è stato proposto il metodo wavelet prompt tuning (WPT)-SSL per catturare informazioni sui deepfake uditivi invarianti al tipo dal dominio della frequenza senza richiedere parametri di addestramento aggiuntivi, migliorando così le prestazioni rispetto a FT nel compito di all-type ADD.

Per raggiungere una CM universale, sono stati utilizzati tutti i tipi di audio deepfake per il co-addestramento. I risultati sperimentali dimostrano che WPT-XLSR-AASIST ha ottenuto le migliori prestazioni, con un EER medio del 3.58% su tutti i set di valutazione. I risultati di questa ricerca sono fondamentali per lo sviluppo di sistemi di sicurezza multimediale robusti e affidabili.


Paper: ArXiv.org