Rilevamento di DeepFake Audio Zero-Day tramite Aumento del Recupero e Corrispondenza del Profilo
I moderni rilevatori di deepfake audio, costruiti su modelli di base e ampi set di dati di addestramento, ottengono prestazioni di rilevamento promettenti. Tuttavia, faticano con gli attacchi zero-day, in cui i campioni audio sono generati da nuovi metodi di sintesi che i modelli non hanno visto dai dati di addestramento regnanti. Gli approcci convenzionali mettono a punto il rilevatore, il che può essere problematico quando è necessaria una risposta rapida. Questo documento propone un framework di aumento del recupero senza addestramento per il rilevamento di deepfake audio zero-day che sfrutta le rappresentazioni della conoscenza e la corrispondenza del profilo vocale. All’interno di questo framework, proponiamo metodi di recupero e di ensemble semplici ma efficaci che raggiungono prestazioni paragonabili ai benchmark supervisionati e alle loro controparti messe a punto sul benchmark DeepFake-Eval-2024, senza alcun addestramento aggiuntivo del modello. Conduciamo anche un’ablazione sugli attributi del profilo vocale e dimostriamo la generalizzabilità cross-database del framework introducendo strategie di fusione semplici e senza addestramento.
Paper: ArXiv.org