Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

Rilevamento di Audio Deepfake di Ogni Tipo: Wavelet Prompt Tuning per una Migliore Percezione Auditiva

L’avanzamento rapido delle tecnologie di generazione audio ha aumentato i rischi di audio deepfake dannosi in discorsi, suoni, voci cantate e musica, minacciando la sicurezza e l’affidabilità multimediale. Mentre le attuali contromisure (CM) funzionano bene nel rilevamento di audio deepfake di un singolo tipo (ADD), le loro prestazioni diminuiscono negli scenari multi-tipo. Questo studio si concentra sul compito di rilevamento di audio deepfake di ogni tipo (all-type ADD).

Gli autori hanno creato un benchmark completo per valutare le attuali CM, incorporando il rilevamento di deepfake cross-type tra discorsi, suoni, voci cantate e musica. È stata introdotta la metodologia di addestramento prompt tuning self-supervised learning (PT-SSL), che ottimizza il front-end SSL attraverso l’apprendimento di token prompt specializzati per ADD, richiedendo 458 volte meno parametri addestrabili rispetto al fine-tuning (FT). Considerando la percezione uditiva dei diversi tipi di audio, è stato proposto il metodo wavelet prompt tuning (WPT)-SSL per catturare informazioni sui deepfake uditivi invarianti al tipo dal dominio della frequenza senza richiedere parametri di addestramento aggiuntivi, migliorando così le prestazioni rispetto a FT nel compito di all-type ADD.

Per raggiungere una CM universale, sono stati utilizzati tutti i tipi di audio deepfake per il co-addestramento. I risultati sperimentali dimostrano che WPT-XLSR-AASIST ha ottenuto le migliori prestazioni, con un EER medio del 3.58% su tutti i set di valutazione. I risultati di questa ricerca sono fondamentali per lo sviluppo di sistemi di sicurezza multimediale robusti e affidabili.


Paper: ArXiv.org

Goal Force: Insegnare ai modelli video a raggiungere obiettivi condizionati dalla fisica

Goal Force: Nuovi Modelli Video per la Simulazione Fisica

Un recente studio pubblicato su arXiv (2601.05848v1) presenta un nuovo framework chiamato “Goal Force”, che introduce un approccio innovativo nella generazione di video. L’obiettivo è consentire ai modelli di intelligenza artificiale di raggiungere obiettivi specifici, simulando scenari fisici complessi. I progressi nella generazione di video hanno permesso lo sviluppo di “modelli del mondo” capaci di simulare il futuro, ma definire obiettivi precisi rimane una sfida. Le istruzioni testuali sono spesso troppo astratte, mentre le immagini target sono difficili da specificare per compiti dinamici.

Il framework Goal Force supera queste limitazioni permettendo agli utenti di definire gli obiettivi tramite vettori di forza espliciti e dinamiche intermedie. Questo approccio riflette il modo in cui gli umani concettualizzano i compiti fisici. Il modello video è stato addestrato su un dataset di primitive causali sintetiche, come collisioni elastiche e domino che cadono, insegnando al modello a propagare le forze nello spazio e nel tempo. Nonostante l’addestramento su dati fisici semplici, il modello dimostra una notevole generalizzazione zero-shot, applicandosi con successo a scenari complessi del mondo reale, tra cui la manipolazione di strumenti e catene causali multi-oggetto.

I risultati suggeriscono che, radicando la generazione di video nelle interazioni fisiche fondamentali, i modelli possono emergere come simulatori di fisica neurali impliciti, consentendo una pianificazione precisa e consapevole della fisica, senza la necessità di motori esterni. Questo studio apre nuove prospettive per la robotica e la pianificazione, offrendo strumenti più intuitivi e potenti per la progettazione e il controllo di sistemi intelligenti.


Paper: ArXiv.org