GaussianSwap: Scambio di volti animabile con Gaussian Splatting 3D

GaussianSwap: Una Nuova Frontiera nello Scambio di Volti Video

Il nuovo framework GaussianSwap rappresenta un passo avanti nello scambio di volti video, utilizzando il 3D Gaussian Splatting per creare avatar facciali animabili. A differenza dei metodi tradizionali basati su pixel, GaussianSwap permette di manipolare interattivamente i volti scambiati.

Il processo inizia con l’analisi del video di destinazione per estrarre parametri FLAME, pose della fotocamera e maschere di segmentazione. Successivamente, i Gaussian splat 3D vengono collegati al modello FLAME, consentendo il controllo dinamico del volto. Per garantire la conservazione dell’identità, viene incorporato un embedding di identità composito, derivato da tre modelli di riconoscimento facciale all’avanguardia, per la messa a punto dell’avatar.

Il risultato è un avatar con il volto scambiato che si integra perfettamente nei fotogrammi di sfondo, offrendo risultati superiori in termini di conservazione dell’identità, chiarezza visiva e consistenza temporale. Questo apre la strada a nuove applicazioni interattive, impensabili con le tecnologie precedenti. La ricerca è disponibile su arXiv, offrendo dettagli approfonditi sul metodo e sui risultati ottenuti.


Paper: ArXiv.org

Il Divario di Valutazione in Medicina, IA e LLM: Navigare tra Verità Fondamentale Elusiva e Incertezza attraverso un Paradigma Probabilistico

Il Divario di Valutazione in Medicina, IA e LLM: Navigare tra Verità Fondamentale Elusiva e Incertezza attraverso un Paradigma Probabilistico

Una nuova ricerca, pubblicata su arXiv (arXiv:2601.05500v1), solleva importanti questioni sulla valutazione delle capacità dei sistemi di intelligenza artificiale (IA), inclusi i Large Language Models (LLM) e i modelli di visione. Lo studio, condotto in un contesto medico, evidenzia come le attuali metodologie di benchmarking spesso trascurino l’impatto dell’incertezza intrinseca nelle risposte di ‘ground truth’ fornite dagli esperti. Questa ambiguità, particolarmente rilevante in medicina, dove l’incertezza è pervasiva, può portare a conclusioni fuorvianti.

Gli autori introducono un paradigma probabilistico per spiegare come un’elevata certezza nelle risposte di ‘ground truth’ sia quasi sempre necessaria per ottenere punteggi elevati, anche per un esperto. Nei dataset con alta variabilità nelle risposte, le prestazioni di un esperto potrebbero non differire significativamente da quelle di un valutatore casuale. Questo solleva dubbi sulla validità dei confronti di performance quando l’incertezza non viene considerata.

Lo studio raccomanda di stratificare i risultati di valutazione in base alla probabilità della risposta di ‘ground truth’, misurata solitamente attraverso il tasso di accordo tra esperti. Questa stratificazione diventa cruciale quando le performance complessive scendono sotto una soglia dell’80%. In questo modo, il confronto delle prestazioni diventa più affidabile nei ‘bin’ ad alta certezza, mitigando l’effetto dell’incertezza, un fattore confondente chiave. La ricerca offre un importante contributo alla comprensione delle sfide nella valutazione delle IA e dei LLM, specialmente in ambiti come la medicina, dove l’accuratezza e l’affidabilità sono fondamentali.


Paper: ArXiv.org

La Facciata della Verità: Scoprire e Mitigare la Suscettibilità degli LLM a Prove Ingannevoli

La Facciata della Verità: Scoprire e Mitigare la Suscettibilità degli LLM a Prove Ingannevoli

Un recente studio pubblicato su arXiv (2601.05478v1) solleva preoccupazioni significative sulla affidabilità dei Large Language Models (LLM) nell’assistere il processo decisionale umano. La ricerca evidenzia una vulnerabilità fondamentale dei modelli linguistici sofisticati di fronte a prove ingannevoli, difficili da confutare. Nonostante la loro capacità di resistere alla disinformazione esplicita, gli LLM mostrano una marcata sensibilità a evidenze ingannevoli, sottili e ben costruite.

Per esplorare questa debolezza, è stato sviluppato il framework MisBelief, che genera prove ingannevoli attraverso interazioni collaborative e multi-round tra LLM con ruoli diversi. Questo processo simula un ragionamento sottile e progressivo, creando affermazioni logicamente persuasive ma fattualmente scorrette. I risultati dimostrano che, sebbene i modelli siano robusti contro la disinformazione diretta, sono altamente sensibili a questo tipo di prove raffinate: i punteggi di credenza nelle false affermazioni aumentano in media del 93,0%, compromettendo le raccomandazioni successive.

Per affrontare questa sfida, i ricercatori propongono Deceptive Intent Shielding (DIS), un meccanismo di governance che fornisce un segnale di allerta precoce, inferendo l’intento ingannevole dietro le prove. I risultati empirici dimostrano che DIS mitiga costantemente i cambiamenti di credenza e promuove una valutazione più cauta delle prove.


Paper: ArXiv.org

Tracciare le Fondamenta Morali nei Modelli Linguistici di Grandi Dimensioni

Nuova Ricerca su arXiv: Tracing Moral Foundations in Large Language Models

Un recente studio pubblicato su arXiv (2601.05437v1) esplora il modo in cui i modelli linguistici di grandi dimensioni (LLM) processano e rappresentano la moralità. L’indagine, condotta utilizzando la Moral Foundations Theory (MFT) come quadro di riferimento, analizza come i concetti morali sono codificati, organizzati ed espressi all’interno di due LLM istruiti: Llama-3.1-8B-Instruct e Qwen2.5-7B-Instruct.

Gli autori hanno impiegato un approccio multi-livello che include l’analisi layer-wise delle rappresentazioni dei concetti MFT e il loro allineamento con le percezioni morali umane, l’uso di autoencoder sparsi pre-addestrati per identificare caratteristiche sparse che supportano i concetti morali e interventi di causal steering utilizzando vettori MFT densi e caratteristiche SAE sparse. I risultati suggeriscono che entrambi i modelli rappresentano e distinguono le fondamenta morali in modo strutturato e dipendente dal layer, in linea con i giudizi umani.

A una scala più fine, le caratteristiche SAE mostrano chiari collegamenti semantici a fondamenti specifici, suggerendo meccanismi parzialmente disattivati all’interno di rappresentazioni condivise. Gli interventi di steering, sia con vettori densi che con caratteristiche sparse, producono cambiamenti prevedibili nel comportamento rilevante per le fondamenta morali, dimostrando una connessione causale tra le rappresentazioni interne e gli output morali. Questo studio fornisce prove meccanicistiche che i concetti morali negli LLM sono distribuiti, stratificati e in parte disattivati, suggerendo che una struttura morale pluralistica può emergere come un modello latente dalle regolarità statistiche del linguaggio.


Paper: ArXiv.org

I Large Language Models sono cattivi giocatori di dadi: le LLM faticano a generare numeri casuali da distribuzioni statistiche

I Large Language Models sono cattivi giocatori di dadi: le LLM faticano a generare numeri casuali da distribuzioni statistiche

Un nuovo studio, pubblicato su arXiv (arXiv:2601.05414v1), rivela una seria limitazione dei modelli linguistici di grandi dimensioni (LLM): la loro incapacità di generare numeri casuali da distribuzioni statistiche in modo affidabile. Questa scoperta solleva preoccupazioni significative, poiché gli LLM vengono sempre più integrati in applicazioni che richiedono campionamento probabilistico, come la valutazione educativa e la creazione di dati sintetici.

Lo studio, che ha valutato 11 diversi modelli su 15 distribuzioni, ha utilizzato due protocolli principali: la ‘generazione batch’, in cui il modello produce 1000 campioni in un’unica risposta, e ‘richieste indipendenti’, che consistono in 1000 chiamate stateless. I risultati hanno mostrato una marcata asimmetria: la generazione batch ha ottenuto risultati modesti, con una percentuale di successo mediana del 13%, mentre le richieste indipendenti hanno fallito quasi completamente. La fedeltà del campionamento è diminuita con l’aumentare della complessità della distribuzione e con l’aumentare del numero di campioni richiesti.

Questi fallimenti si propagano a cascata in altri compiti. I modelli non sono riusciti a rispettare i vincoli di posizione delle risposte uniformi nella generazione di domande a scelta multipla e hanno sistematicamente violato gli obiettivi demografici nella sintesi di prompt da testo a immagine. Questi risultati suggeriscono che gli LLM attuali mancano di un campionatore interno funzionale, rendendo necessario l’uso di strumenti esterni per applicazioni che richiedono garanzie statistiche.


Paper: ArXiv.org

Conformità e Impatto Sociale sugli Agenti AI

Conformità e Impatto Sociale sugli Agenti AI

Un nuovo studio pubblicato su arXiv (2601.05384v1) esplora la conformità negli agenti di intelligenza artificiale (AI), analizzando come questi modelli di linguaggio di grandi dimensioni (LLM) rispondono all’influenza sociale. La ricerca, ispirata agli esperimenti classici della psicologia sociale, ha simulato ambienti multi-agente per osservare il comportamento collettivo delle AI.

I risultati rivelano una tendenza sistematica alla conformità negli agenti AI, in linea con la Teoria dell’Impatto Sociale. Gli agenti mostrano sensibilità alla dimensione del gruppo, all’unanimità, alla difficoltà del compito e alle caratteristiche della fonte di influenza. Sorprendentemente, agenti AI che operano con prestazioni quasi perfette in isolamento diventano altamente suscettibili alla manipolazione attraverso l’influenza sociale.

Questa vulnerabilità persiste anche tra modelli di diverse dimensioni. Sebbene i modelli più grandi dimostrino una ridotta conformità su compiti semplici, a causa delle loro capacità avanzate, restano vulnerabili quando operano al limite delle loro competenze. La ricerca evidenzia quindi importanti vulnerabilità nella sicurezza del processo decisionale degli agenti AI, sollevando preoccupazioni riguardo alla possibilità di manipolazioni dannose, campagne di disinformazione e propagazione di bias nei sistemi multi-agente. Ciò sottolinea l’urgenza di implementare misure di salvaguardia nello sviluppo e nell’implementazione dell’AI collettiva.


Paper: ArXiv.org

Codificare il mondo visivo: dall’immagine alla simulazione usando i modelli linguistici di visione

Codificare il mondo visivo: dall’immagine alla simulazione usando i modelli linguistici di visione

Un recente studio pubblicato su arXiv (arXiv:2601.05344v1) esplora l’incredibile capacità dei Vision Language Models (VLMs) di comprendere e simulare sistemi complessi rappresentati in immagini. Il lavoro, intitolato “Coding the Visual World: From Image to Simulation Using Vision Language Models”, utilizza la metodologia Im2Sim, che prevede l’utilizzo di un VLM per analizzare un’immagine del mondo reale (città, nuvole, vegetazione) e generare una descrizione del sistema, oltre a scrivere codice per simularlo e generare una nuova immagine.

Questo codice generativo viene quindi eseguito per produrre un’immagine sintetica, confrontata con l’originale per valutare la comprensione del VLM. I risultati dimostrano che i principali VLMs, come GPT e Gemini, sono in grado di comprendere e modellare sistemi multi-componente complessi in diversi ambiti e livelli di astrazione. Nonostante questo successo, i modelli mostrano limitazioni nella replicazione dei dettagli fini e degli schemi a basso livello presenti nelle immagini originali, rivelando un’interessante asimmetria tra la comprensione visiva di alto livello e la percezione dei dettagli.

Lo studio evidenzia come i VLMs stiano aprendo nuove frontiere nell’intersezione tra visione artificiale, linguaggio e simulazione, offrendo nuove prospettive per la comprensione del mondo che ci circonda. La capacità di questi modelli di tradurre le immagini in rappresentazioni computazionali apre la strada a nuove applicazioni, dalla simulazione di ambienti complessi alla creazione di modelli predittivi.


Paper: ArXiv.org

CosyEdit: Sbloccare la capacità di editing vocale end-to-end da modelli Text-to-Speech Zero-Shot

CosyEdit: Una soluzione innovativa per l’editing vocale

Un nuovo studio pubblicato su arXiv (2601.05329v1) presenta CosyEdit, un modello di editing vocale end-to-end che promette di rivoluzionare il modo in cui modifichiamo i contenuti parlati. A differenza dei sistemi tradizionali, che si basano su pipeline complesse e allineamenti temporali espliciti, CosyEdit si basa su un approccio innovativo che integra l’allineamento testo-voce direttamente nel modello.

CosyEdit è stato sviluppato a partire da CosyVoice, un modello Text-to-Speech (TTS) zero-shot, attraverso un processo di fine-tuning specifico per il compito di editing vocale. Il modello è stato addestrato su un dataset di 250 ore di dati supervisionati, chiamato GigaEdit, e vanta 400 milioni di parametri. Nonostante le dimensioni relativamente contenute, CosyEdit ha dimostrato prestazioni eccezionali.

I risultati dei test, condotti sul benchmark RealEdit, mostrano che CosyEdit supera le prestazioni di diversi modelli linguistici con miliardi di parametri e si confronta con i migliori approcci a cascata attualmente disponibili. Questo successo dimostra che, con un’adeguata ottimizzazione del fine-tuning e dell’inferenza, è possibile ottenere capacità di editing vocale robuste ed efficienti da un modello TTS zero-shot, offrendo una soluzione end-to-end di alta qualità e a basso costo.

Questa scoperta apre nuove prospettive nel campo dell’editing vocale, offrendo strumenti più accessibili e potenti per la modifica dei contenuti parlati.


Paper: ArXiv.org

Naiad: Un Nuovo Sistema Autonomo Intelligente Agentico per il Monitoraggio delle Acque Interne

Naiad: Rivoluzione nel Monitoraggio delle Acque Interne

Il monitoraggio delle acque interne è fondamentale per proteggere la salute pubblica e gli ecosistemi, permettendo interventi tempestivi per mitigare i rischi. Tradizionalmente, i metodi esistenti affrontano singolarmente problemi specifici come la presenza di cianobatteri, clorofilla o altri indicatori di qualità. NAIAD, un nuovo sistema, introduce un assistente di intelligenza artificiale (IA) agentico che sfrutta i modelli linguistici di grandi dimensioni (LLM) e strumenti analitici esterni per offrire una soluzione olistica per il monitoraggio delle acque interne, utilizzando i dati di osservazione della Terra (EO).

Progettato per esperti e non, NAIAD offre un’interfaccia a prompt singolo che traduce le richieste in linguaggio naturale in informazioni utili. Attraverso la Generazione Aumentata da Recupero (RAG), il ragionamento LLM, l’orchestrazione di strumenti esterni, l’esecuzione di grafi computazionali e la riflessione agentica, il sistema recupera e sintetizza informazioni da fonti curate per produrre report personalizzati. NAIAD integra strumenti diversi per dati meteorologici, immagini Sentinel-2, calcolo di indici di telerilevamento (es. NDCI), stima della clorofilla-a e piattaforme consolidate come CyFi.

Le prestazioni sono valutate utilizzando metriche di accuratezza e rilevanza, raggiungendo rispettivamente oltre il 77% e l’85% su un benchmark dedicato che copre diversi livelli di competenza degli utenti. I risultati preliminari dimostrano una forte adattabilità e robustezza in vari tipi di query. Uno studio di ablazione sui modelli LLM evidenzia Gemma 3 (27B) e Qwen 2.5 (14B) come i migliori per l’efficienza computazionale e le prestazioni di ragionamento.


Paper: ArXiv.org

CourtNav: Navigazione Vocale e Precisa di Documenti Legali Estesi in Aule di Tribunale

CourtNav: Navigazione Vocale e Precisa di Documenti Legali Estesi in Aule di Tribunale

Il lavoro giudiziario si basa sulla lettura attenta di lunghi documenti, tra cui verbali, accuse, memorie, allegati e ordini, che spesso si estendono per centinaia di pagine. Con un supporto di personale limitato, la lettura esaustiva durante le udienze è impraticabile. Presentiamo CourtNav, un navigatore vocale, con ancoraggi precisi, per PDF legali che mappa i comandi vocali di un giudice (ad esempio, “vai al paragrafo 23”, “evidenzia la contraddizione nel controinterrogatorio”) direttamente a un paragrafo evidenziato in pochi secondi.

CourtNav trascrive il comando, classifica l’intento con una grammatica (corrispondenza esatta di regex), un router supportato da LLM che classifica le query utilizzando pochi esempi, recupera tramite un indice ibrido sensibile al layout e fa scorrere automaticamente il visualizzatore allo span citato, evidenziandolo e mostrando alternative vicine. L’interfaccia mostra solo passaggi basati su prove, mai testo libero, mantenendo le prove verificabili e verificabili. Questa necessità è particolarmente acuta in India, dove sentenze e controinterrogatori sono notoriamente lunghi.

In un test pilota su verbali di accusa, memorie e ordini rappresentativi, il tempo medio per la rilevanza scende da 3-5 minuti (navigazione manuale) a 10-15 secondi; con la verifica visiva rapida inclusa, 30-45 secondi. Con budget di tempo fissi, questo design di navigazione aumenta l’ampiezza del verbale effettivamente consultato, preservando al contempo il controllo e la trasparenza.


Paper: ArXiv.org