Goal Force: Insegnare ai modelli video a raggiungere obiettivi condizionati dalla fisica

Goal Force: Nuovi Modelli Video per la Simulazione Fisica

Un recente studio pubblicato su arXiv (2601.05848v1) presenta un nuovo framework chiamato “Goal Force”, che introduce un approccio innovativo nella generazione di video. L’obiettivo è consentire ai modelli di intelligenza artificiale di raggiungere obiettivi specifici, simulando scenari fisici complessi. I progressi nella generazione di video hanno permesso lo sviluppo di “modelli del mondo” capaci di simulare il futuro, ma definire obiettivi precisi rimane una sfida. Le istruzioni testuali sono spesso troppo astratte, mentre le immagini target sono difficili da specificare per compiti dinamici.

Il framework Goal Force supera queste limitazioni permettendo agli utenti di definire gli obiettivi tramite vettori di forza espliciti e dinamiche intermedie. Questo approccio riflette il modo in cui gli umani concettualizzano i compiti fisici. Il modello video è stato addestrato su un dataset di primitive causali sintetiche, come collisioni elastiche e domino che cadono, insegnando al modello a propagare le forze nello spazio e nel tempo. Nonostante l’addestramento su dati fisici semplici, il modello dimostra una notevole generalizzazione zero-shot, applicandosi con successo a scenari complessi del mondo reale, tra cui la manipolazione di strumenti e catene causali multi-oggetto.

I risultati suggeriscono che, radicando la generazione di video nelle interazioni fisiche fondamentali, i modelli possono emergere come simulatori di fisica neurali impliciti, consentendo una pianificazione precisa e consapevole della fisica, senza la necessità di motori esterni. Questo studio apre nuove prospettive per la robotica e la pianificazione, offrendo strumenti più intuitivi e potenti per la progettazione e il controllo di sistemi intelligenti.


Paper: ArXiv.org

Prove transnazionali di visibilità mediatica sproporzionata per la destra radicale nelle elezioni europee del 2024

Analisi della visibilità mediatica durante le elezioni europee del 2024

Un recente studio, pubblicato su arXiv (arXiv:2601.05826v1), ha condotto un’analisi comparativa sistematica della visibilità mediatica delle diverse famiglie politiche durante le elezioni del Parlamento Europeo del 2024. L’analisi ha esaminato quasi 21.500 notizie provenienti dai principali media nazionali di Austria, Germania, Irlanda, Polonia e Portogallo, paesi con contesti politici diversi e differenti livelli di fiducia nei media. Combinando metodi computazionali e classificazione umana, i ricercatori hanno identificato partiti, leader politici e gruppi, raggruppandoli in base alle famiglie politiche del Parlamento Europeo e alle tendenze politiche generali.

I risultati rivelano che i partiti mainstream e di destra radicale hanno ricevuto maggiore attenzione rispetto agli altri gruppi politici. In particolare, la destra radicale ha goduto di un’attenzione sproporzionata rispetto ai risultati elettorali (del 2019 o del 2024) e alle proiezioni elettorali, soprattutto in Austria, Germania e Irlanda. Questo squilibrio è aumentato nelle ultime settimane della campagna elettorale, periodo in cui l’influenza dei media sugli elettori indecisi è maggiore. L’analisi a livello di testata giornalistica mostra che la copertura delle entità di destra ha dominato in tutte le fonti di notizie, in particolare quelle con il traffico più elevato, suggerendo un modello strutturale piuttosto che specifico della testata.

La visibilità mediatica è una risorsa fondamentale, e questa mappatura sistematica della copertura online evidenzia come i media tradizionali possano contribuire ad asimmetrie strutturali nella competizione democratica.


Paper: ArXiv.org

DexterCap: Un sistema economico e automatizzato per la cattura della manipolazione mano-oggetto destrorsa

DexterCap: Una Nuova Soluzione per la Cattura della Manipolazione Mano-Oggetto

Un nuovo studio pubblicato su arXiv (arXiv:2601.05844v1) presenta DexterCap, un sistema economico e automatizzato per la cattura della manipolazione mano-oggetto destrorsa. La cattura di interazioni mano-oggetto dettagliate è notoriamente difficile a causa dell’auto-occlusione tra le dita e della delicatezza dei movimenti di manipolazione. I sistemi di motion capture ottici esistenti richiedono costose configurazioni di telecamere e una significativa post-elaborazione manuale. I metodi basati sulla visione a basso costo, invece, spesso soffrono di una ridotta accuratezza e affidabilità in presenza di occlusioni.

Per affrontare queste sfide, DexterCap utilizza patch di marcatori dense con codici alfanumerici per ottenere un tracciamento robusto anche in presenza di severe auto-occlusioni, insieme a una pipeline di ricostruzione automatizzata che richiede un intervento manuale minimo. Il sistema include anche DexterHand, un dataset di interazioni mano-oggetto dettagliate che copre diversi comportamenti di manipolazione e oggetti, da semplici forme geometriche a oggetti articolati complessi come il Cubo di Rubik. I ricercatori hanno rilasciato il dataset e il codice per supportare la ricerca futura sull’interazione mano-oggetto destrorsa.

DexterCap promette di democratizzare la ricerca in questo campo, offrendo una soluzione accessibile e affidabile per catturare e analizzare le complesse interazioni mano-oggetto.


Paper: ArXiv.org

Decodifica del Carico di Lavoro e dell’Accordo dall’EEG durante il Dialogo Vocale con l’IA Conversazionale

Nuova Ricerca sull’Interazione Cervello-Computer nell’IA Conversazionale

Un recente studio pubblicato su arXiv (arXiv:2601.05825v1) esplora l’uso di interfacce cervello-computer passive per migliorare l’allineamento dei modelli linguistici di grandi dimensioni (LLM) nell’IA conversazionale. La ricerca, condotta su due diversi paradigmi di dialogo vocale umano-IA, si concentra sulla decodifica del carico di lavoro mentale e dell’accordo implicito attraverso l’elettroencefalografia (EEG).

Lo studio introduce due nuovi paradigmi conversazionali: un compito di ‘Spelling Bee’ e un compito di completamento di frasi. I ricercatori hanno sviluppato un sistema completo per trascrivere, annotare e allineare gli eventi conversazionali a livello di parola con i risultati continui dei classificatori EEG. I risultati preliminari mostrano tendenze interpretabili nella decodifica del carico di lavoro durante l’interazione vocale, supportando il trasferimento tra i diversi paradigmi.

Per quanto riguarda l’accordo implicito, lo studio dimostra un’applicazione continua e un allineamento temporale preciso agli eventi conversazionali. Tuttavia, sono state identificate alcune limitazioni legate al trasferimento del costrutto e all’applicazione asincrona dei classificatori basati sugli eventi. In generale, la ricerca stabilisce la fattibilità e i limiti dell’integrazione dei segnali BCI passivi nei sistemi di IA conversazionali, aprendo nuove prospettive per interazioni uomo-macchina più intuitive e adattive.


Paper: ArXiv.org

LLM come giornalisti scientifici: supporto ai ricercatori alle prime armi nella divulgazione della loro scienza al pubblico

LLM come giornalisti scientifici: supporto ai ricercatori alle prime armi nella divulgazione della loro scienza al pubblico

La comunità scientifica necessita di strumenti che aiutino i ricercatori alle prime armi a comunicare efficacemente le loro scoperte e innovazioni al pubblico. Sebbene gli attuali Large Language Models (LLM) generici possano assistere in questo compito, non sono ottimamente allineati per esso. Per affrontare questa situazione, proponiamo un framework per addestrare LLM a emulare il ruolo di un giornalista scientifico, che può essere utilizzato dai ricercatori alle prime armi per imparare a comunicare correttamente i loro articoli al grande pubblico.

Valutiamo l’utilità dei nostri LLM giornalisti addestrati conducendo conversazioni con ricercatori simulati e umani. I nostri esperimenti indicano che gli LLM addestrati utilizzando il nostro framework pongono domande più pertinenti che affrontano l’impatto sociale della ricerca, spingendo i ricercatori a chiarire ed elaborare i loro risultati. Nello studio sull’utente, la maggior parte dei partecipanti che hanno interagito con il nostro LLM giornalista addestrato lo ha apprezzato più dell’interazione con gli LLM generici.

Questo approccio offre una soluzione promettente per migliorare la capacità dei ricercatori di comunicare efficacemente la loro scienza, colmando il divario tra la ricerca accademica e la comprensione pubblica. L’utilizzo di LLM specializzati come giornalisti scientifici rappresenta un passo avanti significativo verso una divulgazione scientifica più accessibile e comprensibile.


Paper: ArXiv.org

Rilevamento del disturbo dello spettro autistico con le caratteristiche dei movimenti oculari profondi

Rilevamento del disturbo dello spettro autistico con le caratteristiche dei movimenti oculari profondi

Un nuovo studio pubblicato su arXiv (arXiv:2601.05812v1) presenta un approccio innovativo per il rilevamento del disturbo dello spettro autistico (ASD) basato sull’analisi dei movimenti oculari. L’ASD è caratterizzato da difficoltà nella comunicazione sociale e da schemi comportamentali ripetitivi. I dati dei movimenti oculari offrono uno strumento diagnostico non invasivo, in quanto riflettono le caratteristiche discrete e le dipendenze temporali a breve termine, permettendo di distinguere i modelli legati all’ASD dallo sviluppo tipico.

La ricerca ha sviluppato un modello di sequenza discreta a breve termine (DSTS) con rappresentazione consapevole della classe e meccanismi di consapevolezza dello squilibrio. Questo approccio è stato progettato per catturare in modo efficiente i modelli sottili e complessi dei movimenti oculari. I risultati sperimentali dimostrano che il DSTS supera le tecniche di apprendimento automatico tradizionali e i modelli di deep learning più sofisticati, evidenziando l’efficacia dell’analisi dei movimenti oculari per la diagnosi precoce dell’ASD.

Nonostante l’utilizzo diffuso di modelli basati su Transformer per catturare le dipendenze a lungo raggio, i ricercatori hanno scoperto che questi approcci offrono benefici limitati con i dati dei movimenti oculari. Questo potrebbe essere dovuto al fatto che i punti di fissazione discreti e le dipendenze a breve termine riducono l’utilità dei meccanismi di attenzione globale, rendendoli meno efficienti rispetto alle architetture focalizzate sui modelli temporali locali.


Paper: ArXiv.org

SAFE: Apprendimento federato sicuro e accurato per interfacce cervello-computer privacy-preserving

SAFE: Apprendimento federato sicuro e accurato per interfacce cervello-computer privacy-preserving

Le interfacce cervello-computer (BCI) basate sull’elettroencefalogramma (EEG) sono ampiamente adottate grazie alla loro efficienza e portabilità. Tuttavia, i loro algoritmi di decodifica affrontano ancora molteplici sfide, tra cui generalizzazione inadeguata, vulnerabilità agli attacchi e perdita di privacy. Questo articolo propone SAFE (Secure and Accurate FEderated learning), un approccio basato sull’apprendimento federato che protegge la privacy degli utenti mantenendo i dati locali durante l’addestramento del modello. SAFE impiega una normalizzazione specifica per batch locali per mitigare gli spostamenti della distribuzione delle caratteristiche tra soggetti e quindi migliora la generalizzazione del modello. Migliora inoltre la robustezza agli attacchi introducendo perturbazioni sia nello spazio di input che nello spazio dei parametri attraverso l’addestramento avversario federato e la perturbazione dei pesi avversari. Gli esperimenti su cinque set di dati EEG da paradigmi BCI di immaginazione motoria (MI) e potenziale correlato all’evento (ERP) hanno dimostrato che SAFE ha costantemente superato 14 approcci all’avanguardia sia in termini di accuratezza di decodifica che di robustezza agli attacchi, garantendo al contempo la protezione della privacy. In particolare, ha persino superato gli approcci di addestramento centralizzato che non considerano affatto la protezione della privacy. A nostra conoscenza, SAFE è il primo algoritmo a raggiungere simultaneamente elevata accuratezza di decodifica, forte robustezza agli attacchi e protezione affidabile della privacy senza utilizzare alcun dato di calibrazione dal soggetto di destinazione, rendendolo altamente desiderabile per le BCI del mondo reale.


Paper: ArXiv.org

Autonomia Modulare con Interazione Conversazionale: Un Framework basato su LLM per il Decision Making nella Guida Autonoma

Nuove frontiere nella guida autonoma: un framework basato su LLM

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) aprono nuove strade per la creazione di interfacce in linguaggio naturale per i sistemi di guida autonoma (ADS). Questo lavoro affronta la sfida di tradurre la complessità del linguaggio umano nello spazio d’azione strutturato del software modulare ADS. Viene proposto un framework che integra un livello di interazione basato su LLM con Autoware, un software open-source ampiamente utilizzato.

Il sistema consente ai passeggeri di impartire comandi di alto livello, dalla richiesta di informazioni sullo stato alla modifica del comportamento di guida. La metodologia si basa su tre componenti chiave: una tassonomia delle categorie di interazione, un linguaggio specifico del dominio (DSL) centrato sull’applicazione per la traduzione dei comandi e un livello di convalida che preserva la sicurezza. Un’architettura LLM a due stadi garantisce un’elevata trasparenza fornendo feedback basato sullo stato di esecuzione definitivo. La valutazione conferma l’efficienza temporale del sistema e la robustezza della traduzione. La simulazione ha convalidato con successo l’esecuzione dei comandi in tutte e cinque le categorie di interazione. Questo lavoro fornisce le basi per un’interazione estensibile, assistita da DSL, in stack di autonomia modulari e attenti alla sicurezza.


Paper: ArXiv.org

SceneFoundry: Generazione di Mondi 3D Interattivi e Infiniti

SceneFoundry: Generazione di Mondi 3D Interattivi e Infiniti

La capacità di generare automaticamente ambienti 3D su larga scala, interattivi e fisicamente realistici è fondamentale per l’avanzamento dell’apprendimento robotico e dell’intelligenza incarnata. Tuttavia, gli approcci generativi esistenti spesso non riescono a catturare la complessità funzionale degli interni del mondo reale, in particolare quelli contenenti oggetti articolati con parti mobili essenziali per la manipolazione e la navigazione.

Questo articolo presenta SceneFoundry, un framework di diffusione guidato dal linguaggio che genera mondi 3D su scala appartamento con mobili funzionalmente articolati e layout semanticamente diversi per l’addestramento robotico. Da prompt in linguaggio naturale, un modulo LLM controlla la generazione del layout del pavimento, mentre il campionamento a posteriori basato sulla diffusione popola in modo efficiente la scena con risorse articolate da repository 3D su larga scala.

Per garantire l’usabilità fisica, SceneFoundry utilizza funzioni di guida differenziabili per regolare la quantità di oggetti, prevenire le collisioni di articolazione e mantenere uno spazio percorribile sufficiente per la navigazione robotica. Ampie sperimentazioni dimostrano che il nostro framework genera ambienti strutturalmente validi, semanticamente coerenti e funzionalmente interattivi in diversi tipi di scene e condizioni, consentendo una ricerca su larga scala sull’IA incarnata.


Paper: ArXiv.org

Analisi delle differenze nel linguaggio persuasivo generato dai modelli linguistici di grandi dimensioni: scoperta di schemi di genere stereotipati

Nuovo studio rivela pregiudizi di genere nel linguaggio persuasivo dei modelli linguistici

Un recente studio pubblicato su arXiv (2601.05751v1) ha esaminato come i modelli linguistici di grandi dimensioni (LLM) generino linguaggio persuasivo, con particolare attenzione alle differenze legate al genere. La ricerca, condotta su 13 LLM e 16 lingue, ha rivelato schemi significativi di genere nel linguaggio persuasivo prodotto.

Lo studio ha impiegato un framework per valutare l’impatto del genere del destinatario, dell’intento del mittente e della lingua di output sulla generazione di linguaggio persuasivo. I risultati hanno mostrato che le risposte dei modelli presentano variazioni significative basate sul genere, riflettendo pregiudizi coerenti con le tendenze linguistiche stereotipate di genere documentate in psicologia sociale e sociolinguistica.

L’utilizzo crescente degli LLM nella comunicazione quotidiana, compresa la stesura di messaggi persuasivi, rende cruciale comprendere come le istruzioni degli utenti influenzino la generazione del linguaggio persuasivo e se questo linguaggio differisca a seconda del gruppo target. Questo studio fornisce un’analisi dettagliata di queste dinamiche, evidenziando la necessità di affrontare i pregiudizi di genere nei modelli linguistici.


Paper: ArXiv.org