Mettiamoci nei panni di Sally: Il precompilamento ‘Shoes-of-Others’ migliora la teoria della mente nei modelli linguistici di grandi dimensioni

Nuovo metodo per migliorare la Teoria della Mente nei modelli linguistici

Uno studio pubblicato su arXiv (arXiv:2506.05970v2) introduce un nuovo metodo per migliorare la Teoria della Mente (ToM) nei modelli linguistici di grandi dimensioni (LLM). La ToM, la capacità di comprendere e prevedere gli stati mentali altrui, è ancora lontana dalle prestazioni umane nei LLM. La ricerca ha esplorato metodi di inferenza che non richiedono la messa a punto sui dataset ToM, che spesso degradano la generalizzazione dei modelli.

Il metodo proposto, chiamato ‘Shoes-of-Others’ (SoO) prefilling, si basa sull’aggiunta di una semplice frase all’inizio delle risposte del modello: “Mettiamoci nei panni di A”, dove ‘A’ è il nome del personaggio target. Questo approccio richiede meno assunzioni sui contesti ed è applicabile a scenari più ampi rispetto ai metodi precedenti, focalizzati su contesti con cambiamenti nello stato del mondo.

I risultati della valutazione su due benchmark, che valutano la ToM in contesti conversazionali e narrativi senza modifiche nello stato del mondo, mostrano un miglioramento costante in cinque categorie di stati mentali. L’analisi suggerisce che il precompilamento SoO evoca pensieri fedeli, migliorando così le prestazioni della ToM. Questo studio apre nuove strade per la ricerca sull’intelligenza artificiale, suggerendo che approcci semplici possono portare a miglioramenti significativi nella comprensione delle capacità umane da parte dei modelli linguistici.


Paper: ArXiv.org

Previsioni avanzate a lungo termine del sistema terrestre

Nuovo modello di intelligenza artificiale promette previsioni climatiche accurate a lungo termine

Un recente articolo pubblicato su arXiv (arXiv:2505.19432v3) presenta TritonCast, un nuovo modello di intelligenza artificiale (IA) progettato per migliorare significativamente le previsioni a lungo termine del sistema terrestre. Il modello affronta le limitazioni degli attuali modelli di IA, che spesso mostrano instabilità e amplificazione degli errori nelle simulazioni autoregressive prolungate.

Il problema principale risiede nel “spectral bias”, che impedisce una corretta rappresentazione dei processi ad alta frequenza e su piccola scala. TritonCast risolve questo problema con un approccio innovativo che si ispira alle griglie annidate utilizzate nei modelli numerici. Il modello comprende un “nucleo dinamico latente” dedicato, che garantisce la stabilità a lungo termine della macro-evoluzione su larga scala. Una struttura esterna fonde poi questa tendenza stabile con i dettagli locali di alta precisione.

I risultati sono notevoli. Nell’ambito delle scienze atmosferiche, TritonCast ha ottenuto risultati all’avanguardia sul benchmark WeatherBench 2, dimostrando un’eccezionale stabilità a lungo termine, con simulazioni climatiche pluriennali che coprono un periodo di prova di 2500 giorni senza alcun drift. In oceanografia, il modello estende le previsioni degli eddies fino a 120 giorni e mostra una generalizzazione cross-resolution senza precedenti. Studi di ablazione rivelano che questa performance è il risultato dell’interazione sinergica dei componenti principali dell’architettura. TritonCast apre quindi la strada a una nuova generazione di simulazioni affidabili basate sull’IA, con il potenziale di accelerare la scoperta nella scienza del clima e del sistema terrestre, consentendo previsioni a lungo termine più affidabili e una più profonda comprensione delle complesse dinamiche geofisiche.


Paper: ArXiv.org

PartDexTOG: Afferrare oggetti con destrezza e orientamento al compito tramite l’analisi delle parti guidata dal linguaggio

Nuova tecnica per la presa di oggetti con mani robotiche

Un recente studio pubblicato su arXiv (2505.12294v2) presenta PartDexTOG, un innovativo metodo per la presa di oggetti da parte di robot con mani dexterous (capaci di movimenti complessi e precisi). La ricerca, focalizzata sull’afferrare oggetti in modo efficiente, si basa sull’analisi delle parti degli oggetti, guidata dal linguaggio naturale.

Le mani dexterous offrono maggiore precisione e versatilità, ma la loro programmazione è complessa. PartDexTOG affronta questa sfida utilizzando modelli linguistici di grandi dimensioni (LLM) per comprendere la funzione delle diverse parti di un oggetto e generare descrizioni dettagliate della presa in base al compito da svolgere. Ad esempio, se il compito è ‘versare l’acqua’, il sistema individuerà la parte ‘manico’ e genererà una presa adatta.

Il sistema utilizza un modello di diffusione condizionata per generare prese dexterous per ogni parte dell’oggetto. Un algoritmo di consistenza geometrica seleziona poi la combinazione di presa e parte più plausibile. I risultati ottenuti sul dataset OakInk-shape mostrano miglioramenti significativi rispetto alle tecniche precedenti, dimostrando una notevole capacità di adattamento a nuove categorie di oggetti e compiti.

PartDexTOG rappresenta un significativo passo avanti nella robotica, aprendo nuove possibilità per l’automazione di compiti complessi che richiedono manipolazione precisa e adattabile.


Paper: ArXiv.org

Scalando la Scala del Ragionamento: Cosa i LLM Possono – e Non Possono Ancora – Risolvere dopo l’SFT?

Nuovi Sviluppi nei Modelli Linguistici e il Ragionamento Matematico

Un recente studio su arXiv (2504.11741v2) esplora i progressi dei modelli linguistici (LLM) nel ragionamento matematico, in particolare dopo l’applicazione del supervised fine-tuning (SFT). L’analisi si concentra sul dataset AIME24, rivelando una struttura a scala nella difficoltà dei problemi. I ricercatori hanno categorizzato le domande in quattro livelli: Facile, Medio, Difficile ed Estremamente Difficile (Exh).

I risultati mostrano che il passaggio da ‘Facile’ a ‘Medio’ richiede l’adozione di uno stile di ragionamento R1 con un minimo di SFT. Tuttavia, i problemi di livello ‘Difficile’ evidenziano errori frequenti nel modello, con un’accuratezza che si stabilizza intorno al 65% nonostante l’aumento della scala dei dati. Le domande ‘Exh’ presentano una sfida fondamentale, richiedendo abilità di problem-solving non convenzionali che i modelli attuali faticano a padroneggiare. Lo studio sottolinea l’importanza di dataset di grandi dimensioni rispetto a quelli piccoli ma accuratamente curati.

Questo lavoro offre una chiara roadmap per migliorare le capacità dei modelli linguistici nel ragionamento matematico, evidenziando le aree di forza e le limitazioni attuali.


Paper: ArXiv.org

Verso l’Ingegneria del Software AI-Nativa (SE 3.0): Una Visione e una Roadmap di Sfide

L’alba dell’Ingegneria del Software 3.0: Un Futuro Collaborativo tra Umani e AI

La crescente influenza dell’intelligenza artificiale (IA) nel campo dell’ingegneria del software (SE) ha aperto nuove frontiere, in particolare con l’avvento dell’SE 2.0, alimentata da modelli di fondazione (FM) e assistenti di codifica basati su FM. Sebbene l’SE 2.0 abbia dimostrato di migliorare la produttività degli sviluppatori, ha anche rivelato limiti intrinseci, come il sovraccarico cognitivo e le inefficienze.

Questo studio propone un passaggio all’Ingegneria del Software 3.0 (SE 3.0), un approccio AI-nativo che si basa sullo sviluppo incentrato sull’intento e orientato alla conversazione tra sviluppatori umani e compagni di squadra AI. La SE 3.0 prevede sistemi di IA che evolvono da semplici copiloti orientati ai compiti a collaboratori intelligenti, capaci di comprendere a fondo e ragionare sui principi e sugli intenti dell’ingegneria del software.

Il documento descrive i componenti chiave dello stack tecnologico SE 3.0, tra cui Teammate.next per una partnership AI adattiva e personalizzata, IDE.next per lo sviluppo orientato alla conversazione incentrato sull’intento, Compiler.next per la sintesi del codice multi-obiettivo e Runtime.next per l’esecuzione basata su SLA con supporto per l’edge computing. Questa visione mira a risolvere le inefficienze e lo stress cognitivo dell’SE 2.0, promuovendo una relazione simbiotica tra sviluppatori umani e IA, massimizzando i loro punti di forza complementari. Il documento presenta anche una roadmap delle sfide da superare per realizzare la visione dell’SE 3.0, ponendo le basi per discussioni future sul ruolo dell’IA nella prossima era dell’ingegneria del software.


Paper: ArXiv.org

iTeach: Insegnamento Interattivo per la Percezione Robotica Utilizzando la Realtà Mista

iTeach: Migliorare la Percezione Robotica in Tempo Reale

I robot che operano in ambienti reali spesso incontrano oggetti e scenari che superano i modelli di percezione pre-addestrati. L’adattamento di questi modelli richiede tipicamente la raccolta lenta di dati offline, l’etichettatura e il riaddestramento. Per affrontare questa sfida, è stato sviluppato iTeach, un sistema human-in-the-loop che consente ai robot di migliorare continuamente la percezione durante l’esplorazione di nuovi ambienti.

Il sistema si basa sull’interazione umana: un utente osserva le previsioni del robot, corregge gli errori in tempo reale e questi dati guidano la messa a punto iterativa. Un visore per la realtà mista fornisce l’interfaccia, sovrapponendo le previsioni alla vista dell’utente e consentendo annotazioni leggere tramite sguardo e voce. Invece di una noiosa etichettatura fotogramma per fotogramma, l’utente guida il robot verso le scene desiderate e registra brevi video durante l’interazione con gli oggetti. L’utente etichetta solo il fotogramma finale, e un modello di segmentazione video propaga le etichette attraverso la sequenza, convertendo pochi secondi di input in una supervisione densa.

Il modello perfezionato viene implementato immediatamente, chiudendo il ciclo tra il feedback umano e l’apprendimento del robot. Dimostrazioni pratiche hanno mostrato miglioramenti costanti su modelli di riferimento pre-addestrati, portando a un maggiore successo nella presa di oggetti. iTeach offre un approccio pratico verso sistemi di percezione che generalizzano in modo robusto in diverse condizioni del mondo reale.


Paper: ArXiv.org

KALE-LM-Chem: Visione e pratica verso un cervello AI per la chimica

KALE-LM-Chem: Visione e pratica verso un cervello AI per la chimica

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un forte potenziale per l’abilitazione dell’intelligenza specifica del dominio. In questo lavoro, presentiamo la nostra visione per la costruzione di un cervello chimico basato sull’IA, che inquadra l’intelligenza chimica attorno a quattro capacità principali: estrazione di informazioni, parsing semantico, QA basata sulla conoscenza e ragionamento e pianificazione. Sosteniamo che la conoscenza del dominio e la logica sono pilastri essenziali per consentire a un tale sistema di assistere e accelerare la scoperta scientifica.

Per dare il via a questo sforzo, presentiamo la nostra prima generazione di modelli linguistici di grandi dimensioni per la chimica: KALE-LM-Chem e KALE-LM-Chem-1.5, che hanno ottenuto prestazioni eccezionali in compiti relativi al campo della chimica. Ci auguriamo che il nostro lavoro serva come un forte punto di partenza, contribuendo a realizzare un’IA più intelligente e promuovendo il progresso della scienza e della tecnologia umane, nonché lo sviluppo sociale.


Paper: ArXiv.org

Un dataset fotorealistico e un algoritmo basato sulla visione per il rilevamento delle anomalie durante le operazioni di prossimità in orbita lunare

Un passo avanti verso l’autonomia spaziale: Rilevamento di anomalie in orbita lunare

La prossima stazione spaziale Lunar Gateway della NASA, che sarà per lo più non equipaggiata, richiederà un livello di autonomia senza precedenti. Una sfida chiave è consentire al Canadarm3, il sistema robotico esterno del Gateway, di rilevare i pericoli nel suo ambiente utilizzando le telecamere di ispezione di bordo. Questo compito è complicato dalle condizioni di illuminazione estreme e variabili nello spazio.

Questo studio introduce il compito di rilevamento e localizzazione delle anomalie visive per il dominio spaziale, stabilendo un punto di riferimento basato su un dataset sintetico chiamato ALLO (Anomaly Localization in Lunar Orbit). I risultati dimostrano che i metodi di rilevamento delle anomalie visive all’avanguardia spesso falliscono nello spazio, sottolineando la necessità di nuovi approcci. Per affrontare questa problematica, viene proposto MRAD (Model Reference Anomaly Detection), un algoritmo statistico che sfrutta la posizione nota del Canadarm3 e un modello CAD del Gateway per generare immagini di riferimento dell’aspetto previsto della scena. Le anomalie vengono quindi identificate come deviazioni da questo riferimento generato dal modello.

Sul dataset ALLO, MRAD supera gli algoritmi di rilevamento delle anomalie all’avanguardia, raggiungendo un punteggio AP del 62,9% a livello di pixel e un punteggio AUROC del 75,0% a livello di immagine. Data la bassa tolleranza al rischio nelle operazioni spaziali e la mancanza di dati specifici del dominio, l’articolo sottolinea la necessità di metodi di rilevamento delle anomalie nuovi, robusti e accurati per gestire le difficili condizioni visive che si trovano in orbita lunare e oltre.


Paper: ArXiv.org

Modello Fondamentale di Cellule Singole con Conoscenza del Mondo Aperto e Pre-addestramento Cellula-Linguaggio Cross-Modal

Nuovo Modello di Intelligenza Artificiale Rivoluziona l’Analisi delle Cellule Singole

Un recente studio pubblicato su arXiv (2601.05648v1) presenta un avanzato modello di intelligenza artificiale, OKR-CELL, progettato per rivoluzionare l’analisi delle cellule singole. OKR-CELL sfrutta un approccio innovativo di pre-addestramento Cellula-Linguaggio cross-modale, integrando una vasta conoscenza del mondo aperto per migliorare la comprensione della eterogeneità cellulare e della regolazione genica.

Il modello si basa sull’integrazione di dati multi-omici delle cellule singole, come l’RNA-seq, con modelli linguistici di grandi dimensioni (LLM). La prima innovazione chiave è l’utilizzo di LLM con generazione aumentata da recupero (RAG), che arricchisce le descrizioni testuali delle cellule attingendo a una vasta conoscenza del mondo. La seconda innovazione è l’obiettivo di Allineamento Robusto Cross-modale (CRA), che incorpora la valutazione dell’affidabilità dei campioni, l’apprendimento per curriculum e l’apprendimento contrastivo a momento accoppiato per rendere il modello resistente ai dati rumorosi.

Dopo essere stato pre-addestrato su 32 milioni di coppie cellula-testo, OKR-CELL ha ottenuto risultati all’avanguardia in sei compiti di valutazione, tra cui clustering cellulare, annotazione del tipo cellulare, correzione degli effetti batch e annotazione few-shot. Il modello dimostra prestazioni superiori anche in applicazioni cross-modali più ampie, come l’annotazione del tipo cellulare zero-shot e il recupero bidirezionale cellula-testo, aprendo nuove strade per la ricerca in biologia cellulare.


Paper: ArXiv.org

Scoperta autonoma dei parametri critici del modello di Ising con l’apprendimento per rinforzo

Ricerca Rivoluzionaria nell’Apprendimento Automatico e nella Fisica

Un recente studio pubblicato su arXiv (arXiv:2601.05577v1) presenta un avanzamento significativo nell’intersezione tra fisica e intelligenza artificiale. La ricerca propone un innovativo framework di apprendimento per rinforzo adattivo, ispirato ai principi della fisica, per l’esplorazione autonoma del modello di Ising. Questo modello, fondamentale per la comprensione dei fenomeni di transizione di fase, è stato tradizionalmente analizzato attraverso metodi influenzati dall’intervento umano.

Il nuovo approccio, invece, permette agli agenti di interagire direttamente con gli ambienti fisici, identificando autonomamente la temperatura critica e gli esponenti critici. L’algoritmo dimostra un comportamento di ricerca che ricorda le transizioni di fase, convergendo efficacemente verso i parametri target, indipendentemente dalle condizioni iniziali. I risultati sperimentali mostrano un miglioramento significativo rispetto ai metodi tradizionali, soprattutto in ambienti soggetti a forti perturbazioni.

Questa ricerca non solo integra concetti fisici nell’apprendimento automatico per migliorare l’interpretabilità degli algoritmi, ma stabilisce anche un nuovo paradigma per l’esplorazione scientifica. La transizione dall’analisi manuale alla scoperta autonoma guidata dall’IA apre nuove prospettive per la ricerca scientifica, promettendo avanzamenti in svariati campi.


Paper: ArXiv.org