Imparare dagli Errori: Campioni di Ragionamento Negativo Migliorano la Generalizzazione Out-of-Domain

Nuovo Studio Rivela Come i Campioni Negativi Possono Migliorare l’Apprendimento dei Modelli Linguistici

Un recente studio pubblicato su arXiv (2601.04992v2) esplora l’impatto dell’incorporazione di esempi negativi nell’addestramento di modelli linguistici di grandi dimensioni (LLM) per il ragionamento. La ricerca si concentra sull’approccio di fine-tuning supervisionato (SFT) utilizzando dimostrazioni di chain-of-thought (CoT). Contrariamente alla pratica comune di utilizzare solo traiettorie con risposte corrette, lo studio dimostra che l’inclusione di traiettorie negative, ovvero quelle con risposte finali errate, porta a significativi miglioramenti nella generalizzazione out-of-domain (OOD).

I ricercatori hanno scoperto che le traiettorie negative contengono spesso ragionamenti intermedi validi, nonostante l’errore finale. L’analisi approfondita ha rivelato 22 modelli ricorrenti nelle catene negative, che svolgono un ruolo duplice: moderano la discesa della perdita per mitigare l’overfitting durante l’addestramento e aumentano l’entropia della politica durante l’inferenza, facilitando l’esplorazione. Sulla base di queste osservazioni, è stato proposto un nuovo metodo, Gain-based LOss Weighting (GLOW), che adatta la ponderazione della perdita in base ai progressi tra le epoche.

I risultati empirici mostrano che GLOW utilizza efficacemente le traiettorie non filtrate, ottenendo un aumento del 5,51% nella generalizzazione OOD rispetto all’SFT basato solo su esempi positivi sul modello Qwen2.5-7B. Inoltre, GLOW ha incrementato il punteggio MMLU dal 72,82% al 76,47% quando utilizzato come inizializzazione RL, evidenziando il potenziale di questa tecnica per migliorare le prestazioni dei LLM in diversi contesti.


Paper: ArXiv.org

EverMemOS: Un sistema operativo di memoria auto-organizzato per il ragionamento strutturato a lungo termine

EverMemOS: Rivoluzionare il Ragionamento a Lungo Termine con un Sistema di Memoria Auto-Organizzato

I Large Language Models (LLM) vengono sempre più impiegati come agenti interattivi a lungo termine. Tuttavia, le loro finestre di contesto limitate rendono difficile mantenere un comportamento coerente su interazioni prolungate. I sistemi di memoria esistenti spesso memorizzano record isolati e recuperano frammenti, limitando la loro capacità di consolidare gli stati utente in evoluzione e risolvere i conflitti.

Questo studio introduce EverMemOS, un sistema operativo di memoria auto-organizzato che implementa un ciclo di vita ispirato agli engrammi per la memoria computazionale. La Formazione di Tracce Episodiche converte i flussi di dialogo in MemCells che catturano tracce episodiche, fatti atomici e segnali Foresight a tempo. Il Consolidamento Semantico organizza le MemCells in MemScenes tematici, distillando strutture semantiche stabili e aggiornando i profili utente. Il Recupero Ricostruttivo esegue il recupero agentico guidato da MemScene per comporre il contesto necessario e sufficiente per il ragionamento a valle.

Gli esperimenti su LoCoMo e LongMemEval dimostrano che EverMemOS raggiunge prestazioni all’avanguardia sui compiti di ragionamento con memoria aumentata. Viene inoltre riportato uno studio del profilo su PersonaMem v2 e casi di studio qualitativi che illustrano capacità orientate alla chat come la profilazione utente e Foresight. Il codice è disponibile su https://github.com/EverMind-AI/EverMemOS.


Paper: ArXiv.org

Il prezzo del pensiero: un’analisi multilingue del ragionamento, delle prestazioni e del costo della negoziazione nei modelli linguistici di grandi dimensioni

The Price of Thought: A Multilingual Analysis of Reasoning, Performance, and Cost of Negotiation in Large Language Models

Un nuovo studio rivoluzionario, pubblicato su arXiv (https://arxiv.org/abs/2510.08098), esamina l’impatto dell’addestramento al ragionamento esplicito sulle capacità di negoziazione dei modelli linguistici di grandi dimensioni (LLM). La ricerca, che ha coinvolto sia modelli commerciali che open-weight, ha confrontato le loro prestazioni con quelle delle versioni “vanilla” in tre lingue diverse. La negoziazione, una sfida cruciale per l’intelligenza artificiale, richiede la capacità di ragionare strategicamente, modellare gli avversari e bilanciare cooperazione e competizione.

Lo studio ha utilizzato un approccio di self-play in tre diversi giochi di dialogo per analizzare i compromessi tra prestazioni e costi, la coerenza linguistica dei processi di ragionamento e la natura dell’adattamento strategico dei modelli. I risultati hanno rivelato che l’abilitazione del ragionamento, che implica l’aumento delle risorse computazionali durante il test, migliora significativamente i risultati della negoziazione, favorendo la collaborazione e aiutando i modelli a superare le complessità dei compiti. Tuttavia, ciò comporta un costo computazionale notevole: il ragionamento migliora le prestazioni di GPT-5 del 31,4%, ma aumenta i costi di quasi il 400%.

Una scoperta chiave è stata la distinzione significativa nel ragionamento multilingue: i modelli open-weight tendono a passare all’inglese per i loro passaggi di ragionamento interno, anche quando negoziano in tedesco o italiano, mentre un modello commerciale leader mantiene la coerenza linguistica tra il ragionamento e l’output finale. Questo solleva importanti questioni sull’interpretabilità e l’efficienza dei diversi approcci.


Paper: ArXiv.org

Let Me Think! Una catena di ragionamento lunga può valere esponenzialmente molte catene corte

Nuove Scoperte sull’Efficacia del Ragionamento nei Modelli Linguistici

Un recente studio pubblicato su arXiv (arXiv:2505.21825v2) ha esplorato l’ottimale allocazione del tempo di calcolo durante l’inferenza nei modelli linguistici di grandi dimensioni (LLM). La ricerca si concentra su come migliorare il ragionamento, un aspetto cruciale per l’efficacia di questi modelli. L’indagine si pone una domanda fondamentale: è più vantaggioso concentrarsi su un ragionamento sequenziale, come catene di pensiero più lunghe, o su un approccio parallelo, come il voto a maggioranza tra più catene di pensiero brevi?

I risultati dello studio suggeriscono che, in determinati contesti di ragionamento, la scalabilità sequenziale può offrire un vantaggio esponenziale rispetto alla scalabilità parallela. Questo è stato dimostrato in problemi legati alla connettività dei grafi, affrontando distribuzioni complesse. I ricercatori hanno convalidato le loro scoperte teoriche attraverso esperimenti approfonditi, utilizzando diversi modelli linguistici, inclusi modelli addestrati da zero per la connettività dei grafi e modelli di ragionamento di grandi dimensioni. Questi esperimenti hanno incluso diverse strategie di “chain of thought”, dimostrando come la lunghezza e la struttura delle catene di pensiero influenzino le prestazioni.

Questo studio apre nuove prospettive sulla progettazione dei modelli linguistici, evidenziando l’importanza di bilanciare attentamente le risorse di calcolo durante l’inferenza. I risultati suggeriscono che, in alcuni casi, investire in catene di pensiero più lunghe può portare a miglioramenti significativi nelle capacità di ragionamento dei modelli.


Paper: ArXiv.org

La struttura molecolare del pensiero: Mappatura della topologia del ragionamento a catena di pensiero lunga

La struttura molecolare del pensiero: Mappatura della topologia del ragionamento a catena di pensiero lunga

Un nuovo studio pubblicato su arXiv (2601.06002v1) esplora le sfide poste dai modelli linguistici di grandi dimensioni (LLM) nell’apprendimento del ragionamento a catena di pensiero lunga (Long CoT) efficace. I ricercatori hanno osservato che spesso gli LLM faticano ad apprendere questa forma di ragionamento tramite imitazione, sia da esseri umani che da altri LLM non Long CoT.

Per comprendere meglio questo fenomeno, lo studio propone una nuova prospettiva: le traiettorie Long CoT efficaci e apprendibili presentano strutture stabili simili a molecole, viste in modo unificato. Queste strutture sono formate da tre tipi di interazioni: ‘Deep-Reasoning’ (simile ai legami covalenti), ‘Self-Reflection’ (simile ai legami a idrogeno) e ‘Self-Exploration’ (simile alle forze di van der Waals).

L’analisi delle traiettorie distillate rivela che queste strutture emergono dal fine-tuning Long CoT, e non semplicemente dall’imitazione di parole chiave. I ricercatori introducono il concetto di ‘Isomeri Semantici Efficaci’ e dimostrano che solo i legami che promuovono una rapida convergenza dell’entropia supportano un apprendimento Long CoT stabile, mentre la competizione strutturale compromette l’addestramento. Sulla base di questi risultati, viene presentato ‘Mole-Syn’, un metodo di trasferimento della distribuzione-grafo che guida la sintesi di strutture Long CoT efficaci, migliorando le prestazioni e la stabilità RL attraverso diversi benchmark.


Paper: ArXiv.org