Imparare dagli Errori: Campioni di Ragionamento Negativo Migliorano la Generalizzazione Out-of-Domain

Nuovo Studio Rivela Come i Campioni Negativi Possono Migliorare l’Apprendimento dei Modelli Linguistici

Un recente studio pubblicato su arXiv (2601.04992v2) esplora l’impatto dell’incorporazione di esempi negativi nell’addestramento di modelli linguistici di grandi dimensioni (LLM) per il ragionamento. La ricerca si concentra sull’approccio di fine-tuning supervisionato (SFT) utilizzando dimostrazioni di chain-of-thought (CoT). Contrariamente alla pratica comune di utilizzare solo traiettorie con risposte corrette, lo studio dimostra che l’inclusione di traiettorie negative, ovvero quelle con risposte finali errate, porta a significativi miglioramenti nella generalizzazione out-of-domain (OOD).

I ricercatori hanno scoperto che le traiettorie negative contengono spesso ragionamenti intermedi validi, nonostante l’errore finale. L’analisi approfondita ha rivelato 22 modelli ricorrenti nelle catene negative, che svolgono un ruolo duplice: moderano la discesa della perdita per mitigare l’overfitting durante l’addestramento e aumentano l’entropia della politica durante l’inferenza, facilitando l’esplorazione. Sulla base di queste osservazioni, è stato proposto un nuovo metodo, Gain-based LOss Weighting (GLOW), che adatta la ponderazione della perdita in base ai progressi tra le epoche.

I risultati empirici mostrano che GLOW utilizza efficacemente le traiettorie non filtrate, ottenendo un aumento del 5,51% nella generalizzazione OOD rispetto all’SFT basato solo su esempi positivi sul modello Qwen2.5-7B. Inoltre, GLOW ha incrementato il punteggio MMLU dal 72,82% al 76,47% quando utilizzato come inizializzazione RL, evidenziando il potenziale di questa tecnica per migliorare le prestazioni dei LLM in diversi contesti.

Paper: ArXiv.org