AIME24 – ScienceBlog

Nuovi Sviluppi nei Modelli Linguistici e il Ragionamento Matematico

Un recente studio su arXiv (2504.11741v2) esplora i progressi dei modelli linguistici (LLM) nel ragionamento matematico, in particolare dopo l’applicazione del supervised fine-tuning (SFT). L’analisi si concentra sul dataset AIME24, rivelando una struttura a scala nella difficoltà dei problemi. I ricercatori hanno categorizzato le domande in quattro livelli: Facile, Medio, Difficile ed Estremamente Difficile (Exh).

I risultati mostrano che il passaggio da ‘Facile’ a ‘Medio’ richiede l’adozione di uno stile di ragionamento R1 con un minimo di SFT. Tuttavia, i problemi di livello ‘Difficile’ evidenziano errori frequenti nel modello, con un’accuratezza che si stabilizza intorno al 65% nonostante l’aumento della scala dei dati. Le domande ‘Exh’ presentano una sfida fondamentale, richiedendo abilità di problem-solving non convenzionali che i modelli attuali faticano a padroneggiare. Lo studio sottolinea l’importanza di dataset di grandi dimensioni rispetto a quelli piccoli ma accuratamente curati.

Questo lavoro offre una chiara roadmap per migliorare le capacità dei modelli linguistici nel ragionamento matematico, evidenziando le aree di forza e le limitazioni attuali.

Paper: ArXiv.org