La struttura molecolare del pensiero: Mappatura della topologia del ragionamento a catena di pensiero lunga
Un nuovo studio pubblicato su arXiv (2601.06002v1) esplora le sfide poste dai modelli linguistici di grandi dimensioni (LLM) nell’apprendimento del ragionamento a catena di pensiero lunga (Long CoT) efficace. I ricercatori hanno osservato che spesso gli LLM faticano ad apprendere questa forma di ragionamento tramite imitazione, sia da esseri umani che da altri LLM non Long CoT.
Per comprendere meglio questo fenomeno, lo studio propone una nuova prospettiva: le traiettorie Long CoT efficaci e apprendibili presentano strutture stabili simili a molecole, viste in modo unificato. Queste strutture sono formate da tre tipi di interazioni: ‘Deep-Reasoning’ (simile ai legami covalenti), ‘Self-Reflection’ (simile ai legami a idrogeno) e ‘Self-Exploration’ (simile alle forze di van der Waals).
L’analisi delle traiettorie distillate rivela che queste strutture emergono dal fine-tuning Long CoT, e non semplicemente dall’imitazione di parole chiave. I ricercatori introducono il concetto di ‘Isomeri Semantici Efficaci’ e dimostrano che solo i legami che promuovono una rapida convergenza dell’entropia supportano un apprendimento Long CoT stabile, mentre la competizione strutturale compromette l’addestramento. Sulla base di questi risultati, viene presentato ‘Mole-Syn’, un metodo di trasferimento della distribuzione-grafo che guida la sintesi di strutture Long CoT efficaci, migliorando le prestazioni e la stabilità RL attraverso diversi benchmark.
Paper: ArXiv.org