I Large Language Models sono cattivi giocatori di dadi: le LLM faticano a generare numeri casuali da distribuzioni statistiche
Un nuovo studio, pubblicato su arXiv (arXiv:2601.05414v1), rivela una seria limitazione dei modelli linguistici di grandi dimensioni (LLM): la loro incapacità di generare numeri casuali da distribuzioni statistiche in modo affidabile. Questa scoperta solleva preoccupazioni significative, poiché gli LLM vengono sempre più integrati in applicazioni che richiedono campionamento probabilistico, come la valutazione educativa e la creazione di dati sintetici.
Lo studio, che ha valutato 11 diversi modelli su 15 distribuzioni, ha utilizzato due protocolli principali: la ‘generazione batch’, in cui il modello produce 1000 campioni in un’unica risposta, e ‘richieste indipendenti’, che consistono in 1000 chiamate stateless. I risultati hanno mostrato una marcata asimmetria: la generazione batch ha ottenuto risultati modesti, con una percentuale di successo mediana del 13%, mentre le richieste indipendenti hanno fallito quasi completamente. La fedeltà del campionamento è diminuita con l’aumentare della complessità della distribuzione e con l’aumentare del numero di campioni richiesti.
Questi fallimenti si propagano a cascata in altri compiti. I modelli non sono riusciti a rispettare i vincoli di posizione delle risposte uniformi nella generazione di domande a scelta multipla e hanno sistematicamente violato gli obiettivi demografici nella sintesi di prompt da testo a immagine. Questi risultati suggeriscono che gli LLM attuali mancano di un campionatore interno funzionale, rendendo necessario l’uso di strumenti esterni per applicazioni che richiedono garanzie statistiche.
Paper: ArXiv.org