Il Divario di Valutazione in Medicina, IA e LLM: Navigare tra Verità Fondamentale Elusiva e Incertezza attraverso un Paradigma Probabilistico

Una nuova ricerca, pubblicata su arXiv (arXiv:2601.05500v1), solleva importanti questioni sulla valutazione delle capacità dei sistemi di intelligenza artificiale (IA), inclusi i Large Language Models (LLM) e i modelli di visione. Lo studio, condotto in un contesto medico, evidenzia come le attuali metodologie di benchmarking spesso trascurino l’impatto dell’incertezza intrinseca nelle risposte di ‘ground truth’ fornite dagli esperti. Questa ambiguità, particolarmente rilevante in medicina, dove l’incertezza è pervasiva, può portare a conclusioni fuorvianti.

Gli autori introducono un paradigma probabilistico per spiegare come un’elevata certezza nelle risposte di ‘ground truth’ sia quasi sempre necessaria per ottenere punteggi elevati, anche per un esperto. Nei dataset con alta variabilità nelle risposte, le prestazioni di un esperto potrebbero non differire significativamente da quelle di un valutatore casuale. Questo solleva dubbi sulla validità dei confronti di performance quando l’incertezza non viene considerata.

Lo studio raccomanda di stratificare i risultati di valutazione in base alla probabilità della risposta di ‘ground truth’, misurata solitamente attraverso il tasso di accordo tra esperti. Questa stratificazione diventa cruciale quando le performance complessive scendono sotto una soglia dell’80%. In questo modo, il confronto delle prestazioni diventa più affidabile nei ‘bin’ ad alta certezza, mitigando l’effetto dell’incertezza, un fattore confondente chiave. La ricerca offre un importante contributo alla comprensione delle sfide nella valutazione delle IA e dei LLM, specialmente in ambiti come la medicina, dove l’accuratezza e l’affidabilità sono fondamentali.

Paper: ArXiv.org