La Facciata della Verità: Scoprire e Mitigare la Suscettibilità degli LLM a Prove Ingannevoli

La Facciata della Verità: Scoprire e Mitigare la Suscettibilità degli LLM a Prove Ingannevoli

Un recente studio pubblicato su arXiv (2601.05478v1) solleva preoccupazioni significative sulla affidabilità dei Large Language Models (LLM) nell’assistere il processo decisionale umano. La ricerca evidenzia una vulnerabilità fondamentale dei modelli linguistici sofisticati di fronte a prove ingannevoli, difficili da confutare. Nonostante la loro capacità di resistere alla disinformazione esplicita, gli LLM mostrano una marcata sensibilità a evidenze ingannevoli, sottili e ben costruite.

Per esplorare questa debolezza, è stato sviluppato il framework MisBelief, che genera prove ingannevoli attraverso interazioni collaborative e multi-round tra LLM con ruoli diversi. Questo processo simula un ragionamento sottile e progressivo, creando affermazioni logicamente persuasive ma fattualmente scorrette. I risultati dimostrano che, sebbene i modelli siano robusti contro la disinformazione diretta, sono altamente sensibili a questo tipo di prove raffinate: i punteggi di credenza nelle false affermazioni aumentano in media del 93,0%, compromettendo le raccomandazioni successive.

Per affrontare questa sfida, i ricercatori propongono Deceptive Intent Shielding (DIS), un meccanismo di governance che fornisce un segnale di allerta precoce, inferendo l’intento ingannevole dietro le prove. I risultati empirici dimostrano che DIS mitiga costantemente i cambiamenti di credenza e promuove una valutazione più cauta delle prove.


Paper: ArXiv.org