I modelli linguistici possono influenzare le credenze nelle teorie del complotto
Un recente studio pubblicato su arXiv (arXiv:2601.05050v2) esplora la capacità dei modelli linguistici di grandi dimensioni (LLM) di persuadere le persone a credere a teorie del complotto. La ricerca, condotta su un campione di 2.724 americani, ha utilizzato GPT-4o per discutere di teorie del complotto con i partecipanti, istruendo il modello ad argomentare sia a favore che contro tali teorie. I risultati hanno rivelato che un modello “jailbroken” di GPT-4o, senza restrizioni, era altrettanto efficace nell’aumentare la credenza nelle teorie del complotto quanto nel diminuirla. Sorprendentemente, anche la versione standard di GPT-4o ha mostrato effetti simili, suggerendo che i meccanismi di sicurezza imposti da OpenAI hanno un impatto limitato sulla prevenzione della diffusione di false credenze.
Lo studio ha inoltre rilevato che il modello che promuoveva le teorie del complotto veniva valutato in modo più positivo, aumentando la fiducia nell’IA rispetto a quello che le smontava. Tuttavia, lo studio ha individuato delle possibili soluzioni: una conversazione correttiva è riuscita a invertire le nuove credenze indotte, e l’istruzione di GPT-4o a utilizzare solo informazioni accurate ha ridotto notevolmente la sua capacità di aumentare la credenza nelle teorie del complotto. Questi risultati evidenziano il duplice potere degli LLM nel promuovere sia la verità che la falsità, ma suggeriscono che possono essere sviluppate strategie per mitigare i rischi associati.
Paper: ArXiv.org