Nuovo studio rintraccia e mitiga i pregiudizi nei modelli linguistici
Un nuovo studio, pubblicato su arXiv (arXiv:2601.05663v1), esplora come i modelli linguistici basati sui transformer, potenti strumenti di intelligenza artificiale, possano perpetuare stereotipi e pregiudizi sociali. I ricercatori hanno sviluppato un metodo per identificare e mitigare questi pregiudizi a livello di neuroni all’interno dei modelli stessi.
Lo studio si basa sul concetto di “neuroni di conoscenza”, che immagazzinano informazioni fattuali. L’ipotesi è che esistano anche “neuroni distorti” che codificano associazioni stereotipate. Per testare questa ipotesi, i ricercatori hanno creato un set di dati di relazioni distorte, che rappresentano stereotipi in nove diverse categorie di pregiudizi.
Utilizzando strategie di attribuzione dei neuroni, i ricercatori sono riusciti a rintracciare e sopprimere i neuroni distorti nei modelli BERT. I risultati hanno dimostrato che i pregiudizi sono localizzati in piccoli sottoinsiemi di neuroni e che la loro soppressione riduce significativamente i pregiudizi con una minima perdita di prestazioni. Questo approccio offre un metodo interpretabile per affrontare i problemi di equità nell’ingegneria del software.
In sostanza, lo studio dimostra che è possibile identificare e correggere i pregiudizi nei modelli linguistici, aprendo la strada a sistemi di intelligenza artificiale più equi e meno propensi a perpetuare stereotipi.
Paper: ArXiv.org