Rintracciare gli stereotipi nei Transformer pre-addestrati: da neuroni distorti a modelli più equi

Nuovo studio rintraccia e mitiga i pregiudizi nei modelli linguistici

Un nuovo studio, pubblicato su arXiv (arXiv:2601.05663v1), esplora come i modelli linguistici basati sui transformer, potenti strumenti di intelligenza artificiale, possano perpetuare stereotipi e pregiudizi sociali. I ricercatori hanno sviluppato un metodo per identificare e mitigare questi pregiudizi a livello di neuroni all’interno dei modelli stessi.

Lo studio si basa sul concetto di “neuroni di conoscenza”, che immagazzinano informazioni fattuali. L’ipotesi è che esistano anche “neuroni distorti” che codificano associazioni stereotipate. Per testare questa ipotesi, i ricercatori hanno creato un set di dati di relazioni distorte, che rappresentano stereotipi in nove diverse categorie di pregiudizi.

Utilizzando strategie di attribuzione dei neuroni, i ricercatori sono riusciti a rintracciare e sopprimere i neuroni distorti nei modelli BERT. I risultati hanno dimostrato che i pregiudizi sono localizzati in piccoli sottoinsiemi di neuroni e che la loro soppressione riduce significativamente i pregiudizi con una minima perdita di prestazioni. Questo approccio offre un metodo interpretabile per affrontare i problemi di equità nell’ingegneria del software.

In sostanza, lo studio dimostra che è possibile identificare e correggere i pregiudizi nei modelli linguistici, aprendo la strada a sistemi di intelligenza artificiale più equi e meno propensi a perpetuare stereotipi.


Paper: ArXiv.org