Tracciare le Fondamenta Morali nei Modelli Linguistici di Grandi Dimensioni

Nuova Ricerca su arXiv: Tracing Moral Foundations in Large Language Models

Un recente studio pubblicato su arXiv (2601.05437v1) esplora il modo in cui i modelli linguistici di grandi dimensioni (LLM) processano e rappresentano la moralità. L’indagine, condotta utilizzando la Moral Foundations Theory (MFT) come quadro di riferimento, analizza come i concetti morali sono codificati, organizzati ed espressi all’interno di due LLM istruiti: Llama-3.1-8B-Instruct e Qwen2.5-7B-Instruct.

Gli autori hanno impiegato un approccio multi-livello che include l’analisi layer-wise delle rappresentazioni dei concetti MFT e il loro allineamento con le percezioni morali umane, l’uso di autoencoder sparsi pre-addestrati per identificare caratteristiche sparse che supportano i concetti morali e interventi di causal steering utilizzando vettori MFT densi e caratteristiche SAE sparse. I risultati suggeriscono che entrambi i modelli rappresentano e distinguono le fondamenta morali in modo strutturato e dipendente dal layer, in linea con i giudizi umani.

A una scala più fine, le caratteristiche SAE mostrano chiari collegamenti semantici a fondamenti specifici, suggerendo meccanismi parzialmente disattivati all’interno di rappresentazioni condivise. Gli interventi di steering, sia con vettori densi che con caratteristiche sparse, producono cambiamenti prevedibili nel comportamento rilevante per le fondamenta morali, dimostrando una connessione causale tra le rappresentazioni interne e gli output morali. Questo studio fornisce prove meccanicistiche che i concetti morali negli LLM sono distribuiti, stratificati e in parte disattivati, suggerendo che una struttura morale pluralistica può emergere come un modello latente dalle regolarità statistiche del linguaggio.


Paper: ArXiv.org