Pre-addestramento continuo su dati sintetici crittografati per LLM che preservano la privacy

Nuova ricerca esplora il pre-addestramento continuo per LLM che preservano la privacy

Un nuovo studio pubblicato su arXiv (2601.05635v1) esplora un approccio innovativo per il pre-addestramento continuo di Large Language Models (LLM) su dati sensibili, mantenendo al contempo la privacy. La ricerca, condotta da un team di esperti, affronta la sfida di addestrare modelli linguistici di grandi dimensioni su piccoli corpora specifici del dominio, proteggendo al contempo le informazioni personali identificabili (PII).

L’approccio proposto si basa su un framework basato su entità che sintetizza dati di addestramento crittografati. Questo metodo prevede la costruzione di un grafo di entità ponderato per guidare la sintesi dei dati e l’applicazione di una crittografia deterministica alle entità PII. Ciò consente agli LLM di codificare nuove conoscenze attraverso il pre-addestramento continuo, garantendo al contempo l’accesso autorizzato ai dati sensibili tramite chiavi di decrittazione.

I risultati preliminari dimostrano che i modelli pre-addestrati superano i modelli base e garantiscono la sicurezza delle PII. I ricercatori hanno anche scoperto che l’aumento del numero di entità e l’utilizzo della sintesi basata su grafi migliorano le prestazioni del modello. Inoltre, i modelli crittografati mantengono le capacità di istruzione-following con contesti lunghi recuperati. Questo studio rappresenta un passo importante verso la creazione di LLM che rispettano la privacy, con implicazioni significative per la gestione dei dati sensibili in vari settori.

Il codice sorgente è disponibile su GitHub (https://github.com/DataArcTech/SoE).

Paper: ArXiv.org