Memorizzazione nei modelli linguistici di grandi dimensioni in medicina: prevalenza, caratteristiche e implicazioni

Memorizzazione nei modelli linguistici di grandi dimensioni in medicina

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale significativo in medicina, con molti studi che li adattano attraverso il pre-addestramento continuo o la messa a punto su dati medici per migliorare l’accuratezza e la sicurezza specifiche del dominio. Tuttavia, una domanda chiave rimane aperta: in che misura gli LLM memorizzano i dati di addestramento medico? La memorizzazione può essere vantaggiosa quando consente agli LLM di conservare preziose conoscenze mediche durante l’adattamento al dominio. Tuttavia, solleva anche preoccupazioni. Gli LLM possono riprodurre inavvertitamente contenuti clinici sensibili (ad esempio, dettagli specifici del paziente) e un’eccessiva memorizzazione può ridurre la generalizzabilità del modello, aumentando i rischi di diagnosi errate e di raccomandazioni ingiustificate. Questi rischi sono ulteriormente amplificati dalla natura generativa degli LLM, che possono non solo far emergere contenuti memorizzati, ma anche produrre output fuorvianti e troppo sicuri di sé che possono ostacolare l’adozione clinica.

Questo studio analizza sistematicamente scenari di adattamento comuni: (1) pre-addestramento continuo su corpora medici, (2) messa a punto su benchmark medici standard e (3) messa a punto su dati clinici reali, inclusi oltre 13.000 registri di pazienti ricoverati dello Yale New Haven Health System. I risultati dimostrano che la memorizzazione è prevalente in tutti gli scenari di adattamento e significativamente più alta di quella riportata nel dominio generale. Inoltre, la memorizzazione ha caratteristiche distinte durante il pre-addestramento continuo e la messa a punto ed è persistente: fino all’87% dei contenuti memorizzati durante il pre-addestramento continuo rimane dopo la messa a punto su nuove attività mediche.


Paper: ArXiv.org

Pre-addestramento continuo su dati sintetici crittografati per LLM che preservano la privacy

Nuova ricerca esplora il pre-addestramento continuo per LLM che preservano la privacy

Un nuovo studio pubblicato su arXiv (2601.05635v1) esplora un approccio innovativo per il pre-addestramento continuo di Large Language Models (LLM) su dati sensibili, mantenendo al contempo la privacy. La ricerca, condotta da un team di esperti, affronta la sfida di addestrare modelli linguistici di grandi dimensioni su piccoli corpora specifici del dominio, proteggendo al contempo le informazioni personali identificabili (PII).

L’approccio proposto si basa su un framework basato su entità che sintetizza dati di addestramento crittografati. Questo metodo prevede la costruzione di un grafo di entità ponderato per guidare la sintesi dei dati e l’applicazione di una crittografia deterministica alle entità PII. Ciò consente agli LLM di codificare nuove conoscenze attraverso il pre-addestramento continuo, garantendo al contempo l’accesso autorizzato ai dati sensibili tramite chiavi di decrittazione.

I risultati preliminari dimostrano che i modelli pre-addestrati superano i modelli base e garantiscono la sicurezza delle PII. I ricercatori hanno anche scoperto che l’aumento del numero di entità e l’utilizzo della sintesi basata su grafi migliorano le prestazioni del modello. Inoltre, i modelli crittografati mantengono le capacità di istruzione-following con contesti lunghi recuperati. Questo studio rappresenta un passo importante verso la creazione di LLM che rispettano la privacy, con implicazioni significative per la gestione dei dati sensibili in vari settori.

Il codice sorgente è disponibile su GitHub (https://github.com/DataArcTech/SoE).


Paper: ArXiv.org