MemBuilder: Rafforzare i LLM per la Costruzione di Memoria a Lungo Termine tramite Ricompense Dense Attribuite

MemBuilder: Una Nuova Frontiera per la Memoria a Lungo Termine nei LLM

La coerenza nei dialoghi a lungo termine rappresenta una sfida cruciale per i modelli linguistici di grandi dimensioni (LLM). I meccanismi di recupero standard spesso non riescono a catturare l’evoluzione temporale degli stati storici. Sebbene i framework con memoria aumentata offrano un’alternativa strutturata, i sistemi attuali si basano sull’utilizzo di modelli closed-source con prompting statico o soffrono di paradigmi di addestramento inefficaci con ricompense sparse.

Per affrontare queste limitazioni, è stato sviluppato MemBuilder, un framework di apprendimento per rinforzo che addestra i modelli a orchestrare la costruzione di memoria multidimensionale con ricompense dense attribuite. MemBuilder risolve due problemi chiave: 1) Ricompense sparse a livello di traiettoria: genera domande sintetiche a livello di sessione per fornire ricompense intermedie dense su traiettorie estese; e 2) Attribuzione di memoria multidimensionale: introduce una ponderazione del gradiente consapevole del contributo che scala gli aggiornamenti della politica in base all’impatto a valle di ciascun componente.

I risultati sperimentali dimostrano che MemBuilder consente a un modello con 4 miliardi di parametri di superare le baseline closed-source all’avanguardia, mostrando una forte generalizzazione su benchmark di dialogo a lungo termine. Questa innovazione apre nuove prospettive per lo sviluppo di LLM più capaci di mantenere la coerenza e la contestualizzazione nelle interazioni complesse.


Paper: ArXiv.org