FeatureSLAM: SLAM basato su Gaussian Splatting 3D arricchito di feature in tempo reale

FeatureSLAM: La Nuova Frontiera della SLAM in Tempo Reale

Un team di ricercatori ha presentato un innovativo sistema SLAM (Simultaneous Localization and Mapping) in tempo reale, denominato FeatureSLAM. Questo sistema unisce l’efficiente tracking della telecamera con una mappatura fotorealistica arricchita di feature, utilizzando la tecnica del 3D Gaussian Splatting (3DGS). La principale innovazione risiede nell’integrazione della rasterizzazione di feature dense nella sintesi di nuove viste, allineata con un modello di fondazione visiva. Questo approccio offre una solida semantica, superando i limiti dei tradizionali input RGB-D, e migliorando l’accuratezza sia del tracking che della mappatura.

A differenza dei precedenti approcci SLAM semantici, che si basavano su etichette di classe predefinite, FeatureSLAM consente nuove applicazioni grazie alla segmentazione open-set e alla libera visualizzazione. I risultati ottenuti su benchmark standard dimostrano che il metodo raggiunge il tracking in tempo reale, paragonabile ai sistemi più avanzati, migliorando al contempo la stabilità del tracking e la fedeltà della mappa. A livello quantitativo, FeatureSLAM ha ottenuto un errore di posa inferiore del 9% e un’accuratezza di mappatura superiore dell’8% rispetto ai sistemi SLAM di riferimento.

I risultati confermano che la SLAM arricchita di feature in tempo reale non solo abilita nuove applicazioni, ma migliora anche le prestazioni dei sottosistemi di tracking e mappatura sottostanti. Offre risultati di masking semantico e linguistico paragonabili ai modelli 3DGS offline, oltre a garantire un tracking, una profondità e un rendering RGB all’avanguardia.


Paper: ArXiv.org

FlyPose: Verso una robusta stima della posa umana da viste aeree

FlyPose: Stima della posa umana da viste aeree

I Veicoli Aerei senza Equipaggio (UAV) sono sempre più utilizzati in prossimità degli umani per applicazioni come la consegna di pacchi, il monitoraggio del traffico, la risposta ai disastri e le ispezioni delle infrastrutture. Garantire un funzionamento sicuro e affidabile in questi ambienti popolati da umani richiede una precisa percezione delle pose e delle azioni umane da una prospettiva aerea. Questa prospettiva sfida i metodi esistenti con bassa risoluzione, angoli di visualizzazione accentuati e (auto-)occlusione, soprattutto se l’applicazione richiede modelli realizzabili in tempo reale.

In questo contesto, è stato sviluppato FlyPose, una pipeline leggera di stima della posa umana dall’alto per immagini aeree. Attraverso l’addestramento multi-dataset, FlyPose raggiunge un miglioramento medio di 6.8 mAP nel rilevamento delle persone attraverso i set di test di Manipal-UAV, VisDrone, HIT-UAV e il nostro dataset personalizzato. Per la stima della posa umana 2D, si registra un miglioramento di 16.3 mAP sul difficile dataset UAV-Human. FlyPose funziona con una latenza di inferenza di ~20 millisecondi, inclusa la pre-elaborazione su un Jetson Orin AGX Developer Kit ed è implementato a bordo di un UAV quadrotor durante esperimenti di volo. È stato anche pubblicato FlyPose-104, un dataset di stima della posa umana aerea, piccolo ma impegnativo, che include annotazioni manuali da prospettive aeree difficili.

Il codice e i dati sono disponibili su: https://github.com/farooqhassaan/FlyPose.


Paper: ArXiv.org

Ruota il tuo personaggio: rivisitazione dei modelli di diffusione video per la generazione di personaggi 3D di alta qualità

Nuovo approccio per la generazione di personaggi 3D

La creazione di personaggi 3D di alta qualità da singole immagini è una sfida significativa nella creazione di contenuti digitali, soprattutto a causa delle pose complesse del corpo e dell’auto-occlusione. Un nuovo studio, pubblicato su arXiv (2601.05722v1), presenta RCM (Rotate your Character Model), un framework avanzato di diffusione da immagine a video progettato per la sintesi di nuove visuali (NVS) e la generazione di personaggi 3D di alta qualità.

RCM si distingue dagli approcci basati sulla diffusione esistenti per diversi motivi chiave. Innanzitutto, è in grado di trasferire personaggi con pose complesse in una posa canonica, consentendo una sintesi coerente di nuove visuali sull’intera orbita di visualizzazione. In secondo luogo, RCM supporta la generazione di video orbitali ad alta risoluzione a 1024×1024 pixel. Terzo, offre posizioni di osservazione controllabili in base alle diverse pose iniziali della telecamera. Infine, supporta il condizionamento multi-visuale con un massimo di 4 immagini in ingresso, adattandosi a diversi scenari utente.

Gli esperimenti condotti dimostrano che RCM supera i metodi all’avanguardia sia nella sintesi di nuove visuali che nella qualità della generazione 3D. Questo approccio innovativo apre nuove possibilità per la creazione di personaggi 3D più realistici e versatili.


Paper: ArXiv.org

Rintracciare gli stereotipi nei Transformer pre-addestrati: da neuroni distorti a modelli più equi

Nuovo studio rintraccia e mitiga i pregiudizi nei modelli linguistici

Un nuovo studio, pubblicato su arXiv (arXiv:2601.05663v1), esplora come i modelli linguistici basati sui transformer, potenti strumenti di intelligenza artificiale, possano perpetuare stereotipi e pregiudizi sociali. I ricercatori hanno sviluppato un metodo per identificare e mitigare questi pregiudizi a livello di neuroni all’interno dei modelli stessi.

Lo studio si basa sul concetto di “neuroni di conoscenza”, che immagazzinano informazioni fattuali. L’ipotesi è che esistano anche “neuroni distorti” che codificano associazioni stereotipate. Per testare questa ipotesi, i ricercatori hanno creato un set di dati di relazioni distorte, che rappresentano stereotipi in nove diverse categorie di pregiudizi.

Utilizzando strategie di attribuzione dei neuroni, i ricercatori sono riusciti a rintracciare e sopprimere i neuroni distorti nei modelli BERT. I risultati hanno dimostrato che i pregiudizi sono localizzati in piccoli sottoinsiemi di neuroni e che la loro soppressione riduce significativamente i pregiudizi con una minima perdita di prestazioni. Questo approccio offre un metodo interpretabile per affrontare i problemi di equità nell’ingegneria del software.

In sostanza, lo studio dimostra che è possibile identificare e correggere i pregiudizi nei modelli linguistici, aprendo la strada a sistemi di intelligenza artificiale più equi e meno propensi a perpetuare stereotipi.


Paper: ArXiv.org

Ragionamento Circolare: Comprendere i Cicli di Autoreinforzo nei Grandi Modelli di Ragionamento

Ragionamento Circolare: Comprendere i Cicli di Autoreinforzo nei Grandi Modelli di Ragionamento

Nonostante il successo dello scaling durante il test, i Grandi Modelli di Ragionamento (LMR) spesso incontrano cicli ripetitivi che portano a sprechi computazionali e al fallimento dell’inferenza. Questo studio identifica una specifica modalità di fallimento, definita Ragionamento Circolare. A differenza della degenerazione tradizionale del modello, questo fenomeno si manifesta come una trappola di autoreinforzo in cui il contenuto generato funge da premessa logica per la propria ricorrenza, costringendo alla reiterazione del testo precedente.

Per analizzare sistematicamente questo fenomeno, è stato introdotto LoopBench, un dataset progettato per catturare due distinte tipologie di ciclo: cicli numerici e cicli di affermazioni. Meccanicamente, il ragionamento circolare è caratterizzato come un collasso dello stato che mostra confini distinti, dove la ripetizione semantica precede la ripetizione testuale. I ricercatori hanno rivelato che gli impasse di ragionamento innescano l’inizio del ciclo, che persiste successivamente come un ciclo ineludibile guidato da un meccanismo di attenzione a forma di V autoreinforzante.

Sulla base di questi risultati, è stato impiegato l’algoritmo Cumulative Sum (CUSUM) per catturare questi precursori per la previsione precoce del ciclo. Gli esperimenti condotti su diversi LMR ne hanno convalidato l’accuratezza e hanno chiarito la stabilità del ragionamento a catena lunga. Questo studio offre spunti cruciali per la progettazione di modelli di ragionamento più robusti ed efficienti, evidenziando l’importanza di affrontare i problemi di ragionamento circolare per migliorare le prestazioni e l’affidabilità dei sistemi di intelligenza artificiale.


Paper: ArXiv.org

AIBoMGen: Generazione di un AI Bill of Materials per un Training di Modelli Sicuro, Trasparente e Conforme

AIBoMGen: Generazione di un AI Bill of Materials per un Training di Modelli Sicuro, Trasparente e Conforme

L’adozione rapida di sistemi di intelligenza artificiale (IA) complessi ha superato lo sviluppo di strumenti per garantirne la trasparenza, la sicurezza e la conformità normativa. In questo contesto, l’AI Bill of Materials (AIBOM), un’estensione dell’SBOM (Software Bill of Materials), si presenta come un registro standardizzato e verificabile dei modelli di IA addestrati e dei loro ambienti. In questo articolo, viene introdotto AIBoMGen, una piattaforma proof-of-concept che automatizza la generazione di AIBOM firmati, catturando dataset, metadati del modello e dettagli dell’ambiente durante l’addestramento.

La piattaforma di addestramento funge da osservatore neutrale e terzo, oltre che da radice di fiducia, imponendo la creazione verificabile di AIBOM per ogni attività. Il sistema utilizza hashing crittografici, firme digitali e attestazioni in-toto per garantire l’integrità e proteggere da minacce come la manomissione degli artefatti da parte di creatori di modelli disonesti. La valutazione dimostra che AIBoMGen rileva in modo affidabile modifiche non autorizzate a tutti gli artefatti e può generare AIBOM con un sovraccarico di prestazioni trascurabile.

Questi risultati sottolineano il potenziale di AIBoMGen come passo fondamentale verso la costruzione di ecosistemi di IA sicuri e trasparenti, consentendo la conformità a quadri normativi come l’AI Act dell’UE. L’iniziativa mira a risolvere le criticità legate alla mancanza di trasparenza e sicurezza nello sviluppo e nell’implementazione dei modelli di IA, fornendo un meccanismo per la verifica e la gestione dei componenti utilizzati durante l’addestramento.


Paper: ArXiv.org

Stephanie2: Pensare, aspettare e prendere decisioni come gli umani nella chat sociale AI step-by-step

Stephanie2: Pensare, aspettare e prendere decisioni come gli umani nella chat sociale AI step-by-step

Un nuovo studio pubblicato su arXiv (arXiv:2601.05657v1) presenta Stephanie2, un’agente di dialogo AI di nuova generazione progettata per migliorare la naturalezza e l’interazione nelle chat sociali basate sull’intelligenza artificiale. A differenza dei sistemi di chat AI esistenti che spesso mancano di meccanismi di attesa attiva e presentano un ritmo innaturale nella generazione dei messaggi, Stephanie2 introduce un approccio innovativo.

Stephanie2 è in grado di decidere autonomamente se inviare o attendere un messaggio in ogni fase del dialogo. Questo processo decisionale si basa sulla modellazione della latenza, che include il tempo di pensiero e il tempo di digitazione, per simulare un ritmo di conversazione più naturale. Gli autori hanno sviluppato un sistema di dialogo a doppio agente basato su una finestra temporale per generare pseudo-storici di dialogo, facilitando valutazioni sia umane che automatiche.

I risultati degli esperimenti dimostrano che Stephanie2 supera significativamente Stephanie1 in termini di naturalezza e coinvolgimento. Inoltre, Stephanie2 ottiene un tasso di successo più elevato nei test di valutazione umana, compreso il test di Turing per l’identificazione del ruolo. Questo segna un passo avanti significativo nella creazione di agenti di dialogo AI che possono interagire in modo più autentico e coinvolgente, rendendo le conversazioni più simili a quelle umane.


Paper: ArXiv.org

GIFT: Giochi come Formazione informale per LLM Generalizzabili

GIFT: Giochi come Formazione informale per LLM Generalizzabili

Una nuova ricerca presentata su arXiv (arXiv:2601.05633v1) esplora l’uso dei giochi come ambiente di apprendimento informale per i Large Language Models (LLM). Nonostante i notevoli successi degli LLM in compiti di apprendimento formale come la matematica e la generazione di codice, essi faticano ancora con la “saggezza pratica” e l’intelligenza generalizzabile, come la creatività strategica e il ragionamento sociale, che caratterizzano la cognizione umana. Questa lacuna deriva dalla mancanza di apprendimento informale, che prospera sul feedback interattivo piuttosto che sull’istruzione orientata agli obiettivi. I ricercatori propongono di utilizzare i giochi per colmare questa lacuna, sfruttando i loro segnali di ricompensa intrinseci e la complessità astratta per coltivare diverse competenze.

Per affrontare il degrado delle prestazioni osservato nell’apprendimento multi-task, viene introdotto un “Nested Training Framework”. A differenza della miscelazione di attività naive che ottimizza un obiettivo “OR” implicito, questo framework impiega la composizione sequenziale delle attività per imporre un obiettivo “AND” esplicito, costringendo il modello a padroneggiare più abilità simultaneamente per ottenere le massime ricompense. Utilizzando l’apprendimento per rinforzo basato su GRPO attraverso giochi di Matrix, TicTacToe e “Chi è la spia”, i ricercatori dimostrano che l’integrazione dell’apprendimento informale basato sui giochi non solo previene l’interferenza tra i compiti, ma rafforza significativamente la generalizzazione del modello attraverso ampi benchmark orientati alle abilità. Il framework e l’implementazione sono pubblicamente disponibili.

Questo approccio innovativo apre nuove strade per lo sviluppo di LLM più intelligenti e versatili, capaci di affrontare problemi complessi con maggiore efficacia.


Paper: ArXiv.org

Pre-addestramento continuo su dati sintetici crittografati per LLM che preservano la privacy

Nuova ricerca esplora il pre-addestramento continuo per LLM che preservano la privacy

Un nuovo studio pubblicato su arXiv (2601.05635v1) esplora un approccio innovativo per il pre-addestramento continuo di Large Language Models (LLM) su dati sensibili, mantenendo al contempo la privacy. La ricerca, condotta da un team di esperti, affronta la sfida di addestrare modelli linguistici di grandi dimensioni su piccoli corpora specifici del dominio, proteggendo al contempo le informazioni personali identificabili (PII).

L’approccio proposto si basa su un framework basato su entità che sintetizza dati di addestramento crittografati. Questo metodo prevede la costruzione di un grafo di entità ponderato per guidare la sintesi dei dati e l’applicazione di una crittografia deterministica alle entità PII. Ciò consente agli LLM di codificare nuove conoscenze attraverso il pre-addestramento continuo, garantendo al contempo l’accesso autorizzato ai dati sensibili tramite chiavi di decrittazione.

I risultati preliminari dimostrano che i modelli pre-addestrati superano i modelli base e garantiscono la sicurezza delle PII. I ricercatori hanno anche scoperto che l’aumento del numero di entità e l’utilizzo della sintesi basata su grafi migliorano le prestazioni del modello. Inoltre, i modelli crittografati mantengono le capacità di istruzione-following con contesti lunghi recuperati. Questo studio rappresenta un passo importante verso la creazione di LLM che rispettano la privacy, con implicazioni significative per la gestione dei dati sensibili in vari settori.

Il codice sorgente è disponibile su GitHub (https://github.com/DataArcTech/SoE).


Paper: ArXiv.org

Possono i modelli linguistici di grandi dimensioni interpretare i dati non strutturati delle chat sui processi decisionali dinamici di gruppo? Evidenze sulla scelta congiunta della destinazione

Nuove frontiere nell’analisi dei processi decisionali di gruppo

La ricerca pubblicata su arXiv (arXiv:2601.05582v1) esplora l’utilizzo dei modelli linguistici di grandi dimensioni (LLM) per interpretare i dati non strutturati provenienti dalle chat, con l’obiettivo di comprendere i processi decisionali dinamici all’interno dei gruppi. Lo studio si concentra in particolare sulle scelte congiunte, come la decisione di dove mangiare fuori, prendendo come caso di studio i dati relativi alle attività di ristorazione in Giappone.

Tradizionalmente, l’osservazione dei processi decisionali di gruppo è complessa. L’avvento di nuovi tipi di dati, come le chat non strutturate, offre una nuova prospettiva. Tuttavia, l’interpretazione di questi dati richiede l’inferenza di fattori espliciti e impliciti, un compito che spesso implica l’annotazione manuale dei dialoghi. I ricercatori hanno sviluppato un framework basato su LLM ispirato al processo di acquisizione della conoscenza, che estrae sequenzialmente i fattori decisionali chiave. Questo processo strutturato guida l’LLM nell’interpretazione dei dati delle chat, convertendo i dialoghi non strutturati in dati tabulari strutturati.

I risultati dimostrano che, sebbene gli LLM catturino in modo affidabile i fattori decisionali espliciti, hanno difficoltà a identificare i fattori impliciti e sfumati che gli annotatori umani identificano facilmente. Lo studio evidenzia i contesti specifici in cui l’estrazione basata su LLM può essere considerata affidabile, evidenziando i limiti attuali e suggerendo dove l’intervento umano rimane essenziale. Questi risultati sottolineano sia il potenziale che i limiti dell’analisi basata su LLM nell’incorporare fonti di dati non tradizionali sulle attività sociali.


Paper: ArXiv.org