TRec: Apprendimento delle interazioni mano-oggetto attraverso il movimento delle tracce di punti 2D

TRec: Una Nuova Prospettiva sull’Interazione Mano-Oggetto

Un nuovo studio, pubblicato su arXiv (2601.03667v3), introduce un approccio innovativo per il riconoscimento delle azioni mano-oggetto, sfruttando le tracce di punti 2D come indizio di movimento aggiuntivo. Il metodo, chiamato TRec, si distingue per la sua semplicità ed efficacia.

A differenza dei metodi tradizionali che si basano sull’analisi dell’aspetto RGB, sulla stima della posa umana o sulla combinazione di entrambi, TRec dimostra che il tracciamento di punti casuali nell’immagine attraverso i fotogrammi di un video può migliorare significativamente l’accuratezza del riconoscimento. La caratteristica distintiva di TRec è l’assenza di rilevamento di mani, oggetti o regioni di interazione. Invece, utilizza CoTracker per seguire un insieme di punti inizializzati casualmente in ogni video. Le traiettorie risultanti, insieme ai fotogrammi corrispondenti, vengono utilizzate come input per un modello di riconoscimento basato su Transformer.

Sorprendentemente, il metodo ottiene risultati notevoli anche quando vengono forniti solo il fotogramma iniziale e le tracce dei punti, senza la sequenza video completa. I risultati sperimentali confermano che l’integrazione delle tracce di punti 2D migliora costantemente le prestazioni rispetto allo stesso modello addestrato senza informazioni sul movimento, evidenziando il loro potenziale come rappresentazione leggera ma efficace per la comprensione delle azioni mano-oggetto.


Paper: ArXiv.org

RobustFormer: Pre-training resistente al rumore per immagini e video

RobustFormer: Un Nuovo Approccio per la Robustezza al Rumore in Immagini e Video

Un recente studio pubblicato su arXiv (2411.13040v2) presenta RobustFormer, un innovativo framework di pre-training progettato per migliorare la robustezza dei modelli di deep learning, in particolare i transformer, contro il rumore presente in immagini e video. Il documento evidenzia come i modelli attuali, pur essendo potenti, siano vulnerabili al rumore, che può compromettere le prestazioni e portare all’overfitting.

Per affrontare questa sfida, i ricercatori hanno integrato la Discrete Wavelet Transform (DWT), una tecnica che scompone le immagini in diversi livelli di risoluzione, isolando il rumore nelle alte frequenze e preservando le informazioni essenziali nelle basse frequenze. A differenza dei metodi DWT tradizionali, RobustFormer elimina la necessità di una ricostruzione con Inverse Discrete Wavelet Transform (IDWT), riducendo la complessità computazionale. Il modello impiega un masked autoencoder (MAE) per il pre-training, focalizzandosi su rappresentazioni multi-scala resistenti al rumore.

I risultati sperimentali mostrano miglioramenti significativi, con un aumento fino all’8% nell’accuratezza di classificazione su ImageNet-C e fino al 2.7% su ImageNet-P in condizioni di rumore elevato. Su UCF-101, RobustFormer ha ottenuto fino al 13% in più di accuratezza, mantenendo prestazioni simili sui dataset puliti. Inoltre, l’approccio ha ridotto la complessità computazionale fino al 4.4% rispetto al modello VideoMAE di base, senza compromettere le prestazioni. Questo lo rende un progresso significativo per applicazioni pratiche dove il rumore è una costante.


Paper: ArXiv.org

LookAroundNet: Estensione del contesto temporale con i Transformer per il rilevamento delle crisi epilettiche EEG clinicamente valido

LookAroundNet: Una Nuova Prospettiva nel Rilevamento delle Crisi Epilettiche

La diagnosi automatica delle crisi epilettiche tramite elettroencefalografia (EEG) rimane una sfida complessa a causa dell’eterogeneità delle dinamiche delle crisi tra pazienti, condizioni di registrazione e contesti clinici. Un recente studio, presentato su arXiv (2601.06016v1), introduce LookAroundNet, un rilevatore di crisi basato su transformer che sfrutta una finestra temporale più ampia dei dati EEG per modellare l’attività convulsiva. Questo approccio innovativo incorpora i segnali EEG sia prima che dopo il segmento di interesse, rispecchiando l’approccio dei clinici che utilizzano il contesto circostante nell’interpretazione degli EEG.

Lo studio valuta LookAroundNet su diversi set di dati EEG, inclusi ambienti clinici differenti, popolazioni di pazienti varie e modalità di registrazione differenti, da EEG clinici di routine a registrazioni ambulatoriali a lungo termine. L’analisi include sia set di dati pubblici che una vasta collezione proprietaria di registrazioni EEG domestiche, fornendo una panoramica completa di dati clinici controllati e condizioni di monitoraggio domestico non vincolate. I risultati dimostrano che LookAroundNet ottiene prestazioni robuste su tutti i set di dati, generalizzando bene a condizioni di registrazione precedentemente sconosciute e operando con costi computazionali compatibili con l’implementazione clinica reale. L’analisi dei risultati suggerisce che il contesto temporale esteso, la maggiore diversità dei dati di addestramento e l’ensemble di modelli sono fattori chiave per il miglioramento delle prestazioni.

Questo lavoro rappresenta un passo avanti verso soluzioni clinicamente valide per il rilevamento automatico delle crisi epilettiche, aprendo nuove strade per migliorare la diagnosi e il trattamento di questa condizione neurologica.


Paper: ArXiv.org

Rintracciare gli stereotipi nei Transformer pre-addestrati: da neuroni distorti a modelli più equi

Nuovo studio rintraccia e mitiga i pregiudizi nei modelli linguistici

Un nuovo studio, pubblicato su arXiv (arXiv:2601.05663v1), esplora come i modelli linguistici basati sui transformer, potenti strumenti di intelligenza artificiale, possano perpetuare stereotipi e pregiudizi sociali. I ricercatori hanno sviluppato un metodo per identificare e mitigare questi pregiudizi a livello di neuroni all’interno dei modelli stessi.

Lo studio si basa sul concetto di “neuroni di conoscenza”, che immagazzinano informazioni fattuali. L’ipotesi è che esistano anche “neuroni distorti” che codificano associazioni stereotipate. Per testare questa ipotesi, i ricercatori hanno creato un set di dati di relazioni distorte, che rappresentano stereotipi in nove diverse categorie di pregiudizi.

Utilizzando strategie di attribuzione dei neuroni, i ricercatori sono riusciti a rintracciare e sopprimere i neuroni distorti nei modelli BERT. I risultati hanno dimostrato che i pregiudizi sono localizzati in piccoli sottoinsiemi di neuroni e che la loro soppressione riduce significativamente i pregiudizi con una minima perdita di prestazioni. Questo approccio offre un metodo interpretabile per affrontare i problemi di equità nell’ingegneria del software.

In sostanza, lo studio dimostra che è possibile identificare e correggere i pregiudizi nei modelli linguistici, aprendo la strada a sistemi di intelligenza artificiale più equi e meno propensi a perpetuare stereotipi.


Paper: ArXiv.org