Computer Vision – ScienceBlog

DexterCap: Un sistema economico e automatizzato per la cattura della manipolazione mano-oggetto destrorsa

January 12, 2026 by costa

DexterCap: Una Nuova Soluzione per la Cattura della Manipolazione Mano-Oggetto

Un nuovo studio pubblicato su arXiv (arXiv:2601.05844v1) presenta DexterCap, un sistema economico e automatizzato per la cattura della manipolazione mano-oggetto destrorsa. La cattura di interazioni mano-oggetto dettagliate è notoriamente difficile a causa dell’auto-occlusione tra le dita e della delicatezza dei movimenti di manipolazione. I sistemi di motion capture ottici esistenti richiedono costose configurazioni di telecamere e una significativa post-elaborazione manuale. I metodi basati sulla visione a basso costo, invece, spesso soffrono di una ridotta accuratezza e affidabilità in presenza di occlusioni.

Per affrontare queste sfide, DexterCap utilizza patch di marcatori dense con codici alfanumerici per ottenere un tracciamento robusto anche in presenza di severe auto-occlusioni, insieme a una pipeline di ricostruzione automatizzata che richiede un intervento manuale minimo. Il sistema include anche DexterHand, un dataset di interazioni mano-oggetto dettagliate che copre diversi comportamenti di manipolazione e oggetti, da semplici forme geometriche a oggetti articolati complessi come il Cubo di Rubik. I ricercatori hanno rilasciato il dataset e il codice per supportare la ricerca futura sull’interazione mano-oggetto destrorsa.

DexterCap promette di democratizzare la ricerca in questo campo, offrendo una soluzione accessibile e affidabile per catturare e analizzare le complesse interazioni mano-oggetto.

Paper: ArXiv.org

FlyPose: Verso una robusta stima della posa umana da viste aeree

January 12, 2026 by costa

FlyPose: Stima della posa umana da viste aeree

I Veicoli Aerei senza Equipaggio (UAV) sono sempre più utilizzati in prossimità degli umani per applicazioni come la consegna di pacchi, il monitoraggio del traffico, la risposta ai disastri e le ispezioni delle infrastrutture. Garantire un funzionamento sicuro e affidabile in questi ambienti popolati da umani richiede una precisa percezione delle pose e delle azioni umane da una prospettiva aerea. Questa prospettiva sfida i metodi esistenti con bassa risoluzione, angoli di visualizzazione accentuati e (auto-)occlusione, soprattutto se l’applicazione richiede modelli realizzabili in tempo reale.

In questo contesto, è stato sviluppato FlyPose, una pipeline leggera di stima della posa umana dall’alto per immagini aeree. Attraverso l’addestramento multi-dataset, FlyPose raggiunge un miglioramento medio di 6.8 mAP nel rilevamento delle persone attraverso i set di test di Manipal-UAV, VisDrone, HIT-UAV e il nostro dataset personalizzato. Per la stima della posa umana 2D, si registra un miglioramento di 16.3 mAP sul difficile dataset UAV-Human. FlyPose funziona con una latenza di inferenza di ~20 millisecondi, inclusa la pre-elaborazione su un Jetson Orin AGX Developer Kit ed è implementato a bordo di un UAV quadrotor durante esperimenti di volo. È stato anche pubblicato FlyPose-104, un dataset di stima della posa umana aerea, piccolo ma impegnativo, che include annotazioni manuali da prospettive aeree difficili.

Il codice e i dati sono disponibili su: https://github.com/farooqhassaan/FlyPose.

Paper: ArXiv.org

Codificare il mondo visivo: dall’immagine alla simulazione usando i modelli linguistici di visione

January 12, 2026 by costa

Codificare il mondo visivo: dall’immagine alla simulazione usando i modelli linguistici di visione

Un recente studio pubblicato su arXiv (arXiv:2601.05344v1) esplora l’incredibile capacità dei Vision Language Models (VLMs) di comprendere e simulare sistemi complessi rappresentati in immagini. Il lavoro, intitolato “Coding the Visual World: From Image to Simulation Using Vision Language Models”, utilizza la metodologia Im2Sim, che prevede l’utilizzo di un VLM per analizzare un’immagine del mondo reale (città, nuvole, vegetazione) e generare una descrizione del sistema, oltre a scrivere codice per simularlo e generare una nuova immagine.

Questo codice generativo viene quindi eseguito per produrre un’immagine sintetica, confrontata con l’originale per valutare la comprensione del VLM. I risultati dimostrano che i principali VLMs, come GPT e Gemini, sono in grado di comprendere e modellare sistemi multi-componente complessi in diversi ambiti e livelli di astrazione. Nonostante questo successo, i modelli mostrano limitazioni nella replicazione dei dettagli fini e degli schemi a basso livello presenti nelle immagini originali, rivelando un’interessante asimmetria tra la comprensione visiva di alto livello e la percezione dei dettagli.

Lo studio evidenzia come i VLMs stiano aprendo nuove frontiere nell’intersezione tra visione artificiale, linguaggio e simulazione, offrendo nuove prospettive per la comprensione del mondo che ci circonda. La capacità di questi modelli di tradurre le immagini in rappresentazioni computazionali apre la strada a nuove applicazioni, dalla simulazione di ambienti complessi alla creazione di modelli predittivi.

Paper: ArXiv.org