Sguardo all’Intenzione: Manipolazione Robotica Guidata dallo Sguardo tramite Modelli Fondazionali
La progettazione di interfacce intuitive per il controllo robotico rimane una sfida cruciale per una efficace interazione uomo-robot, specialmente in contesti di assistenza. Lo sguardo offre una modalità di input rapida, non intrusiva e ricca di intenzioni, rendendola un canale attraente per comunicare gli obiettivi dell’utente. In questo lavoro, presentiamo GAMMA (Gaze Assisted Manipulation for Modular Autonomy), un sistema che sfrutta il tracciamento dello sguardo egocentrico e un modello visione-linguaggio per dedurre l’intento dell’utente ed eseguire autonomamente compiti di manipolazione robotica.
Contestualizzando le fissazioni dello sguardo all’interno della scena, il sistema mappa l’attenzione visiva a una comprensione semantica di alto livello, consentendo la selezione e la parametrizzazione delle competenze senza addestramento specifico per il compito. Valutiamo GAMMA su una serie di compiti di manipolazione da tavolo e lo confrontiamo con il controllo basato sullo sguardo di base senza ragionamento. I risultati dimostrano che GAMMA fornisce un controllo robusto, intuitivo e generalizzabile, evidenziando il potenziale della combinazione di modelli fondazionali e sguardo per un’autonomia robotica naturale e scalabile. Il sito web del progetto è disponibile all’indirizzo: https://gamma0.vercel.app/
Paper: ArXiv.org