Rivoluzionaria tecnologia per l’editing di immagini tramite segnali neurali
Un nuovo studio pubblicato su arXiv (2507.05397v3) presenta LoongX, un approccio innovativo all’editing di immagini che sfrutta i segnali neurofisiologici per consentire modifiche hands-free. Questa tecnologia si basa sull’interazione tra interfacce cervello-computer (BCI) e modelli generativi, aprendo nuove possibilità per individui con difficoltà motorie o linguistiche.
LoongX utilizza modelli di diffusione all’avanguardia addestrati su un ampio dataset di 23.928 coppie di immagini editate, ciascuna associata a segnali neurofisiologici sincronizzati come elettroencefalogramma (EEG), spettroscopia nel vicino infrarosso (fNIRS), fotopletismografia (PPG) e movimenti della testa, catturando l’intento dell’utente. Il sistema integra due moduli chiave: il modulo cross-scale state space (CS3) per codificare le caratteristiche specifiche di ogni modalità e il modulo dynamic gated fusion (DGF) per aggregare tali informazioni in uno spazio latente unificato, allineato semanticamente alle modifiche tramite un diffusion transformer (DiT).
I risultati sperimentali dimostrano che LoongX raggiunge prestazioni paragonabili ai metodi basati sul testo e li supera quando i segnali neurali vengono combinati con la voce. Il progetto, con codice e dataset disponibili sul sito web dedicato (https://loongx1.github.io), promette di rendere l’editing di immagini accessibile e intuitivo, aprendo nuove direzioni per le tecnologie creative guidate dalla cognizione.
Paper: ArXiv.org