RobustFormer: Pre-training resistente al rumore per immagini e video

RobustFormer: Un Nuovo Approccio per la Robustezza al Rumore in Immagini e Video

Un recente studio pubblicato su arXiv (2411.13040v2) presenta RobustFormer, un innovativo framework di pre-training progettato per migliorare la robustezza dei modelli di deep learning, in particolare i transformer, contro il rumore presente in immagini e video. Il documento evidenzia come i modelli attuali, pur essendo potenti, siano vulnerabili al rumore, che può compromettere le prestazioni e portare all’overfitting.

Per affrontare questa sfida, i ricercatori hanno integrato la Discrete Wavelet Transform (DWT), una tecnica che scompone le immagini in diversi livelli di risoluzione, isolando il rumore nelle alte frequenze e preservando le informazioni essenziali nelle basse frequenze. A differenza dei metodi DWT tradizionali, RobustFormer elimina la necessità di una ricostruzione con Inverse Discrete Wavelet Transform (IDWT), riducendo la complessità computazionale. Il modello impiega un masked autoencoder (MAE) per il pre-training, focalizzandosi su rappresentazioni multi-scala resistenti al rumore.

I risultati sperimentali mostrano miglioramenti significativi, con un aumento fino all’8% nell’accuratezza di classificazione su ImageNet-C e fino al 2.7% su ImageNet-P in condizioni di rumore elevato. Su UCF-101, RobustFormer ha ottenuto fino al 13% in più di accuratezza, mantenendo prestazioni simili sui dataset puliti. Inoltre, l’approccio ha ridotto la complessità computazionale fino al 4.4% rispetto al modello VideoMAE di base, senza compromettere le prestazioni. Questo lo rende un progresso significativo per applicazioni pratiche dove il rumore è una costante.


Paper: ArXiv.org

Verso l’Ingegneria del Software AI-Nativa (SE 3.0): Una Visione e una Roadmap di Sfide

L’alba dell’Ingegneria del Software 3.0: Un Futuro Collaborativo tra Umani e AI

La crescente influenza dell’intelligenza artificiale (IA) nel campo dell’ingegneria del software (SE) ha aperto nuove frontiere, in particolare con l’avvento dell’SE 2.0, alimentata da modelli di fondazione (FM) e assistenti di codifica basati su FM. Sebbene l’SE 2.0 abbia dimostrato di migliorare la produttività degli sviluppatori, ha anche rivelato limiti intrinseci, come il sovraccarico cognitivo e le inefficienze.

Questo studio propone un passaggio all’Ingegneria del Software 3.0 (SE 3.0), un approccio AI-nativo che si basa sullo sviluppo incentrato sull’intento e orientato alla conversazione tra sviluppatori umani e compagni di squadra AI. La SE 3.0 prevede sistemi di IA che evolvono da semplici copiloti orientati ai compiti a collaboratori intelligenti, capaci di comprendere a fondo e ragionare sui principi e sugli intenti dell’ingegneria del software.

Il documento descrive i componenti chiave dello stack tecnologico SE 3.0, tra cui Teammate.next per una partnership AI adattiva e personalizzata, IDE.next per lo sviluppo orientato alla conversazione incentrato sull’intento, Compiler.next per la sintesi del codice multi-obiettivo e Runtime.next per l’esecuzione basata su SLA con supporto per l’edge computing. Questa visione mira a risolvere le inefficienze e lo stress cognitivo dell’SE 2.0, promuovendo una relazione simbiotica tra sviluppatori umani e IA, massimizzando i loro punti di forza complementari. Il documento presenta anche una roadmap delle sfide da superare per realizzare la visione dell’SE 3.0, ponendo le basi per discussioni future sul ruolo dell’IA nella prossima era dell’ingegneria del software.


Paper: ArXiv.org

iTeach: Insegnamento Interattivo per la Percezione Robotica Utilizzando la Realtà Mista

iTeach: Migliorare la Percezione Robotica in Tempo Reale

I robot che operano in ambienti reali spesso incontrano oggetti e scenari che superano i modelli di percezione pre-addestrati. L’adattamento di questi modelli richiede tipicamente la raccolta lenta di dati offline, l’etichettatura e il riaddestramento. Per affrontare questa sfida, è stato sviluppato iTeach, un sistema human-in-the-loop che consente ai robot di migliorare continuamente la percezione durante l’esplorazione di nuovi ambienti.

Il sistema si basa sull’interazione umana: un utente osserva le previsioni del robot, corregge gli errori in tempo reale e questi dati guidano la messa a punto iterativa. Un visore per la realtà mista fornisce l’interfaccia, sovrapponendo le previsioni alla vista dell’utente e consentendo annotazioni leggere tramite sguardo e voce. Invece di una noiosa etichettatura fotogramma per fotogramma, l’utente guida il robot verso le scene desiderate e registra brevi video durante l’interazione con gli oggetti. L’utente etichetta solo il fotogramma finale, e un modello di segmentazione video propaga le etichette attraverso la sequenza, convertendo pochi secondi di input in una supervisione densa.

Il modello perfezionato viene implementato immediatamente, chiudendo il ciclo tra il feedback umano e l’apprendimento del robot. Dimostrazioni pratiche hanno mostrato miglioramenti costanti su modelli di riferimento pre-addestrati, portando a un maggiore successo nella presa di oggetti. iTeach offre un approccio pratico verso sistemi di percezione che generalizzano in modo robusto in diverse condizioni del mondo reale.


Paper: ArXiv.org

KALE-LM-Chem: Visione e pratica verso un cervello AI per la chimica

KALE-LM-Chem: Visione e pratica verso un cervello AI per la chimica

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un forte potenziale per l’abilitazione dell’intelligenza specifica del dominio. In questo lavoro, presentiamo la nostra visione per la costruzione di un cervello chimico basato sull’IA, che inquadra l’intelligenza chimica attorno a quattro capacità principali: estrazione di informazioni, parsing semantico, QA basata sulla conoscenza e ragionamento e pianificazione. Sosteniamo che la conoscenza del dominio e la logica sono pilastri essenziali per consentire a un tale sistema di assistere e accelerare la scoperta scientifica.

Per dare il via a questo sforzo, presentiamo la nostra prima generazione di modelli linguistici di grandi dimensioni per la chimica: KALE-LM-Chem e KALE-LM-Chem-1.5, che hanno ottenuto prestazioni eccezionali in compiti relativi al campo della chimica. Ci auguriamo che il nostro lavoro serva come un forte punto di partenza, contribuendo a realizzare un’IA più intelligente e promuovendo il progresso della scienza e della tecnologia umane, nonché lo sviluppo sociale.


Paper: ArXiv.org

Un dataset fotorealistico e un algoritmo basato sulla visione per il rilevamento delle anomalie durante le operazioni di prossimità in orbita lunare

Un passo avanti verso l’autonomia spaziale: Rilevamento di anomalie in orbita lunare

La prossima stazione spaziale Lunar Gateway della NASA, che sarà per lo più non equipaggiata, richiederà un livello di autonomia senza precedenti. Una sfida chiave è consentire al Canadarm3, il sistema robotico esterno del Gateway, di rilevare i pericoli nel suo ambiente utilizzando le telecamere di ispezione di bordo. Questo compito è complicato dalle condizioni di illuminazione estreme e variabili nello spazio.

Questo studio introduce il compito di rilevamento e localizzazione delle anomalie visive per il dominio spaziale, stabilendo un punto di riferimento basato su un dataset sintetico chiamato ALLO (Anomaly Localization in Lunar Orbit). I risultati dimostrano che i metodi di rilevamento delle anomalie visive all’avanguardia spesso falliscono nello spazio, sottolineando la necessità di nuovi approcci. Per affrontare questa problematica, viene proposto MRAD (Model Reference Anomaly Detection), un algoritmo statistico che sfrutta la posizione nota del Canadarm3 e un modello CAD del Gateway per generare immagini di riferimento dell’aspetto previsto della scena. Le anomalie vengono quindi identificate come deviazioni da questo riferimento generato dal modello.

Sul dataset ALLO, MRAD supera gli algoritmi di rilevamento delle anomalie all’avanguardia, raggiungendo un punteggio AP del 62,9% a livello di pixel e un punteggio AUROC del 75,0% a livello di immagine. Data la bassa tolleranza al rischio nelle operazioni spaziali e la mancanza di dati specifici del dominio, l’articolo sottolinea la necessità di metodi di rilevamento delle anomalie nuovi, robusti e accurati per gestire le difficili condizioni visive che si trovano in orbita lunare e oltre.


Paper: ArXiv.org

Simulazione del Processo Decisionale Multi-Stakeholder con Agenti Generativi nella Pianificazione Urbana

Nuovo Approccio per la Pianificazione Urbana: Simulazione di Decisioni Multi-Stakeholder

Un recente studio pubblicato su arXiv (2402.11314v2) esplora l’utilizzo di agenti generativi basati su modelli linguistici di grandi dimensioni (LLM) per simulare il processo decisionale multi-stakeholder nella pianificazione urbana. Questo approccio innovativo mira a superare le sfide legate a negoziazioni prolungate, compromessi e dinamiche di potere che spesso caratterizzano la pianificazione urbana.

Lo studio valuta l’impatto di diversi fattori, come dati demografici e valori personali, sull’interazione tra gli agenti, utilizzando due diversi approcci decisionali: altruistico e basato sugli interessi. I risultati mostrano che l’integrazione di dati demografici e valori personali aumenta la diversità e la stabilità dei risultati generati dagli agenti. La comunicazione tra gli agenti generati migliora la qualità del ragionamento collettivo. Questo approccio simula le reazioni degli stakeholder, consentendo di affinare le proposte prima della loro presentazione pubblica. L’obiettivo è quello di promuovere decisioni più eque ed economicamente vantaggiose nella pianificazione urbana.

Tuttavia, lo studio evidenzia anche i rischi associati all’utilizzo di tali sistemi, tra cui problemi di rappresentazione, preoccupazioni sulla privacy e possibili pregiudizi. L’adozione di questo approccio richiede un’attenta considerazione di tali aspetti etici e sociali, garantendo l’affidabilità e l’equità dei risultati.


Paper: ArXiv.org

Utilizzo del deep learning guidato dalla fisica per superare la scarsità di dati

Superare la scarsità di dati con il deep learning guidato dalla fisica

Il deep learning (DL) ha rivoluzionato molti campi, ma dipende fortemente dai dati. La qualità e la quantità dei dati influenzano in modo significativo le prestazioni dei modelli di DL. Tuttavia, ottenere set di dati di alta qualità e ben annotati può essere difficile, se non impossibile, in molte applicazioni reali, come la stima del rischio strutturale e la diagnosi medica. Ciò rappresenta una barriera significativa all’implementazione pratica del DL in questi settori.

Il physics-guided deep learning (PGDL) è un nuovo approccio che integra le leggi della fisica per addestrare le reti neurali. Questo metodo può essere applicato a qualsiasi sistema governato da leggi fisiche, come la meccanica, la finanza e le applicazioni mediche. È stato dimostrato che, con l’integrazione delle leggi della fisica, il PGDL raggiunge una maggiore accuratezza e generalizzazione anche in presenza di scarsità di dati.

Questa recensione fornisce un’analisi dettagliata del PGDL e offre una panoramica strutturata del suo utilizzo per affrontare la scarsità di dati in vari campi, tra cui la fisica, l’ingegneria e le applicazioni mediche. La recensione identifica anche le attuali limitazioni e le opportunità del PGDL in relazione alla scarsità di dati, offrendo una discussione approfondita sulle prospettive future del PGDL. L’articolo evidenzia il potenziale del PGDL come strumento potente per superare le sfide poste dalla scarsità di dati, aprendo nuove strade per l’applicazione del deep learning in settori precedentemente inaccessibili.


Paper: ArXiv.org

Cedalion Tutorial: Un framework Python per l’analisi completa di fNIRS e DOT multimodali dal laboratorio al mondo reale

Cedalion Tutorial: Un framework Python per l’analisi completa di fNIRS e DOT multimodali dal laboratorio al mondo reale

La spettroscopia funzionale nel vicino infrarosso (fNIRS) e la tomografia ottica diffusa (DOT) stanno rapidamente evolvendo verso neuroimaging indossabile, multimodale e basato sui dati, supportato dall’IA nel mondo reale. Tuttavia, gli strumenti di analisi attuali sono frammentati tra le piattaforme, limitando la riproducibilità, l’interoperabilità e l’integrazione con i moderni flussi di lavoro di machine learning (ML). Cedalion è un framework open-source basato su Python progettato per unificare l’analisi avanzata basata su modelli e basata sui dati di dati fNIRS e DOT multimodali all’interno di un ambiente riproducibile, estensibile e guidato dalla comunità. Cedalion integra modellazione in avanti, co-registrazione fotogrammetrica degli optodi, elaborazione del segnale, analisi GLM, ricostruzione di immagini DOT e metodi basati su ML all’interno di un’unica architettura standardizzata basata sull’ecosistema Python. Aderisce agli standard SNIRF e BIDS, supporta notebook Jupyter eseguibili sul cloud e fornisce flussi di lavoro containerizzati per pipeline di analisi scalabili e completamente riproducibili che possono essere fornite insieme alle pubblicazioni di ricerca originali. Cedalion collega pipeline di optical-neuroimaging consolidate con framework ML come scikit-learn e PyTorch, consentendo una fusione multimodale senza soluzione di continuità con EEG, MEG e dati fisiologici. Implementa algoritmi validati per la valutazione della qualità del segnale, la correzione del movimento, la modellazione GLM e la ricostruzione DOT, integrati da moduli per la simulazione, l’aumento dei dati e l’analisi della fisiologia multimodale. La documentazione automatizzata collega ogni metodo alla sua pubblicazione di origine e i test di integrazione continua ne garantiscono la robustezza. Questo tutorial fornisce sette notebook completamente eseguibili che dimostrano le caratteristiche principali. Cedalion offre una base aperta, trasparente e community-estensibile che supporta flussi di lavoro fNIRS/DOT riproducibili, scalabili, pronti per il cloud e ML per il neuroimaging in laboratorio e nel mondo reale.


Paper: ArXiv.org

Localizzazione di robot mobili tramite un nuovo sensore simile a un ‘whisker’

Nuova tecnologia per la navigazione in ambienti difficili

Un recente studio pubblicato su arXiv (arXiv:2601.05612v1) presenta un nuovo approccio per la localizzazione di robot mobili in ambienti complessi, utilizzando un sensore tattile innovativo ispirato ai ‘whisker’ (i baffi degli animali). Questi sensori offrono vantaggi unici in situazioni in cui la visione e altri sistemi di rilevamento a lungo raggio non sono affidabili, come in spazi ristretti, affollati o con scarsa visibilità.

Il documento descrive un framework che permette di stimare i punti di contatto e localizzare il robot in un ambiente planare noto, utilizzando un singolo sensore ‘whisker’. Gli autori hanno sviluppato una serie di modelli di sensori virtuali, che mappano le configurazioni del robot alle osservazioni del sensore. Questo approccio consente un ragionamento strutturato attraverso il concetto di ‘preimmagini’, ovvero l’insieme degli stati del robot coerenti con una determinata osservazione.

Combinando le osservazioni del sensore con un modello di movimento, è possibile stimare accuratamente il punto di contatto. L’elaborazione iterativa dei dati permette di ricostruire i confini degli ostacoli. Inoltre, l’intersezione degli stati dedotti dalle osservazioni correnti con gli stati proiettati in avanti dai passaggi precedenti consente una localizzazione precisa del robot, senza dover ricorrere a sistemi di visione o esterni.

Il framework è stato validato attraverso simulazioni ed esperimenti fisici, dimostrando una stima accurata dei contatti e una localizzazione con errori inferiori a 7 mm. Questo dimostra il potenziale dei sensori ‘whisker’ come complemento leggero e adattabile alla navigazione basata sulla visione.


Paper: ArXiv.org

Modello Fondamentale di Cellule Singole con Conoscenza del Mondo Aperto e Pre-addestramento Cellula-Linguaggio Cross-Modal

Nuovo Modello di Intelligenza Artificiale Rivoluziona l’Analisi delle Cellule Singole

Un recente studio pubblicato su arXiv (2601.05648v1) presenta un avanzato modello di intelligenza artificiale, OKR-CELL, progettato per rivoluzionare l’analisi delle cellule singole. OKR-CELL sfrutta un approccio innovativo di pre-addestramento Cellula-Linguaggio cross-modale, integrando una vasta conoscenza del mondo aperto per migliorare la comprensione della eterogeneità cellulare e della regolazione genica.

Il modello si basa sull’integrazione di dati multi-omici delle cellule singole, come l’RNA-seq, con modelli linguistici di grandi dimensioni (LLM). La prima innovazione chiave è l’utilizzo di LLM con generazione aumentata da recupero (RAG), che arricchisce le descrizioni testuali delle cellule attingendo a una vasta conoscenza del mondo. La seconda innovazione è l’obiettivo di Allineamento Robusto Cross-modale (CRA), che incorpora la valutazione dell’affidabilità dei campioni, l’apprendimento per curriculum e l’apprendimento contrastivo a momento accoppiato per rendere il modello resistente ai dati rumorosi.

Dopo essere stato pre-addestrato su 32 milioni di coppie cellula-testo, OKR-CELL ha ottenuto risultati all’avanguardia in sei compiti di valutazione, tra cui clustering cellulare, annotazione del tipo cellulare, correzione degli effetti batch e annotazione few-shot. Il modello dimostra prestazioni superiori anche in applicazioni cross-modali più ampie, come l’annotazione del tipo cellulare zero-shot e il recupero bidirezionale cellula-testo, aprendo nuove strade per la ricerca in biologia cellulare.


Paper: ArXiv.org