cross-modal – ScienceBlog

Nuovo modello per la comprensione delle cellule: OKR-CELL

La ricerca nel campo della biologia cellulare sta facendo passi da gigante, soprattutto grazie ai progressi nella single-cell multi-omics, in particolare nell’RNA-seq. Questi progressi offrono nuove prospettive sull’eterogeneità cellulare e sulla regolazione genica. I modelli linguistici pre-addestrati (PLM) hanno mostrato risultati promettenti, ma presentano delle limitazioni: l’integrazione insufficiente dei profili individuali e la difficoltà nel gestire il rumore nei dati multi-modali.

Per affrontare queste problematiche, è stato sviluppato OKR-CELL, un modello innovativo basato su un framework di pre-training Cell-Language cross-modal. Questo modello si avvale di due innovazioni chiave: l’utilizzo di Large Language Models (LLMs) con retrieval-augmented generation (RAG) per arricchire le descrizioni testuali delle cellule con conoscenze provenienti dal mondo aperto e l’introduzione di un obiettivo di Cross-modal Robust Alignment (CRA) che incorpora la valutazione dell’affidabilità dei campioni, l’apprendimento curriculare e il coupled momentum contrastive learning per rendere il modello più resistente ai dati rumorosi.

Dopo il pre-training su 32 milioni di coppie cella-testo, OKR-CELL ha ottenuto risultati all’avanguardia in sei diversi compiti di valutazione. Oltre ai benchmark standard come il clustering cellulare, l’annotazione del tipo di cellula, la correzione degli effetti batch e l’annotazione few-shot, il modello dimostra prestazioni superiori in applicazioni multi-modali più ampie, tra cui l’annotazione del tipo di cellula zero-shot e il recupero cella-testo bidirezionale. Questo approccio rappresenta un importante passo avanti nella comprensione del mondo cellulare.

Paper: ArXiv.org