AttriCtrl: Controllo Granulare dell’Intensità degli Attributi Estetici nei Modelli di Diffusione

AttriCtrl: Controllo Granulare degli Attributi Estetici nei Modelli di Diffusione

I modelli di diffusione sono diventati il paradigma dominante per la generazione di immagini, ma i sistemi esistenti faticano a interpretare e seguire istruzioni numeriche per regolare gli attributi semantici. In scenari creativi reali, specialmente quando è richiesto un controllo preciso sugli attributi estetici, i metodi attuali non forniscono tale controllabilità. Questa limitazione deriva in parte dalla natura soggettiva e dipendente dal contesto dei giudizi estetici, ma fondamentalmente dal fatto che gli attuali codificatori di testo sono progettati per token discreti piuttosto che valori continui.

Per colmare questa lacuna, presentiamo AttriCtrl, un framework leggero per il controllo continuo dell’intensità estetica nei modelli di diffusione. Definisce prima gli attributi estetici rilevanti, quindi li quantifica attraverso una strategia ibrida che mappa sia dimensioni concrete che astratte su una scala unificata [0,1]. Un codificatore di valori plug-and-play viene quindi utilizzato per trasformare i valori specificati dall’utente in embeddings interpretabili dal modello per la generazione controllabile. Gli esperimenti dimostrano che AttriCtrl raggiunge un controllo accurato e continuo su attributi estetici singoli e multipli, migliorando significativamente la personalizzazione e la diversità.

Fondamentalmente, è implementato come un adattatore leggero mantenendo il modello di diffusione congelato, garantendo un’integrazione perfetta con framework esistenti come ControlNet a un costo computazionale trascurabile.


Paper: ArXiv.org

Ruota il tuo personaggio: rivisitazione dei modelli di diffusione video per la generazione di personaggi 3D di alta qualità

Nuovo approccio per la generazione di personaggi 3D

La creazione di personaggi 3D di alta qualità da singole immagini è una sfida significativa nella creazione di contenuti digitali, soprattutto a causa delle pose complesse del corpo e dell’auto-occlusione. Un nuovo studio, pubblicato su arXiv (2601.05722v1), presenta RCM (Rotate your Character Model), un framework avanzato di diffusione da immagine a video progettato per la sintesi di nuove visuali (NVS) e la generazione di personaggi 3D di alta qualità.

RCM si distingue dagli approcci basati sulla diffusione esistenti per diversi motivi chiave. Innanzitutto, è in grado di trasferire personaggi con pose complesse in una posa canonica, consentendo una sintesi coerente di nuove visuali sull’intera orbita di visualizzazione. In secondo luogo, RCM supporta la generazione di video orbitali ad alta risoluzione a 1024×1024 pixel. Terzo, offre posizioni di osservazione controllabili in base alle diverse pose iniziali della telecamera. Infine, supporta il condizionamento multi-visuale con un massimo di 4 immagini in ingresso, adattandosi a diversi scenari utente.

Gli esperimenti condotti dimostrano che RCM supera i metodi all’avanguardia sia nella sintesi di nuove visuali che nella qualità della generazione 3D. Questo approccio innovativo apre nuove possibilità per la creazione di personaggi 3D più realistici e versatili.


Paper: ArXiv.org