AttriCtrl: Controllo Granulare dell’Intensità degli Attributi Estetici nei Modelli di Diffusione

AttriCtrl: Controllo Granulare degli Attributi Estetici nei Modelli di Diffusione

I modelli di diffusione sono diventati il paradigma dominante per la generazione di immagini, ma i sistemi esistenti faticano a interpretare e seguire istruzioni numeriche per regolare gli attributi semantici. In scenari creativi reali, specialmente quando è richiesto un controllo preciso sugli attributi estetici, i metodi attuali non forniscono tale controllabilità. Questa limitazione deriva in parte dalla natura soggettiva e dipendente dal contesto dei giudizi estetici, ma fondamentalmente dal fatto che gli attuali codificatori di testo sono progettati per token discreti piuttosto che valori continui.

Per colmare questa lacuna, presentiamo AttriCtrl, un framework leggero per il controllo continuo dell’intensità estetica nei modelli di diffusione. Definisce prima gli attributi estetici rilevanti, quindi li quantifica attraverso una strategia ibrida che mappa sia dimensioni concrete che astratte su una scala unificata [0,1]. Un codificatore di valori plug-and-play viene quindi utilizzato per trasformare i valori specificati dall’utente in embeddings interpretabili dal modello per la generazione controllabile. Gli esperimenti dimostrano che AttriCtrl raggiunge un controllo accurato e continuo su attributi estetici singoli e multipli, migliorando significativamente la personalizzazione e la diversità.

Fondamentalmente, è implementato come un adattatore leggero mantenendo il modello di diffusione congelato, garantendo un’integrazione perfetta con framework esistenti come ControlNet a un costo computazionale trascurabile.


Paper: ArXiv.org