T2I-Adapter


T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

image-20230830101919618


Abstract

  • T2I 模型可以学习复杂的结构和有意义的语义
  • T2I-Adapters 将T2I内部知识和外部控制信号进行对齐,且冻结T2I模型参数

Contributions

  • 灵活性:不同控制条件(空间颜色控制和复杂结构控制)训练不同的适配器
  • 可组合:将多个适配器组合实现多个条件同时控制
  • 泛化性:T2I是冻结的,只需要对适配器进行微调
  • 轻量化:77M params参数量,300M storage存储量

img

Adapter

  • 起源于NLP,对大模型微调效率很低,所以提出用适配器进行transfer,只需要针对特定任务设计适配器,更好的将大模型应用到下游任务中
  • ViT-Adapter

Methodology

Overview

image-20230830103603381

Adapter Design

image-20230830103708164

  • 输入图像512X512,通过pixel unshuffle下采样到64X64
  • 4个特征提取块 + 3个下采样块 = 多尺度特征
    • 特征提取block=1个Conv+2个residual blocks
    • 下采样块

Structure controlling

  • sketch, depth map, semantic segmentation map, and keypose

Spatial color palette

  • hue and spatial distribution
    1. 使用bicubic下采样去除图像语义和结构信息,同时保留足够的color信息
    2. 使用nearest上采样恢复图像原始尺寸color map
    3. 用获取的color map作为条件进行训练
  • color map

image-20230830104959082

Multi-adapter controlling

image-20230830105131707

  • 不需要重新训练,只需要将每个条件的适配器进行线性组合即可,自定义权重,从而实现多个条件以不同权重进行共同控制

img

Experiments

image-20230830105433991

image-20230830105531770

image-20230830105847435

Conclusions

  • 鸡肋

References


文章作者: Lee Jet
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Lee Jet !
评论
  目录