T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

  1. 问题引入
  • 为sd模型在文本以外增加更多的控制,例如深度图等等,以adapter的形式;
  • 认为sd模型本身就具备生成各种图片的能力,本文要做的只是一种对齐,模型内部能力和外部控制信号的对齐;
  1. methods
    在这里插入图片描述
  • 对于输入的条件 512 × 512 512\times 512 512×512,然后使用pixel shuffle来使其尺寸到达 64 × 64 64\times 64 64×64,总共有四个scale,每个scale包含一个卷积和2个residual blocks,这样可以得到multi scale的条件特征 F c = { F c 1 , F c 2 , F c 3 , F c 4 } F_c = \{F^1_c,F^2_c,F_c^3,F_c^4\} Fc={Fc1,Fc2,Fc3,Fc4},其中每个 F c i F_c^i Fci和unet对应scale的中间特征尺寸相同,分别进行相加;
  • 对应结构性控制条件的图片直接作为输入,作为控制图片颜色的条件,首先进行降采样然后最近邻插值后的结果作为输入;
  • 多个adapter可以进行叠加使用;
  • 进行了cubic采样来提高较大t的概率来提高训练效果;
  • 18
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值