T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Mode

最新推荐文章于 2024-08-24 14:57:50 发布

尔呦

最新推荐文章于 2024-08-24 14:57:50 发布

阅读量521

点赞数 18

分类专栏： video generation 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/140161803

版权

23 篇文章 0 订阅

订阅专栏

对于输入的条件 $512\times 512$ ，然后使用pixel shuffle来使其尺寸到达 $64\times 64$ ，总共有四个scale，每个scale包含一个卷积和2个residual blocks，这样可以得到multi scale的条件特征 $F_c = \{F^1_c,F^2_c,F_c^3,F_c^4\}$ ，其中每个 $F_c^i$ 和unet对应scale的中间特征尺寸相同，分别进行相加；
对应结构性控制条件的图片直接作为输入，作为控制图片颜色的条件，首先进行降采样然后最近邻插值后的结果作为输入；
多个adapter可以进行叠加使用；
进行了cubic采样来提高较大t的概率来提高训练效果；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注