Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

最新推荐文章于 2024-05-31 16:14:40 发布

尔呦

最新推荐文章于 2024-05-31 16:14:40 发布

阅读量245

点赞数 3

分类专栏： Super Resolution 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/139102651

版权

Super Resolution 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

https://github.com/THUDM/Inf-DiT?tab=readme-ov-file

问题引入

现在的生成模型由于显存的限制，无法生成大于1024分辨率的图像，问题根结于当前推理的时候需要将整张图片都加载；
为什么每次都需要加载整张图片，以Unet架构为例，两个相邻的block在计算的时候都相互依赖，是双向的attention；

方法

Unidirectional Block Attention (UniBA) algorithm：
– 将图片划分为 $B\times B$ 个block，例如输入图片是 $x\in\mathbb{R}^{H\times W\times C}$ ，那么划分之后变为 $x_b\in\mathbb{R}^{h\times w\times B^2\times C}$ ，之前的方法进行卷积或者attention操作的之后都是不同的block之间相互依赖，本文提出的方法就是使attention变成单向依赖的；
– 每一个block的计算只依赖于自己本身，左边，上边和左上四个block的值，attention的计算变为：其中 $z^n_{(i,j)}$ 是指 $i$ 行 $j$ 列的hidden states， $P_i$ 是block-level的相对位置编码
– 虽然本文的方法每一个block的计算依赖的范围变小了，但是由于特征逐层传递，还是可以捕捉到长距离的信息；
– 空间复杂度由原来的 $O(N^2)$ 变为 $O (N)$ ：随着block计算的向前推进，不断有block的hidden states的值被丢弃，注意和自回归式模型的区别
image upsampling diffusion model
– 模型结构如下
– 考虑到color shift和detail loss模型在RGB像素空间进行操作，而不是latent space；此外假设超分scale为f，你们首先将输入上采样f倍和噪声concat到一起作为模型的输入；
– 使用相对位置编码RoPE；
全局和局部的一致性：
– 全局一致性：使用CLIP来提取LR的语义信息，和time embedding相加，这样训练还使得模型可以使用文本来进行生成的控制；
– 局部的一致性：当前块之和相邻的三个块进行交互，所以会导致不同的block之间生成存在差异，不连续，所以本文还加入了Nearby LR Cross Attention；

实验

尔呦

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

B×Bx∈RH×W×Cxb∈Rh×w×B2×CzijnijPiON2)ON。
复制链接

扫一扫