Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

最新推荐文章于 2024-07-19 16:50:04 发布

尔呦

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量819

点赞数 11

分类专栏： Super Resolution 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44994838/article/details/140109029

版权

Super Resolution 专栏收录该内容

28 篇文章 2 订阅

订阅专栏

问题引入

当前的基于SD的方法缺乏对图片结构的保持，所以本文提出pixel-aware cross atten来引入图片的结构信息，并且引入了degradation removal module来预处理作为生成条件的图片；

methods

Degradation Removal Module：提取degradation无关的low level特征作为生成条件，使用一个金字塔形的网络，最后训练通过toRGB的输出和HR做L1损失完成；
Pixel-Aware Cross Attention (PACA)：condition的feature与原始unet进行交互的方式有变化，原始的交互方式通过简单的zero-convolution然后相加实现，但是无法保证图片原有的结构，所以本文提出了另一种方法，对于原始unet和controlnet的feature $x, y$ ，首先将两者进行reshape $x'\in\mathbb{R}^{h*w\times c},y'\in\mathbb{R}^{h*w\times c}$ ，之后进行cross attention $Softmax(\frac{QK^T}{\sqrt{d}})\cdot V$ ，其中 $Q = t o Q (x^{'}), K = t oK (y^{'}), V = t o V (y^{'})$ ，因为controlnet分支的输入没有经过encoder所以可以比较好的保持图片结构；
Adjustable Noise Schedule (ANS)：测试时候和训练时候的在T时刻z的状态不一样，在测试的时候是纯噪声，所以本文在测试的时候T时刻的z是由LR加噪声得到的；
High-Level Information：之前的模型将text prompt用null来代替训练超分模型，本文使用resnet yolo和blip来获取信息代替；

实验

关注

11
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

xyx′∈Rh∗w×cy′∈Rh∗w×cPACAQKVSoftmaxdQKT⋅VQtoQx′KtoKy′VtoVy′。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。