MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

在这里插入图片描述

  • 中科大和字节发表在ECCV2024的一篇论文,通讯陈志波教授是很多顶刊顶会论文的通讯,看主页光是ECCV2024就中了4篇,CVPR2024也中了4篇。代码GitHub上占坑了,写着comming soon。

  • 用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。

  • 整体网络结构如下图所示:
    在这里插入图片描述

  • 从a图可以看到,其实是再普通的stable diffusion上,加了一个MoE-Prompt Module,一个Decoder compensator和一个visual2text adapter。也就是说,前面VAE-Encoder提取的feature在送进unet前,先过一下MoE-Prompt Module,加一下专家信息,后面的VAE-decoder也要过一下一个compensator,加一下专家信息。此外,还利用visual2text adapter加一下额外的信息。

  • 从bcd图可以看到(其实画得很含糊,不仔细,需要看附录,如下图),所谓MoE-Prompt,其实就是在原有的feature上,去和利用DA-CLIP对原图提取的degradation prior,进行交叉注意力,再用noisy top-k这个常用的MoE方法,得到top k个专家prompt,进行求和,再用结果的prompt去和feature计算矩阵乘法,得到经过MoE处理后的特征。

在这里插入图片描述

  • 然后所谓的visual2text adapter,其实就是先用几层transformer(图中的enhancer)处理一下,然后用CLIP的image encoder提取特征(说是text 特征),然后过几层全连接,得到的结果送进stable diffusion里面去调制。
  • 感觉visual2text adapter有点凑创新点,然后其它的也就是把MoE和prompt-learning结合到SD上,做restoration任务。而且限定compressed image也很奇怪。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值