MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_44326452/article/details/143375811

MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

在这里插入图片描述

中科大和字节发表在ECCV2024的一篇论文，通讯陈志波教授是很多顶刊顶会论文的通讯，看主页光是ECCV2024就中了4篇，CVPR2024也中了4篇。代码GitHub上占坑了，写着comming soon。
用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。
整体网络结构如下图所示：
从a图可以看到，其实是再普通的stable diffusion上，加了一个MoE-Prompt Module，一个Decoder compensator和一个visual2text adapter。也就是说，前面VAE-Encoder提取的feature在送进unet前，先过一下MoE-Prompt Module，加一下专家信息，后面的VAE-decoder也要过一下一个compensator，加一下专家信息。此外，还利用visual2text adapter加一下额外的信息。
从bcd图可以看到（其实画得很含糊，不仔细，需要看附录，如下图），所谓MoE-Prompt，其实就是在原有的feature上，去和利用DA-CLIP对原图提取的degradation prior，进行交叉注意力，再用noisy top-k这个常用的MoE方法，得到top k个专家prompt，进行求和，再用结果的prompt去和feature计算矩阵乘法，得到经过MoE处理后的特征。

在这里插入图片描述

然后所谓的visual2text adapter，其实就是先用几层transformer（图中的enhancer）处理一下，然后用CLIP的image encoder提取特征（说是text 特征），然后过几层全连接，得到的结果送进stable diffusion里面去调制。
感觉visual2text adapter有点凑创新点，然后其它的也就是把MoE和prompt-learning结合到SD上，做restoration任务。而且限定compressed image也很奇怪。