ssf-yasuo-CSDN博客

原创图像复原领域计算指标代码

【代码】图像复原领域计算指标代码。

2025-05-31 22:08:02 126

原创图像修复的可视化demo代码

【代码】图像修复的可视化demo代码。

2025-05-31 21:26:17 234

原创统计模型参数量、浮点运算量、运行时间代码

【代码】统计模型参数量、浮点运算量、运行时间代码。

2025-05-31 20:30:06 67

原创 matplotlib绘图常用代码

【代码】matplotlib绘图常用代码。

2025-05-31 20:14:14 69

原创 Is Noise Conditioning Necessary for Denoising Generative Models?论文阅读笔记

如果能做到这一点，是有好处的，比如可以使用一个统一的score function，而不需要以 t 为条件，这样在理论上更优雅一些。不唯一，那么这个损失函数并不是真正地让网络在回归拟合一个函数，这个函数不存在，网络只是在学习r的可能取值的期望。不过，由于推理阶段需要迭代采样，随着采样schedule的不同，产生的积累误差也不同。，就可以直接用这里的unconditional变体代替conditional的，网络就不需要。总结，很有意思的一篇工作，虽然没有提出效果更好的模型，但是从理论和实验都展示了一个结论，

2025-02-27 20:24:28 1292 1

原创 CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up 论文阅读笔记

新国立的一个工作，提出一种轻量化注意力的方法，把用局部注意力代替DiT里面的注意力从而在生成8K图像上能加速6.3倍，并且可以高效地从预训练好的DiT上迁移到这个轻量的模型上。现有高效注意力的方法，大致可以分为三类，formulation variation, key-value compression, 以及 key-value sampling。实验发现，第一类在train from scratch上是有效的，但从pretrain模型上迁移则不太行；第二类方法则导致细节失真，第三类方法则依赖于lo

2025-01-07 21:05:54 361 2

原创 A Comparative Study of Image Restoration Networks for General Backbone Network Design 论文阅读笔记

董超老师通讯的一篇发表在ECCV2024的论文。顶会上很少出现这种study类的论文，但如果出现了，一般质量都很高。文章的动机是说，现有的restoration网络总是只能在某些restoration表现很好，而在另一些上表现就没有那么好。那么能不能设计一个网络能够在所有的restoration任务上都能有较高的性能呢，这叫generality。为了达到这个目的，必须了解各个restoration任务偏好什么样的网络结构和模块设计，找出共性。就结果而言，文章提出了一个新的网络结构叫X-Restorme

2024-11-08 16:28:55 644 1

原创 SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记

这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章，港科大陈启峰也挂了名字。从首页图看效果确实很惊艳，尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成，对原图内容并不是很复原（不过在生成式方法中已经做得很好了），适合超级噪声图这种原图信息丢失十分严重的场景：整体方法流程如下图所示，用的是stable diffusion的框架，甚至模型参数都是pretrain好后fix住的，在此之上，用controlnet的风格添加了另外一部分网

2024-11-07 21:16:09 611 1

原创 OneRestore: A Universal Restoration Framework for Composite Degradation 论文阅读笔记

这是武汉大学一作单位的一篇发表在ECCV2024上的论文，文章代码开源，文章首页图如下所示，做混合图像干扰去除，还能分别去除，看起来很牛逼。文章是少见的做混合图像干扰去除的，不过可惜只包含了3种degradation，而甚至不包含noise。三种分别是low-light，rain/snow，以及haze。文章认为一张degraded image，是由它对应的clear state通过以上提及的顺序叠加degradation生成的。其中low-light用retinex理论来分解，雨就直接加雨图，雪就

2024-11-07 20:27:11 698 1

原创 Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration

这是南开大学第一单位的一篇发表在ECCV2024的一篇论文，李重仪老师是通讯作者，文章代码开源：https://github.com/Dragonisss/RAM文章的动机说是MIM没有很好地用到low level领域，所以要改进一下用到low level领域。。其实这样的动机有点危险，最好的动机是现在的方法有哪些问题，用一个新或老的方法能够解决这个问题，算是一个合乎逻辑的动机。而A方法暂时没有很好地用到B领域，所以要改进一下来用上去，感觉并不是一个好的理由。方法的流程如下所示：首先随机mask

2024-11-06 20:37:44 600

原创 MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

从bcd图可以看到（其实画得很含糊，不仔细，需要看附录，如下图），所谓MoE-Prompt，其实就是在原有的feature上，去和利用DA-CLIP对原图提取的degradation prior，进行交叉注意力，再用noisy top-k这个常用的MoE方法，得到top k个专家prompt，进行求和，再用结果的prompt去和feature计算矩阵乘法，得到经过MoE处理后的特征。用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。

2024-11-06 18:55:22 460 1

原创 InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

ee。

2024-10-30 21:46:15 892 1

原创 GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity 论文阅读笔记

这些分布可以保存着，当inference阶段需要选择多专家模型时，可以利用输入图像的SRResNet特征的GGD分布（分成patch），计算和这些degradation分布之间的相似度，来决定选择在哪个degradation上train的模型进行restoration。不过由于前面进行了degradation的分组，所以其实是计算组内GGD的平均，作为组GGD，然后计算输入图像和每个组的组GGD之间的KL散度，最小的那个即为对应组别，可以用对应组别train的模型进行inference。

2024-10-30 20:42:20 441 1

原创 Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记

Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记这是新国立和新加坡管理大学发表在ECCV2024上的一篇image restoration的文章，提出了一个新的网络结构ECMA，从实验结果上看在超分，去噪，去模糊上都达到了SOTA，卷到这年头还有人在改进网络结构，真是不容易。网络结构如下图所示，整体上还是unet：每个block如下所示：这里的LAM就是local adaptive conv

2024-10-30 18:43:20 511 2

原创 Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记

Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记ECCV2024的一篇文章，是韩国首尔国立大学发表的。代码没有开源文章的核心思想是想把LoRA用到Real Image Restoration上，来使得在多任务的restoration上的多专家模型可以共享大多数参数而只需要finetune一小部分参数，如下图所示。文章另一个创新点感觉是凑数的，就是pret

2024-10-30 16:08:45 380 1

原创 AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion论文阅读笔记

比如有5个针对不同降质的数据集，那么就有5个label和5个text embedding，再加上他们的GT是 no artifact，一共6个label 6个text embedding，可以和图像进行对比学习，计算图像提取的embedding和这6个文本embedding之间的余弦相似度，再过softmax，得到概率分布，计算多分类损失，fix住text encoder，就可以finetune image encoder，从而得到一个用于提取图像质量embedding的image encoder。

2024-10-29 20:59:43 1426 1

原创 diffusion model 合集

diffusion model 整理DDPM：前向一步到位，从数据集里的图片加噪声，根据随机到的 ttt 决定混合的比例，反向要慢慢迭代，DDPM是用了1000步迭代。模型的输入是带噪声图和 t，t 先生成embedding后，用通道和的方式加到每一层中间去：训练过程是对每个样本分配一个随机的t，采样一个高斯噪声ϵ\epsilonϵ，然后根据 t 对图片和噪声进行混合，将加噪的图片和 t 送进模型，预测噪声，计算预测的噪声和ϵ\epsilonϵ的L2距离。测试过程则是采样一个高斯噪声xTx_T

2024-09-07 11:01:28 840

原创用序列模型（GPT Bert Transformer等）进行图像处理的调研记录

VLM调研记录

2024-08-22 14:07:20 1374 2

原创 transdreamer 论文阅读笔记

这篇文章是对dreamer系列的改进，是一篇world model 的论文改进点在于，dreamer用的是循环神经网络，本文想把它改成transformer，并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉，dreamer用ht和xt来预测zt，但transformer要实现并行训练的话，最好是不要有ht，因为ht依赖transformer来预测，而transformer又需要zt作为输入，形成循环依赖就只能一步一步地生成。为此，把zt的预测改成只依赖于

2024-06-18 20:12:47 530 1

原创 Repetition Improves Language Model Embeddings论文阅读笔记

文章提出了一种提高decoder-only LLM的embedding能力的方法，叫echo embeddingslast-token pooling（即直接选最后一个token作为句子的embedding）和直接mean pooling都不如文章提出的echo embedding，做法是把句子重复两次，然后取第二次的token是的mean pooling。mean pooling的缺点是太强调句子的前面部分，last-token pooling是太强调句子的后面部分，而重复两次后，第二次的句子的起始

2024-06-18 15:46:07 587 1

原创 GRIT论文阅读笔记

一篇试图统一生成任务和编码任务的工作，就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单，就是在输入的时候添加instruction tokens来指引模型做representation还是generation，然后各自算损失。representation任务用的是document和query的对比学习。把最后一层的token给mean pooling（只对word tokens做，不对instruction做）出一个embedding算对比损失，做generation的时候就

2024-06-18 15:21:45 440

原创 SGPT论文阅读笔记

这是篇想要用GPT来提取sentence embedding的工作，提出了两个框架，一个是SGPT-BE，一个是SGPT-CE，分别代表了Bi-Encoder setting和Cross-Encoder setting。CE的意思是在做阅读理解任务时，document和query是一起送进去，中间加个SEP token来做的，典型的是BERT。而GPT一般不是，但作者觉得GPT也可以是。也就是说，如果有k个document和一个新的query，需要把这个query和这k个document分别conca

2024-06-18 14:56:06 589 1

原创 LLM2Vec论文阅读笔记

这是篇LLM论文，用decoder-like的LLM去提取embedding文章认为，decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism，其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进，就将pre-trained decoder-only LLM into a universal text encoder：双向注意力，就是取消掉MSA的mask，用全1的mas

2024-06-18 12:49:40 676 1

原创 NV-Embed论文阅读笔记

l×dldr×drOl×d。

2024-06-18 11:13:04 597 1

原创 TWM论文阅读笔记

lzarzahthtrtγtzt1pf3l−1lhtrtdtγγγγγt0γtγγ0γototzthtzt。

2024-06-17 20:16:35 908 1

原创 STORM论文阅读笔记

这是篇NIPS2023的 world model 论文文章提出，WM的误差会在训练过程中积累从而影响policy的训练，向WM中加噪声可以改善这一点。其他的流程和IRIS差不多，差别在以下几点：image encoder，IRIS用的VQVAE, 本文用的是VAE，用VAE的采样方式来生成zt，从而为zt加噪声。sequence model，IRIS用GPT循环输出image的每个token，本文直接用MLP把生成的 ztz_tzt 和动作 ata_tat 输出成一个token，这样GPT

2024-06-17 17:03:07 922 1

原创 IRIS论文阅读笔记

n的序列了，只需要对这个序列仅需mask prediction即可，即根据17。

2024-06-17 16:13:33 513 1

原创 PromptIR论文阅读笔记

MZUAI和IIAI在NIPS2023上的一篇论文，用prompt来编码degradation，然后用来guide restoration network，使得模型能够泛化到不同degradation types and levels，也就是说是一个模型一次训练能够应对多种degradation的unified model。文章分析，对每种degradation都要train一个模型是compute-intensive and tedious process, and oftentimes impra

2024-05-30 12:19:28 836 2

原创 DiffBIR论文阅读笔记

ztz0ztz0zt−1z0z0z0z0z0ztzt−1z0Dz0)WWW。

2024-05-29 17:36:01 1376 1

原创 DiffIR论文阅读笔记

ICCV2023的一篇用diffusion模型做Image Restoration的论文，一作是清华的教授，还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring，作者里甚至有Luc Van Gool大佬。模型分三个部分，一个是CPEN用来提取IPR，一个是DIRformer，用来完成restoration任务，一个是denoising network，用diffusion的方式来预

2024-05-29 12:20:29 845 3

原创 DA-CLIP论文阅读笔记

这是ICLR2024的一篇用VLM做multi-task image restoration的论文首页图看起来就很猛啊，一个unified模型搞定10个任务：文章的贡献点主要是两个，一个是提出一个利用Image Controller，CLIP，cross-attention 和 diffusion restoration network 来实现 unified image restoration 的框架，一个是提出了一个数据集，有10种 degradation types 同时配有 hig-qua

2024-05-25 16:55:06 1181

原创 Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model 论文阅读笔记

这是CVPR2024的一篇论文，通讯作者是中大计院的郑伟诗教授，用diffusion做通用image restoration模型。文章声称有两个创新点，一个是把条件（即LQ图片）concatenate到diffusion target上，从而实现了strong condition guidance；一个是shared distribution term。贡献是仅仅改变了mapping strategy就可以提高在通用任务上的性能，仅仅使用现有大模型1/5的参数量就能达到超过他们的效果。同时为了实际应

2024-05-25 10:33:26 1498 1

原创 RDDM论文阅读笔记

CVPR2024的残差去噪模型。把diffusion 模型的加噪过程分解为残差diffusion和noise diffusion，其中残差diffusion模拟从target image到degraded image的过程，而noise diffusion则是原来的diffusion过程，即从图片到高斯噪声的加噪过程。前者可以看作是对应restoration，后者对应generation。通过这一设计，仅用一个Unet，bs为1，用L1 Loss即可train一个sota的restoration模型。

2024-05-24 22:39:49 1809

原创 DreamerV3阅读笔记

xzzhzsg⋅。

2024-05-24 08:34:07 1434

原创计算psnr ssim niqe fid mae lpips等指标的代码

【代码】计算psnr ssim niqe fid mae lpips等指标的代码。

2024-04-10 21:02:17 765

neighbor2neighbor 代码 debug完，参考

cmake-3.17.2.tar.gz

facebook开源目标检测框架所用到的R-101预训练的权重文件 R-101.pkl

opencv-4.3.0.zip

空空如也