自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

read, note and comment papers

hard hard learning day day up

  • 博客(271)
  • 资源 (3)
  • 收藏
  • 关注

原创 图像复原领域计算指标代码

【代码】图像复原领域计算指标代码。

2025-05-31 22:08:02 126

原创 图像修复的可视化demo代码

【代码】图像修复的可视化demo代码。

2025-05-31 21:26:17 234

原创 tsne可视化代码

【代码】tsne可视化代码。

2025-05-31 21:05:24 108

原创 可视化向量间的相似度代码

【代码】可视化向量间的相似度代码。

2025-05-31 21:03:27 81

原创 特征图可视化代码

【代码】特征图可视化代码。

2025-05-31 20:48:31 291

原创 统计模型参数量、浮点运算量、运行时间代码

【代码】统计模型参数量、浮点运算量、运行时间代码。

2025-05-31 20:30:06 67

原创 matplotlib绘图常用代码

【代码】matplotlib绘图常用代码。

2025-05-31 20:14:14 69

原创 绘制gamma函数曲线图

【代码】绘制gamma函数曲线图。

2025-05-31 20:04:26 87

原创 统计数据集像素值分布

【代码】统计数据集像素值分布。

2025-05-31 20:02:52 105

原创 Is Noise Conditioning Necessary for Denoising Generative Models?论文阅读笔记

如果能做到这一点,是有好处的,比如可以使用一个统一的score function,而不需要以 t 为条件,这样在理论上更优雅一些。不唯一,那么这个损失函数并不是真正地让网络在回归拟合一个函数,这个函数不存在,网络只是在学习r的可能取值的期望。不过,由于推理阶段需要迭代采样,随着采样schedule的不同,产生的积累误差也不同。,就可以直接用这里的unconditional变体代替conditional的,网络就不需要。总结,很有意思的一篇工作,虽然没有提出效果更好的模型,但是从理论和实验都展示了一个结论,

2025-02-27 20:24:28 1292 1

原创 CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up 论文阅读笔记

新国立的一个工作,提出一种轻量化注意力的方法,把用局部注意力代替DiT里面的注意力从而在生成8K图像上能加速6.3倍,并且可以高效地从预训练好的DiT上迁移到这个轻量的模型上。现有高效注意力的方法,大致可以分为三类,formulation variation, key-value compression, 以及 key-value sampling。实验发现,第一类在train from scratch上是有效的,但从pretrain模型上迁移则不太行;第二类方法则导致细节失真,第三类方法则依赖于lo

2025-01-07 21:05:54 361 2

原创 A Comparative Study of Image Restoration Networks for General Backbone Network Design 论文阅读笔记

董超老师通讯的一篇发表在ECCV2024的论文。顶会上很少出现这种study类的论文,但如果出现了,一般质量都很高。文章的动机是说,现有的restoration网络总是只能在某些restoration表现很好,而在另一些上表现就没有那么好。那么能不能设计一个网络能够在所有的restoration任务上都能有较高的性能呢,这叫generality。为了达到这个目的,必须了解各个restoration任务偏好什么样的网络结构和模块设计,找出共性。就结果而言,文章提出了一个新的网络结构叫X-Restorme

2024-11-08 16:28:55 644 1

原创 SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记

这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章,港科大陈启峰也挂了名字。从首页图看效果确实很惊艳,尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成,对原图内容并不是很复原(不过在生成式方法中已经做得很好了),适合超级噪声图这种原图信息丢失十分严重的场景:整体方法流程如下图所示,用的是stable diffusion的框架,甚至模型参数都是pretrain好后fix住的,在此之上,用controlnet的风格添加了另外一部分网

2024-11-07 21:16:09 611 1

原创 OneRestore: A Universal Restoration Framework for Composite Degradation 论文阅读笔记

这是武汉大学一作单位的一篇发表在ECCV2024上的论文,文章代码开源,文章首页图如下所示,做混合图像干扰去除,还能分别去除,看起来很牛逼。文章是少见的做混合图像干扰去除的,不过可惜只包含了3种degradation,而甚至不包含noise。三种分别是low-light,rain/snow,以及haze。文章认为一张degraded image,是由它对应的clear state通过以上提及的顺序叠加degradation生成的。其中low-light用retinex理论来分解,雨就直接加雨图,雪就

2024-11-07 20:27:11 698 1

原创 Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration

这是南开大学第一单位的一篇发表在ECCV2024的一篇论文,李重仪老师是通讯作者,文章代码开源:https://github.com/Dragonisss/RAM文章的动机说是MIM没有很好地用到low level领域,所以要改进一下用到low level领域。。其实这样的动机有点危险,最好的动机是现在的方法有哪些问题,用一个新或老的方法能够解决这个问题,算是一个合乎逻辑的动机。而A方法暂时没有很好地用到B领域,所以要改进一下来用上去,感觉并不是一个好的理由。方法的流程如下所示:首先随机mask

2024-11-06 20:37:44 600

原创 MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

从bcd图可以看到(其实画得很含糊,不仔细,需要看附录,如下图),所谓MoE-Prompt,其实就是在原有的feature上,去和利用DA-CLIP对原图提取的degradation prior,进行交叉注意力,再用noisy top-k这个常用的MoE方法,得到top k个专家prompt,进行求和,再用结果的prompt去和feature计算矩阵乘法,得到经过MoE处理后的特征。用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。

2024-11-06 18:55:22 460 1

原创 InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

ee。

2024-10-30 21:46:15 892 1

原创 GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity 论文阅读笔记

这些分布可以保存着,当inference阶段需要选择多专家模型时,可以利用输入图像的SRResNet特征的GGD分布(分成patch),计算和这些degradation分布之间的相似度,来决定选择在哪个degradation上train的模型进行restoration。不过由于前面进行了degradation的分组,所以其实是计算组内GGD的平均,作为组GGD,然后计算输入图像和每个组的组GGD之间的KL散度,最小的那个即为对应组别,可以用对应组别train的模型进行inference。

2024-10-30 20:42:20 441 1

原创 Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记

Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记这是新国立和新加坡管理大学发表在ECCV2024上的一篇image restoration的文章,提出了一个新的网络结构ECMA,从实验结果上看在超分,去噪,去模糊上都达到了SOTA,卷到这年头还有人在改进网络结构,真是不容易。网络结构如下图所示,整体上还是unet:每个block如下所示:这里的LAM就是local adaptive conv

2024-10-30 18:43:20 511 2

原创 Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记

Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记ECCV2024的一篇文章,是韩国首尔国立大学发表的。代码没有开源文章的核心思想是想把LoRA用到Real Image Restoration上,来使得在多任务的restoration上的多专家模型可以共享大多数参数而只需要finetune一小部分参数,如下图所示。文章另一个创新点感觉是凑数的,就是pret

2024-10-30 16:08:45 380 1

原创 AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion论文阅读笔记

比如有5个针对不同降质的数据集,那么就有5个label和5个text embedding,再加上他们的GT是 no artifact,一共6个label 6个text embedding,可以和图像进行对比学习,计算图像提取的embedding和这6个文本embedding之间的余弦相似度,再过softmax,得到概率分布,计算多分类损失,fix住text encoder,就可以finetune image encoder,从而得到一个用于提取图像质量embedding的image encoder。

2024-10-29 20:59:43 1426 1

原创 diffusion model 合集

diffusion model 整理DDPM:前向一步到位,从数据集里的图片加噪声,根据随机到的 ttt 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去:训练过程是对每个样本分配一个随机的t,采样一个高斯噪声ϵ\epsilonϵ,然后根据 t 对图片和噪声进行混合,将加噪的图片和 t 送进模型,预测噪声,计算预测的噪声和ϵ\epsilonϵ的L2距离。测试过程则是采样一个高斯噪声xTx_T

2024-09-07 11:01:28 840

原创 用序列模型(GPT Bert Transformer等)进行图像处理的调研记录

VLM调研记录

2024-08-22 14:07:20 1374 2

原创 transdreamer 论文阅读笔记

这篇文章是对dreamer系列的改进,是一篇world model 的论文改进点在于,dreamer用的是循环神经网络,本文想把它改成transformer,并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉,dreamer用ht和xt来预测zt,但transformer要实现并行训练的话,最好是不要有ht,因为ht依赖transformer来预测,而transformer又需要zt作为输入,形成循环依赖就只能一步一步地生成。为此,把zt的预测改成只依赖于

2024-06-18 20:12:47 530 1

原创 Repetition Improves Language Model Embeddings论文阅读笔记

文章提出了一种提高decoder-only LLM的embedding能力的方法,叫echo embeddingslast-token pooling(即直接选最后一个token作为句子的embedding)和直接mean pooling都不如文章提出的echo embedding,做法是把句子重复两次,然后取第二次的token是的mean pooling。mean pooling的缺点是太强调句子的前面部分,last-token pooling是太强调句子的后面部分,而重复两次后,第二次的句子的起始

2024-06-18 15:46:07 587 1

原创 GRIT论文阅读笔记

一篇试图统一生成任务和编码任务的工作,就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单,就是在输入的时候添加instruction tokens来指引模型做representation还是generation,然后各自算损失。representation任务用的是document和query的对比学习。把最后一层的token给mean pooling(只对word tokens做,不对instruction做)出一个embedding算对比损失,做generation的时候就

2024-06-18 15:21:45 440

原创 SGPT论文阅读笔记

这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别conca

2024-06-18 14:56:06 589 1

原创 LLM2Vec论文阅读笔记

这是篇LLM论文,用decoder-like的LLM去提取embedding文章认为,decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism,其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进,就将pre-trained decoder-only LLM into a universal text encoder:双向注意力,就是取消掉MSA的mask,用全1的mas

2024-06-18 12:49:40 676 1

原创 NV-Embed论文阅读笔记

l×dldr×drOl×d。

2024-06-18 11:13:04 597 1

原创 TWM论文阅读笔记

lzarzaht​ht​rt​γt​zt1​pf3l−1lht​rt​dt​γγγγγt​0γt​γγ0γot​ot​zt​ht​zt​。

2024-06-17 20:16:35 908 1

原创 STORM论文阅读笔记

这是篇NIPS2023的 world model 论文文章提出,WM的误差会在训练过程中积累从而影响policy的训练,向WM中加噪声可以改善这一点。其他的流程和IRIS差不多,差别在以下几点:image encoder,IRIS用的VQVAE, 本文用的是VAE,用VAE的采样方式来生成zt,从而为zt加噪声。sequence model,IRIS用GPT循环输出image的每个token,本文直接用MLP把生成的 ztz_tzt​ 和动作 ata_tat​ 输出成一个token,这样GPT

2024-06-17 17:03:07 922 1

原创 IRIS论文阅读笔记

n的序列了,只需要对这个序列仅需mask prediction即可,即根据17。

2024-06-17 16:13:33 513 1

原创 PromptIR论文阅读笔记

MZUAI和IIAI在NIPS2023上的一篇论文,用prompt来编码degradation,然后用来guide restoration network,使得模型能够泛化到不同degradation types and levels,也就是说是一个模型一次训练能够应对多种degradation的unified model。文章分析,对每种degradation都要train一个模型是compute-intensive and tedious process, and oftentimes impra

2024-05-30 12:19:28 836 2

原创 DiffBIR论文阅读笔记

zt​z0​zt​z0​zt−1​z0​z0​z0​z0​z0​zt​zt−1​z0​Dz0​)WWW。

2024-05-29 17:36:01 1376 1

原创 DiffIR论文阅读笔记

ICCV2023的一篇用diffusion模型做Image Restoration的论文,一作是清华的教授,还在NIPS2023上一作发表了Hierarchical Integration Diffusion Model for Realistic Image Deblurring,作者里甚至有Luc Van Gool大佬。模型分三个部分,一个是CPEN用来提取IPR,一个是DIRformer,用来完成restoration任务,一个是denoising network,用diffusion的方式来预

2024-05-29 12:20:29 845 3

原创 DA-CLIP论文阅读笔记

这是ICLR2024的一篇用VLM做multi-task image restoration的论文首页图看起来就很猛啊,一个unified模型搞定10个任务:文章的贡献点主要是两个,一个是提出一个利用Image Controller,CLIP,cross-attention 和 diffusion restoration network 来实现 unified image restoration 的框架,一个是提出了一个数据集,有10种 degradation types 同时配有 hig-qua

2024-05-25 16:55:06 1181

原创 Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model 论文阅读笔记

这是CVPR2024的一篇论文,通讯作者是中大计院的郑伟诗教授,用diffusion做通用image restoration模型。文章声称有两个创新点,一个是把条件(即LQ图片)concatenate到diffusion target上,从而实现了strong condition guidance;一个是shared distribution term。贡献是仅仅改变了mapping strategy就可以提高在通用任务上的性能,仅仅使用现有大模型1/5的参数量就能达到超过他们的效果。同时为了实际应

2024-05-25 10:33:26 1498 1

原创 RDDM论文阅读笔记

CVPR2024的残差去噪模型。把diffusion 模型的加噪过程分解为残差diffusion和noise diffusion,其中残差diffusion模拟从target image到degraded image的过程,而noise diffusion则是原来的diffusion过程,即从图片到高斯噪声的加噪过程。前者可以看作是对应restoration,后者对应generation。通过这一设计,仅用一个Unet,bs为1,用L1 Loss即可train一个sota的restoration模型。

2024-05-24 22:39:49 1809

原创 DreamerV3阅读笔记

xzzhzsg⋅。

2024-05-24 08:34:07 1434

原创 计算psnr ssim niqe fid mae lpips等指标的代码

【代码】计算psnr ssim niqe fid mae lpips等指标的代码。

2024-04-10 21:02:17 765

neighbor2neighbor 代码 debug完,参考

看有几个人问我neighbor2neighbor的代码问题,我直接把我debug好的代码发出来吧

2022-11-22

cmake-3.17.2.tar.gz

最新版本cmake的源码

2020-05-13

facebook开源目标检测框架所用到的R-101预训练的权重文件 R-101.pkl

facebook开源目标检测框架所用到的R-101预训练的backbone,直接跑代码自动下载总是断掉,被墙了,直接去官网下载也很慢,这里下载好了分享

2020-05-12

opencv-4.3.0.zip

最新版本opencv源码

2020-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除