ssf-yasuo
码龄6年
关注
提问 私信
  • 博客:259,422
    社区:104
    259,526
    总访问量
  • 259
    原创
  • 8,759
    排名
  • 329
    粉丝
  • 7
    铁粉
  • 学习成就

个人简介:把博客当笔记本用了,私信和评论可能很久才会回复

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-12-29
博客简介:

read, note and comment papers

博客描述:
hard hard learning day day up
查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,603
    当月
    48
个人成就
  • 获得463次点赞
  • 内容获得250次评论
  • 获得1,203次收藏
  • 代码片获得1,153次分享
创作历程
  • 32篇
    2024年
  • 54篇
    2023年
  • 44篇
    2022年
  • 30篇
    2021年
  • 67篇
    2020年
  • 33篇
    2019年
成就勋章
TA的专栏
  • 论文阅读笔记
    172篇
  • 数据结构复习笔记
    5篇
  • C++
    1篇
  • NLP
    9篇
  • 实用代码
    25篇
  • 项目经验
    17篇
  • 实用方法
    7篇
  • 图像处理学习笔记
    1篇
  • 嵌入式学习笔记
    8篇
  • 电工学习笔记
    7篇
  • latex
    1篇
  • deeplearning学习笔记
    8篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

A Comparative Study of Image Restoration Networks for General Backbone Network Design 论文阅读笔记

董超老师通讯的一篇发表在ECCV2024的论文。顶会上很少出现这种study类的论文,但如果出现了,一般质量都很高。文章的动机是说,现有的restoration网络总是只能在某些restoration表现很好,而在另一些上表现就没有那么好。那么能不能设计一个网络能够在所有的restoration任务上都能有较高的性能呢,这叫generality。为了达到这个目的,必须了解各个restoration任务偏好什么样的网络结构和模块设计,找出共性。就结果而言,文章提出了一个新的网络结构叫X-Restorme
原创
发布博客 2024.11.08 ·
287 阅读 ·
3 点赞 ·
1 评论 ·
8 收藏

SPIRE: Semantic Prompt-Driven Image Restoration 论文阅读笔记

这是一篇港科大学生在google research 实习期间发在ECCV2024的语义引导生成式修复的文章,港科大陈启峰也挂了名字。从首页图看效果确实很惊艳,尤其是第三行能用文本调控修复结果牌上的字。不过看起来更倾向于生成,对原图内容并不是很复原(不过在生成式方法中已经做得很好了),适合超级噪声图这种原图信息丢失十分严重的场景:整体方法流程如下图所示,用的是stable diffusion的框架,甚至模型参数都是pretrain好后fix住的,在此之上,用controlnet的风格添加了另外一部分网
原创
发布博客 2024.11.07 ·
406 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

OneRestore: A Universal Restoration Framework for Composite Degradation 论文阅读笔记

这是武汉大学一作单位的一篇发表在ECCV2024上的论文,文章代码开源,文章首页图如下所示,做混合图像干扰去除,还能分别去除,看起来很牛逼。文章是少见的做混合图像干扰去除的,不过可惜只包含了3种degradation,而甚至不包含noise。三种分别是low-light,rain/snow,以及haze。文章认为一张degraded image,是由它对应的clear state通过以上提及的顺序叠加degradation生成的。其中low-light用retinex理论来分解,雨就直接加雨图,雪就
原创
发布博客 2024.11.07 ·
387 阅读 ·
2 点赞 ·
1 评论 ·
4 收藏

Restore Anything with Masks: Leveraging Mask Image Modeling for Blind All-in-One Image Restoration

这是南开大学第一单位的一篇发表在ECCV2024的一篇论文,李重仪老师是通讯作者,文章代码开源:https://github.com/Dragonisss/RAM文章的动机说是MIM没有很好地用到low level领域,所以要改进一下用到low level领域。。其实这样的动机有点危险,最好的动机是现在的方法有哪些问题,用一个新或老的方法能够解决这个问题,算是一个合乎逻辑的动机。而A方法暂时没有很好地用到B领域,所以要改进一下来用上去,感觉并不是一个好的理由。方法的流程如下所示:首先随机mask
原创
发布博客 2024.11.06 ·
320 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

MoE-DiffIR: Task-customized Diffusion Priors for Universal Compressed Image Restoration 论文阅读笔记

从bcd图可以看到(其实画得很含糊,不仔细,需要看附录,如下图),所谓MoE-Prompt,其实就是在原有的feature上,去和利用DA-CLIP对原图提取的degradation prior,进行交叉注意力,再用noisy top-k这个常用的MoE方法,得到top k个专家prompt,进行求和,再用结果的prompt去和feature计算矩阵乘法,得到经过MoE处理后的特征。用prompt learning来实现all-in-one的diffusion-based的压缩图像修复。
原创
发布博客 2024.11.06 ·
255 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

ee。
原创
发布博客 2024.10.30 ·
683 阅读 ·
4 点赞 ·
0 评论 ·
4 收藏

GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity 论文阅读笔记

这些分布可以保存着,当inference阶段需要选择多专家模型时,可以利用输入图像的SRResNet特征的GGD分布(分成patch),计算和这些degradation分布之间的相似度,来决定选择在哪个degradation上train的模型进行restoration。不过由于前面进行了degradation的分组,所以其实是计算组内GGD的平均,作为组GGD,然后计算输入图像和每个组的组GGD之间的KL散度,最小的那个即为对应组别,可以用对应组别train的模型进行inference。
原创
发布博客 2024.10.30 ·
339 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记

Efficient Cascaded Multiscale Adaptive Network for Image Restoration 论文阅读笔记这是新国立和新加坡管理大学发表在ECCV2024上的一篇image restoration的文章,提出了一个新的网络结构ECMA,从实验结果上看在超分,去噪,去模糊上都达到了SOTA,卷到这年头还有人在改进网络结构,真是不容易。网络结构如下图所示,整体上还是unet:每个block如下所示:这里的LAM就是local adaptive conv
原创
发布博客 2024.10.30 ·
351 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记

Contribution-based Low-Rank Adaptation with Pre-training Model for Real Image Restoration 论文阅读笔记ECCV2024的一篇文章,是韩国首尔国立大学发表的。代码没有开源文章的核心思想是想把LoRA用到Real Image Restoration上,来使得在多任务的restoration上的多专家模型可以共享大多数参数而只需要finetune一小部分参数,如下图所示。文章另一个创新点感觉是凑数的,就是pret
原创
发布博客 2024.10.30 ·
285 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion论文阅读笔记

比如有5个针对不同降质的数据集,那么就有5个label和5个text embedding,再加上他们的GT是 no artifact,一共6个label 6个text embedding,可以和图像进行对比学习,计算图像提取的embedding和这6个文本embedding之间的余弦相似度,再过softmax,得到概率分布,计算多分类损失,fix住text encoder,就可以finetune image encoder,从而得到一个用于提取图像质量embedding的image encoder。
原创
发布博客 2024.10.29 ·
1196 阅读 ·
5 点赞 ·
0 评论 ·
15 收藏

diffusion model 合集

diffusion model 整理DDPM:前向一步到位,从数据集里的图片加噪声,根据随机到的 ttt 决定混合的比例,反向要慢慢迭代,DDPM是用了1000步迭代。模型的输入是带噪声图和 t,t 先生成embedding后,用通道和的方式加到每一层中间去:训练过程是对每个样本分配一个随机的t,采样一个高斯噪声ϵ\epsilonϵ,然后根据 t 对图片和噪声进行混合,将加噪的图片和 t 送进模型,预测噪声,计算预测的噪声和ϵ\epsilonϵ的L2距离。测试过程则是采样一个高斯噪声xTx_T
原创
发布博客 2024.09.07 ·
734 阅读 ·
16 点赞 ·
0 评论 ·
26 收藏

用序列模型(GPT Bert Transformer等)进行图像处理的调研记录

VLM调研记录
原创
发布博客 2024.08.22 ·
1027 阅读 ·
15 点赞 ·
1 评论 ·
34 收藏

transdreamer 论文阅读笔记

这篇文章是对dreamer系列的改进,是一篇world model 的论文改进点在于,dreamer用的是循环神经网络,本文想把它改成transformer,并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉,dreamer用ht和xt来预测zt,但transformer要实现并行训练的话,最好是不要有ht,因为ht依赖transformer来预测,而transformer又需要zt作为输入,形成循环依赖就只能一步一步地生成。为此,把zt的预测改成只依赖于
原创
发布博客 2024.06.18 ·
463 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

Repetition Improves Language Model Embeddings论文阅读笔记

文章提出了一种提高decoder-only LLM的embedding能力的方法,叫echo embeddingslast-token pooling(即直接选最后一个token作为句子的embedding)和直接mean pooling都不如文章提出的echo embedding,做法是把句子重复两次,然后取第二次的token是的mean pooling。mean pooling的缺点是太强调句子的前面部分,last-token pooling是太强调句子的后面部分,而重复两次后,第二次的句子的起始
原创
发布博客 2024.06.18 ·
511 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

GRIT论文阅读笔记

一篇试图统一生成任务和编码任务的工作,就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单,就是在输入的时候添加instruction tokens来指引模型做representation还是generation,然后各自算损失。representation任务用的是document和query的对比学习。把最后一层的token给mean pooling(只对word tokens做,不对instruction做)出一个embedding算对比损失,做generation的时候就
原创
发布博客 2024.06.18 ·
354 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SGPT论文阅读笔记

这是篇想要用GPT来提取sentence embedding的工作,提出了两个框架,一个是SGPT-BE,一个是SGPT-CE,分别代表了Bi-Encoder setting和Cross-Encoder setting。CE的意思是在做阅读理解任务时,document和query是一起送进去,中间加个SEP token来做的,典型的是BERT。而GPT一般不是,但作者觉得GPT也可以是。也就是说,如果有k个document和一个新的query,需要把这个query和这k个document分别conca
原创
发布博客 2024.06.18 ·
531 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

LLM2Vec论文阅读笔记

这是篇LLM论文,用decoder-like的LLM去提取embedding文章认为,decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism,其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进,就将pre-trained decoder-only LLM into a universal text encoder:双向注意力,就是取消掉MSA的mask,用全1的mas
原创
发布博客 2024.06.18 ·
508 阅读 ·
7 点赞 ·
0 评论 ·
2 收藏

NV-Embed论文阅读笔记

l×dldr×drOl×d。
原创
发布博客 2024.06.18 ·
487 阅读 ·
6 点赞 ·
1 评论 ·
3 收藏

TWM论文阅读笔记

lzarzaht​ht​rt​γt​zt1​pf3l−1lht​rt​dt​γγγγγt​0γt​γγ0γot​ot​zt​ht​zt​。
原创
发布博客 2024.06.17 ·
860 阅读 ·
10 点赞 ·
1 评论 ·
16 收藏

STORM论文阅读笔记

这是篇NIPS2023的 world model 论文文章提出,WM的误差会在训练过程中积累从而影响policy的训练,向WM中加噪声可以改善这一点。其他的流程和IRIS差不多,差别在以下几点:image encoder,IRIS用的VQVAE, 本文用的是VAE,用VAE的采样方式来生成zt,从而为zt加噪声。sequence model,IRIS用GPT循环输出image的每个token,本文直接用MLP把生成的 ztz_tzt​ 和动作 ata_tat​ 输出成一个token,这样GPT
原创
发布博客 2024.06.17 ·
844 阅读 ·
24 点赞 ·
0 评论 ·
14 收藏
加载更多