![](https://img-blog.csdnimg.cn/1dd50499842f49cead7bfc89dcb65be4.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
读论文(SOD-COD-图像分割-Diffusion)
文章平均质量分 71
谢谢大家厚爱,收到了很多打赏既然大家喜欢这个专栏,那我就好好做下去。
说明:这个订阅是参加博客之星推广时候为了参加活动填写的,后来因为不熟悉操作没有及时取消,现在无法删除,只能改名,造成不便可以私信我。不用交费,所有文章都可以看到,不用订阅。
计算机视觉-Archer
专注于计算机视觉的[显著、伪装物体检测][图像分割][扩散模型]方向,分享“读论文-写论文-写代码”过程的爬坑经验~
展开
-
[读论文]---On Distillation of Guided Diffusion Models
输出拆分 noise_pred_uncond和noise_pred_text。输入合并 torch.cat([latents*2])2 conditional(w text)的unet。1 unconditional的unet。在之前的工作中存在下述问题。原创 2023-07-19 17:14:18 · 1707 阅读 · 0 评论 -
报错 The server socket has failed to bind to [::] Pytorch中DDP中断训练报错
报错如下。原创 2023-07-18 17:07:43 · 2504 阅读 · 0 评论 -
[读论文]---[高效COD] DGNet:Deep Gradient Learning for Efficient CamouflagedObject Detection
值得注意的是,我们的高效版本DGNet-S可以实时运行(80fps),并且只需要6.82%的参数就可以获得与尖端模型JCSOD-CVPR21相当的结果。应用结果表明,所提出的DGNet在息肉分割、缺陷检测和透明目标分割等任务中表现良好。2)我们进一步利用两个带有过滤器的堆叠层来减少每个候选特征的维度,有助于减轻后续操作的计算负担。如图3所示,我们建议用两个独立的en编码器,一个上下文和一个纹理编码器来建模伪装的表示。得益于简单而高效的框架,DGNet在很大程度上优于现有的最先进的COD模型。原创 2023-07-06 16:35:46 · 269 阅读 · 0 评论 -
[读论文][]MVDiffusion: Enabling Holistic Multi-view ImageGeneration with Correspondence-Aware Diffusion
不同于以往的模型依赖于迭代图像扭曲和上漆,MVDiffusion同时生成具有全局感知的所有图像,包括高分辨率和丰富的内容,有效地解决了之前模型普遍存在的误差积累问题。在全景图像方面,MVDiffusion可以生成高达1024×1024像素的高分辨率逼真图像。对于几何条件下的多视图图像生成,MVD-iffusion展示了第一种能够生成a的纹理图的方法。MVDiffusion特别集成了一个对应感知的注意机制,实现了有效的跨视图交互。,例如全景图像的透视作物或给定几何形状的多视图图像(深度图和姿势)。原创 2023-07-05 15:12:36 · 565 阅读 · 3 评论 -
[读论文][2s生成] SnapFusion: Text-to-Image Diffusion Model on MobileDevices within Two Seconds
通过改进的Step蒸馏和扩散模型的网络架构开发,我们引入的模型SnapFusion在不到2秒的时间内从移动设备上的文本生成512 × 512的图像,而图像质量与Stable difFusion v1.5[4]相似(参见图1中我们方法的示例图像)。A∈{A+,−Cross-Attention[i,j], A+,−ResNet[i,j]},其中A+,−表示在相应位置(阶段i,块j)移除(−)或添加(+)交叉注意或ResNet块的动作。模型尺寸的优化可以类似地进行,并留给未来的工作。原创 2023-06-13 01:38:30 · 396 阅读 · 0 评论 -
[读论文] [ 蒸馏-diffusion] BOOT : Data-free Distillation of Denoising DiffusionModels with Bootstrapping
然而,传统方法,如Luhman & Luhman(2021),需要执行完整的教师抽样来为每次学生更新生成合成目标,这对于提取StableDiffusion等大型扩散模型是不切实际的(SD, Rombach等人,2021)。例如,我们可以通过提取文本到图像的模型和相应的提示(如图3所示)来获得一个高效的“浣熊宇航员”图像合成模型,尽管在现实中很难收集到这样的数据。并近似中间扩散模型变量:gθ(λ, t)≈xt = ODE-Solver(fφ, λ, t→t), λ ~ N (0, I)。原创 2023-06-12 20:45:47 · 265 阅读 · 0 评论 -
[读论文][谷歌-12s生成] Speed is all your need
然而,com许多大型扩散模型具有超过10亿个参数,并且由于设备上有限的计算和内存资源而带来挑战。,这些模型在GPU上实现了迄今为止最快的推断延迟(对于512 × 512图像,在。这些模型的设备上部署提供了诸如降低服务器成本、脱机功能和改进用户隐私等好处。大型扩散模型因其生成逼真图像和支持各种任务的能力而在上获得了显著的关注。这些增强扩大了生成式人工智能的适用性,并在各种设备上改善了整体用户体验。基础模型的快速发展和应用给人工智能领域带来了革命性的变化。一系列针对大型扩散模型的实现优化。原创 2023-06-09 16:03:40 · 920 阅读 · 0 评论 -
[读论文][backbone][DiffKD] Knowledge Diffusion for Distillation
此外,为了证明我们在消除教师和学生特征之间差异方面的有效性,我们还在具有更先进的教师模型的更强的教师设置上实现了DiffKD,并且我们的方法显着优于现有方法。我们的经验表明,这个简单的去噪过程可以生成一个去噪的学生特征,该特征与相应的教师特征非常相似,从而确保我们的蒸馏可以以更一致的方式执行。值得注意的是,我们的方法DiffKD的优点之一是特征不可知,知识扩散可以应用于不同类型的特征,包括中间特征、分类输出和回归输出。[17]通过学习识别有助于任务精度的接受区域,提取特征中有价值的信息,忽略噪声区域。原创 2023-06-13 16:32:45 · 626 阅读 · 0 评论 -
SOD领域RGBD算法-训练集设置
整个实验分为两部分:1 DUT-RGBD分为训练集和测试集训练集 DUT-RGBD-Train (800)测试集 DUT-RGBD-Test (400)2 NJU2K, NLPR也均被分为两个训练集和测试集,并把训练集合并训练集 NJU2K-NLPR-Train (2185=1485+700)测试集 LFSD (100), RGBD125 (135), SIP (929), SSD(80), STEREO(1000)NJU2K-Test (500), NLPR-Test(300)原始的.原创 2021-02-03 21:52:07 · 1327 阅读 · 4 评论 -
RGBT 对比算法 实验设置
2021-TIP-MIDDbackbone is VGG16(效果好) and ResNet50VT821-VT1000-VT5000训练集:VT5000-TR的训练集2500做训练集测试集:VT5000-TE,VT821,VT1000MTMR(RGBT)(t传统方法)M3S-NIR(RGBT)(t)SGDL(RGBT)(t)ADF(RGBT)MIDD(RGBT)DMRA(RGBD)S2MA(RGBD)PFA(RGB-早期融合)R3Net(RGB)BASNet(RGB)PoolNe原创 2021-10-14 15:49:54 · 1826 阅读 · 0 评论 -
读论文--Token Merging for Fast Stable Diffusion(用于快速Diffusion模型的tome技术)
调整以获得更高的速度。然而,如果我们可以接受保真度的下降(b),我们可以获得更多的加速,但有一个极限(c),在这个极限之后,大多数时间都被我们无法控制的模块占用,导致几乎没有进一步的加速。在对令牌合并(ToMe)进行了一些特定于扩散的改进后,我们的ToMe for Stable diffusion可以将现有稳定扩散模型中的令牌数量减少60%,同时仍然可以在没有任何额外训练的情况下生成高质量图像。虽然一些细微的细节可能会丢失(例如,在狗和鸟的背景中),但我们的方法仍然能很好地处理复杂的场景(如珊瑚礁)。原创 2023-04-23 12:19:58 · 867 阅读 · 0 评论 -
读论文---ViT是参数有效的视听学习者-Visio Transfermers are Parameter-Efficient Audio-Visual Learners
在我们的实验部分,我们证明,通过冻结所有原始ViT参数,仅更新一小部分新添加的参数,仅对图像数据进行预处理的冻结ViT可以学习解决需要联合理解音频和视频内容的复杂视听理解任务。语言处理(NLP)[5,12,38,39,48,56,61,87],计算机视觉(CV)[3,7,17],音频分析[19,20,82],语音处理[4,70,74]。相比之下,大多数现代计算视听模型[32,35,76,77,79,81,88]单独研究这些模态中的每一种,这导致了单独定制的模态特定模型。原创 2023-01-07 22:40:00 · 165 阅读 · 0 评论 -
读论文---Clip微调---CLIP Itself is a Strong Fine-tuner
CLIP Itself is a Strong Fine-tuner原创 2022-12-29 21:55:29 · 2274 阅读 · 0 评论 -
MTA期刊 (Multimedia Tools and Application)回复---缺少利益冲突、
Multimedia Tools and Application原创 2022-12-29 00:36:52 · 2333 阅读 · 0 评论 -
代码解析---MaskFormer
MaskFormer原创 2022-12-28 14:12:47 · 1006 阅读 · 0 评论 -
读论文---DETR
DETR原创 2022-12-28 13:28:50 · 439 阅读 · 0 评论 -
数据集说明:COCO的两个数据集COCO-stuff和COCO-Caption
的379249个字幕,包括MS COCO c5的179189个字幕和MS COCO c40的200060个字幕。语义类可以是事物(具有明确定义的形状的对象,例如汽车、人)或事物(无定形背景区域,例如草地、天空)。对于每个测试图像,我们收集了一个额外的字幕来计算人类表现的分数,以比较机器生成的字幕的分数。(a) 物质和事物类在其表面覆盖方面的重要性,以及它们在图像字幕中被提及的频率;(b) 东西之间的空间关系,突出丰富的上下文关系,使我们的数据集独一无二;对于培训和验证图像,将提供五个独立的人工生成字幕。原创 2022-12-27 15:57:37 · 3868 阅读 · 0 评论 -
[读论文]-Language as Queries for Referring Video Object Segmentation(R-VOS)有参考视频对象分割
参考视频对象分割(R-VOS)是一项新兴的跨模态任务,旨在分割所有视频帧中由语言表达式引用的目标对象。原创 2022-12-26 11:49:09 · 1218 阅读 · 0 评论 -
HRTransNet阅读理解
在模块右侧,从下到上,解码功能fi被添加到具有更高分辨率的所有TripleIT Tj(j=i−1,··,1)。接下来,从HRFormer的输出特征fio(i=1,··,4)中聚集信息是密集预测任务的必要操作。的相关性进行建模,实现基于自身和相关特征的主特征优化。首先,将所有具有不同分辨率的特征划分为多个token,每个token的大小为1×1×128。来聚合HRFormer的所有多分辨率输出特征,以生成解码特征F={fi}4i=1。在模块的左侧,从上到下,高分辨率特征附加到所有低分辨率特征。原创 2022-12-25 18:25:14 · 1155 阅读 · 0 评论 -
读论文---MaskFormer论文解读
这里引用去年知乎上特别火的一个关于语义分割的提问,我们会发现大部分的回答都是停留在像素分类这个框架下讨论语义分割还有什么可以做的。像素分类极大的简化了语义分割,把它从一个分割(segmentation,或者是pixel grouping)的问题变成了一个分类(classification,或者是recognition)的问题。自从Fully Convolution Networks (FCNs)问世以来,语义分割问题就被默认当做一个像素分类问题来解决了(Figure 1 左边图)。原创 2022-12-24 22:57:43 · 1283 阅读 · 0 评论 -
读论文-OVSeg-基于遮罩自适应CLIP的开放词汇语义分割-Open-vicabulr semantic segmentation with mask-adaptived CLIP
特别是,当在COCO上进行培训并在ADE20K-150上进行评估时,我们的最佳模型实现了29.6%的mIoU,比之前的最先进水平提高了+8.5%。Cheng等人,2021),但现代语义切分模型主要是用预定义的类别进行训练,未能推广到看不见的类。与具有固定类的更精确和手动注释的分割标签(例如,COCO Stuff)相比,我们发现我们的嘈杂但多样的数据集可以更好地保留CLIP的泛化能力。我们通过挖掘现有的图像字幕数据集(例如,COCO字幕)收集训练数据,使用CLIP将掩蔽的图像区域与图像字幕中的名词相匹配。原创 2022-12-23 16:50:01 · 754 阅读 · 0 评论 -
结合试听分割任务(AVS)学习KL散度
2.也就是说,如果一些frames的audio feature在特征空间上是相似的,对应的发声对象会被期待在特征空间上接近。1.负责确保masked visual feature 与对应的audio feature有很强的相似性。对于半监督的S4数据集,作者发现audio-visual regularization损失(全部的目标函数objective function。Y是像素级标签 pixel-wise label。M是预测图 prediction map。每个stage都下采样预测图M到。原创 2022-12-12 20:22:33 · 125 阅读 · 0 评论 -
服务器-Royal TSX 在Mac上优雅的使用ssh和sftp (像win上的xshell和xftp一样)
mac添加sftp里面,报错说An error occurred while executing the action 'Get Files'. Details: Access to the path '/Users/zjc/Downloads' is denied.点击左下角加号,依次选这两个,因为一样,所以以终端为例。在document里面添加ssh和sftp。@xxx.xxx.xxx.xx前面部分)我在设置sftp的时候遇到问题说。下载Royal TSX。选择传输文件的本地位置。原创 2022-12-09 17:53:45 · 2838 阅读 · 0 评论 -
Xinlei cheng报告学习
sequence 变长 可以减少可一看见的token,但是直接变mask token比较有效。coco的话(相对于imagenet小很多),加长训练有帮助。cumulative probability 累计概率。contrastive learning 对比学习。下面是momuten encoder。symmetrizationsy均衡。autoregressive自回归。裁剪后variance方差变大。distillation蒸馏。对于imagenet帮助不大。convergence收敛。原创 2022-12-09 13:01:24 · 337 阅读 · 0 评论 -
AVS-试听分割-论文阅读
题目: Audio-Visual Segmentation论文地址:https://arxiv.org/abs/2207.05042GitHub地址:https://github.com/OpenNLPLab/AVSBench项目主页:https://opennlplab.github.io/AVSBench/ We propose to explore a new problem called audio-visual segmentation (AVS), in which the goal is to原创 2022-12-07 17:21:15 · 456 阅读 · 1 评论 -
试听分割-AVS-技术核心
-AVS-论文介绍原创 2022-11-30 23:00:48 · 106 阅读 · 0 评论 -
SegNeXt学习
SegNeXt学习 SegFormer原创 2022-12-02 00:18:13 · 297 阅读 · 0 评论 -
2022-ICLR-Lseg:语言驱动的语义分割
Lseg原创 2022-10-16 15:54:40 · 528 阅读 · 0 评论 -
CVPR2022-CVPR-GroupVit:由文本监督的语义分割生成的
groupvit原创 2022-10-16 15:22:33 · 668 阅读 · 0 评论 -
TMM期刊-终版提交-过程介绍
TMM期刊-终版提交-过程介绍原创 2022-09-20 18:46:48 · 2336 阅读 · 0 评论 -
Nature、science、cell旗下刊物
Nature\science\cell子刊说明原创 2022-06-24 20:22:48 · 2095 阅读 · 0 评论 -
MINet算法Config.py文件详细说明
MINet算法的Config.py文件的详细使用说明原创 2022-06-24 15:36:43 · 280 阅读 · 0 评论 -
读论文-SOD-U2Net算法研究
U2Net论文要点说明原创 2022-06-23 22:28:14 · 687 阅读 · 0 评论 -
Python画图-中使用plt生成的图的legend,设置字体大小
pltpython的plt设置字体大小原创 2022-06-19 12:01:26 · 11921 阅读 · 0 评论 -
latex图片旋转
width=0.5\columnwidth, height=15cm,angle=90]原创 2022-03-16 22:34:56 · 4913 阅读 · 0 评论 -
Ubuntu 无法移动窗口
解决办法: alt F7 在 Gnome 桌面中,可以按 Alt+F7 进入移动窗口状态,然后用方向键移动,用回车键结束移动。原创 2022-01-07 21:24:20 · 1320 阅读 · 0 评论 -
JCR分区与中科院分区详解-中科院基础版和升级版详解
https://baijiahao.baidu.com/s?id=1642002458698070188&wfr=spider&for=pcJCR分区科睿唯安每年出版JCR《期刊引用报告》,JCR将收录的期刊分为176个不同学科类别,每个学科类别按照期刊影响因子的高低,划分了4个区,影响因子排在前25%的期刊为Q1区,影响因子排在25%-50%期刊为Q2区,影响因子排在50%-75%的期刊为Q3区,影响因子排在75%之后的为Q4区。这就是JCR分区中科..原创 2020-12-22 19:38:57 · 5594 阅读 · 0 评论