CV论文笔记
文章平均质量分 91
工大CV小王子|ω・)
这个作者很懒,什么都没留下…
展开
-
《TAM》论文笔记(上)
由于相机运动、速度变化和不同活动等因素,视频数据具有复杂的时间动态。为了有效地捕捉这种多样化的运动模式,本文提出了一种新的时间自适应模块(TAM),根据自己的特征图生成视频特定的时间核。TAM提出了一种独特的两级自适应建模方案,将动态核解耦为位置敏感重要性图和位置不变聚合权重。重要性图是在局部时间窗口中学习的,以捕获短期信息,而聚合权重是从全局视图生成的,重点是长期结构。原创 2024-05-09 23:36:06 · 1088 阅读 · 0 评论 -
《Tam》论文笔记(下)
此外,我们的全局分支本质上执行一个视频自适应卷积,其滤波器的大小为1 × k × 1 × 1,而正常3D卷积中的每个滤波器的大小为C × k × k,其中C为通道数,k为接收野。这两个分支侧重于时间信息的不同方面,其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征,而全局分支旨在结合远程时间结构来指导具有全连接层的自适应时间聚合。我们的TAM由两个分支组成:局部分支L和一个全局分支G,旨在学习位置敏感的重要性图来增强鉴别特征,然后产生位置不变权值,以卷积的方式自适应地聚合时间信息。原创 2024-05-09 23:16:01 · 561 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(1)Mamba在时序建模中的作用
理解视频是计算机视觉研究的基本方向之一,在大量致力于探索 RNN、3D CNN 和 Transformer 等各种架构的工作的努力下。新提出的状态空间模型架构,例如 Mamba,展现出了其能够将长序列建模方面的成功扩展到视频建模领域的良好特性。为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中,我们进行了一组全面的研究,探索 Mamba 在视频建模中可以扮演的不同角色,同时研究 Mamba 可能展现出良好性能的不同任务。原创 2024-05-06 15:26:01 · 1150 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用
对于由 M 帧组成的给定输入,我们在对应于每一帧的标记序列的中间插入 cls 标记。有趣的是,尽管 ImageNet-1K 上 ViT-S [69] 和 ViM-S [96] 之间的性能差距很小(79.8 vs. 88.5),ViViM-S 在零样本多实例检索上显示出比 ViT-S 的显着改进(+2.1 mAP@Avg)。通过Video Mamba Suite,包括14个模型/模块12个视频理解任务,我们证明了Mamba能够有效地处理复杂的时空动态,表现出优越的性能和有前途的效率-性能权衡。原创 2024-05-06 17:04:42 · 1069 阅读 · 2 评论 -
《Video Mamba Suite》论文笔记(3)Mamba作为时序适配器的作用
这确保了新模型的输出与原始模型的输出相匹配。值得注意的是,标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2),其中C指的是特征维度。值得注意的是,与时间自注意力块相比,我们使用的 VIM 时间块的参数更少,突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。令人惊讶的是,我们观察到时空 ViM 块虽然在时空级别引入了全局建模,但实际上会导致性能下降(ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。原创 2024-05-06 16:25:48 · 1043 阅读 · 0 评论 -
《Video Mamba Suite》论文笔记(2)Mamba对于多模态交互的作用
对于 Charade-STA [28],基于 Mamba 的方法也实现了相当的性能。鉴于 Mamba [30] 是一个基于线性扫描的模型,而转换器基于全局令牌交互,直观地说,我们认为标记序列中文本的位置。为了研究这一点,我们在表 7 中包含了不同的文本视觉融合方法,而图 3 说明了四种不同的标记排列。Qvhighlight[44]受到这种融合的影响较小,而 Charade-STA [28] 对文本位置表现出特别的敏感性,这可能是由于数据集的特征。最后,取出文本增强的视频特征̃Ve,然后送入预测头。原创 2024-05-06 16:04:01 · 459 阅读 · 0 评论 -
《Vid2Seq》论文笔记
在这项工作中,我们引入了Vid2Seq,这是一种多模态单阶段密集事件字幕模型,它在大规模可用的叙述视频上进行了预训练,Vid2Seq 架构使用特殊的时间标记(time tokens)增强了语言模型,使其能够同时预测同一输出序列中的事件边界和文本描述。这种统一的模型需要大规模的训练数据,这在当前的注释数据集中是不可用的。我们表明,通过将转录语音的句子边界重新表述为伪事件边界,并使用转录的语音句子作为伪事件字幕,可以利用未标记的叙述视频进行密集视频字幕。原创 2024-04-22 21:07:32 · 1569 阅读 · 4 评论 -
《GVL》论文笔记
近年来,联合视频-语言学习受到越来越多的关注。然而,现有的工作主要集中在单个或多个修剪的视频剪辑(事件),这使得人工注释的事件边界在推理的过程中变得很重要。为了摆脱这种关系,我们提出了一个针对未修剪视频的基础视觉语言学习框架,该框架自动检测信息事件并有效地挖掘多句描述与相应事件段之间的对齐。我们没有粗略的视频语言对齐,而是提出了两个双重先验任务(pretext task)来促进细粒度的段级对齐,即文本到事件的定位 (TEG) 和事件到文本生成 (ETG)。原创 2024-04-15 01:11:57 · 905 阅读 · 1 评论 -
《PDVC》论文笔记
传统的二阶段方法通过将注意力区域限制在事件边界内来对齐事件片段及其标题,但本文的标题头不能访问事件的边界,增加了学习语言单词和帧之间关系的优化难度。最后,选择置信度最高的个事件作为最终的结果。然后,就得到一组元组,,来表示检测到的事件,其中是事件查询的定位置信度。为了在视频中捕获丰富的时空特征,首先采用了一个预训练的动作识别网络来提取帧级的特征,并通过插值算法将特征图的时间维度缩放到固定长度,以方便。之间的互相促进,作者直接检测一组具有适当时间长度的标题,其中分别表示事件的开始时间、结束时间和事件的标题。原创 2024-04-03 18:54:03 · 1202 阅读 · 1 评论 -
《VMamba》论文笔记
我们证明了通过mamba[12]引入的选择性扫描机制,所提出的VMamba能够匹配现有流行的视觉基础模型,如ResNet[19]、ViT[10]、swin[27]和convnext[29],显示了VMamba作为强大基础模型的潜力。早期基于vit的模型通常需要大规模的数据测试[10],并以朴素的配置出现[54,58,1,31]。在强大的计算设备(GPU)和大规模数据集[7]的帮助下,越来越深入的[38,41,19,22]和高效的模型[20,42,52,36]被提出,以提高跨视觉任务的性能。原创 2024-03-30 20:53:47 · 1198 阅读 · 0 评论 -
《VideoMamba》论文笔记
基于注意力的模型[2,4,59,63,89]的引入,如TimeSformer[4]和ViViT[2],通过有效地捕获视频序列中的远程依赖关系,增强了时间关系的理解,取得了显著的进展。结果如图6a所示,表明该策略可以获得预期的更好的收敛性。(1)视觉域中的可扩展性:我们检查 VideoMamba 的可扩展性并发现,虽然纯 Mamba 模型随着规模的增加而趋于过拟合,但我们引入了一种简单而有效的自蒸馏策略,允许 VideoMamba 随着模型和输入大小的增加而实现显着的性能改进,而无需大规模数据集预训练。原创 2024-03-29 22:08:13 · 1160 阅读 · 0 评论 -
《Vision mamba》论文笔记
最近,具有高效硬件感知设计的状态空间模型 (SSM),即 Mamba 深度学习模型,在长序列建模方面显示出巨大潜力。同时,纯粹基于SSM构建高效通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和全局上下文对视觉理解的要求,表示视觉数据对SSMs具有挑战性。在本文中,我们表明,不需要依赖自注意力进行视觉表示学习并提出了一种新的具有双向 Mamba 块 (Vim) 的通用视觉主干,它使用位置嵌入标记图像序列并使用双向状态空间模型压缩视觉表示。原创 2024-03-28 21:54:45 · 1865 阅读 · 0 评论 -
Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)
现在为深度学习中大多数令人兴奋的应用程序提供动力的基础模型,几乎普遍基于Transformer架构及其核心的注意力模块。许多subquadratic-time(次二次时间)架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(ssm)已经被开发出来,以解决Transformer在长序列上的计算效率低下问题,但它们在语言等重要模态上的表现不如注意力。我们发现这些模型的一个关键弱点是它们无法执行基于内容的推理,并进行了一些改进。首先,简单地让SSM参数成为输入的函数,通过离散模态。原创 2024-03-26 17:28:08 · 1237 阅读 · 1 评论 -
YOLOV1-V9发展历程(1) (V1-V5)
1、准确 (候选框多,效果自然好一些)1、慢 2、候选框太小不能看到整个图像的全景(管中窥豹)(会丢失信息:背景|背景和前景之间的关系|不同物体之间的关系|全图的关系)速度快,不需要复杂的上下游产业链的协同,也不需要对每一个工序单独的训练和优化,是一个,端到端,完整统一的框架但准确率不高,对小目标和密集目标识别效果不好(当然这是以前的说法了)better:比V1性能提升。准确率高Faster:比V1更快Strong:V2能检测9000多种类别。原创 2024-03-19 17:15:58 · 1711 阅读 · 2 评论 -
SwinTransformer论文笔记
Patch Merging顾名思义就是把临近的小patch合并成一个大patch,这样就可以起到下采样一个特征图的效果了,文中的的patch Merging是想下采样两倍,所以说在选点的时候是每隔一个点选一个,经过隔一个点采一个样之后,原来这个张量就变成了四个张量,,如果原张量的维度是h*w*c,经过这次采样之后就得到了四个张量,每个张量的大小是h/2、w/2,4c它的尺寸都缩小了一倍,相当于用空间上的维度换了更多的通道数。在浅层的卷积层中,卷积核的感受野较小,只能看到输入特征图的局部区域。原创 2024-03-14 14:35:44 · 855 阅读 · 0 评论 -
《Learning Hierarchical Modular Networks for Video Captioning》论文笔记
1、文章作者提出了一个分层模块化网络(HMN),在生成字幕之前,以四个粒度连接视频表示和语言语义:实体、动词、谓词和句子。每个级别由一个模块实现,以将相应的语义嵌入到视频表示中。2、提出了一个基于字幕场景图的强化学习模块,以更好地衡量句子的相似性。视频字幕旨在为给定的视频剪辑生成自然语言描述。现有方法主要侧重于通过预测字幕和真实文本之间的逐字比较进行端到端表示学习。尽管取得了重大进展,但这种监督方法忽略了视觉和语言实体之间的语义对齐,这可能会对生成的字幕产生负面影响。在这项工作中,我们提出。原创 2024-03-14 14:28:42 · 1407 阅读 · 0 评论 -
DETR学习笔记
PaperReader上搜索EndtoEnd。原创 2024-03-07 21:02:37 · 973 阅读 · 0 评论 -
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
对比语言-图像预训练(CLIP)在从不同任务中从图像中提取有价值的内容信息方面起着至关重要的作用。它将文本和视觉模式对齐以理解整个图像,包括所有细节,即使是与特定任务无关的细节。然而,为了更精细地理解和控制图像的编辑,关注特定感兴趣区域变得至关重要,这些区域可以表示为点、掩码或框由人类设置或由模型生成。为了满足需求,我们引入了Alpha-CLIP,这是一个增强的CLIP版本带有辅助alpha通道,以建议注意区域,并使用构建的数百万个RGBA区域-文本对进行微调。原创 2024-03-04 22:12:47 · 930 阅读 · 0 评论