工大CV吴彦祖-CSDN博客

原创 Efficient DETR: Improving End-to-End Object Detector with Dense Prior

原文链接原文笔记WhatWhyChallengeHowWe define the object container as a container of structured information, which includes different kinds of object features. Object queries and reference points both belong to the object container, since the object queries and the

2024-09-26 16:53:00 737

原创《Pyramid Vision Transformer》论文笔记

尽管卷积神经网络 (CNN) 在计算机视觉中取得了巨大成功，但这项工作研究了一种更简单、无卷积的骨干网络，可用于许多密集预测任务。与最近提出的专门为图像分类设计的Vision Transformer (ViT) 不同，我们引入了金字塔视觉转换器 (PVT)，它克服了将 Transformer 移植到各种密集预测任务的困难。与现有技术相比，PVT有几个优点。(1) 与通常产生低分辨率输出并产生高计算和内存成本的 ViT 不同，PVT 不仅可以在图像的密集分区上进行训练以实现高输出分辨率，

2024-09-19 20:55:53 881

原创 RuntimeError: Expected to have finished reduction in the prior iteration...引起原因及解决办法

这个报错的意思是说，希望在新的一轮迭代之前完成减少操作，（我理解就是一次forward处理一个batch的数据对模型参数进行梯度下降反向传播更新参数）然后造成这种问题的原因是因为模型中有的参数在产生损失的过程中完全没发挥作用（也就是没经过前向传播，无法通过pytorch的图网络结构计算更新的参数）寻找哪些需要计算梯度但是没有梯度的模块(众所周知，一般直接调用的封装好的模块的requires_grad都是True，自己设置的层的requires_gard需要指定为True），打印出来。不行，必须自己弄明白！

2024-09-06 16:34:30 758

原创 CCFF：RT-DETR中的CCFF结构代码详解(Pytorch)

基于上述分析，我们重新思考编码器的结构，提出了一种有效的混合编码器，由基于注意力的尺度内特征交互（AIFI）和基于 CNN 的跨尺度特征融合（CCFF）两个模块组成。然而，由于缺乏语义概念以及重复和与高级特征交互混淆的风险，低级特征的尺度内交互是不必要的。CCFF是作者提出的一种类似于特征金字塔的特征融合模块，S3，S4，S5是backbone的后三层，作者在论文中证明了只对S5进行尺度内交互，而不对更低级别的特征进行尺度内交互，并对次做法的合理性进行了证明，再次不多赘述。省略一部分位置编码的代码。

2024-08-12 20:57:00 1046

原创《RT-DETR》论文笔记

YOLO系列因其速度和准确性之间的合理权衡而成为实时目标检测最流行的框架。然而，我们观察到 YOLO 的速度和准确性受到 NMS 的负面影响。最近，端到端基于变压器的检测器 (DETR) 提供了一种消除 NMS 的替代方案。然而，高计算成本限制了它们的实用性，阻碍了它们充分利用排除NMS的优势。在本文中，我们提出了实时检测转换器(RT-DETR)，据我们所知，这是解决上述困境的第一个实时端到端对象检测器。我们分两步。

2024-08-08 20:48:56 1247

原创《RWKV》论文笔记

这些通常涉及复杂的顺序数据处理任务比如自然语言理解任务，会话AI，时间序列分析，和间接顺序格式，如图像和图表(Brown等人，2020;到目前为止，我们将我们的模型扩展到多达 14 亿个参数，是迄今为止训练的最大密集 RNN，发现 RWKV 的性能与类似大小的 Transformer 相当，这表明未来的工作可以利用这种架构来创建更有效的模型。在该架构中，计算中涉及的所有线性投影向量(R, K, V，通道混合中的R '， K ')都是通过当前时间步输入和前一个时间步输入之间的线性插值产生的，促进令牌移位。

2024-07-09 20:50:43 1237

原创 AFT：Attention Free Transformer论文笔记

其中 W Q i ∈ R^d×dk , W K i ∈ R^d×dk , W V i ∈ R^d×dv 是头部 i 的线性变换，σ 是默认设置为 sof tmax 函数的非线性（应用于矩阵的每一行）。dk, dv 分别是键和值的维度。我们表明，AFT 提供了具有竞争力的性能，通常匹配或击败标准 Transformer 和其他变体（的准确度），同时提供了出色的效率。我们还对 AFT 的几种设计选择进行了广泛的消融研究，并讨论了它的独特属性，例如与 Transformer的兼容性、稀疏性和输入大小的可变性。

2024-07-09 17:04:58 934

原创《ClipCap》论文笔记（下）

可以看出，我们生成的标题是有意义的，并且成功地描述了两个数据集的图像。可以看出，我们的概念字幕模型可以很好地推广到任意看不见的图像，因为它是在相当大的和多样化的图像集上训练的。例如，我们的方法识别木勺或蜡烛比图 3 中的 Oscar 更好的蛋糕，因为 CLIP 是在一组不同的图像上进行预训练的。与Li等人[19]类似，我们使用常用指标BLEU[27]、METEOR[10]、CIDEr[37]和SPICE[3]在COCO数据集上验证我们的结果，以及使用CIDEr和SPICE的nocaps数据集。

2024-07-04 20:06:41 1137 1

原创《ClipCap》论文笔记（上）

mapper/mapper输出的带prefix的序列就是做一个CLIP和GPT2的桥梁，如果是训练时不冻结decoder则decoeder和mapper都适应clip，效果自然好，这会儿用mlp或者tansformer结构的mapper都可以，但是作者又通过实验证明：我们得出结论，当采用语言模型的微调时，转换器体系结构的表达能力是不必要的。；如果decoder冻结，mapper就完全当一个转接器做一个承上启下的作用，这时候就更建议用能力更强的Transformer结构的mapper。

2024-07-04 14:28:31 933

原创 (Python)可变类型&不可变类型；引用传递&值传递；浅拷贝&深拷贝

可以看到修改i的值不会造成数组a的值的修改，而修改j的值会造成数组b的值的修改，这是为什么呢？

2024-06-18 19:59:20 483

原创《KAN》论文笔记

受 Kolmogorov-Arnold 表示定理的启发，我们提出了 KolmogorovArnold Networks (KANs) 作为多层感知器 (MLP) 的有前途的替代方案。虽然 MLP 在节点（“神经元”）上具有固定激活函数，但 KAN 在边上（“权重”）具有可学习的激活函数。KAN 根本没有线性权重——每个权重参数都被参数化为样条的单变量函数所取代。我们表明，这种看似简单的变化使得 KAN 在准确性和可解释性方面优于 MLP。对于准确性，在数据拟合和 PDE 求解中，较小。

2024-05-28 14:19:18 1455 3

原创 Vision Mamba代码笔记

事实上Vision Mamba重写了这个Mamba类，可以看到里边是由bimamba_type这个参数的（这其实也是Vision Mamba的主要贡献），执行如下代码。值得说明的一点是，如果你之前在跑其他的mamba，环境拿过来是不能直接直接用的，因为标准的Mamba类是没有bimamba_type这个参数的，所以，需要去Vim代码官网去找到mamba-1p1p1包，下载之后放自己项目里。按照官方readme.md配置，如果有问题照着下面这个链接改。我手敲的带中文注释的链接。

2024-05-20 21:56:33 4559 9

原创《KAN》的四个问题（转自b站耿直哥）

x和y经过直线求和再二次函数对应x加y的平方，而二者直接二次函数激活对应x方和y方，过反斜杠直线相当于求差，简直就是所见即所得，这带来了两大好处，正着用算法可以实现数据内在模式的探索和发现，反着用能把世界模型和学科知识嵌入网络结构，让Sora这样的模型长上翅膀，实现对物理世界的真实模拟。除此之外他还提出了新的网络结构自适应算法：在初始网络上通过稀疏化，剪枝，设定特定的激活函数，训练放射参数，符号化等步骤进行优化，大大提升了网络的可解释性让神经网络这个黑河训练的老大难问题得到了极大的缓解。

2024-05-20 15:58:59 690

原创《TAM》论文笔记（上）

由于相机运动、速度变化和不同活动等因素，视频数据具有复杂的时间动态。为了有效地捕捉这种多样化的运动模式，本文提出了一种新的时间自适应模块(TAM)，根据自己的特征图生成视频特定的时间核。TAM提出了一种独特的两级自适应建模方案，将动态核解耦为位置敏感重要性图和位置不变聚合权重。重要性图是在局部时间窗口中学习的，以捕获短期信息，而聚合权重是从全局视图生成的，重点是长期结构。

2024-05-09 23:36:06 1336

原创《Tam》论文笔记（下）

此外，我们的全局分支本质上执行一个视频自适应卷积，其滤波器的大小为1 × k × 1 × 1，而正常3D卷积中的每个滤波器的大小为C × k × k，其中C为通道数，k为接收野。这两个分支侧重于时间信息的不同方面，其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征，而全局分支旨在结合远程时间结构来指导具有全连接层的自适应时间聚合。我们的TAM由两个分支组成:局部分支L和一个全局分支G，旨在学习位置敏感的重要性图来增强鉴别特征，然后产生位置不变权值，以卷积的方式自适应地聚合时间信息。

2024-05-09 23:16:01 788

原创 Pycharm远程同步的mapping与sync

区别就是，2包括1，要用服务器环境跑，项目也要放到服务器上，用2的同时会自动建立一个1的mapping链接，创建虚拟环境链接之后用1的步骤打开mapping可以发现已经创建对应mapping。如果修改这个mapping的值之前的sync的值也会改动，其实mapping的值就是用sync初始化的，在链接完虚拟环境之后就不存在sync的值了。再一个就是，每次Upload都是用mapping指向的地址进行Upload的。一个是链接虚拟环境的时候会有一个sync，那么这两种同步有什么区别呢？

2024-05-07 23:08:49 451

转载 apex安装解决ModuleNotFoundError: No module named ‘packaging‘ error: subprocess-exited-with-error

【代码】apex安装解决ModuleNotFoundError: No module named ‘packaging‘ error: subprocess-exited-with-error。

2024-05-07 20:45:03 374

原创 Pycharm无法链接服务器环境（host is unresponsived）

困扰了很久的一个问题，一开始是在服务器ubuntu20.04上安装pycharm community，直接运行服务器上的pycharm community就识别不了anaconda中的环境。后来改用pycharm professional也无法远程连接上服务器的环境，识别不了服务器上的环境，如下图点create无反应（这里无反应是因为服务器端无响应）现实Host is unresponsive，服务器无响应，这怎么回事，我挂都挂上了，可以正常连接，为啥这个环境识别不了？再打个yes，路径加入环境变量。

2024-05-07 19:44:06 802

原创《Video Mamba Suite》论文笔记（4）Mamba在时空建模中的作用

对于由 M 帧组成的给定输入，我们在对应于每一帧的标记序列的中间插入 cls 标记。有趣的是，尽管 ImageNet-1K 上 ViT-S [69] 和 ViM-S [96] 之间的性能差距很小（79.8 vs. 88.5），ViViM-S 在零样本多实例检索上显示出比 ViT-S 的显着改进（+2.1 mAP@Avg）。通过Video Mamba Suite，包括14个模型/模块12个视频理解任务，我们证明了Mamba能够有效地处理复杂的时空动态，表现出优越的性能和有前途的效率-性能权衡。

2024-05-06 17:04:42 1371 2

原创《Video Mamba Suite》论文笔记（3）Mamba作为时序适配器的作用

这确保了新模型的输出与原始模型的输出相匹配。值得注意的是，标准的ViM块比自我注意力模块(4C^2)具有更多的参数(略多于6.25C^2)，其中C指的是特征维度。值得注意的是，与时间自注意力块相比，我们使用的 VIM 时间块的参数更少，突出了 Mamba 选择性扫描 [30] 的特殊参数利用率和信息提取能力。令人惊讶的是，我们观察到时空 ViM 块虽然在时空级别引入了全局建模，但实际上会导致性能下降（ID7 vs ID8)我们假设基于扫描的时空可能会损害预先训练的空间注意块产生的空间特征分布。

2024-05-06 16:25:48 1347

原创《Video Mamba Suite》论文笔记（2）Mamba对于多模态交互的作用

对于 Charade-STA [28]，基于 Mamba 的方法也实现了相当的性能。鉴于 Mamba [30] 是一个基于线性扫描的模型，而转换器基于全局令牌交互，直观地说，我们认为标记序列中文本的位置。为了研究这一点，我们在表 7 中包含了不同的文本视觉融合方法，而图 3 说明了四种不同的标记排列。Qvhighlight[44]受到这种融合的影响较小，而 Charade-STA [28] 对文本位置表现出特别的敏感性，这可能是由于数据集的特征。最后，取出文本增强的视频特征̃Ve，然后送入预测头。

2024-05-06 16:04:01 762

原创《Video Mamba Suite》论文笔记（1）Mamba在时序建模中的作用

理解视频是计算机视觉研究的基本方向之一，在大量致力于探索 RNN、3D CNN 和 Transformer 等各种架构的工作的努力下。新提出的状态空间模型架构，例如 Mamba，展现出了其能够将长序列建模方面的成功扩展到视频建模领域的良好特性。为了评估 Mamba 是否可以成为视频理解领域中 Transformer 的可行替代方案在这项工作中，我们进行了一组全面的研究，探索 Mamba 在视频建模中可以扮演的不同角色，同时研究 Mamba 可能展现出良好性能的不同任务。

2024-05-06 15:26:01 1826

原创《Vid2Seq》论文笔记

在这项工作中，我们引入了Vid2Seq，这是一种多模态单阶段密集事件字幕模型，它在大规模可用的叙述视频上进行了预训练，Vid2Seq 架构使用特殊的时间标记(time tokens)增强了语言模型，使其能够同时预测同一输出序列中的事件边界和文本描述。这种统一的模型需要大规模的训练数据，这在当前的注释数据集中是不可用的。我们表明，通过将转录语音的句子边界重新表述为伪事件边界，并使用转录的语音句子作为伪事件字幕，可以利用未标记的叙述视频进行密集视频字幕。

2024-04-22 21:07:32 1819 4

原创《GVL》论文笔记

近年来，联合视频-语言学习受到越来越多的关注。然而，现有的工作主要集中在单个或多个修剪的视频剪辑(事件)，这使得人工注释的事件边界在推理的过程中变得很重要。为了摆脱这种关系，我们提出了一个针对未修剪视频的基础视觉语言学习框架，该框架自动检测信息事件并有效地挖掘多句描述与相应事件段之间的对齐。我们没有粗略的视频语言对齐，而是提出了两个双重先验任务(pretext task)来促进细粒度的段级对齐，即文本到事件的定位 (TEG) 和事件到文本生成 (ETG)。

2024-04-15 01:11:57 1026 1

原创 DataLoader的collate_fn参数

现在我把collate_fn写进dataset里，直接打印一下batch看看效果(这里需要把batch return了，因为dataloader如果选择了用collate_fn参数的话最终的输出是用collate_fn指定的函数的返回值给出的（这里设置函数名同参数名，这是默认的，可以自定义函数名））__getitem__(self, idx)得到对应的数据，将这些数据（样本对）传入collate_fn指定函数进行处理，因为没有自动的将样本对拆开重组，所以一般需要手工操作，正如文章开头的那段代码。

2024-04-09 17:13:28 971

原创《BERT》论文笔记

我们引入了一种新的语言表示模型 BERT，它代表来自 Transformer 的双向编码器表示。与最近的语言表示模型 (Peters et al., 2018aElmo;GPT) 不同，BERT 旨在通过联合考虑所有层中的左右上下文来从未标记文本中预训练深度双向表示。（这句话是针对GPT而说的）因此，预训练的 BERT 模型只需一个额外的输出层就可以进行微调，为各种任务（例如问答和语言推理）创建最先进的模型，而无需大量特定于任务的架构修改。

2024-04-07 00:05:45 948 1

原创《PDVC》论文笔记

传统的二阶段方法通过将注意力区域限制在事件边界内来对齐事件片段及其标题，但本文的标题头不能访问事件的边界，增加了学习语言单词和帧之间关系的优化难度。最后，选择置信度最高的个事件作为最终的结果。然后，就得到一组元组，，来表示检测到的事件，其中是事件查询的定位置信度。为了在视频中捕获丰富的时空特征，首先采用了一个预训练的动作识别网络来提取帧级的特征，并通过插值算法将特征图的时间维度缩放到固定长度，以方便。之间的互相促进，作者直接检测一组具有适当时间长度的标题，其中分别表示事件的开始时间、结束时间和事件的标题。

2024-04-03 18:54:03 1382 1

原创《VMamba》论文笔记

我们证明了通过mamba[12]引入的选择性扫描机制，所提出的VMamba能够匹配现有流行的视觉基础模型，如ResNet[19]、ViT[10]、swin[27]和convnext[29]，显示了VMamba作为强大基础模型的潜力。早期基于vit的模型通常需要大规模的数据测试[10]，并以朴素的配置出现[54,58,1,31]。在强大的计算设备(GPU)和大规模数据集[7]的帮助下，越来越深入的[38,41,19,22]和高效的模型[20,42,52,36]被提出，以提高跨视觉任务的性能。

2024-03-30 20:53:47 3375 2

原创《VideoMamba》论文笔记

基于注意力的模型[2,4,59,63,89]的引入，如TimeSformer[4]和ViViT[2]，通过有效地捕获视频序列中的远程依赖关系，增强了时间关系的理解，取得了显著的进展。结果如图6a所示，表明该策略可以获得预期的更好的收敛性。（1）视觉域中的可扩展性：我们检查 VideoMamba 的可扩展性并发现，虽然纯 Mamba 模型随着规模的增加而趋于过拟合，但我们引入了一种简单而有效的自蒸馏策略，允许 VideoMamba 随着模型和输入大小的增加而实现显着的性能改进，而无需大规模数据集预训练。

2024-03-29 22:08:13 2158 2

原创《Vision mamba》论文笔记

最近，具有高效硬件感知设计的状态空间模型 (SSM)，即 Mamba 深度学习模型，在长序列建模方面显示出巨大潜力。同时，纯粹基于SSM构建高效通用的视觉骨干是一个吸引人的方向。然而，由于视觉数据的位置敏感性和全局上下文对视觉理解的要求，表示视觉数据对SSMs具有挑战性。在本文中，我们表明，不需要依赖自注意力进行视觉表示学习并提出了一种新的具有双向 Mamba 块 (Vim) 的通用视觉主干，它使用位置嵌入标记图像序列并使用双向状态空间模型压缩视觉表示。

2024-03-28 21:54:45 2945 6

原创 Mamba: Linear-Time Sequence Modeling with Selective State Spaces(论文笔记)

现在为深度学习中大多数令人兴奋的应用程序提供动力的基础模型，几乎普遍基于Transformer架构及其核心的注意力模块。许多subquadratic-time(次二次时间)架构，如线性注意力、门控卷积和循环模型，以及结构化状态空间模型(ssm)已经被开发出来，以解决Transformer在长序列上的计算效率低下问题，但它们在语言等重要模态上的表现不如注意力。我们发现这些模型的一个关键弱点是它们无法执行基于内容的推理，并进行了一些改进。首先，简单地让SSM参数成为输入的函数，通过离散模态。

2024-03-26 17:28:08 1823 2

原创 YOLOV1-V9发展历程(1) (V1-V5)

1、准确（候选框多，效果自然好一些）1、慢 2、候选框太小不能看到整个图像的全景（管中窥豹）（会丢失信息：背景|背景和前景之间的关系|不同物体之间的关系|全图的关系）速度快，不需要复杂的上下游产业链的协同，也不需要对每一个工序单独的训练和优化，是一个，端到端，完整统一的框架但准确率不高，对小目标和密集目标识别效果不好（当然这是以前的说法了）better：比V1性能提升。准确率高Faster：比V1更快Strong：V2能检测9000多种类别。

2024-03-19 17:15:58 2621 4

原创 Video Caption的常用数据集（持续更新）

虽然人们对用自然语言描述视频的任务越来越感兴趣，但目前的计算机视觉算法在视频及其可以识别的相关语言的可变性和复杂性方面仍然受到严重限制。这在一定程度上是由于当前基准测试的简单性，这些基准测试主要集中在特定的细粒度领域，具有有限的视频和简单的描述。虽然研究人员已经为图像字幕提供了几个基准数据集，但我们不知道有任何大规模的视频描述数据集具有全面的类别和多样化的视频内容。在本文中，我们提出了MSR-VTT（代表“MSR视频到文本”），这是一种用于视频理解的新型大规模视频基准，特别是将视频转换为文本的新兴任务。

2024-03-14 16:13:35 2507

空空如也

空空如也