![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 90
Encounter84
这个作者很懒,什么都没留下…
展开
-
ASFormer:Transformer for Action Segmentation论文阅读笔记
为了解决动作分割类问题,作者设计了一个高效的基于transformer的动作分割任务模型,ASFormer,该模型具有以下三个特征:(i)由于特征的高局部性,作者明确地引入了局部连通性归纳先验。它将假设空间限制在一个可靠的范围内,有利于动作分割任务用较小的训练集学习适当的目标函数。(ii)作者应用了一个预定义的层次表示模式,可以有效地处理长输入序列。(iii)作者仔细设计了解码器,以细化来自编码器的初始预测。在三个公共数据集上进行的大量实验证明了该方法的有效性。原创 2022-12-13 22:10:07 · 757 阅读 · 0 评论 -
Temporal Action Proposal Generation with Transformers TAPG transformer论文阅读笔记
基于锚定的方法基于多尺度和密集的预化锚定生成行动提案,这样,我们就可以评估具有丰富的提案级上下文信息的提案的一致性分数。与学习帧间关系的Boundary transformer类似,我们提出了一种Proposal Transformer来建模具有不同尺度的建议之间的关系,并评估建议的一致性。通常,Boundary Transformer捕获长期的时间依赖性来预测精确的边界信息,而Proposal Transformer学习丰富的inter-proposal关系,以进行可靠的一致性评估。...原创 2022-08-28 11:12:10 · 541 阅读 · 0 评论 -
Class Semantics-based Attention for Action Detection CSA论文阅读笔记
虽然一些编码的特性可能对生成行动建议更有用,但之前的行动定位方法不包括任何注意机制,使定位子网络能够更多地关注更重要的特性。在本文中,我们提出了一种新的注意机制,类基于语义的注意(CSA),学习的语义分布动作类在一个输入视频找到编码特性的重要性分数,用于提供关注更有用的编码特性。我们的注意机制优于先前的自注意力模块,如动作检测任务中的squeeze-and-excitation。我们还观察到,我们的注意机制是这种自我注意模块的互补,当两者一起使用时,可以看到性能改善。原创 2022-08-23 19:53:02 · 861 阅读 · 0 评论 -
Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记
有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别和动作分类的足够的视觉不变性。我们通过在流行的两阶段时间定位框架中丰富局部和全局上下文来解决这一挑战,在该框架中,首先生成行动建议,然后进行行动分类和时间边界回归。我们提出的模型,称为ContextLoc,可分为三个子网:L-Net、G-Net和P-Net。L-Net通过对代码片段级特性的细粒度建模,丰富了本地上下文,这被表述为一个查询和检索过程。G-Net通过对视频级表示的更高层次的建模,丰富了全局上下文。原创 2022-08-22 16:57:29 · 823 阅读 · 0 评论 -
Graph Convolutional Module for Temporal Action Localization in Videos GCM论文阅读笔记
现有的最先进的动作定位方法将每个视频划分为多个动作单元,然后对每个视频分别进行动作识别/回归,而不是在学习过程中明确利用它们之间的关系。在本文中,我们认为动作单元之间的关系在动作定位中起着重要的作用,一个更强大的动作探测器不仅应该捕获每个动作单元的局部内容,而且应该允许与之相关的上下文有更广泛的视野。为此,我们提出了一个通用的图卷积模块(GCM),它可以很容易地插入到现有的动作定位方法中,包括两阶段和一阶段的范式。原创 2022-08-20 23:36:18 · 216 阅读 · 0 评论 -
RTD-Net:Relaxed Transformer Decoders for Direct Action Proposal Generation 论文阅读笔记
本文提出了一个简单而有效的框架(RTDNet),用于直接生成行动建议,通过重新利用一个类似于Transformer的架构。为了解决时间和空间之间的本质视觉差异,我们对原始的Transformer检测框架(DETR)进行了三个重要的改进。首先,为了解决视频中的慢速问题,我们将原来的Transformer编码器替换为边界注意模块,以更好地捕获远程时间信息。其次,由于模糊的时间边界和相对稀疏的注释,我们提出了一种宽松的匹配方案,以缓解对每个GT的单一分配的严格标准。...原创 2022-08-16 21:35:15 · 826 阅读 · 0 评论 -
AEI: Actors-Environment Interaction with Adaptive Attention for Temporal Action Proposals Generation
在本文中,我们试图通过提出行为者环境交互(AEI)网络来模拟人类的能力,以改进针对时间动作建议生成的视频表示。AEI包含两个模块,即基于感知的视觉表示(PVR)和边界匹配模块(BMM)。PVR通过使用所提出的自适应注意机制来考虑人-人关系和人-环境关系来表示每个视频片段。然后,由BMM通过视频表示来生成行动建议。AEI在ActivityNet-1.3和THUMOS-14数据集中进行了时间动作建议和检测任务,采用两种边界匹配架构(即基于cnn和GCN)和两种分类器(即Unet和PGCN)。...原创 2022-08-16 19:53:34 · 816 阅读 · 0 评论 -
Low-Fidelity Video Encoder Optimization for Temporal Action Localization LoFi论文阅读笔记
在本文中,作者引入了一种新的低保真度(LoFi)视频编码器优化方法。我们建议在时间、空间或时空分辨率方面减少小批量组成,以便联合优化视频编码器和TAL头,而不是在TAL学习中总是使用完整的训练配置。至关重要的是,这使得梯度能够在TAL监督损失条件下通过视频编码器,有利地解决任务差异问题,并提供更有效的特征表示。大量的实验表明,所提出的LoFi优化方法可以显著提高现有的TAL方法的性能。...原创 2022-08-16 16:52:11 · 590 阅读 · 2 评论 -
G-TAD: Sub-Graph Localization for Temporal Action Detection 论文阅读笔记
作者认为,目前的时序动作检测任务只关注了时间上下文信息但是忽略了语义信息。本文提出了一个图卷积网络(GCN)模型,自适应地将多层次的语义上下文合并到视频特征中,并将时间动作检测作为一个子图定位问题。具体实现上来说,作者将视频片段表示为图节点,将片段-片段相关性表示为边,将与上下文相关的操作表示为目标子图。以图卷积为基本操作,作者设计了一个名为GCNeXt的GCN块,它通过聚合每个节点的上下文来学习每个节点的特征,并动态更新图中的边。......原创 2022-08-15 20:14:11 · 279 阅读 · 0 评论 -
Fast Learning of Temporal Action Proposal via Dense Boundary Generator DBG论文阅读笔记
DBG由两个模块组成:时间边界分类(TBC)和动作感知完整性回归(ACR)。TBC的目标是通过低级双流特征提供两个时间边界置信图,而ACR的设计是通过高级动作感知特征生成一个动作完整性评分图。此外,我们引入了一个双流BaseNet(DSB)来编码RGB和光流信息,这有助于捕获区分边界和行动特征。...原创 2022-08-14 21:56:49 · 191 阅读 · 0 评论 -
Bottom-Up Temporal Action Localization with Mutual Regularization BU-TAL阅读笔记
作者认为现有的方法通过将这些阶段建模为单独的分类任务,忽略了它们之间潜在的时间约束。当视频输入的某些帧缺乏足够的判别信息时,这可能会导致不正确或不一致的预测。为了缓解这一问题,本文引入了两个正则化术语来相互规范学习过程:提出了相内一致性(IntraC)正则化来在每个阶段内验证预测;并提出了相间一致性(InterC)正则化以保持这些阶段之间的一致性。...原创 2022-08-14 19:58:50 · 223 阅读 · 0 评论 -
TSI: Temporal Scale Invariant Network for Action Proposal Generation论文阅读笔记
简单介绍了本文贡献,当前SOTA的方法对短动作检测的准确率很低。本文是第一个分析了样本不均衡问题,并设计了一种新的尺度不变的损失函数来缓解短动作学习不够的问题。为了进一步实现提案生成任务,作者还采用了边界评价和提案完整性回归的pipline。...原创 2022-08-13 16:47:54 · 221 阅读 · 0 评论 -
Boundary-sensitive Pre-training for Temporal Localization in Videos BSP论文阅读笔记
许多视频分析任务都需要时间定位来检测内容的变化。然而,大多数为这些任务的模型都是在一般的视频动作分类任务上预先训练的。这是由于在未修剪的视频中对时间边界的大规模注释非常耗时。因此,没有合适的数据集可以以一种对时间边界敏感的方式进行预训练。本文首次通过引入一种新的boundary-sensitive pretext(BSP)任务,研究了时间定位的模型预训练。我们建议在现有的视频动作分类数据集中合成时间边界,而不是依赖于昂贵的时间边界的人工注释。...原创 2022-08-13 14:32:14 · 302 阅读 · 0 评论 -
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks论文阅读笔记
由于未修剪的视频占用大量的内存空间,目前SOTA的TAL方法使用了预先处理好的视频特征。这些特征是从视频编码器中提取出来的,它们通常被用于动作分类任务的训练,这使得这些特征不一定适合于时序动作检测。在这项工作中,我们提出了一种新的用于视频片段特征的有监督预训练范式,它不仅训练活动分类活动,还考虑背景剪辑和全局视频信息,以提高时间敏感度。大量的实验表明,使用我们的新的预训练策略训练得到的特征显著提高了最近SOTA方法在三个任务上的性能:时间动作定位、动作建议生成和密集视频字幕。...原创 2022-08-12 21:52:46 · 414 阅读 · 0 评论 -
Temporal Action Detection with Multi-level Supervision UFA论文阅读笔记
在视频中训练时间动作检测需要大量的标记数据,但这种注释的收集成本很高。将未标记或弱标记的数据合并到训练动作检测模型中,有助于降低标注成本。在这项工作中,我们首先引入了半监督的动作检测(SSAD)任务,并分析了直接将半监督任务应用过来时会出现的错误。为了解决SSAD baselines中的主要问题(动作不完整性),我们利用前景和背景运动之间的“独立性”,设计了一个无监督的前景注意(UFA)模块。然后,我们将弱标记数据合并到SSAD中,并提出了具有三个级别监督的全监督动作检测(OSAD)。...原创 2022-08-12 18:03:01 · 297 阅读 · 0 评论 -
Video Self-Stitching Graph Network for Temporal Action Localization VSGN论文阅读笔记
视频中的时序动作检测是一个很有挑战性的工作,主要原因是时序动作往往跨度较大。较短的动作在所有动作中占据最大的比例,但是在所有TAL方法中都是得分最低的动作类别。这篇论文中,对于短时间的动作提出了一种多层次,跨尺度的解决方案,即视频自拼接图网络(VSGN)。VSGN中有两个关键的组成部分:视频自拼接(VSS)和跨尺度图金字塔网络(xGPN)。在VSS中,我们专注于一个视频的短周期,并沿着时间维度放大它,以获得一个更大的尺度。...原创 2022-08-11 22:31:11 · 472 阅读 · 0 评论 -
Single Shot Temporal Action Detection SSAD论文阅读笔记
在 2017 年,T. Lin 等人提出了 single shot temporal action detection(SSAD)模型,整体结构类似于 SSD,该模型先使用预训练好的模型对视频序列提取特征得到特征序列,再使用特征序列作为 SSAD 模型的输入,最终 SSAD 模型输出 TAL 的结果。特征提取部分使用 two stream network、中的 spatial network 提取单帧特征以及其中的 temporal network 来提取光流特征,以及 C3D网络来提取视频片段特征。...原创 2022-08-10 23:33:48 · 323 阅读 · 0 评论 -
Swin Transformer论文阅读笔记
这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer,它可以被用来作为一个计算机视觉领域一个通用的骨干网络。但是直接把Transformer从 NLP 用到 Vision 是有一些挑战的,这个挑战主要来自于两个方面:一个就是尺度上的问题。因为比如说现在有一张街景的图片,里面有很多车和行人,里面的物体都大大小小,那这时候代表同样一个语义的词,比如说行人或者汽车就有非常不同的尺寸,这种现象在 NLP 中就没有。...原创 2022-08-10 22:08:12 · 297 阅读 · 0 评论 -
Actionformer: Localizing moments of actions with transformers 论文阅读笔记
测试集输入模型的仍然是数据预处理部分提到的 2048 维度的特征,不能达到实时处理的效果,需要先提取视频的特征,这也是该模型的缺点之一。作为第一个 TAL 任务下的 transformer 模型的 ActionFormer 在没有任何数据增广的前提下,mAP 高达 66.5%,也使得 TAL 任务的 mAP 首次达到 60% 以上,取得的 state-of-the-art 的 mAP。模型的Decoder即简单的分类预测头和回归预测头,只是不同于一般的全连接层实现,而使用一个轻量级的1D卷积网络实现。...原创 2022-08-06 22:51:59 · 1455 阅读 · 1 评论 -
Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现
虽然目前的大多数TAL模型通过使用预定义的锚和大量的操作性获得了良好的结果,但这种方法可能会涉及到大量的输出和与不同锚对应的位置和大小的重量调整。相反,无锚的方法更轻,消除了冗余的超参数,但很少受到关注。在本文中,我们提出了第一种有效的纯无锚定时间定位方法。我们的模型包括(i)一个端到端可训练的基本预测器,(ii)一个基于显著性的细化模块,通过一个新的边界池为每个建议收集更有价值的边界特征,以及(iii)几个一致性约束,以确保我们的模型在给定任意建议时能够找到准确的边界。...原创 2022-08-06 18:58:45 · 830 阅读 · 1 评论 -
Gaussian Temporal Awareness Networks GTAN论文阅读笔记
基于图像帧的 TAL 的常规方法步骤为:通过 1D 的时序通道卷积来获得更大的感受野,然后在此基础上预测动作类别和时序边界。这种方法获得的 proposal 被分配了相同的感受野,然而不同的动作的时序长度是不同的。为了解决这个问题,2019 年,F. Long 等人提出了 GTAN(Gaussian Temporal Awareness Networks),对每一个 proposal,通过学习一个高斯核来表达时序信息。...原创 2022-08-05 23:12:05 · 312 阅读 · 0 评论 -
A Pursuit of Temporal Accuracy in General Activity Detection TAG论文阅读笔记
关于activity classification,用了TSN的方法,proposal和gt的IOU大于0.7的被选为正样本,在选取负样本的时候,并不能选取IOU来判断,因为在一个动作片段中有一个小片段的proposal,它的IOU也很小,如果选为负样本,则在分类的时候会混淆。因为如果要对长的视频动作进行提名,需要更大的滑动窗口,因此产生的 prorosal 更多,而后续需要的卷积操作越多,时空开销都更大,而且也无法应对长度不一的视频动作。为了生成时间上的proposal,文章提出了TAG的网络结构。...原创 2022-08-05 22:42:47 · 157 阅读 · 0 评论 -
BMN: Boundary-Matching Network for Temporal Action Proposal Generation阅读笔记
论文链接:http://arxiv.org/abs/1907.09702论文代码:https://github.com/PaddlePaddle/…(PaddlePaddle)https://github.com/JJBOY/…(Pytorch)原作者知乎解析:https://zhuanlan.zhihu.com/p/75相比“自上而下”的方法,BSN生成的提名具有更加精确的时间边界和更加灵活的持续时间。优点:框架:提出了一种全新的且非常有效的时序提名生成框架,能够产生满足(1)时长灵活(2)边原创 2022-08-03 21:54:32 · 415 阅读 · 0 评论 -
BSN:Boundary-Sensitive Network for Temporal Action Proposal Generation论文阅读笔记
BSN使用localtoglobal局部到全局的方式生成高质量的proposal,首先通过局部连接的方式组合具有高置信度的开始和结束位置,构成可能的proposal,然后使用proposal-level特征全局检索过滤高置信度的proposal,BSN算法一共有三步1BSN在视频片段的每个时间位置都预测输出当前时间点属于一个动作的开始概率、结束概率,以及当前时间点属于某个动作的概率,生成一个的时间序列作为局部信息。2。...原创 2022-08-01 21:57:15 · 289 阅读 · 0 评论 -
Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记
文章标题目的为判断一个已经分割好的短视频片段的类别。特点是简化了问题,一般使用的数据库都先将动作分割好了,一个视频片断中包含一段明确的动作,时间较短(几秒钟)且有唯一确定的label。所以也可以看作是输入为视频,输出为动作标签的多分类问题。常用数据库包括UCF101,HMDB51等。不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)。特点是需要处理较长的,未分割的视频。且视频通常有较多干扰,目标动作一般只占视频的一小部分。...原创 2022-08-01 12:10:02 · 287 阅读 · 0 评论 -
TimeSformer视频理解框架:视频理解中的Transformer
如果直接将VIT用于视频理解,那要怎么做呢,容易想到的方法是抽取多帧图片,每一帧的图像都分成一个一个的小patch,然后直接送入transformer。从原理上来说这样是可行的,但是就如同3D卷积神经网络一样,计算量是非常庞大的,特别是对于视频时间相对长一些的数据来说,需要提取的帧数也要随之增加。本文中作者实验了五种不同的方式,最终发现了所谓的dividedspace-timeattention,就是空间和时间上分离的注意力这种方式,不仅减少了计算量,效果上还表现SOTA。下图是作者实验的几种结构。...原创 2022-07-31 17:37:31 · 1638 阅读 · 0 评论 -
Vision Transformer(ViT)论文精读和Pytorch实现代码解析
虽然说transformer已经是NLP(自然语言处理)领域的一个标准,但是用transformer来做CV还是很有限的。在视觉领域,自注意力要么是跟卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持整体的结构不变。...原创 2022-07-30 21:47:43 · 1517 阅读 · 0 评论 -
Transformer结构解析及常见问题
关于Transformer的结构相关知识,有这二十个面试常见问题,大家可以用这20个问题看看自己有没有掌握Transformer(答案在文章最后)原创 2022-07-29 21:58:17 · 3820 阅读 · 0 评论 -
从Attention到Self-Attention和Multi-Head Attention
最近Transformer在CV领域大火,CV领域的很多方向都应用到了Transformer,为了搞清楚Transformer是怎么应用到视频领域的,我又重新学习了一下这篇论文。Transformer是2017年Google在Computation and Language上发表的论文,当时主要是针对自然语言处理(NLP)领域提出的。我的这篇笔记从深度学习中的注意力机制(Attention)开始,介绍到Transformer中提出的Self-Attention概念以及Multi-Head Attention原创 2022-07-28 21:42:08 · 893 阅读 · 0 评论 -
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读
这篇论文的主要贡献有两个。其中一个是提出了inflated膨胀的卷积神经网络,这样就可以把2D里面已经训练好的网络直接扩展到3D,比如VGG,ResNet等,还可以利用一些方式,将预训练模型利用起来,另一个贡献是提出了Kinetics数据集,这是一个大小适中的数据集,它有400类人体行为类别,每个类别有400多个clips。作者提出的I3D模型在Kinetics数据集上预训练之后,在基准数据集HMDB-51和UCF101上分别达到了80.9%和98.0%的准确率,相比之前的模型,效果有了大大的提升。...原创 2022-07-20 21:59:45 · 1076 阅读 · 0 评论