时空动作定位
文章平均质量分 95
三木今天学习了嘛
行走知识里的拾遗者
展开
-
【Code Reading】Transformer in vision and video
最后一行是单独做的实验,去掉了Model2的temporal transformer,直接在帧上做了pooling,EK上的精度下降很多,对于时序强的数据集需要用temporal transformer来做时序信息交互。在论文的Table1中有给出三个模型(Base/ Large/ Huge)的参数,在源码中除了有Patch Size为16x16的外还有。model3的实现和TimeSformer的实现是一样的,去掉cls-token即可,可以参考TimeSformer的文章。,这里把时间维度单独抽出来。原创 2023-11-02 17:32:10 · 272 阅读 · 0 评论 -
【论文阅读】End-to-End Spatio-Temporal Action Localisation with Video Transformers
e2e,纯基于Transformer的模型,输入视频输出tubelets。无论是 对单个帧的稀疏边界框监督 还是 完整的小管注释。在这两种情况下,它都会预测连贯的tubelets作为输出。此外,我们的端到端模型不需要以建议的形式进行额外的预处理,或者在非最大抑制方面进行后处理。(DETR)原创 2023-10-31 08:33:53 · 376 阅读 · 0 评论 -
【论文阅读】Efficient Video Action Detection with Token Dropout and Context Refinement
主要讲述了动机和作者针对动机的做法。又说了一下作者工作的指标:与普通 ViT 主干相比,我们的 EVAD 将整体 GFLOPs 降低了 43%,并且没有性能下降的情况下将实时推理速度提高了 40%。此外,即使在类似的计算成本下,我们的 EVAD 也可以在更高分辨率的输入下将性能提高 1.1 mAP。我们希望 EVAD 能够作为未来研究的有效端到端基线。我们的方法的一个局限性是,EVAD 需要重新训练一次,才能获得减少计算量和通过消除冗余进行更快推理的好处。原创 2023-10-30 17:12:45 · 376 阅读 · 0 评论 -
【Spatial-Temporal Action Localization(五)】论文阅读2020年
MovingCenter Detector (MOCdetector) 通过将动作实例视为移动点的轨迹。通过三个分支生成 tubelet detection results(bbos sequences)。(1)中心分支(Center Branch)用于中心检测和动作识别;(2)运动分支(Movement Branch)用于相邻帧的运动估计,形成运动点的轨迹;(3)盒子分支(Box Branch)用于空间范围检测,通过直接回归每个估计中心的边界框大小。原创 2023-10-07 11:06:36 · 1093 阅读 · 0 评论 -
【Spatial-Temporal Action Localization(七)】论文阅读2022年
1.提出了一种用于人体动作检测的Tubes Transformer的框架2.基于tubelet-query和tubelet-attention能够生成任意位置和规模的Tubes3.Classification Head能够聚合短期和长期的上下文信息提出了多模态的整体的交互的Transformer网络(multi-modal Holistic InteractionTransformer Network (HIT) ),它利用了大部分被忽视但关键的手和姿势信息,这些信息对大多数人类行为至关重要。原创 2023-09-21 19:17:55 · 1063 阅读 · 2 评论 -
【Spatial-Temporal Action Localization(六)】论文阅读2021年
基于对现有数据集的分析,作者认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步。多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。时序:动作边界定义准确。跟踪:运动速度快,形变大,存在遮挡最近的进展是通过对实体之间的直接成对关系建模来实现的。原创 2023-09-20 15:20:30 · 651 阅读 · 0 评论 -
【Spatial-Temporal Action Localization(四)】论文阅读2019年
时空动作定位需要将两个信息源合并到设计的架构中:(1)来自先前帧的时间信息和(2)来自关键帧的空间信息。当前最先进的方法通常使用单独的网络提取这些信息,并使用额外的融合机制来获得检测。在这项工作中,我们提出了 YOWO,一种用于视频流中实时时空动作定位的统一 CNN 架构。YOWO 是一种单级架构,具有两个分支,可同时提取时间和空间信息,并在一次评估中直接从视频剪辑中预测边界框和动作概率。由于整个架构是统一的,因此可以进行端到端的优化。原创 2023-09-19 17:40:22 · 511 阅读 · 0 评论 -
【Spatial-Temporal Action Localization(三)】论文阅读2018年
时空定位(spatiotemporally localized)原子视觉动作(AVA)主要介绍了数据集的制作过程,是如何筛选和标记的。AVA数据集是google发布的一个视频行为检测与定位的视频数据集,包含在430个15分钟的视频片段中标注了的80种原始动作,这些动作由时间和空间定位,产生了1.58M个动作标签。本文重点是介绍论文中所提出的action location模型。提出一个two stage方法。原创 2023-09-15 22:17:46 · 702 阅读 · 1 评论 -
【Spatial-Temporal Action Localization(二)】论文阅读2017年
动作分类、在整个entire视频时空范围内 聚合局部卷积特征结合双流网络和可学习的时空特征聚合、端到端跨空间和时间汇集并组合来自不同流的信号。(i)跨空间和时间联合池化很重要,但是(ii)外观和运动流最好聚合成它们自己单独的表示。提出了ACtion Tubelet detector (ACT-detector)【动作管状探测器(ACT-探测器)】将每一帧的特征进行时间的堆叠,形成时间序列信息sequences of frames建立在SSD的基础上,并引入了。原创 2023-09-13 16:11:28 · 905 阅读 · 1 评论 -
【Spatial-Temporal Action Localization(一)】认识时空动作定位
时空动作检测 (spatio-temporal action detection) : 输入一段未剪辑(untrimmed)视频,不仅需要识别视频中动作的起止时序和对应的类别,还要在空间范围内用一个包围框 (bounding box)标记出人物的空间位置。, and, the, andareand时空动作检测的目的是在空间和时间上定位动作实例,并识别动作标签。在本任务的全监督设置中,视频级动作实例的时间边界、帧级动作的空间边界框和动作标签在训练期间提供,并且必须在推理期间检测到。原创 2023-09-10 09:00:19 · 832 阅读 · 1 评论