![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
动作识别
YoJayC
这个作者很懒,什么都没留下…
展开
-
通过Faster RCNN提取的Object Feature与通过Faster RCNN计算得到坐标的区别
Faster RCNN提取的Object Feature是Object Bounding box所在区域的特征;Faster RCNN计算得到的坐标只是4个数值,若要让分类神经网络对其进行利用,则需要将坐标转换成特征向量原创 2020-10-13 20:38:56 · 328 阅读 · 0 评论 -
something-something-V2下载及解压
something-something之前一直下不下来,可能是vpn的问题。不过如果下载时间过长,页面就需要重新刷新,原来的下载链接就会失效,所以最好一次只下一部分。下载完之后按照页面https://20bn.com/datasets/download给出的命令cat 20bn-something-something-v2-?? | tar zx提取压缩文件,但是执行解压缩命令时一直提示gzip: stdin: not in gzip formattar: Child return原创 2020-10-04 14:46:09 · 4314 阅读 · 33 评论 -
Action Genome阅读笔记
Action Genome是一种将动作分解为时空场景图的表示,同时是第一个提供动作标注和时空场景图标注的大规模视频数据集(基于Charades数据集)文章提出一种Scene Graph Feature Banks (SGFB)方法来将时空scene graphs和action recognition结合具体方法:给定一个输入视频,首先预测帧中含有的scene graphs,然后将scene graphs转换成特征表示,例如物体和关系矩阵。同时使用3D CNN来提取short-term cl.原创 2020-09-04 16:01:36 · 781 阅读 · 0 评论 -
使用no_frills_hoi_det检测其它数据集中的Human Object Interaction的过程
no_frills_hoi_det主要由三个部分组成第一个部分对输入图片x中包含人类的每个物体生成一组候选框第二个部分对x运行OpenPose来得到骨骼关键点第三个部分用提出的分解模型对HOI候选对进行排序no_frills_hoi_det的代码中根据anno_list(anno_list是在Process HICO-Det files步骤中生成的)来生成对应的images_in_out.json文件,主要的代码片段如下images_in_out = [None]*len(anno原创 2020-07-29 14:54:17 · 398 阅读 · 2 评论 -
Attend and Interact: Higher-Order Object Interactions for Video Understanding
人类的动作通常涉及场景中几个相互关联对象之间的复杂交互。然而,现有的细粒度视频理解或视觉关系检测通常依赖单个物体表示或成对的物体关系。此外,在视频成百上千的帧中学习多个物体间的交互在计算上不可行的,因为必须对大的组合空间建模,所以性能可能受影响。这篇文章提出了一种有效学习任意子组中物体高阶交互的细粒度视频理解方法。而且证明了建模物体交互有效地提高了动作识别和视频字幕的准确性,同时比传统的成对关系计算节省了3倍以上的计算量。图1如图1所示,基于所选的相互关系,逐步检测出高阶的物体交互。具有相同颜色.翻译 2020-07-28 16:48:07 · 378 阅读 · 0 评论 -
Temporal Pyramid Network for Action Recognition(CVPR2020)
Abstract视觉速度表征了动作的动态和时间尺度。对不同动作的这种视觉节奏进行建模有助于动作的识别。以前的工作通常通过以多种速率采样原始视频,并构建输入级帧金字塔来捕获视觉节奏,而帧金字塔通常需要昂贵的多分支网络来处理。本文提出了一种通用的时间金字塔网络(TPN),该网络以即插即用的方式灵活地集成到2D或3D主干网络中。TPN的两个基本组件,特征源和特征融合,形成了主干的特征层次结构,因此它可以捕获各种速度的动作实例。TPN在几个动作识别数据集上也显示出相对于其它具有挑战性的基线的持续改进。具体来说,翻译 2020-06-30 17:12:58 · 1956 阅读 · 2 评论