WACV 2021 论文大盘点-人体动作检测与识别篇

最新推荐文章于 2024-08-01 03:19:35 发布

yishuihanq

最新推荐文章于 2024-08-01 03:19:35 发布

阅读量865

点赞数 1

分类专栏：论文转载&分享文章标签：深度学习计算机视觉机器学习人工智能

原文链接：https://www.bilibili.com/read/cv9630596

版权

论文转载&分享专栏收录该内容

22 篇文章 4 订阅

订阅专栏

WACV 2021 论文大盘点-人体动作检测与识别篇

本文总结WACV 2021 中人体动作检测与识别的相关论文，共计 7 篇。

如有遗漏，欢迎补充。

动作检测

We Don't Need Thousand Proposals: Single Shot Actor-Action Detection in Videos

SSA2D 是一种简单且有效的用于视频单样本 Actor-Action 检测方法。作者称在视频中的 actor-action 检测可以不依赖 region proposal network（RPN区域提案网络）来进行，而 RPN 需要上千个提案，因此对于密集的视频场景是有效的。

作者在 A2D 和 VidOR 数据集上对所提出的方法进行了评估，与之前的工作相比，该方法取得了相当（有时甚至更好）的性能。

所提出的模型可以有效地进行训练(快2倍)，与之前表现最好的工作相比，可以用较少的网络参数进行快速推理(输入RGB快11倍，输入RGB+光流快6倍)。

作者 | Aayush J Rana, Yogesh S Rawat

单位 | 中佛罗里达大学

论文 | https://arxiv.org/abs/2011.10927

代码 | https://github.com/aayushjr/ssa2d

SALAD: Self-Assessment Learning for Action Detection

提出一个新的动作检测方法：Self-Assessment Learning for Action Detection（SALAD）。
在两个动作检测基准上的表现都优于最先进的方法。在THUMOS14 数据集上，tIoU@0.5 的 mAP 从 42.8% 提高到 44.6/%，在ActivityNet1.3 数据集上从 50.4% 提高到 51.7/%。对于较低的 tIoU值，在两个数据集上实现了更显著的改进。

作者 | Guillaume Vaudaux-Ruth, Adrien Chan-Hon-Tong, Catherine Achard

单位 | ONERA；巴黎萨克雷大学；索邦大学

论文 | https://arxiv.org/abs/2011.06958

PDAN: Pyramid Dilated Attention Network for Action Detection

本次研究解决了密集标注视频流中复杂时间关系的建模问题。
作者提出 Dilated Attention Layer（DAL）来学习更好的跨时间的特征表示。然后，引入一个金字塔扩张注意力网络（PDAN），可以通过在不同的时间层次上应用 DAL 来有效学习动作实例之间的依赖关系。
在 3 个密集标注的多标签数据集（ MultiTHUMOS、Charades 和 TSU）上对所提出方法进行了评估。实验结果表明，PDAN 在所有数据集上的表现都优于现有的方法。

作者 | Rui Dai, Srijan Das, Luca Minciullo, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond

单位 | Inria；Universite C´ ote d’Azur；丰田汽车欧洲公司

论文 | https://openaccess.thecvf.com/content/WACV2021/papers/Dai_PDAN_Pyramid_Dilated_Attention_Network_for_Action_Detection_WACV_2021_paper.pdf

行为识别

A Variational Information Bottleneck Based Method to Compress Sequential Networks for Human Action Recognition

由于深度模型需要相当大的计算复杂性和存储量，在用于视频中的人类动作识别（HAR）时，不适合部署在边缘设备上。
在本次工作中，作者解决了上述问题，并提出一种方法来有效压缩用于 HAR的循环神经网络（RNNs），如门控循环单元（GRU）和长短期记忆单元（LSTMs）。VIB 框架来专门压缩基于 CNNLSTM 的架构。
所提出的技术减少了隐藏表征中的模型参数和内存占用，验证精度几乎没有降低，同时推理速度提高了几倍。
在 UCF11、HMDB51 和 UCF101 三个行为识别数据集上对所提出方法进行了评估，验证表明，UCF11 行为识别任务上，精度相当的情况下，比最接近竞争对手的方法实现了 70 多倍的压缩。

作者 | Ayush Srivastava, Oshin Dutta, Prathosh AP, Sumeet Agarwal, Jigyasa Gupta

单位 | 印度理工学院；Samsung R&D Institute India

论文 | https://arxiv.org/abs/2010.01343

JOLO-GCN: Mining Joint-Centered Light-Weight Information for Skeleton-Based Action Recognition

目前流行的基于骨架的人体动作识别方法的一个共同缺点是，仅靠稀疏的骨架信息不足以完全描述人体运动的特征。这种局限性使得现有的几种方法无法正确地对只表现出细微运动差异的动作类别进行分类。
作者提出一个全新框架，在一个双流图卷积网络中联合采用 human pose skeleton 和 joint-centered light-weight information ：JOLO-GCN。具体来说，使用联合对准的光流贴片（JFP）来捕捉每个关节周围的局部细微运动作为枢纽关节中心的视觉信息。与纯粹的基于骨架的基线相比，这种混合方案有效地提升了性能，同时保持了较低的计算和内存开销。
在 NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton 数据集上所提出方法进行了评估，结果表明，所提出方法比最先进的基于骨架的方法获得了明显的精度改进。

作者 | Jinmiao Cai, Nianjuan Jiang, Xiaoguang Han, Kui Jia, Jiangbo Lu

单位 | 思谋科技；华南理工大学；香港中文大学(深圳)

论文 | https://arxiv.org/abs/2011.07787

Distillation Multiple Choice Learning for Multimodal Action Recognition

解决了使用多模态数据学习 specialist networks 集合的问题，同时考虑了在测试时可能缺少模态的现实和挑战性场景。目标是利用多模态的互补信息，使集合和每个网络受益。
引入一种针对多模态数据的新型蒸馏多选择学习框架，不同的模态网络在合作环境下从头开始学习，相互加强。由于有其他模态的引导，使用所提出方法学习的模态网络比单独训练的模态网络实现了明显更高的精度。
在三个视频动作识别基准数据集上评估这种方法。与其他在测试时使用缺失模态的方法相比，获得了最先进的结果。

作者 | Nuno C. Garcia, Sarah Adel Bargal, Vitaly Ablavsky, Pietro Morerio, Vittorio Murino, Stan Sclaroff

单位 | 意大利理工学院；Universita di Genova等

论文 | https://arxiv.org/abs/1912.10982

代码 | https://github.com/ncgarcia/DMCL