I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】

目录

0、前沿

1、标题

2、摘要

3、结论

4、重要图表

5、解决了什么问题

6、采用了什么方法

7、达到了什么效果


0、前沿

        泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。 需要了解更多视频理解相关文章可以关注我们视频理解系列目录了解我们当前更新情况。

1、标题

        Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

        一个新模型和动作识别数据集,Quo Vadis是一个电影名字

2、摘要

        The paucity of videos in current action classification datasets (UCF-101 and HMDB-51) has made it difficult to identify good video architectures, as most methods obtain similar performance on existing small-scale benchmarks. This paper re-evaluates state-of-the-art architectures in light of the new Kinetics Human Action Video dataset. Kinetics has two orders of magnitude more data, with 400 human action classes and over 400 clips per class, and is collected from realistic, challenging YouTube videos. We provide an analysis on how current architectures fare on the task of action classification on this dataset and how much performance improves on the smaller benchmark datasets after pre-training on Kinetics.

        在当前的动作分类数据集(UCF-101,hmd-51)中,缺乏足够视频识别一个好的网络,因为大多数方法在现有的小规模基准上都能获得类似的表现。本文根据新的Kinetics分类数据集重新评估这些SOTA网络。Kinetics-400:从现实中采集,视频有400个人类动作类别,每类超400个片段。我们分析了当前的网络在Kinetics-400的表现,以及在Kinetics-400上进行预训练后,在小的数据集上的性能提高了多少。

        We also introduce a new Two-Stream Inflated 3D ConvNet (I3D) that is based on 2D ConvNet inflation: filters and pooling kernels of very deep image classification ConvNets are expanded into 3D, making it possible to learn seamless spatio-temporal feature extr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值