Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset（I3D）（论文笔记）

Gεorge

已于 2023-12-27 10:37:17 修改

阅读量183

点赞数

分类专栏： paper览胜文章标签：深度学习 cnn

于 2022-01-13 18:58:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43883362/article/details/122475590

版权

来源：CVPR2017

一句话概括：提出膨胀3D卷积（I3D）用于提取视频时空维度特征并进行动作识别；构建Kinetics人类动作视频数据集

动作识别框架

视频模型框架分为两类：2D和3D。2D模型需要考虑信息如何在不同帧之间传播，这一过程可以通过时间维度的循环网络如LSTM或特征聚合来实现。本文比较了比较了几类视频模型框架，并提出了双流膨胀3D卷积模型。
2D模型可以用到基于图片的预训练模型（如ImageNet）而不用从头训练，3D模型则不方便实现，需要从头训练。
在这里插入图片描述

双流膨胀3D卷积

在这一结构下，3D卷积可以用到ImageNet 2D卷积的设计和预训练好的参数。此外，尽管3D卷积可以获取时间维度特征，但加上光流分支仍然可以提高表现（表明I3D对时间维度信息的提取不完全，后续还提出了多种方法）。
**将2D卷积膨胀为3D：**将2D的filter拓展成三维并池化卷积核，即额外增加一个时间维，filter从N X N变为N X N X N，基于短时间内的视频帧相似性原理。
**从2Dfilter自举3Dfilter：**一张图片可以通过简单重复变成一个视频（作者称为“无聊的”视频）。3D模型可以通过这样的方式隐式地在ImageNet上预训练，只需要满足条件：在：“无聊”视频上池化后的输出与原始的单张图片上的输出相同。实现方法：

最低0.47元/天解锁文章

Gεorge CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

18万+: 周排名

213万+: 总排名

2万+: 访问

: 等级

227: 积分

4: 粉丝

33: 获赞

12: 评论

103: 收藏

私信

关注

热门文章

分类专栏

最新评论

TSM: Temporal Shift Module for Efficient Video Understanding（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VideoBERT: A Joint Model for Video and Language Representation Learning（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset（I3D）（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Align and Prompt: Video-and-Language Pre-training with Entity Prompts（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
ViViT: A Video Vision Transformer（论文笔记）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。