Long-term Recurrent Convolutional Networks for Visual Recognition and Description

1 INTRODUCTION

       图像和视频的识别和描述是计算机视觉的根本挑战。近年来,针对图像识别任务的监督卷积神经网络(CNN)模型已经取得了显着的进步,并且最近提出了一些对视频处理的扩展。理想情况下,视频模型应该允许对可变长度的输入序列进行处理,并且还提供可变长度的输出,包括生成 超出常规一对一预测任务 的全长句子描述。在本文中,我们提出了Long-term Recurrent Convolutional Networks(LRCN),一种用于视觉识别和描述的架构,其结合卷积层和long-range temporal recursion,并且是端对端可训练的(图1)。

我们实例化我们的架构,用于特定的视频活动识别,图像字幕生成和视频描述任务,如下所述。

       对CNN视频处理模型的研究已经考虑了在原始序列数据[1],[2]上学习3D时空滤波器,并学习了帧到帧表示,其将瞬时光流或基于轨迹的模型集成在固定窗口或视频拍摄片段[3],[4]。这些模

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值