Video Transformer Network

Video Transformer Network


前言

目前,将transformer结构用于行为识别的文章还比较少,比较出名的有这一篇VTN和19年的一篇文章。此处先记录VTN。

一、背景

近年来,基于CNN的行为识别已经刷爆了UCF101等小的数据集,但在大数据集上的准确率难有很大的突破。Transformer作为一种新的方法,有望突破这个瓶颈。由于使用了自注意力机制,Transformer的参数量极大,难以处理长序列。为了解决这个问题,Longformer被提出。而VTN就是基于Longformer对视频进行分类的。

二、框架

VTN
Transformer is born for video. f(x)为已有的提取特征的框架(c3d, i3d,VIT etc.),将特征提取出来后,嵌入位置编码。文中positional embedding用了三种方法:learned, fixed, no positional embedding,直觉上应该是learned positional embedding结果最好,但文中的实验显示no positional embedding 的结果最好(只好大概0.01%…)。

由于作者还没有公开代码,先写这么多,之后再补。

总结

感觉啥也没写,就先不总结了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值