高性价比模型 TSM,用 2D 的成本达到 3D 的效果

TSM是MIT和IBM联合研发的高效视频理解模型,通过2DCNN与时间位移模块结合,降低计算成本,实现与3DCNN相当的性能。它革新了视频分析技术,使得在保持效率的同时增强时间信息处理能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

出品人:Towhee 技术团队

MIT 和 IBM Watson AI Lab 联合提出一种高效的视频理解模型 TSM(Temporal Shift Module),在保留 2D 效率的同时,通过时间位移模拟 3D 建模提高模型性能。以往的模型理解视频时,需要在传统图片分析的基础上耗费大量算力补充关于时间的信息。TSM 的出现,使得低成本实现高性能视频理解模型成为可能。

TSM:Temporal shifting

2D CNN 和 3D CNN是视频理解中最常用的两个方法:使用 2D CNN 模型运算量少,但会丧失部分时间信息;而使用 3D CNN 虽然效果好,但运算量极大。面对这样的情况,TSM 将时间位移模块嵌入 2D CNN,从而可以在不添加任何额外的计算量和参数的情况下,轻松的达到与 3D CNN 效果相当的视频理解能力。

 

参考资料:

模型用例:action-classification/tsm

论文: TSM: Temporal Shift Module for Efficient Video Understanding

更多资料:

视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video Understanding

TSM:Temporal Shift Module for 视频理解

更多项目更新及详细内容请关注我们的项目,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

zilliz用户交流

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值