Paper reading: CLIP-guided Prototype Modulating for Few-shot Action Recognition

CLIP-guided Prototype Modulating for Few-shot Action Recognition 

在数据稀少(小样本)的情况下,目标是转移大模型CLIP中的多模态知识信息来减轻不准确的原型估计。因此,我们呈现一个CLIP 引导的原型建模框架,包含两个关键的组件:一个视频-文本对比目标、一个原型模块。其中视频-文本对比模块是通过对比视频和对应的类文本描述,连接CLIP和小样本视频任务间的任务差异。原型模块是利用利用来自 CLIP 的可转移文本概念,通过时间转换器自适应地改进视觉原型。因此可以利用CLI中的丰富语义先验来获取可靠地原型,进而提高小样本识别能力。

网络框架:

 具体来说,是采用CLIP的视觉编码来生成输入视频帧的特征表示;文本编码器来抽取对应的类语言描述的纹理嵌入信息。在那些获取的视频帧特征和文本特征上,利用一个视频-文本对比目标函数,使得CLIP适应到小样本视频任务中。

此外,还利用原型模块来细化视觉原型表示。

分类概率分布:

 

 最终的目标函数,是由视频-文本对比目标函数和小样本分类目标损失函数组成:

最终,从性能上来看,性能还是得到了一定的提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值