CLIP-guided Prototype Modulating for Few-shot Action Recognition
在数据稀少(小样本)的情况下,目标是转移大模型CLIP中的多模态知识信息来减轻不准确的原型估计。因此,我们呈现一个CLIP 引导的原型建模框架,包含两个关键的组件:一个视频-文本对比目标、一个原型模块。其中视频-文本对比模块是通过对比视频和对应的类文本描述,连接CLIP和小样本视频任务间的任务差异。原型模块是利用利用来自 CLIP 的可转移文本概念,通过时间转换器自适应地改进视觉原型。因此可以利用CLI中的丰富语义先验来获取可靠地原型,进而提高小样本识别能力。
网络框架:
具体来说,是采用CLIP的视觉编码来生成输入视频帧的特征表示;文本编码器来抽取对应的类语言描述的纹理嵌入信息。在那些获取的视频帧特征和文本特征上,利用一个视频-文本对比目标函数,使得CLIP适应到小样本视频任务中。
此外,还利用原型模块来细化视觉原型表示。
分类概率分布:
最终的目标函数,是由视频-文本对比目标函数和小样本分类目标损失函数组成:
最终,从性能上来看,性能还是得到了一定的提升。