Paper reading: CLIP-guided Prototype Modulating for Few-shot Action Recognition

最新推荐文章于 2024-09-01 23:20:14 发布

我是家家

最新推荐文章于 2024-09-01 23:20:14 发布

阅读量244

点赞数

文章标签：原型模式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihaizhiyan/article/details/131071087

版权

CLIP-guided Prototype Modulating for Few-shot Action Recognition

在数据稀少（小样本）的情况下，目标是转移大模型CLIP中的多模态知识信息来减轻不准确的原型估计。因此，我们呈现一个CLIP 引导的原型建模框架，包含两个关键的组件：一个视频-文本对比目标、一个原型模块。其中视频-文本对比模块是通过对比视频和对应的类文本描述，连接CLIP和小样本视频任务间的任务差异。原型模块是利用利用来自 CLIP 的可转移文本概念，通过时间转换器自适应地改进视觉原型。因此可以利用CLI中的丰富语义先验来获取可靠地原型，进而提高小样本识别能力。

网络框架：

具体来说，是采用CLIP的视觉编码来生成输入视频帧的特征表示；文本编码器来抽取对应的类语言描述的纹理嵌入信息。在那些获取的视频帧特征和文本特征上，利用一个视频-文本对比目标函数，使得CLIP适应到小样本视频任务中。

此外，还利用原型模块来细化视觉原型表示。

分类概率分布：

最终的目标函数，是由视频-文本对比目标函数和小样本分类目标损失函数组成：

最终，从性能上来看，性能还是得到了一定的提升。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Paper reading: CLIP-guided Prototype Modulating for Few-shot Action Recognition

在数据稀少（小样本）的情况下，目标是转移大模型CLIP中的多模态知识信息来减轻不准确的原型估计。因此，我们呈现一个CLIP 引导的原型建模框架，包含两个关键的组件：一个视频-文本对比目标、一个原型模块。其中视频-文本对比模块是通过对比视频和对应的类文本描述，连接CLIP和小样本视频任务间的任务差异。原型模块是利用利用来自 CLIP 的可转移文本概念，通过时间转换器自适应地改进视觉原型。在那些获取的视频帧特征和文本特征上，利用一个视频-文本对比目标函数，使得CLIP适应到小样本视频任务中。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。