multimodal efficient tuning

Multimodal Few-Shot Learning with Frozen Language Models

论文想要将单模态few-shot的能力转化为多模态场景下,提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中,

Modular and Parameter-Efficient Multimodal Fusion with Prompting

提出了pomptfuse模块。这篇工作是基于以前Frozen的。Frozen当中的visual encoder承担了两个任务,第一个任务是将图片进行encode,第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle,visual encoder的任务就是进行特征提取,并且不会再进行更新,而利用soft prompt来作为fusion的部分进行fine tune。

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

Multimodal Prompting with Missing Modalities for Visual Recognition

CLIP-ViP

CLIP这种预训练的image-text模型能够通过将图片表征迁移到视频domain中从而帮助视频领域的任务。然而将image-text模型直接转移到video-text pretrain的方法还没有明显的优势。这篇文章提出了两个疑问:1. 什么因素阻碍了在视频领域预训练后的Clip这种模型取得比较好的效果?2.如何减轻这些因素的影响。

文章发现post-pretraining的数据集过小会导致灾难性遗忘以及过拟合的问题;同时由于post-pretraining的任务采用subtitle,而例如video-text retrieval的任务采用的文本一般是caption,两者存在差距。为了解决这两个问题,文章使用大数据集进行post-pretraining并且使用,并利用多种对比损失函数来减少caption和subtitle两种不同模态之间的差异。

仍然要大量的预训练,而且预训练的代价也很大,video frame都要同时输入到clip的image encoder中。

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

直接利用CLIP对于image-text任务的优势迁移到video-text领域中。

OmniVL: One Foundation Model for Image-Language and Video-Language Tasks

CPT: COLORFUL PROMPT TUNING FOR PRE-TRAINED VISION-LANGUAGE MODELS

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值