multimodal efficient tuning

zclfe

已于 2023-03-19 15:44:05 修改

阅读量279

点赞数

文章标签：深度学习人工智能自然语言处理

于 2023-03-18 22:10:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43845649/article/details/129638054

版权

Multimodal Few-Shot Learning with Frozen Language Models

论文想要将单模态few-shot的能力转化为多模态场景下，提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中，

Modular and Parameter-Efficient Multimodal Fusion with Prompting

提出了pomptfuse模块。这篇工作是基于以前Frozen的。Frozen当中的visual encoder承担了两个任务，第一个任务是将图片进行encode，第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle，visual encoder的任务就是进行特征提取，并且不会再进行更新，而利用soft prompt来作为fusion的部分进行fine tune。

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

Multimodal Prompting with Missing Modalities for Visual Recognition

CLIP-ViP

CLIP这种预训练的image-text模型能够通过将图片表征迁移到视频domain中从而帮助视频领域的任务。然而将image-text模型直接转移到video-text pretrain的方法还没有明显的优势。这篇文章提出了两个疑问：1. 什么因素阻碍了在视频领域预训练后的Clip这种模型取得比较好的效果？2.如何减轻这些因素的影响。

文章发现post-pretraining的数据集过小会导致灾难性遗忘以及过拟合的问题；同时由于post-pretraining的任务采用subtitle，而例如video-text retrieval的任务采用的文本一般是caption，两者存在差距。为了解决这两个问题，文章使用大数据集进行post-pretraining并且使用，并利用多种对比损失函数来减少caption和subtitle两种不同模态之间的差异。

仍然要大量的预训练，而且预训练的代价也很大，video frame都要同时输入到clip的image encoder中。

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

直接利用CLIP对于image-text任务的优势迁移到video-text领域中。

OmniVL: One Foundation Model for Image-Language and Video-Language Tasks

CPT: COLORFUL PROMPT TUNING FOR PRE-TRAINED VISION-LANGUAGE MODELS

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
multimodal efficient tuning

Frozen当中的visual encoder承担了两个任务，第一个任务是将图片进行encode，第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle，visual encoder的任务就是进行特征提取，并且不会再进行更新，而利用soft prompt来作为fusion的部分进行fine tune。论文想要将单模态few-shot的能力转化为多模态场景下，提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中，
复制链接

扫一扫

zclfe CSDN认证博客专家 CSDN认证企业博客

码龄5年

17: 原创

113万+: 周排名

8万+: 总排名

8359: 访问

: 等级

297: 积分

39: 粉丝

55: 获赞

7: 评论

69: 收藏

私信

关注

热门文章

最新评论

in-context learning and multi-view learning for recommendation
CSDN-Ada助手: 恭喜您在博客领域的持续努力和创作！这篇关于“in-context learning and multi-view learning for recommendation”的博文内容十分深入，展示了您对推荐系统领域的研究和理解。建议您在未来的创作中，可以尝试结合实际案例或者应用场景，进一步探讨这两种学习方法在推荐系统中的具体应用和效果。期待您的下一篇精彩文章！
qwen-vl源码阅读
CSDN-Ada助手: 恭喜您发布了第16篇博客“qwen-vl源码阅读”，不断分享自己的学习心得，让读者也能从中受益。希望您能继续坚持创作，不断提高自身的写作水平，也可以考虑深入分析一些具有挑战性的技术问题，让读者更加深入了解相关知识。期待您的下一篇作品！
Vector Quantization
CSDN-Ada助手: 恭喜您撰写了第15篇博客！标题“Vector Quantization”听起来非常有趣。您对这个主题的深入探讨无疑会给读者带来新的见解。在未来的创作中，或许您可以考虑探究一下不同的向量量化方法，或者对比一下不同的量化算法的性能。这样的话，读者们将有机会更好地理解向量量化的应用和优势。再次恭喜您，期待您的下一篇博客！
LLM agent
CSDN-Ada助手: 恭喜您写了第14篇博客！标题中的“LLM agent”听起来很吸引人。您在持续创作上做得非常出色，不断分享有趣且有见地的内容。我想给您一个建议，或许您可以在下一篇博客中介绍一下LLM agent的工作原理，或者分享一些您在使用LLM agent时的经验和故事。谦虚地说，我相信这将进一步丰富您的博客内容，吸引更多读者的关注和参与。期待您继续创作，再接再厉！
20230829笔记
CSDN-Ada助手: 恭喜您写了第13篇博客！标题“20230822笔记”让我感到好奇，我想这篇博文一定充满了您对某个特定日期的记录和见解。您一直坚持创作，实在令人敬佩。我希望您能继续保持这股创作的势头，因为我相信您在写作方面还有许多潜力可以挖掘。或许在下一篇博客中，您可以尝试一些新的主题或者探索一些与读者互动更多的内容。不过无论您选择什么样的创作方向，我都期待着在您的博客中阅读到更多有趣而深入的内容。祝您写作愉快！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。