多模态大模型Clip

几两春秋梦_

于 2024-01-11 19:56:29 发布

阅读量506

点赞数 10

分类专栏：多模态文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64443786/article/details/135536443

版权

多模态专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、经典分类模型的问题:

类别固定
当前的模型只能胜任一个任务，迁移到新任务上非常困难
类别互斥
当前的CV数据集标注劳动密集，成本较高，
当前模型泛化能力较差

负样本的组成(Batchsize有N个文本-图像对)

Batchsize太小，负样本太少，训练效果不佳

Batchsize太大，负样本不准

正负样本是在Batchsize内部构造出来

只有对角线为1，其余为0

二、Clip模型的缺点

·CLIP的zero-shot性能虽然总体上比supervised baseline ResNet-50要好但其实在很多任务上比不过SOTA methods，因此CLIP的transfer learning有待挖掘
·CLIP在这几种task上zero-shot性能不好: fine-grained分类 (花的分类、车的分类之类的)、抽象的任务 (如计算图中object的个数) 以及预训练时没见过的task (如分出相邻车辆的距离)。Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好，比如在OCR中
生成新的概念(如:词)，这是CLIP功能上的缺陷，CLIP终究不是生成模型
·CLIP的训练数据是从网上采集的，这些image-text pairs没有做data clear和de-bias这可能会使模型有一些social biases;
·很多视觉任务很难用text来表达，如何用更高效的few-shot learning方法优化CLIP也很重要。

几两春秋梦_

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
多模态大模型Clip

多模态
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

几两春秋梦_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。