多模态大模型Clip

一、经典分类模型的问题:

  1. 类别固定
  2. 当前的模型只能胜任一个任务,迁移到新任务上非常困难
  3. 类别互斥
  4. 当前的CV数据集标注劳动密集,成本较高,
  5. 当前模型泛化能力较差

负样本的组成(Batchsize有N个文本-图像对)

Batchsize太小,负样本太少,训练效果不佳

Batchsize太大,负样本不准

正负样本是在Batchsize内部构造出来

只有对角线为1,其余为0

二、Clip模型的缺点

  1. ·CLIP的zero-shot性能虽然总体上比supervised baseline ResNet-50要好但其实在很多任务上比不过SOTA methods,因此CLIP的transfer learning有待挖掘
  2. ·CLIP在这几种task上zero-shot性能不好: fine-grained分类 (花的分类、车的分类之类的)、抽象的任务 (如计算图中object的个数) 以及预训练时没见过的task (如分出相邻车辆的距离)。Zero-shot CLIP在真正意义上的out-of-distribution data上性能不好,比如在OCR中
  3. 生成新的概念(如:词),这是CLIP功能上的缺陷,CLIP终究不是生成模型
  4. ·CLIP的训练数据是从网上采集的,这些image-text pairs没有做data clear和de-bias这可能会使模型有一些social biases;
  5. ·很多视觉任务很难用text来表达,如何用更高效的few-shot learning方法优化CLIP也很重要。
  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

几两春秋梦_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值