重读文献之CLIP的局限性

局限一:在平均上面,它能与一个简单的机械模型打成平手(Resnet50),看在大多数数据集上面表现还是一般

在大多数数据集上面,resnet50模型并不是最先进的,准确率也只有75左右,要是跟最好的模型比起来,还是有很大差距。CLIP刚跟其打个平手。但对于比如:noisy student(88)、最新最大的Vision Transform以及MAE(90),就逊色不少。CLIP性能强,但是没有强到不可一世的地步。虽然说扩大CLIP的数据集和模型,其性能还会继续提高,但是付出的代价很大(计算量),至少在1000倍的水平才可以。所以说在扩大CLIP模型规模的方向上提高性能不现实。因此只能在计算或者数据的高效利用上做文章。

局限二:CLIP在有些数据集上面的ZERO-SHOT的效果也不是很好

比如某些细分类的数据集上面,CLIP模型的效果是低于有监督学习的Resnet50的基线网络水平的。还有就是无法处理特别抽象化的概念,或者更难的任务。比如数一数图片里有多少个物体,或是在监控视频里区分当前这一帧是正常还是异常。虽然CLIP很擅长分类物体,可是它不能理解什么叫异常,什么叫安全。所以说在很多领域,CLIP模型的ZERO-SHOT跟瞎猜一样,你并不是一个万能的办法。

局限三:虽然对于自然图像的泛化很好,即分布偏移该模型还是相对稳健的,但是如果在做推理的时候,测试的数据和训练的数据差的非常远,那么CLIP的泛化能力就很差

比如在一个极小的数据集MINST上面,CLIP的模型准确率仅有88,其他的随便的分类器模型均能达到百分之95以上。原因:训练的四亿样本中,没有与MINST相近的样本。这个数据集中的数字和自然图像还是有很大差异的。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值