谷歌大脑团队:ImageNet错误数据分析

原文:Vasudevan V, Caine B, Gontijo-Lopes R, et al. When does dough become a bagel? Analyzing the remaining mistakes on ImageNet[J]. arXiv preprint arXiv:2205.04596, 2022.

源码:https://github.com/google-research/imagenet-mistakes

过去十年,ImageNet数据集上的图像分类精度一直是计算机视觉进步的晴雨表。最近的几篇论文质疑了该基准对社区的有用程度,然而算法创新仍然有助于提高模型性能,当今最大的模型达到了90%以上的Top-1精度。为了给当今最先进的模型提供更有意义的评估,我们手动审查和分类了一些顶级模型所犯的每一个错误。我们聚焦ImageNet的多标签子集评估,在这个数据集上,当今最好的模型达到了97%以上的Top-1精度。

我们的分析表明,近一半所谓的“错误”根本不是错误,如果不仔细审查,我们将明显低估这些模型的性能。另一方面,我们还发现,当今最好的模型仍然会犯大量错误(40%),这些错误在人类审查员看来显然是错误的。为了校准未来在ImageNet上的进展,我们提供了一个更新的多标签评估集,并精心制作了ImageNet-Major数据集:当今顶级模型所犯错误中的68个“重大错误”示例,在这个数据集上,模型应该达到近乎完美的水平,但今天远非如此。

面团?百吉饼?傻傻分不清楚。

图1:错误的严重程度。模型对(a)和(b)预测错误。模型对(c)预测正确,但是图中出现了多目标,而标签只有一个,模型预测出了丢失的标签。模型对(d)的预测是正确的,不过(d)的标签“蜜蜂”是错误的,图中的昆虫是bee-fly,它是一种苍蝇。

图2:模型预测错误的4类示例。(b)的标签是“注射器”,图中的动物是毛丝鼠(不属于ImageNet类),但在视觉上类似于仓鼠(属于ImageNet类),因此模型将其预测成了仓鼠。(c)的标签是“鼠标、桌子、显示器、屏幕”,但模型将其预测为“台式计算机”,而图中并没有台式计算机。

表1:ViT-3B模型在重新标记前后的多标签准确率(Multi-label accuracy, MLA)。

表2:ViT-3B和Greedy Soups模型的错误类型与严重程度。

容易混淆的类别对出现的频率,这种分布在本质上是长尾的。最容易混淆的类别对是(美洲变色龙,绿蜥蜴)和(马达加斯加猫,大狐猴)。

表3:ViT-3B、Greedy Soups和最佳人类表现的多标签准确率的比较。

表4:删除泄漏的训练示例对模型性能的影响。

图3:伪相关示例。

图4:我们为审查模型预测而构建的UI截图。对于每张图像,我们会确定模型预测是正确的、错误的还是不清楚的。如果图像的标签不正确,我们会将图像标记为有问题的。

图5:我们构建的类别搜索工具的截图。

图6:重大错误的更多示例。

图7:较小错误的更多示例。

图8:纠正“错误”。模型预测正确,我们将模型预测结果添加到原始的多标签注释中。

图9:有问题的“错误”。图像或其原始标签有问题,不应出现在验证集中。

图10:细粒度错误。

图11:OOV(Out-of-vocabulary)细粒度错误。

图12:伪关联示例。“Over-reliance on context”表明图像中的线索与预测类别相关,尽管预测类别并不存在。“Lack of context”表明模型未能理解图像中的语境,并预测了与图像整体理解不一致的类别。

图13:非典型错误,例如狗品种中的小狗,或该类别中的异常/独特版本。

图14:困难样本。针对第一行图像,人类容易分类错误,但是模型却分类正确。针对第二行图像,人类容易分类正确,但是模型却分类错误。

图15:接近重复的示例。

图16:接近重复的示例。

在本文中,我们分析了ViT-3B和Greedy soup模型在ImageNet多标签验证集上所犯的每一个错误。我们发布了ImageNet-M数据集,这是一个包含68个示例的多标签评估子集,用于衡量模型解决重大、明确错误的能力。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值