谷歌大脑团队：ImageNet错误数据分析

Civisky

于 2022-07-19 18:59:52 发布

阅读量278

点赞数 2

文章标签：算法

原文链接：https://arxiv.org/abs/2205.04596

版权

原文：Vasudevan V, Caine B, Gontijo-Lopes R, et al. When does dough become a bagel? Analyzing the remaining mistakes on ImageNet[J]. arXiv preprint arXiv:2205.04596, 2022.

源码：https://github.com/google-research/imagenet-mistakes

过去十年，ImageNet数据集上的图像分类精度一直是计算机视觉进步的晴雨表。最近的几篇论文质疑了该基准对社区的有用程度，然而算法创新仍然有助于提高模型性能，当今最大的模型达到了90%以上的Top-1精度。为了给当今最先进的模型提供更有意义的评估，我们手动审查和分类了一些顶级模型所犯的每一个错误。我们聚焦ImageNet的多标签子集评估，在这个数据集上，当今最好的模型达到了97%以上的Top-1精度。

我们的分析表明，近一半所谓的“错误”根本不是错误，如果不仔细审查，我们将明显低估这些模型的性能。另一方面，我们还发现，当今最好的模型仍然会犯大量错误(40%)，这些错误在人类审查员看来显然是错误的。为了校准未来在ImageNet上的进展，我们提供了一个更新的多标签评估集，并精心制作了ImageNet-Major数据集：当今顶级模型所犯错误中的68个“重大错误”示例，在这个数据集上，模型应该达到近乎完美的水平，但今天远非如此。

面团？百吉饼？傻傻分不清楚。

图1：错误的严重程度。模型对(a)和(b)预测错误。模型对(c)预测正确，但是图中出现了多目标，而标签只有一个，模型预测出了丢失的标签。模型对(d)的预测是正确的，不过(d)的标签“蜜蜂”是错误的，图中的昆虫是bee-fly，它是一种苍蝇。

图2：模型预测错误的4类示例。(b)的标签是“注射器”，图中的动物是毛丝鼠(不属于ImageNet类)，但在视觉上类似于仓鼠(属于ImageNet类)，因此模型将其预测成了仓鼠。(c)的标签是“鼠标、桌子、显示器、屏幕”，但模型将其预测为“台式计算机”，而图中并没有台式计算机。

表1：ViT-3B模型在重新标记前后的多标签准确率(Multi-label accuracy, MLA)。

表2：ViT-3B和Greedy Soups模型的错误类型与严重程度。

容易混淆的类别对出现的频率，这种分布在本质上是长尾的。最容易混淆的类别对是(美洲变色龙，绿蜥蜴)和(马达加斯加猫，大狐猴)。

表3：ViT-3B、Greedy Soups和最佳人类表现的多标签准确率的比较。

表4：删除泄漏的训练示例对模型性能的影响。

图3：伪相关示例。

图4：我们为审查模型预测而构建的UI截图。对于每张图像，我们会确定模型预测是正确的、错误的还是不清楚的。如果图像的标签不正确，我们会将图像标记为有问题的。

图5：我们构建的类别搜索工具的截图。

图6：重大错误的更多示例。

图7：较小错误的更多示例。

图8：纠正“错误”。模型预测正确，我们将模型预测结果添加到原始的多标签注释中。

图9：有问题的“错误”。图像或其原始标签有问题，不应出现在验证集中。

图10：细粒度错误。

图11：OOV(Out-of-vocabulary)细粒度错误。

图12：伪关联示例。“Over-reliance on context”表明图像中的线索与预测类别相关，尽管预测类别并不存在。“Lack of context”表明模型未能理解图像中的语境，并预测了与图像整体理解不一致的类别。

图13：非典型错误，例如狗品种中的小狗，或该类别中的异常/独特版本。

图14：困难样本。针对第一行图像，人类容易分类错误，但是模型却分类正确。针对第二行图像，人类容易分类正确，但是模型却分类错误。

图15：接近重复的示例。

图16：接近重复的示例。

在本文中，我们分析了ViT-3B和Greedy soup模型在ImageNet多标签验证集上所犯的每一个错误。我们发布了ImageNet-M数据集，这是一个包含68个示例的多标签评估子集，用于衡量模型解决重大、明确错误的能力。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

Civisky

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
谷歌大脑团队：ImageNet错误数据分析

在本文中，我们分析了ViT-3B和Greedysoup模型在ImageNet多标签验证集上所犯的每一个错误。我们发布了ImageNet-M数据集，这是一个包含68个示例的多标签评估子集，用于衡量模型解决重大、明确错误的能力。...
复制链接

扫一扫