ImageNet、CIFAR、MNIST、IMDB、AudioSet等10个数据集中的标签错误分析

最新推荐文章于 2024-04-11 22:29:24 发布

Civisky

最新推荐文章于 2024-04-11 22:29:24 发布

阅读量781

点赞数

文章标签：算法机器学习人工智能深度学习

原文链接：https://arxiv.org/abs/2103.14749

版权

原文：Northcutt C G, Athalye A, Mueller J. Pervasive label errors in test sets destabilize machine learning benchmarks[J]. arXiv preprint arXiv:2103.14749, 2021.

源码：https://github.com/cleanlab/label-errors

官网：https://labelerrors.com/

我们研究了10个最常用的计算机视觉、自然语言和音频数据集的测试集标签错误，以及这些标签错误对基准测试结果的潜在影响。我们发现测试集中的标签错误数量众多且分布广泛。我们估计10个数据集的平均错误率至少为3.3%，而ImageNet验证集的标签错误率至少为6%。我们使用自信学习(confident learning)算法识别潜在的标签错误，然后通过众包进行人工验证。在所有数据集中，被算法标记为“错误”的标签里面，平均有51%的标签确实是错误的。

传统上，机器学习从业者根据测试精度选择部署哪种模型，我们建议这样做的话要谨慎，在正确标记的测试集上评判模型可能更重要，特别是对于含有更多噪声的真实世界数据集。我们建议考虑校正测试精度和原始测试精度之间的区别，并精心管理数据集，以最大限度地增加高质量的测试标签。10个数据集的测试集标签错误可在官网查看：https://labelerrors.com。

图1：MNIST, CIFAR-10, CIFAR-100, Caltech-256, ImageNet, QuickDraw图像数据集标签错误的示例。所有10个数据集(包括 IMDB, Amazon Reviews, 20News, AudioSet等文本音频数据集)的标签错误，可以在https://labelerrors.com上找到。

表1：测试集标签错误在常见的基准数据集中很突出。我们观察到，不同数据集的错误率不同，从0.15%(MNIST)到10.12%(QuickDraw)。

注：本文用的是ImageNet的验证集。

表2：被自信学习(CL)算法判定为错误的标签中，经过Mechanical Turk人工验证之后的结果。

注：Mechanical Turk是亚马逊公司运营的一个在线任务网站，甲方可以发布悬赏任务，乙方完成任务后可以领取赏金。

图2：各种数据集中的困难样本，其中自信学习算法发现了潜在的标签错误，但人工验证表明实际上没有错误。(a)是一个老式缝纫机的局部裁剪图；(b)是一种从飞机内部观察跑道和草地的视角，显示了飞机机头的局部视图；(c)是一个模棱两可的形状，可能是土豆；(d)很可能是一个糟糕的“5”；(e)是一个无法确定具体年龄的男性；(f)是一根稻草，在微型的村庄复制品中用作杆子。

图3：34个ImageNet预训练模型和13个CIFAR-10预训练模型的基准排名比较(详细信息见附录中的表S2、S1和图S3)。

图4：ImageNet top-1原始精度(上)和校正精度(下) vs 噪声率。

图5：CIFAR-10 top-1原始精度(上)和校正精度(下) vs 噪声率。

表3：专家与MTurk工人识别的标签错误的对比。

图S1：Mechanical Turk工人的操作界面显示了一张来自ImageNet的图像，它的原始标签是“南方黑寡妇蜘蛛，southern black widow”。

操作界面的中间显示自信学习算法识别的原始标签错误的图像，右边显示原始标签的图像示例(南方黑寡妇蜘蛛)，左边显示自信学习算法预测标签的图像示例(蝎子，scorpion)。原始标签为选项(a)，预测标签为选项(b)，或者反过来，原始标签为选项(b)，预测标签为选项(a)。MTurk工人在(a)、(b)、both (a) and (b)、neither四个选项中做出选择。

图S2：一个Mechanical Turk工人出错的例子。这张图片显然不符合ImageNet给定的标签“蜱虫，tick”，但经过仔细检查，它也不符合预测的标签“蝎子，scorpion”。图中的昆虫实际上是一种蛛形纲动物，通常被称为“骆驼蛛，camel spider”。

图S3：34个预训练模型在ImageNet验证集上的基准排名比较。

图S4：ImageNet top-1原始精度(上)和校正精度(下) vs 噪声率。

本文证明了标签错误在许多用于衡量机器学习进展的基准测试集中普遍存在。我们假设，由于各种挑战，这一点在之前没有被大规模的发现和公布。首先，人工验证所有标签可能非常昂贵，我们通过自信学习(CL)算法在人工验证之前自动过滤可能的标签错误来避免这种情况。其次，处理10种不同格式的数据集并非易事，我们仔细观察后发现有些数据集存在特殊问题。例如，IMDB、QuickDraw和Caltech-256缺少全局索引，Caltech-256包含多个重复图像。最后，ImageNet包含重复的类别标签，例如“maillot”和“crane”。

传统上，机器学习从业者根据测试精度选择部署哪种模型，我们建议这样做的话要谨慎，在正确标记的测试集上评判模型可能更重要，特别是对于含有更多噪声的真实世界数据集。我们建议考虑校正测试精度和原始测试精度之间的区别，并精心管理数据集，以最大限度地增加高质量的测试标签。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

Civisky

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ImageNet、CIFAR、MNIST、IMDB、AudioSet等10个数据集中的标签错误分析

本文证明了标签错误在许多用于衡量机器学习进展的基准测试集中普遍存在。传统上，机器学习从业者根据测试精度选择部署哪种模型，我们建议这样做的话要谨慎，在正确标记的测试集上评判模型可能更重要，特别是对于含有更多噪声的真实世界数据集。我们建议考虑校正测试精度和原始测试精度之间的区别，并精心管理数据集，以最大限度地增加高质量的测试标签。...
复制链接

扫一扫