ImageNet验证集6%的标签都是错的,实际使用时也是会有标注错误。
所有有时大模型等结果没有比小模型好,可能是数据噪声导致的。
在存在大量标注错误的现实世界数据集中,小容量模型可能比大容量模型更有用。举个例子,从基于原始给定标签的测试准确率来看,NasNet 似乎要优于 ResNet-18,但如果用标签修正之后的测试集进行测试,NasNet 的准确率其实比不上 ResNet-18。由于后者在现实中更为重要,在这种情况下,我们在现实中部署的也应该是 ResNet-18,而不是 NasNet。
https://mp.weixin.qq.com/s/hvdCWypuW00Tv_5aKhYGZA