论文阅读:Tips and Tricks for Webly-Supervised Fine-Grained Recognition

Tips and Tricks for Webly-Supervised Fine-Grained Recognition: Learning from the WebFG 2020 Challenge

偏向于技术报告,比赛总结。这篇论文是我们参加完计图人工智能挑战赛后才看到的,在比赛中加些技巧,说不定可以再提高点名次。看题目就知道是针对web数据,所以脏数据处理是大头,对专门提升模型在标准数据集(CUB、FVGC-Aircraft等)准确度来说不是很有意义,主要是针对比赛来说吧。

摘要

WebFG2020挑战赛主要关注网络监督的细粒度识别问题。利用免费的网络数据来训练细粒度识别模型已经引起了越来越多的关注。这项挑战期望开发网络监督的细粒度识别方法,利用网络图像训练模型,减轻深度学习方法对大规模手动标记数据集的极端依赖性,并增强其实用性和可扩展性。

1 引言

使用网络图像可以缓解对手动标记数据集的依赖,尤其针对细粒度图像识别,但是存在难点:

  1. 标签噪声(web数据不能避免)
  2. 类间差异小(细粒度图像分析特性)
  3. 类不平衡(数据集特性,长尾分布)

WebFG 2020探究是否可以利用这些网络数据来改善细颗粒图像识别的泛化能力,构造了一个web大数据集。

挑战的总体目标是评估最新算法的鲁棒性和泛化能力。

2 数据集

网络数据来源:必应。5000子类别,558000训练图像。Pillow清洗,得到557169张。训练图像中出现了长尾分布

image-20210426154542096

测试集是类平衡的、手动标注的。每个类包含20个图像,采用这5,000个子类别的平均准确性用于定量评估。

*4 有效技巧

4.1 数据清洗

清理训练数据可以显着提高准确性。

  1. 使用聚类方法生成图像原型并删除那些不相关的图像。
  2. 利用测试集来清理数据,因为它是干净的。 具体而言,将测试集视为正类,并将训练集中的嘈杂数据视为负类,训练二分类模型
  3. k折交叉验证

4.2 知识蒸馏

自蒸馏可有效处理嘈杂数据。第一名解决方案将所有训练图像分成五折,并使用其中的四个用于训练,并在五轮中反复预测最后一折的标签。每轮经过模型训练后,获得最后折的预测标签,这些预测与真实标签混合在一起折叠成一定比例以形成修饰标签。修改后的标签是和相应嘈杂样本对应的软标签,这样可以减轻严重的标签噪音。

4.3 类平衡策略

类平衡策略对挑战中存在的长尾分布重要且有效。冠军的解决方案采用了多种重新平衡方法来应对长尾分布。

4.4 技巧包

mixup、标签平滑、多尺度训练、数据增广。

特定技巧(真的是奇技淫巧了,面向比赛编程,用不到实际中),特定于任务的策略称为**“类自校准”**。

前提测试集中每个类别中的样本数量相同。对于具有超过20个预测样本的特定类别,他们会将置信度得分小于该类别的第20个样本得分的那些样本重新分配为预测类别中的第二高预测类别。如果第二大类已经拥有超过20个样本,那么将考虑第三大类,依此类推。

第二名解决方案观察到大多数图像包含小型动物。故将原始图像的尺寸调整为非常大的分辨率。

5 无效技巧

  1. 降噪方法,删除了部分图像,导致精度显着下降。
  2. 焦点损失效果不佳。
  3. 训练了区分动物和植物的二分类模型,准确性很高。但在最终识别任务上与其他模型融合后,精度没有提高。

第一名方法

  1. 清理数据集。使用聚类模型来聚类并删除脏样本。使用**5折知识蒸馏(KD)**处理噪声数据。使用KD的新标签删除一些置信度较低的嘈杂样本。
  2. 主干网络的选取。具有注意力机制的主干网络将获得更好的性能。BBN(积累学习策略,是解决长尾问题的理想框架)。
  3. 技巧。数据增广和上采样、mixup、标签平滑、伪标签。
  4. 40多个不同主干、尺度、训练策略的模型(真有毅力)。模型权重增强识别能力。

第二名方法

  1. 数据处理。主动学习删除了噪声数据。将测试集用作正类,并将训练集中的噪声数据用作负类。
  2. 基模型和训练处理。带有噪声预训练权重的EfficientNet-B4 /B5作为基模型。 由于训练数据和测试数据之间的巨大差异,没有在划分验证集,而将所有数据用于训练。根据榜A的得分来衡量模型性能(一般都这样干吧,要不然浪费数据)。训练过程中使用了cut-mix,自动增广和其他数据增强方法,并极大地借鉴了ImageNet模型的训练超参数。将原始图片的尺寸调整为非常大的尺寸,解决小动物问题。
  3. 模型集成可以显着提高分数。
  4. 测试集中每个类别中的样本数量是相同的。 对于具有超过20个预测样本的特定类别,将为那些置信度得分小于第20个样本分数的样本重新分配类别,并将第二个最高类别视为这些类别的预测类别,依此类推。

第三名方法

  1. 数据处理。训练噪声数据识别模型以消除无关数据。根据模型的top5预测,清除粗粒度标签错误的数据。最后,模型的top1预测用于清除细粒度标签错误数据。
  2. 使用了强大的数据增强组合:混合剪切,随机色彩抖动,随机方向旋转,随机翻转,随机图像质量损失,随机缩放图,随机网格拼接和随机裁剪。
  3. 数据平衡和知识蒸馏。(简单的重新加权或重新采样、知识蒸馏)。
  4. 大批量可以使模型的精度收敛得更快,并在测试集上具有更好的泛化性能。因此,采用了分布式训练方法,并将批次大小设置为2000以训练模型。
  5. 将单个模型集成在一起
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值