CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images, ECCV, 2018
要点
1、在大规模弱监督网络网络图像上训练深度神经网络,图像为关键词索引的、没有任何人工注释的互联网图像,通过利用课程学习来制定学习策略以有效处理大量噪声标签和数据不均衡问题
2、设计新的学习课程:通过在特征空间使用数据的分布密度来测量数据的复杂性,并以无监督的方式对复杂性进行排序,允许通过直接搜索高噪声标签,以实施有效的课程学习策略
3、目的:提供一种能够有效处理大量噪声标签和数据不平衡的解决方案,通过利用课程学习来开发一种简单但高效的训练策略,通过利用高噪声标签来提高标准深度网络的模型泛化和整体能力
4、新的基于无监督设计学习课程的方法,按照设计的课程对CNN进行训练,其中,噪声标签的数量逐渐增加
5、多阶段学习:更有效地训练标准神经网络,增强处理大量噪声标签的能力
6、课程学习策略使得模型在训练初期能够花更少的时间在复杂的训练样本上;并且可以引导模型的训练朝更好的局部最优而进行,并依次实现更好的泛化效果
相关工作
图像分类的噪声标注处理
1、噪声鲁棒算法和标签清理算法:从有噪声的标签中学习
目的:删除或纠正错误标记的数据
挑战:从硬训练样本中找到被错误标记的样本
2、半监督学习方法:将有噪声