数据集制图:用训练动态映射和诊断数据集
原文链接:[2009.10795] Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics
1、引言
数据地图(Data Maps)——一种基于模型的工具,用于表征和诊断数据集
数据地图长啥样可以看下面这张图
该地图揭示了数据集中三个不同的区域:一个区域包含真类概率在训练期间频繁波动(高变异性)的实例,因此对于模型来说是模糊的;一个区域包含容易学习的实例,模型能够正确且一致地预测(高置信度,低变异性);以及一个区域包含难以学习的实例,具有低置信度、低变异性,我们发现其中许多是在标注过程中被错误标注的。
用途:数据地图可以作为诊断大型数据集的有效工具
2、使用训练动态映射数据集
如何定义置