笔记-如何在稀烂的数据中做深度学习

_森罗万象

已于 2022-07-19 11:07:29 修改

阅读量809

点赞数

分类专栏：学习笔记文章标签：深度学习人工智能机器学习

于 2022-07-15 18:48:35 首次发布

本文链接：https://blog.csdn.net/weixin_52812620/article/details/125810683

版权

52 篇文章 1 订阅

订阅专栏

1.Deep Learning

深度学习是一个端到端学习的过程，相较传统的机器学习，它把特征提取过程也加入学习
构建好的深度学习模型的先决条件是“数据完美”
完美数据是：
- Accessible，数据拿得到，现实数据可能涉及隐私问题
- Large-scaled，数据量足够大
- Balanced，数据 label 平衡
- Clean，label 标注准确
不完美的数据集处理方法有：
- Federated Learning
- Long-tail Learning
- Noisy Label Learning
- Continual Learning

Label 不平衡的数据集可能导致模型比较差，例如就算把数据量少的那个 label 全分类错了，模型精度 accuracy 仍然很高（因此需要注意评价模型的 metric），这样模型就会偏向于将样本归到多数类
在深度学习之前，有重采样 re-sampling （label 少的类采样多一些，容易出现过拟合，只记得训练集中出现的样本）和重加权 re-weighting 方法（在分类少数类错误的时候给予更大的惩罚）
深度学习时代：
- 分类模型的 class 很多，不平衡的情况很复杂
- 端到端的模式中，数据不平衡除了对分类有影响，是否对特征提取也有影响？
2019年，long-tail learning 正式首次提出，数据集分布呈现长尾/幂律分布（28定律）

preview

Methodology
- Re-weighting，label 少的分错了惩罚更大
- Augmentation，生成 label 少的数据做补充平衡，比如背景替换等
- Decoupling，有工作表明数据不平衡对特征提取的影响比较小，而对分类器的影响比较大。因此可以在原始数据集上训练特征提取，之后把特征固定下来重新训练分类器，此时训练时再加重采样，惩罚等操作
- Ensemble Learning，集成学习在不同的数据集上训练，例如可以多训练一些在尾部类上的分类器，少训练一些在头部类的分类器，集成投票之后可以在尾部类上有贡献

在 label 标注错误很多的数据集上训练容易出现过拟合，在此样本出现时容易分类错误
估计 Noise Transition Matrix 后将它融合到模型里
添加正则化，强迫模型只能在少量的样本上训练，模型会更倾向于用干净的样本
学习样本的权重，如果是噪声样本，权重趋于0
small-loss trick，如果一个样本分类很离谱（很有可能是噪声）而且经常分错，就允许模型不再去学习它了，把它的惩罚降低，逃避可耻但有用，例如 Co-Teaching
现实应用中，标错的 label 有可能不存在于数据集中（OOD Noise），不能计算 Noise Transition Matrix

样本是慢慢提供的，过往样本不能存太多或者不能存，label 等数据分布也可能发生转变，但要求过往学到的不能忘
寻求模型的 stability 和 plasticity 的 trade-off，既要记得以前的东西，又要能学会新的东西
深度学习模型的学习能力很强，一般 plasticity 容易满足，但难以记得之前学到的东西，容易出现 catastrophic forgetting
Replay-Based Methods，挑某些以往数据集中具有代表性的样本和新数据集合在一起学习，让模型“历历在目”，主要问题是怎么选有代表性的样本，第二个问题是怎么用这些选出来的样本让模型不要“见异思迁”
- 怎么用：GEM 限制在老的样本上预测精度不能变差
- 怎么选：不显性地丢掉数据，而是把样本数据压缩，让一张图片能够包含多张图片的信息
Replay-Based Methods 有一些缺陷：
- 要保证终生学习必须丢掉部分数据
- 有严格要求就是不能存储
Regularization-Based Methods，保存过往任务学到的模型而不是数据，在新任务训练时保证新模型不与以往的老模型不能相差太多（类似联邦模型中全局模型和本地模型的关系）
Parameter Isolation Methods，深度学习学到的模型一般很大，有很多参数不起作用，在每学一个任务中后先对模型进行压缩，让很多参数空出来学习其他任务