如何在稀烂的数据中做深度学习

本文介绍了在数据不理想的情况下进行深度学习的几种方法,包括联邦学习解决数据分散和隐私问题,长尾学习通过重采样和重加权处理类别不平衡,噪声标签学习通过权重判别减少错误学习,以及持续学习中基于回放和正则化的方法来适应数据流变化。
摘要由CSDN通过智能技术生成

如何在稀烂的数据中做深度学习

https://www.bilibili.com/video/BV1oW4y1U7Tr/?spm_id_from=333.337.search-card.all.click&vd_source=03ffc2cc7476090914471b003ec4dda9

小火炉信息技术前沿讲座 | 如何在稀烂的数据中做深度学习 学习笔记

1 好的训练数据:

  1. 可获取
  2. 大规模
  3. 平衡
  4. 干净(标签准确)

2 数据不完美时如何做深度学习?

四种方法对应四种不同的情况:

  1. 联邦学习(Federated Learning): 数据存储在本地(数据不集中);
  2. 长尾学习(long-tail learning):类别分布不平衡;
  3. 嘈杂的标签学习(noisy label learning):标签不准确;
  4. 持续学习(continual learning):部分数据可获取,在间隔时间可持续获取数据

2.1 联邦学习

2016年由谷歌提出,核心思想是不传数据,传模型参数。
请添加图片描述

(1)联邦学习难点在于数据异构

数据异构:每个用户的数据来自于不同的分布;

数据异构困难在于:

  1. 每个用户的训练数据量不同;
  2. 每个用户的训练类别不同;
  3. 每个用户的不平衡比例不同。

一般的解决方法是要求在更新本地模型时不能跟全局差距太大。
请添加图片描述

(2)涉及的其他问题

请添加图片描述

  1. 个性化FL
  2. 模型传输和压缩
  3. 隐私问题
  4. 公平
  5. 数据投毒攻击
  6. 奖励机制

2.2 长尾学习

常用方法一般是重采样和重加权;

近年来新的挑战:

  1. 类别数巨大,不平衡变得更加复杂;
  2. 由于是端到端学习,数据不平衡不仅影响分类器,也影响特征提取。

主要方法:

  1. 重加权(re-weighting)

一般在损失部分进行加权计算

  1. 数据增强(augmentation)

重采样,生成数据,前景背景融合(前景混合不同的背景)

  1. (decoupling)

有研究者把训练分为两步:(1)训练整个模型;(2)把特征固定住,再学习分离器。

然后在每一个阶段使用不同的策略(CE:cross-entropy; RW: re-weighting;RS: re-sampling)。最后发现长尾数据对特征影响不大,主要是影响分类器。

请添加图片描述

  1. 集成学习(ensemble learning)

训练多个模型,每个模型在不同的分布上训练。

使用较多模型训练尾部类,较少的训练头部类。使得总体结果不对头部类偏移太多。

2.3 噪声标签的学习

因为噪声的存在会导致模型学习到错误的特征造成过拟合。

方法有:

  1. 模型对数据进行一个权重判别,给差的标签一个较低的权重;
  2. 限制模型的可用数据,让模型自己选择质量高的样本。
  3. sall loss trick,不学习错误率太高的样本。

请添加图片描述

2.4 持续学习

请添加图片描述

假设:

  1. 无法储存所有数据;
  2. 数据分布可能偏移;
  3. 模型的测试包含所有的历史数据类别。

实际上需要平衡稳定性和可塑性。

请添加图片描述

方法:

2.4.1 基于回放的方法

回放(replay-based):留存一部分历史样本。

  1. 学习新数据时,限制不能使模型在旧数据上表现变差。
  2. 数据集压缩:把很多数据凝结在一张图像上请添加图片描述

请添加图片描述

基于回放的方法存在很多数据方面的限制,但目前最好的方法还是基于回放的方法。

2.4.2 基于正则的方法

要求在训练过程中新学习的模型不能跟老模型相差太大。

2.4.3 参数隔离

请添加图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值