如何在稀烂的数据中做深度学习

兔兔兔兔兔子。

已于 2023-02-06 15:02:12 修改

阅读量156

点赞数

文章标签：深度学习人工智能

于 2023-02-05 15:55:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44682665/article/details/128891031

版权

本文介绍了在数据不理想的情况下进行深度学习的几种方法，包括联邦学习解决数据分散和隐私问题，长尾学习通过重采样和重加权处理类别不平衡，噪声标签学习通过权重判别减少错误学习，以及持续学习中基于回放和正则化的方法来适应数据流变化。

摘要由CSDN通过智能技术生成

如何在稀烂的数据中做深度学习

https://www.bilibili.com/video/BV1oW4y1U7Tr/?spm_id_from=333.337.search-card.all.click&vd_source=03ffc2cc7476090914471b003ec4dda9

小火炉信息技术前沿讲座 | 如何在稀烂的数据中做深度学习学习笔记

1 好的训练数据：

可获取
大规模
平衡
干净（标签准确）

2 数据不完美时如何做深度学习？

四种方法对应四种不同的情况：

联邦学习（Federated Learning）: 数据存储在本地（数据不集中）；
长尾学习（long-tail learning）：类别分布不平衡；
嘈杂的标签学习（noisy label learning）：标签不准确；
持续学习（continual learning）：部分数据可获取，在间隔时间可持续获取数据

2.1 联邦学习

2016年由谷歌提出，核心思想是不传数据，传模型参数。
请添加图片描述

（1）联邦学习难点在于数据异构

数据异构：每个用户的数据来自于不同的分布；

数据异构困难在于：

每个用户的训练数据量不同；
每个用户的训练类别不同；
每个用户的不平衡比例不同。

一般的解决方法是要求在更新本地模型时不能跟全局差距太大。
请添加图片描述

（2）涉及的其他问题

请添加图片描述

个性化FL
模型传输和压缩
隐私问题
公平
数据投毒攻击
奖励机制

2.2 长尾学习

常用方法一般是重采样和重加权；

近年来新的挑战：

类别数巨大，不平衡变得更加复杂；
由于是端到端学习，数据不平衡不仅影响分类器，也影响特征提取。

主要方法:

重加权（re-weighting）

一般在损失部分进行加权计算

数据增强（augmentation）

重采样,生成数据，前景背景融合（前景混合不同的背景）

（decoupling）

有研究者把训练分为两步：（1）训练整个模型；（2）把特征固定住，再学习分离器。

然后在每一个阶段使用不同的策略（CE:cross-entropy; RW: re-weighting;RS: re-sampling）。最后发现长尾数据对特征影响不大，主要是影响分类器。

请添加图片描述

集成学习（ensemble learning）

训练多个模型，每个模型在不同的分布上训练。

使用较多模型训练尾部类，较少的训练头部类。使得总体结果不对头部类偏移太多。

2.3 噪声标签的学习

因为噪声的存在会导致模型学习到错误的特征造成过拟合。

方法有：

模型对数据进行一个权重判别，给差的标签一个较低的权重；
限制模型的可用数据，让模型自己选择质量高的样本。
sall loss trick，不学习错误率太高的样本。

请添加图片描述

2.4 持续学习

请添加图片描述

假设：

无法储存所有数据；
数据分布可能偏移；
模型的测试包含所有的历史数据类别。

实际上需要平衡稳定性和可塑性。

请添加图片描述

方法：

2.4.1 基于回放的方法

回放（replay-based）：留存一部分历史样本。

学习新数据时，限制不能使模型在旧数据上表现变差。
数据集压缩：把很多数据凝结在一张图像上

请添加图片描述

基于回放的方法存在很多数据方面的限制，但目前最好的方法还是基于回放的方法。

2.4.2 基于正则的方法

要求在训练过程中新学习的模型不能跟老模型相差太大。

2.4.3 参数隔离

请添加图片描述

兔兔兔兔兔子。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。