迁移学习中的负迁移:综述

点击上面"脑机接口社区"关注我们

更多技术干货第一时间送达

导读

迁移移学习(TL)试图利用来自一个或多个源域的数据或知识来促进目标域的学习。由于标记成本、隐私问题等原因,当目标域只有很少或没有标记数据时,它特别有用。

不过,TL的有效性并不总是得到保证。负迁移(NT),即源域数据/知识导致目标域学习性能下降,是TL中一个长期存在且具有挑战性的问题,文献中提出了各种克服负迁移的方法。本文从源数据质量、目标数据质量、域差异和集成算法四个方面对近100种对抗NT的方法进行了分类和回顾,填补了这一空白。本文也讨论了相关领域的NT,如多任务学习、多语言模式和终身学习。

今天介绍的是华中科技大学伍冬睿教授团队关于迁移学习中的负迁移领域进行的一个综述。虽然这篇综述的主要内容讲述的是迁移学习与负迁移的研究进展,然而将迁移学习应用于脑机接口、脑电数据处理时也必须考虑到训练和测试样本往往来自不同分布的问题。关于脑机接口中的迁移学习综述可以查看:《华中科技大学伍冬睿教授:非侵入式脑机接口中的迁移学习综述(2016-2020)》、《伍冬睿教授:脑机接口中迁移学习的完整流程》、《脑机接口中的流形嵌入知识迁移学习》等。

传统机器学习的一个基本假设是训练和测试数据来自同一个分布。然而,在 现实应用中这个假设往往不能满足。比如,两个图像数据库可能是用不同的相机在不同光照条件下采集的;脑机接口中的被试往往具有很大的个体差异。所以,从训练集上获得的模型在测试集上的泛化能力往往不好。

一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本,然后从中训练一个有监督机器学习模型。然而,现实应用中并不能总是获得这样的大量带标注样本,比如因为标注成本高、隐私考虑等。

更好的解决办法是使用迁移学习,即使用源域的数据或信息来帮助目标域的学习。这样,目标域只需要很少或完全不需要带标注样本。

然而,迁移学习并不总是有效的,除非其基本假设都得到满足:

  1. 源域和目标域的学习任务相似或相关;

  2. 源域和目标域数据分布比较接近;

  3. 存在一个源域和目标域同时适用的模型。

当这些假设不满足时,负迁移就会产生,即使用源域的数据或知识反而会让学习性能变差,不如直接用目标域的数据进行训练,如下图所示:

可靠的迁移学习需要同时考虑3个问题:

  1. 迁移什么?

  2. 如何迁移?

  3. 何时迁移?

然而大多数迁移学习研究只考虑了前2个问题。

尽管负迁移是个很常见和严重的问题,人们也提出了很多克服负迁移的方法,但是目前并不存在关于负迁移的详尽的综述。研究人员在最近的这篇综述文章里填补了这个空白。

研究者从4个方面系统性地归类和总结了近100种不同的克服负迁移的方法:源域数据质量,目标域数据质量,域间差异,集成性的算法。下图对上述提到的4个方面进行了概况:

更多具体的内容,可以查看对应的文章。

论文信息

Overcoming Negative Transfer: A Survey

编辑:邹思

文章来源于网络,仅用于学术交流,不用于商业行为

若有侵权及疑问,请后台留言,管理员即时删侵!

更多阅读

基于深度学习的脑电图识别 综述篇(二)数据采样及处理

脑机接口先驱米格尔·尼科莱利斯(Miguel Nicoleis)在2020腾讯WE大会演讲(全文版)

使用CNN-LSTM混合深度学习分类基于MUSE采集的运动想象EEG信号

脑电数据处理分析教程汇总(eeglab, mne-python)

P300脑机接口及数据集处理

快速入门脑机接口:BCI基础(一)

如何快速找到脑机接口社区的历史文章?

脑机接口BCI学习交流QQ群:515148456

微信群请扫码添加,Rose拉你进群

(请务必填写备注,eg. 姓名+单位+专业/领域/行业)

长按关注我们

欢迎点个在看鼓励一下​​​​​​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

脑机接口社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值