Learning under Concept Drift: A Review精读+随笔

这几天感觉真挺累的,论文精读过后再说。

项目也好,课题也好,都到了爬坡期。

开学以来给自己的gap month也快到时间了,课内乱七八糟的知识嘛也没学。😭

回过头来想想,自己的核心竞争力到底是啥,准备怎么培养,感觉还是没头绪,科研or管理,还是在犹豫。

导师给了一个很solid的idea,很有探索性,但Learning界发文章真的就都在各种魔改model,这里加个attention,那里做个normalization,闭眼拿GAN往上套。

二更:不过也好,自己的第一段科研跟了一个学术品位高、一线科研的学者,还是非常受益的。

这几天跟着学机器自动推理,拿Coq实现的,感觉符号主义跟当下的learning做结合的效果会很不错。

算了,聊聊multi interesting evolution和concept drift吧。

参考文章:Learning under Concept Drift: A Review | IEEE Journals & Magazine | IEEE Xplore

像在tmall2016、yoochoose这些数据集上训练模型,通过过去数据训练出来的模型往往表现不是太好。有时候,性能下降是由于数据质量低、管道破裂或技术错误造成的。

但也可能,是由于发生了漂移。
漂移分为两种:
Data drift : change in data distributions,也就是所说的兴趣演化。
Concept drift : change in relationships。

Data drift:

像这张图,蓝色data的出现表示了data drift的开始。因为现实行为是存在很多突然的事件影响。


Sudden Drift:典型例子就是这次疫情,瞬间击穿了大量预测模型
Gradual Drift: 例如电视的销量预测,随着人们用手机,用电脑,电视的销量逐渐发生了变化。
Incremental Drift: 新概念取代旧概念,例如手机的使用预测,过去是用来接打电话发短信,现如今逐渐赋予更多功能更高的角色。
Reoccurring Concepts: 旧概念重新发生。例如疫情期间,国际旅游等业务受到重击,但随着情况好转,可能旧概念又会恢复。

 Drift Detector:

  1. 数据检索(Data Retrieval): 旨在从数据流中检索出数据块读取数据流中的数据块。由于单个数据实例不能携带足够的信息来推断整体分布。知道如何组织数据块以形成一个有意义的模式或知识在数据流分析中是很重要的任务。
  2. 数据建模(Data Modeling): 目的是对检索到的数据进行抽象,并提取含有敏感信息的关键特征。也就是说,如果数据发生变化,对系统影响最大的特征。这个阶段是可选的,因为它主要涉及到降维,或者说样本大小减少,以满足存储和在线速度的要求。
  3. 测试统计计算(Test Statistics Calculation):测量差异,或距离估计。它对漂移的严重程度进行量化,并形成假设的测试统计。概念漂移检测中最具挑战性的方面。聚类评价也运用到这种技术.
  4. 假设检验(Hypothesis Test):使用特定的假设检验来评估第三阶段观察到的变化的统计学意义,即P值。变化的可能性有多大是由概念漂移引起的,而不是由噪音或随机样本选择偏差。
    目标特征的选择将影响学习系统的整体性能,是概念漂移检测中的一个关键问题。

Detectors Category

  1. Error rate-based drift detection: 基于错误率的检测算法。是分类最多的一种算法,重点是追踪基础分类器的在线错误率的变化。
  2. Data Distribution-based Drift Detection:基于数据分布的漂移检测。这类算法使用一个距离函数/度量来量化历史数据的分布和新数据的分布之间的差异。不仅可以准确地识别漂移的时间,还可以提供关于漂移的位置信息。计算成本比之前提到的算法要高。
  3. Multiple Hypothesis Test Drift Detection:多重假设检验漂移检测算法。使用了多重假设测试来检测不同的概念漂移。

最常见的检测方法:

参考最多的概念漂移检测算法之一是漂移检测法(DDM)。它是第一个为概念漂移检测定义警告级别和漂移级别的算法。

第一阶段是由一个landmark时间窗口实现的,窗口的起点是固定的,而窗口的终点将在收到新的数据实例后被扩展。当新数据进来,DDM会检测时间窗口内的整体在线错误率是否显著增加。如果观察到的错误率变化达到警告level,DDM开始建立一个新的学习器,同时使用旧的学习器进行预测。如果变化达到了漂移level,旧的学习者将被新的学习者取代,用于进一步的预测任务。
为了获得在线错误率,DDM需要一个分类器来进行预测。这个过程将训练数据转换为模型,这是第二阶段(数据建模)。
第三阶段的测试统计数据构成在线错误率。
第四阶段估计在线错误率的分布和计算警告水平、漂移水平的阈值。
后续的ADaptive WINdowing (ADWIN),Relativized Discrepancy (RD)、Information-Theoretic Approach (ITA)都受DDM影响。只是在第一阶段窗口选择上各有不同。

Drift Understanding

检测方法可以探测到很多关于漂移的信息,那么我们如何有效的去理解这些信息并且做出相应的反馈,就是漂移理解的内容了。
漂移理解是指检索关于 "何时"(概念漂移发生的时间和漂移持续的时间)的概念漂移信息,"如何"(概念漂移的严重程度 /程度),以及 "哪里"(概念漂移的漂移区域)。这些状态信息是漂移检测算法的输出。并被用作漂移适应的输入。
概念漂移的严重程度可以作为选择漂移适应策略的指导原则。例如,如果分类任务中的漂移的严重程度很低,决策边界可能不会在新概念中移动太多。因此。通过增量学习来调整当前的模型就足够了是足够的。相反,如果概念漂移的严重程度的严重性,决策边界可能会发生重大变化。因此,丢弃旧的模型并重新训练一个新的模型。
概念漂移的漂移区域是指新概念和以前概念之间的冲突区域。识别漂移区域的技术高度依赖于漂移检测中使用的数据模型。
漂移区域的数据实例可以被用来建立一个更加更新的当前模型。漂移适应的一个步骤是删除冲突实例。为了保留尽可能多地保留新概念的实例,他们只删除在漂移区域之外的过时的冲突实例。

基于错误率的漂移检测不能直接衡量概念漂移的严重程度,因为它主要集中在监测学习系统的性能,而不是概念本身的变化。然而。学习准确度的下降程度可以被用作间接测量,以表明概念漂移的严重程度。如果在观察到漂移时,学习准确率明显下降,这表明新的概念是与先前的概念显著不同。
相对应的基于数据分布的漂移检测方法可以直接量化概念漂移的严重程度,因为用于比较两个数据样本的测量已经反映了差异。

Drift Adaptation

  1. Training new models for global drift

如果旧模型经常对新模型正确分类的实例进行错误分类的情况下,一个新的概念就会被检测出来,旧模型就会被新模型所取代。这种方法简单易懂,易于实现。并且可以在数据流的任何一个点上应用。
一个更小的窗口可以更好地反映最新的数据分布,但大窗口提供更多的数据用于训练一个新的模型。
而ADWIN方法它检查了所有可能的窗口切割并根据两个子窗口之间的变化率,计算出最佳的子窗口尺寸。旧的数据的窗口被放弃,然后用最新的窗口数据来训练一个新的模型。

2. Model ensemble for recurring drift

在反复出现概念漂移的情况下,保留和重用旧的模型可以节省重新训练新模型的大量精力。
Bagging、Boosting和随机森林都是是经典的用来提高单一分类器性能的经典集合方法。它们都被扩展用于处理流数据的概念漂移。
这里面有很多工作可以做,比如知识蒸馏,比如域适应,感觉都可以往上套一下

3. Adjusting existing models for regional drift

 

除了重新训练整个模型外,还有一种方法是开发一个能从变化的数据中自适应学习的模型。
当一个子区域发生概念漂移时,一个决策树节点被替换成一个新的节点,因为它的性能变差了。
尤其是Very Fast Decision Tree classifier (VFDT) 在线决策树
,它只需要对每个实例进行一次处理并且不在内存或磁盘中存储实例。
树本身只消耗少量的空间,并且不会随着它处理的实例数量的增加而增加。
树维护的成本非常低,
不断的有基于VFDT的新在线方法被研究

比如丁真的走红使悦刻5的搜索数据大增,但很难从过往的数据中准确地预测这个用户偏好的转移。所以说,能不能借助些类似马尔可夫链、转移概率这些方法来预测。接上个例子,我们可以直观感受到,在过去很喜欢徐坤的打篮球的用户更喜欢悦刻5,所以我们可以思考下,把徐坤和悦刻5映射到一个intention空间内 ,然后构建出一个转移概率矩阵,能够捕捉到concept drift。

Conclusions & directions:

本文首先简单介绍了漂移的概念,包括数据漂移于概念漂移。接着简单介绍了概念漂移的种类。然后列举了概念漂移的检测方法,举了其中最为典型的DDM算法为例。接着介绍了如何去理解漂移检测的信息,以及如何利用这些信息去完成对于漂移的适应。
这里有一些结论,与读者分享:
基于误差率和基于数据分布的漂移检测方法在概念漂移检测研究中仍起着主导作用,而多假设检验方法则是近年来出现的。
关于对概念漂移的理解,所有的漂移检测方法都能回答 "何时",但很少有方法能回答 "如何 "和 "如何"。但很少有方法能够回答 "如何 "和"哪里"。
自适应模型和集合技术在最近的概念漂移中发挥了越来越重要的作用。
大多数现有的漂移检测和适应算法假设在分类/预测之后,地面真实标签是可用的,或者是极端的验证延迟。很少有很少有针对无监督或半监督的漂移检测和适应的研究。
一些计算智能技术,如 模糊逻辑,能力模型,已被应用于概念漂移。
漂移检测研究不仅要关注准确识别漂移发生的时间,还需要还需要提供漂移严重程度和地区的信息。这些信息可用于更好的概念漂移适应。
在现实世界的情况下,获取真实标签的成本的成本可能很高,也就是说,无监督的或半监督的漂移检测和适应仍然可能是在未来是有希望的。
需要建立一个选择真实世界数据流的框架,以评估处理概念漂移的学习算法,这个框架目前是没有的。
非常需要研究将概念漂移处理技术与机器学习方法有效结合起来,用于数据驱动的应用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值