概念漂移学习笔记

最新推荐文章于 2024-10-14 23:50:58 发布

Раиса or Leslie

最新推荐文章于 2024-10-14 23:50:58 发布

阅读量1.8k

点赞数 3

文章标签：机器学习人工智能大数据

原文链接：https://dl.acm.org/doi/pdf/10.1145/2523813

版权

概念漂移是指在线学习环境中输入和目标变量关系随时间变化的现象。本文探讨了适应性学习算法的重要性，特别是在数据分布变化时的处理。区分了真实概念漂移和虚拟漂移，并强调了在变化环境中预测模型所需具备的特性，包括检测和适应漂移、鲁棒性和资源效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概念漂移 (Concept Drift) 指的是 “输入(input)” 和 “目标变量(target variable)” 之间的关系随着时间的流逝而产生变化的现象。（发生在“在线监督学习(online supervised learning)”场景中）

在概念漂移的研究领域中，存在着大量的概念以及术语混用现象，即表达同样或者相似的意义时，不同的概念和术语被使用，这给概念漂移的研究带来了明显的不便。对此，论文的作者在明确统一了文章的概念和术语的条件下，展开了研究。

1. 适应的学习算法

学习算法经常需要在无法预测改变的动态环境下操作。理想的性质就是他们具备合并新数据的能力。如果数据生成的过程不具备统计稳定性（像是发生在现实生活中的大多数），我们所需要预测的概念（变量）就会随着时间而改变。适应这种概念漂移的能力可以被视为一个逐例(example by example)学习预测模型的递增学习算法自然延伸。适应的学习算法(adaptive learning algorithms)可以被视为预先的递增学习算法，能够随着时间适应数据生成过程的演变。

$p(y\mid X) = \frac{p(y)p(X\mid y)}{p(X)},$

（稍后补充定义细节）

1.1 漂移的分类

·Real concept drift

指的是 $p(y \mid X)$ 的变化，并且其变化可伴随或者不伴随着 $p(X)$ 的变化。Real concept drift在论文Salganicoff[1997]中以 concept drift 的术语出现，在Gao et al.[2007]中以 conditional change 的术语出现。

·Virtual drift

发生在输入数据(incoming data) 分布改变的情况下（例如 $p(X)$ 发生变化），这种改变是不影响 $p(y \mid X)$ 的。然而，Virtual drift 在不同的文献内具有着不同的释义：

- 最初，virtual drift 的被定义为由于不完整数据，从而产生的现象，而不是现在的现实中概念（变量）的改变。[Widmer and Kubat 1993]

- Virtual drift 对应于数据分布的改变，这种数据分布的改变能够引起决策边界的改变。[Tsymbal 2004]

- Virtual drift 是一种不影响目标概念(target concept)的drift（区别于直接影响目标概念的drift）

- Virtual drift 也被当作temporary drift [Lazarescu et al.], sampling shift [Salganicoff 1997], and feature change [Gao et al.] 被介绍在各自的文章中。

而在本片论文中，Virtual drift 统一指的是数据分布 $p(X)$ 的变化。

举例说明：

背景：想象一个“不动产”业务相关的在线新闻网站，其任务就是针对客户，将输入数据正确分类为：客户相关与客户不相关。例如，假定一个用户想要搜索公寓信息，因此对于这个用户来说，住宅新闻是相关，度假屋新闻是不相关。

（用户的需求对应 $p(y\mid X)$ ； $p(y)$ 是先验概率；写作风格对应 $p(X)$ ）

1. 如果该门户网站出现人员调动，主编被更换，那么不可避免地，该网站的文章写作风格也会相应地改变，但是用户对于公寓的需求，以及住宅相关性、度假屋的不相关性均未改变，这样的改变就是Virtual drift。（ $p(X)$ 改变）

2. 如果市场上出现了危机，导致住宅被大量地售出，从而使得住宅相关的文章及新闻数量大幅度地增加，而度假屋则相对减少，而主编的写作风格、用户的兴趣未改变，这种情况对应了 $p(y)$ (prior probabilities）的改变。

3. 另一方面，如果用户的需求变为搜索度假屋，从而变为度假屋相关，住宅不相关。这个场景对应着Real concept drift，其中， $p(y)$ 与 $p(X)$ 并未改变。值得注意的是，同时发生所有类型的 drift 是可能存在的。

图1中展示了 drift 的分类。从图中可以看出，只有real concept drift 改变了决策边界，这意味着之前的决策模型失效。Virtual drift 也可以和 Real drift 结合，在这个例子下，决策边界也会受到影响。

这片论文主要关注解决 real concept drift，它无法从输入数据分布中观察到的。许多案例证实，解决 real concept drift 的技术也可以解决表现在输入数据分布上的drift，但是反过来则不能实现。

解决 real concept drift 的技术依赖于预测性能的反馈(feedback)，而追踪先验概率改变的技术以及解决 virtual drift 或者novetly detection的技术操作是不需要这样的 feedback。

注：这篇论文并未涉及能够从输入数据分布 $p(X)$ 被检测出的drift。

1.2 随着时间数据的改变 (Changes in Data Over Time)

数据分布的改变随着时间可能呈现出不同的形式，如图2。

- drift 是 突然地(sudden/abrupt) 发生的，一般是由于改变“概念”引起的，例如：替换了用于检测数据的传感器，导致标度（calibration) 的改变。

- 递增地(incremental)，存在许多中间的（过渡的）的“概念”。例如：传感器慢慢地磨损，从而导致精度的下降）

- 逐渐地(gradual)，例如：相关的新闻标题由住宅变为度假屋，用户行为并不是突然间改变，并且有时还会恢复到原来的状态。

解决concept drift算法的一个挑战是不能融合带有离群(outlier)和噪音(noise)的ture drift。其中离群与噪音指的是一次性随机偏差或者异常。对于“异常”情况是不需要适应性(adaptivity)的。

最后，drift可能引进新的、之前未见的概念（变量），或者以前的概念（变量）在一定的时间后再一次发生(reoccur)，例如时尚潮流。改变(Changes)进一步表现出的特征有：严重性、可预测性以及频率。

大多数适应的学习技术(adaptive learning techniques)或明或暗地假设并专注于概念漂移的子集。大多数假设都是突然地(sudden)、未再一次发生的(nonreoccuring)。但是在现实生活中能够被观察到的都是许多种类的混合。

1.3 在变化的环境下，对预测模型的要求

- 尽可能检测出概念漂移（并且如果有需求，要适应）

-从“噪音”中区分漂移并且适应变化，但是要对噪音鲁棒

-在少于示例到达时间的情况下运行，并且对于任何存储使用不超过固定数量的内存

稍后整理