Learning with Feature Evolvable Stream学习笔记

Learning with Feature Evolvable Stream

摘要

  现实工程中,目标的某些特征会消失,也会产生某些新特征。我们将消失的特征结合现有特征进行训练,得到两个模型。使用两种方法进行预测,一种方法是结合两个模型的输出结果;另一种是动态选择单次预测较好的模型,确保模型效果最好。两种方法都交叉验证了我们的理论。

简介

  现有的基于数据流的学习方法:hoeffding tree;Bayes tree;evolving granular neural network(eGNN);Core Vector Machine(CVM)。这些方法共同的假设:数据流有稳固的特征空间,即样本数据总是被相同的特征集描述
  我们假定:特征不会随心所欲地改变,新旧特征在时间上会有重叠
  Thus, the data stream arrives in a way as shown in Figure 1, where in period T1, the original set of features are valid and at the end of T1, period B1 appears, where the original set of features are still accessible, but some new features are included; then in T2, the original set of features vanish, only the new features are valid but at the end of T2, period B2 appears where newer features come. This process will repeat again and again. Note that the T1 and T2 periods are usually long,whereas the B1 and B2 periods are short because,as in the ecosystem protection example, the B1 and B2 periods are just used to switch the sensors and we do not want to waste a lot of lifetime of sensors for such overlapping periods.
在这里插入图片描述
  我们通过分析新旧数据之间的关系,并且在只有新数据之后仍然利用消失的数据来解决FESL问题。在新旧数据重叠的时候,构建新数据到旧数据的映射,这样,我们就可以通过新数据重构就特征数据。

相关工作

  我们的算法主要与分类任务有关,也可用于回归任务。现有的单分类器方法:decision tree , Bayesian classification ,neural networks, support vector machines, and k-nearest neighbour;集成分类器方法:Online Bagging & Boosting , Weighted Ensemble Classifiers , Adapted One-vs-All Decision Trees (OVA) and Meta-knowledge Ensemble。特征演化和概念漂移不同,概念漂移没有特征数量的改变。
  在线学习虽然能处理流数据但数据的特征集是固定的;多特征集学习:multi-view learning, transfer learning and incremental attribute learning。以上算法的数据条件和FESL不同。与FESL最相似的是One-pass learning with incremental and decremental features文中提到的算法,但其数据没有重叠时间,但是有重叠的特征。

准备工作

  每训练完一轮,模型都会预测一个实例与真实标签比较,得到一个损失,反应预测和真实值之间的误差。
  我们定义的特征空间:特征空间改变意味着特征集的底层分布和特征的数量都发生改变
  一个循环:Consider the process with three periods where in the first period large amount of data stream come from the old feature space; then in the second period named as overlapping period, few of data come from both the old and the new feature space; soon afterwards in the third period, data stream only come from the new feature space.each cycle merely includes two feature spaces.
  我们假设,一个循环中的旧特征数据会同时消失,所有的传感器将在同一时刻失效。
  基于以上假设,我们规定 S 1 , S 2 S1,S2 S1,S2分别为新旧特征空间,特征空间重叠时间一共接收到 B B B轮传感器信号,即 B B B个样本,过程可以概括为以下内容:

  • For t = 1 , . . . , T 1 − B t=1,...,T_1-B t=1,...,T1B, in each round, the learner observes a vector x t s 1 ∈ R d 1 x_t^{s_1}\in R^{d_1} xts1Rd1 sampled from S 1 S_1 S1 where d 1 d_1 d1 is the number of features of S 1 S_1 S1, T 1 T_1 T1 is the number of total rounds in S 1 S_1 S1.
  • For t = T 1 − B + 1 , . . . , T 1 t=T_1-B+1,...,T_1 t=T1B+1,...,T1, in each round, the learner observes two vectors x t s 1 ∈ R d 1 x_t^{s_1}\in R^{d_1} xts1Rd1 and x t s 2 ∈ R d 2 x_t^{s_2}\in R^{d_2} xts2Rd2 from S 1 S_1 S1 and S 2 S_2 S2, respectively where d 2 d_2 d2 is the number of features of S 2 S_2 S2.
  • For t = T 1 + 1 , . . . , T 1 + T 2 t=T_1+1,...,T_1+T_2 t=T1+1,...,T1+T2, in each round, the learner observes a vector x t s 2 ∈ R d 2 x_t^{s_2}\in R^{d_2} xts2Rd2 sampled from S 2 S_2 S2 where T 2 T_2 T2 is the number of rounds in S 2 S_2 S2. Note that B is small, so we can omit the streaming data from S 2 S_2 S2 on rounds T 1 − B + 1 , . . . , T 1 T_1-B+1,...,T_1 T1B+1,...,T1since they have minor effect on training the model in S 2 S_2 S2.

算法

  由于两个空间共存的时间很短,我们求得从 S 2 S_2 S2 S 1 S_1 S1的线性映射,可以使用最小方差求的映射:
在这里插入图片描述
  上述公式的最优解为:
在这里插入图片描述
  当 t > T 1 t>T_1 t>T1时,可以计算出基于两个模型 w 1 , t , w 2 , t w_{1,t},w_{2,t} w1,t,w2,t的两个基础预测值。基于两个基础预测值,我们提出了两种方法进行最终预测。

权重结合法

  第一种方法是基于累计误差的权重结合法。在t时刻的预测值为此时权重的加权平均值:
在这里插入图片描述
  其中, α i , t \alpha_{i,t} αi,t是第 i i i轮基础预测的权重。通过基础模型的损失,我们用以下公式计算两个基础模型的权重:
在这里插入图片描述
  其中, η \eta η是一个调谐参数。公式表明,如果一个模型的损失值很大,权重在下一轮预测中将会呈指数型下降。这个方法称为FESL-c。我们用在线梯度下降法在 1 , . . . , T 1 1,...,T_1 1,...,T1上训练模型 w 1 , T 1 w_{1,T_1} w1,T1;在 t = T 1 − B + 1 , . . . , T 1 . t=T_1-B+1,...,T_1. t=T1B+1,...,T1.上学习映射关系 ψ \psi ψ。在 t = T 1 + 1 , . . . , T 1 + T 2 t=T_1+1,...,T_1+T_2 t=T1+1,...,T1+T2上,我们学习模型 w 2 , t w_{2,t} w2,t,并且使用数据 ψ ( X t s 2 ) \psi(X_t^{s_2}) ψ(Xts2)更新权重 w 1 , t w_{1,t} w1,t。其中, τ t \tau_t τt是更新的步长:
在这里插入图片描述

动态选择

  当基础模型性能较好时,使用权重结合法将几个基础模型的输出结合一般会比单一模型得到的结果要好,但当基础模型的性能不能保证时,采用动态选择的方法选择性能较好的基础模型的输出作为结果会得到较好的结果,这种方法称为FESL-s。根据权重的分布选择最佳的模型:
在这里插入图片描述
  权重更新的公式为:
在这里插入图片描述
其中, W t = v 1 , t + v 2 , t , δ = 1 / ( T 2 − 1 ) , η = 8 / T 2 ( 2 l n 2 + ( T 2 − 1 ) H ( 1 / ( T 2 − 1 ) ) ) , H ( x ) = − x l n x − ( 1 − x ) l n ( 1 − x ) W_t=v_{1,t}+v_{2,t},\delta=1/(T_2-1),\eta=\sqrt{8/T_2(2ln2+(T_2-1)H(1/(T_2-1)))},H(x)=-xlnx-(1-x)ln(1-x) Wt=v1,t+v2,tδ=1/(T21)η=8/T2(2ln2+(T21)H(1/(T21))) H(x)=xlnx(1x)ln(1x)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值