Progressive Ensemble Kernel-Based Broad Learning System for Noisy Data Classification
- BLS存在两个缺点
- 性能取决于隐藏节点的数量,需要人工调优;
- 双随机映射带来不确定性,导致对噪声数据的抗扰性较差,对性能的影响不可预测。
- 为了解决这些问题,提出了一种基于内核的BLS (KBLS)方法,将第一次随机映射得到的特征节点投影到内核空间中。
- 为了进一步提高KBLS的稳定性和抗噪性,提出了一种渐进式集成框架,利用前一个基分类器的残差来训练下一个基分类器。
Introduction
-
特征提取方法:深度神经网络
- 自动编码器(AE)
- 卷积神经网络(cnn)
- 其他类型的神经网络,如深度玻尔兹曼机、生成对抗网络、循环神经网络等。
- 由于基于梯度的反向传播算法,大多数dnn都存在高度非凸优化问题和耗时的训练过程。
-
特征提取方法:基于内核的方法
- 凸的性质导致全局最优解。
- 在多层神经网络中经常采用核方法,以避免隐藏神经元和隐藏激活函数的参数选择。
- 核方法的复杂性与实例的维数无关,因为非线性特征隐含在由核函数决定的标量相似性中。
- 多层结构带来了另一个问题,累积的重构误差对性能产生负面影响。
-
随机化
- 极限学习机(ELM)
- 首先,通过随机化引入并定义了数据无关的特征空间,假设转换后的高维输入样本更容易分离;
- 其次,所得到的近似期望输出的最优问题可以简化为标准线性最小二乘估计。
- RVFL
- K-RVFL利用内核技巧来节省参数调整的时间。
- 在有噪声的数据分类中,部分属性可能对模型训练没有帮助,这也导致结果不稳定。提出了基于RVFL的广义学习系统,通过对原始特征进行转换,避免了上述问题。然而,由于从浅层结构中学习到的特征不够具有代表性,标准BLS在高维数据上仍然存在分类困难。
- 极限学习机(ELM)
-
分类器集成方法
- 分类器集成包括两个阶段
- 生成多个基分类器
- 结合基分类器的预测结果
- 分类器集成包括两个阶段
-
本文的贡献
- 提出了一种基于核的广义学习方法,以降低随机投影的不确定性,避免手动调整特征节点的数量。
- 提出了一种渐进式的基于核的广义集成学习方法,通过将多随机映射特征空间和核空间相结合来减少噪声属性的影响。
- 采用了一种自适应学习方案进行渐进方法的训练,其中使用前一个分类器的梯度和次梯度来近似集成分类器的损失,并指导后续分类器的学习。
- 在多个真实数据集上与最先进的方法进行了广泛的对比实验,验证了两种方法的有效性。
RELATED WORK
- kernel-based RWNN
- BLS
- ensemble learning methods
PROPOSED METHODOLOGY
Kernel-Based Broad Learning System
- 训练步骤
- 随机生成
n
n
n组特征节点,
X
X
X被映射到一个随机空间
Z i = [ X W e i + β e i ] Z_i = [XW_{ei}+\beta_{ei}] Zi=[XWei+βei]
由于每个随机映射都是一个无监督的特征构造,因此模型具有不可预测性。为了减少不可预测性,需要多个特征映射来确认输入的完整性。然后,将所有的特征节点组串联起来,构建特征层 Z Z Z。由于特征层是随机生成的,没有标签的指导,也没有调优的指导,所以下一步构建的增强层应该能够指导特征提取。 - 计算核矩阵
Ω
Ω
Ω。核函数的作用是在不显著增加计算复杂度的情况下将数据投影到高维特征空间。算法中有多种可选的核函数,本文采用了RBF核函数。
一旦设定了核矩阵β,就需要计算从特征节点到核矩阵的变换矩阵。内核BLS-auto编码器(KBLS-AE)负责学习从内核矩阵到特征节点的转换。KBLS-AE的输出层和输入层都是特征节点。与传统算法不同,KBLS-AE易于同时最小化重构误差和权值范数。权值解的计算可以看作是一个优化问题,损失函数如下:
在KBLSAE中,伪逆可以作为一种求解权值的有效方法,其解等价于岭回归。为了计算权重 W Ω W_Ω WΩ,我们有
- 随机生成
n
n
n组特征节点,
X
X
X被映射到一个随机空间
- 为了丰富特征,将特征节点和增强节点(核矩阵)进行拼接,合并原对偶空间。
隐层变为 A = [ Z Ω ] A = [Z Ω] A=[ZΩ]。可以用快速伪逆方法来解决。 W W W可以通过简单地替换变量来计算。当得到输出权值 W W W时,无需微调就完成了训练过程,这是KBLS高效的重要因素。算法1提供了KBLS的详细描述。将预测标签记为 Y Y Y ,可得到
Y ∗ = A W Y^* = AW Y∗=AW
Progressive Ensemble Framework
- 在每次迭代中,我们通过拟合残差来学习KBLSs。
- 通过二阶近似对每个KBLS的正则化目标进行了微小的改进,极大地简化了残差的表述。
- 残差用于衡量模型预测与ground truth之间的偏差。
- PEKB的输入是训练数据
X
X
X和它们的标签
Y
Y
Y。首先,在集成分类器中加入一个经过
X
X
X和
Y
Y
Y训练的基本分类器。如果不满足收敛条件,计算第一个分类器预测的梯度和次梯度,得到残差
r
1
r_1
r1。在下一个迭代中,
r
1
r_1
r1被用作标签来训练一个新的基分类器,以此类推,每个后续的组件都是如此。
COMPLEXITY ANALYSIS
- The computational cost for KBLS is approximately O ( ( N + n F ) 3 ) O((N + n_F)^3) O((N+nF)3).
- The total time complexity of PEKB is approximately O ( B ⋅ ( N + n F ) 3 ) O(B·(N +n_F)^3) O(B⋅(N+nF)3) (结合几个KBLS,没有额外的计算负担)
Experiment
Benchmark Datasets
- 将KBLS, PEKB及其竞争对手的性能使用22个嘈杂的真实数据集进行评估。这些数据集涵盖14个二进制和8个多类分类情况。数据集的难度不同。
Experiment Configuration
- 参数配置
- 实验分为五个部分进行。
- 研究参数对KBLS性能的影响。
- 评估了提出的渐进式集成框架的有效性
- 比较KBLS和PEKB与SVM(RBF)、ML-EKLM、K-RVFL、GBDT、Xgboost和BLS的性能
- 在第四部分的BLS, KBLS和PEKB中比较两者的训练时间。
- 采用非参数统计检验对上述所有数据集进行了比较。
Parameters Analysis for KBLS
- KBLS的性能对参数 C C C很敏感,与BLS相似。
- 相反,核参数 σ σ σ对精度影响不大,表明核方法对 σ σ σ具有鲁棒性。这意味着虽然引入了内核方法,但不需要花费更多的时间来选择内核参数。
Effect of Progressive Ensemble Framework
- 记录了训练过程中每次迭代的残差、损失函数、训练精度和测试精度的总和。
Comparison With Other Algorithms
-
比较了KBLS和PEKB与SVM(RBF), ML-KELM, K-RVFL, GBDT, Xgboost和BLS在十次运行中的平均精度和标准偏差。
-
KBLS在21个数据集上获得了比BLS更好的性能,特别是在高维数据集上以及相对大规模的数据集上。
-
支持向量机(RBF)对噪声敏感。在低维和非线性分离数据集中,支持向量机(RBF)性能优于其他四种算法。
-
ML-KELM在叠加多个隐层时受到重构误差的限制; 因此,概化既不强也不鲁棒。
-
K-RVFL对数据集的规模很敏感,当训练样本数量有限时,噪声数据的比例较高,这导致K-RVFL的结果不稳定。BLS在小数据集上更稳定,在小数据集上BLS的性能与K-RVFL相当。另一方面,KBLS在有噪声和具有挑战性的数据集上有更好的性能。
-
提出PEKB从以下三个方面解决KBLS的问题。
- 不同KBLS之间存在一定的多样性,这是由于KBLS的特征节点是随机生成的,成对样本之间的距离是随机的。因此,集成多个KBLS可以更好地保留原始数据的信息,降低数据噪声的影响。
- 渐进集成框架考虑了数据的整体损失函数,更加关注难以处理的样本,进一步提高分类的置信度,增强判别能力。
- PEKB集成了多个KBLS;即使其中一个基分类器偏离很大,总体偏差也很小,因为每个基分类器的影响非常有限。
Training Time Comparison
- 在这一部分中,比较了BLS与KBLS和PEKB在一轮训练中十次的平均训练时间的计算代价。
- KBLS
- KBLS在所有数据集上的训练时间都比BLS长,但KBLS仍然具有较高的效率。
- 此外,由于KBLS增强节点的数量是固定的,且算法对内核参数不敏感,因此KBLS的参数调优比BLS简单得多。
- PEKB
- 作为一种集成分类器,PEKB的训练时间虽然比BLS和KBLS的训练时间长,但可以达到更好的准确率。
- 与BLS和KBLS不同,PEKB不需要对超参数进行调优。
- 即使单个组件的性能较差,这些组件的组合结果也能获得更好的预测。
- 由于每个组件的影响是有限的,PEKB降低了随机映射和特征冗余的风险。
Nonparametric Tests
- 采用非参数检验对SVM(RBF)、ML-KELM、K-RVFL、BLS、KBLS、PEKB五种方法在多个数据集上进行比较。使用Friedman检验来评估不同方法之间是否存在显著差异。
- 检验方法包括Bonferroni-Dunn检验、Holm检验、Hochberg检验和Hommel检验。由表VII可知,PEKB在所有方法中平均排名最高。
Experiments on the Real-World Binary Classification Task
- PEKB在准确率和F-score方面优于同类方法。KBLS的训练时间仅略多于K-RVFL。即使是最耗时的PEKB也能在8分钟内完成14 400个样本的训练。
CONCLUSION AND FUTURE WORK
- 本文提出了一种KBLS,将KBLS中的增强层替换为核矩阵,它带来了以下优点
- 减少了原增强层中随机映射带来的不确定性
- 消除了优化增强节点数量的负担。
- 消除了层次结构中累积的重构误差,需要较少的人工干预。
- 为了进一步提高抗噪声能力和泛化能力,提出了一种渐进集成框架PEKB来集成多个KBLS以提高精度。