- 数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值,这样的一个过程分为两个连续的阶段:A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型,B:检验阶段—使用未在训练集中用到的检验样本评估训练阶段生成的预测模型
- 为了提高模型的准确性,可以使用集成学习的高效算法,他的核心思想是组合训练样本生成的各种预测模型的结果,主要动机就是减少错误率
- 集成学习方法论
在训练阶段,集成方法从训练样本中生成一些不同的预测模型,为了预测一个检验样本的未知值,集成方法聚集每个预测模型的输出结果,通过集成方法生成的集成预测模型与一些预测模型和一个组合规则组成,他还有一些名称作为执行预测任务的同义词使用,其中包括多分类器、分类器融合或聚集等多个名称
为了使性能优于一个单独的模型,集成应该由几个相互独立的预测模型组成,也即是他们的错误率互不相关,并且准确率都大于0.5,每个预测模型输出结果聚集一起决定检验样本的输出值
仅当集成方法中每个预测模型的错误率都低于0.5时,集成方法的错误率才远低于一个单独的预测模型
如果集成中分类器的数量太大或者每个分类器的错误率太小,集成错误率的下降就会变得没那么明显 - 生成具有多样性和独立性的学习器的方式
A: 对不同的学习模型使用不同的学习算法,比如支持向量机、决策树和神经网络
B: 在相同的算法中使用不同的超参数以便调整不同模型,例如人工神经网络中不同的隐节点数
C: 使用不同的输入表示,例如使用数据集中输入特征的不同子集
D: 使用输入数据的不同训练子集和同样的学习方法生成不同的模型 - 层叠泛化方法,又称层叠,是可以被划分到第一组中的方法论,层叠算法可能用来组合不同类型的模型,组合多个模型的一种方式是通过
数据挖掘之集成学习
最新推荐文章于 2022-12-26 21:14:06 发布