集成学习算法
概念
构建多个分类器来提高综合效能
尽管每个分类器的性能可能都比较低下,但此算法通俗来讲就是“三个臭皮匠赛过诸葛亮”。类似于“集群”方法,以数量促成质变。最终,将这些分类器进行汇总取得最终的概括算法模型
前提:
基分类器之间相互独立(基分类器的数据来源之间不存在强相关就行,相关性越弱性能改善越好)且错误率要低于0.5
运行的算法都一样为同质集成,不一样就是异质集成(Bagging、Boosting以及随机森林)
bagging和boosting都可以在线性、神经网络、C5.0、C&R树、Quest、CHAID节点中都可以找到
Bagging:
提高模型的稳定性
Boosting:
提高模型的准确性
随机森林:(随机树节点)
极高的准确率和稳定性,不易过拟合
能够有效的运行在大数据集上等等
缺点
当随机森林中的决策树个数很多时,训练需要的空间和时间会较大
随机森林模型有许多不好解释的地方,算个黑盒模型