在集成学习原理中知道,集成学习分为两部分Bagging和Boosting。随机森林RF作为Bagging方法的典型例子,以其并行训练的优点在如今处理数据问题上广受欢迎。随机森林,顾名思义,是有多棵树组成的森林,故RF的弱学习器都是决策树。RF=Bagging+DT。下面介绍一下RF的相关知识。Bagging方法就不再介绍,可以回顾集成学习原理。
1.决策树(DT)
在介绍随机森林前,简单的介绍一下其构成弱学习器决策树DT。决策树是比较经典的机器学习算法,可以用来处理分类问题和回归问题。同时也是集成学习中弱学习器经常选择的机器学习算法。如RF,GBDT。
决策树是一种树型结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是一种基于if-then-else规则的有监督机器学习算法。
下图为决策树示意图,圆点——内部节点,方框——叶节点
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。
决策树算法有3种:
(1) ID3: 通过信息增益来选择特征,信息增益最大的优先选择。
(2)C4.5:通过信息增益比选择特征,减少信息增益容易选择特征值多的特征问题。
(3)CART:使用基尼系数Gini代替信息增益比。
2.随机森林(RF)
2.1RF原理介绍
随机森林(RF)其实就是多棵决策树。
通过对样本重新采样的方法得到不同的训练样本集,在这些新的训练样本集上分别训练学习器,最终合并每一个学习器的结果,作为最终的学习结果,其中,每个样本的权重是一样的。具体过程如下:
其中,在该方法中,b个学习器之