随机森林
解释下随机森林?
- 随机森林=bagging+决策树
- 随机:特征选择随机+数据采样随机
- 特征随机是在决策树每个结点上选择的时候随机,并不是在每棵树创建的时候随机
- 每个结点上对特征选择都是从全量特征中进行采样对,不会剔除已利用的
- 数据采样,是有放回的采样
- 1个样本未被选到的概率为p = (1 - 1/N)^N = 1/e,即为OOB
- 森林:多决策树组合
- 可分类可回归,回归是对输出值进行简单平均,分类是对输出值进行简单投票
随机森林用的是什么树?
CART树
随机森林的生成过程?
- 生成单棵决策树
- 随机选取样本
- 从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂
- 不需要剪枝,直到该节点的所有训练样例都属于同一类
- 生成若干个决策树
解释下随机森林节点的分裂策略?
Gini系数
在连续值和离散值上: