关于决策树的一些可能需要了解的知识点,在个人总结:决策树中有所涉猎。
谈到随机森林,就需要了解bagging,而谈到bagging,就需要了解集成学习。
集成学习:构建并租个多个学习器来完成任务。获得比单一学习器更优越的性能。
两种选择:
- 同质:比如都是决策树个体学习器,都是神经网络个体学习器。
同质也可分为两类:
- 个体学习器之间存在强依赖关系,一系列个体学习器串行生成,代表算法boosting系列
- 不存在强依赖关系,可以并行生成,代表算法是bagging和Random Forest
- 异质:采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器,再通过某种结合策略来确定最终的分类强学习器。
从决策树到随机森林
Bagging:
首先来谈谈Bagging:Bagging就是对训练集进行采集,生成多个子训练集,再从每个子训练集训练一个基学习器,在预测阶段将各个基学习器进行结合。
而随机采样(bootstrap,“随机”体现点一)就是从训练集里采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能被继续采集到。比如说 ,对含有m个样本的训练集做m次随机采样,在每次采样过后都将样本放回训练集。这样最后生成的采样集合中,初始样本集中某些样本可能出现多次,某些可能从未出现。
如何计算不同的样本的数量的期望呢?也就是说假设从N个样本中采样K个样本,求不同样本数量的期望,求E(K)。
首先,显然有E(1) = 1,因为一个样本采样出来肯定是独一无二的。其次,设从N个样本中采样K-1个样本不同数量的样本期望为E(K-1),则第k个样本是未曾抽到的样本的概率为