随机森林算法(Random Forest)
- 由很多决策树分类器组合而成
- 单个的决策树分类器用随机方法构成:首先,学习集是从原训练集中通过有放回抽样得到的自助样本。其次,参与构建该决策树的变量也是随机抽出,参与变量数通常嗒嗒小于可用变量数。
- 单个决策树在产生学习集和确定参与变量后,使用CART算法计算,不剪枝。
- 最后分类结果取决于各个决策树分类器简单多数选举。
随机森林算法优点
- 准确率可以和AdaBoosting算法媲美
- 对错误离群点更加具有鲁棒性
- 决策树容易过度拟合的问题会随着森林规模的增加而削减
- 在大数据量的情况下,随机森立算法速度快,性能好
随机森林计算实例
对IRIS数据集建立随机森林分类模型并预测分类结果。从输出结果可见,随机森林对该数据集的分类预测的准确性为100%。
为对比随机森林的预测结果,下面使用ID3决策树算法进行分类预测:
对比表示,在使用ID3决策树算法对IRIS数据集进行分类预测的时候。在Versicolor和Virginica属性上,分别出现了5个和1个错误预测。可见,随机森林算法在准确度上的优越性。