参考链接
随机森林
决策树
一、决策树
(一)决策树是什么?
1.概念:采用树形节点,层层推理实现最终的分类
- 根节点,包含样本的全集
- 内部节点,对应特征的分类
- 叶节点,决策的结果
(二)决策树的使用方法?
特征学习的3个步骤 - 特征选择:选择与结果相关度更高的特征
- 决策树生成:对每个子节点采用相同的方式生成新的子节点
- 决策树剪枝:防止过拟合
(三)决策树的优缺点
优点: - 易于理解
- 适合处理有缺失属性的样本
- 能够处理不相关的特征
- 处理速度快
缺点 - 容易发生过拟合
- 能够忽略属性之间的相关性
二、随机森林
(一)随机森林是什么?
由多个不相关的决策树组成,进行分类任务时,新的样本进入,让森林中每一棵决策树分别进行判断和分类。决策树的分类结果哪一个最多就会把这个结果当成最终结果。
(二)随机森林的使用方法? - 随机抽样,训练决策树
- 随机选取属性,做节点分裂,建立大量决策树形成森林
(三)随机森林的优缺点
优点 - 可以处理高维的数据
- 能够判断特征的重要程度,特征之间的相互印象
- 对于不平衡的数据集,可以平衡误差
缺点 - 大量决策树,需要更多的资源