决策树
认识决策树
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法
信息论基础
信息的单位:比特
信息熵(H):H的专业术语称之为信息熵,单位为比特
公式:
信息和消除不确定性是相联系的,信息熵越大,不确定性越大
决策树的生成
决策树的划分依据
信息增益
常用的决策树使用的算法
ID3:信息增益 最大的准则
C4.5:信息增益比 最大的准则
CART:回归树:平方误差 最小;分类树:基尼系数 最小的准则 在sklearn中可以选择划分的默认原则
sklearn决策树API
决策树的优缺点以及改进
优点:简单的理解和解释,树木可视化;需要很少的数据准备,其他技术通常需要数据归一化
缺点:决策树学习者可以创建不能很好地推广数据的过于复杂的树,被称为过拟合
改进:减支cart算法(决策树API当中已经实现);随机森林
(企业重要决策,由于决策树很好的分析能力,在决策过程应用较多)
随机森林(集成学习方法)
集成学习通过建立几个模型组合来解决单一预测问题。原理是生成多个分类器/模型,各自独立地学习和作出预测,这些预测最后结合成单预测,因此优于任何一个单分类的作出预测
建立过程
随机森林建立多个决策树的过程:N个样本,M个特征
单个树建立过程:
1.随机在N个样本当中选择一个样本,重复N次(样本有可能重复)
2.随机在M个特征当中选出m个特征,m<<M
随机又放回的抽样(bootstrap)
随机森林API
随机森林的优点
1.在当前所有算法中,具有极好的准确率
2.能够有效地运行在大数据集上
3.能够处理具有高维特征的输入样本,而且不需要降维
4.能够评估各个特征在分类问题上的重要性