机器学习(五)

决策树

认识决策树

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法

信息论基础

信息的单位:比特

信息熵(H):H的专业术语称之为信息熵,单位为比特

公式:

信息和消除不确定性是相联系的,信息熵越大,不确定性越大

决策树的生成

决策树的划分依据

信息增益

常用的决策树使用的算法

ID3:信息增益 最大的准则

C4.5:信息增益比 最大的准则

CART:回归树:平方误差 最小;分类树:基尼系数 最小的准则 在sklearn中可以选择划分的默认原则

sklearn决策树API

决策树的优缺点以及改进

优点:简单的理解和解释,树木可视化;需要很少的数据准备,其他技术通常需要数据归一化

缺点:决策树学习者可以创建不能很好地推广数据的过于复杂的树,被称为过拟合

改进:减支cart算法(决策树API当中已经实现);随机森林

(企业重要决策,由于决策树很好的分析能力,在决策过程应用较多)

随机森林(集成学习方法)

集成学习通过建立几个模型组合来解决单一预测问题。原理是生成多个分类器/模型,各自独立地学习和作出预测,这些预测最后结合成单预测,因此优于任何一个单分类的作出预测

建立过程

随机森林建立多个决策树的过程:N个样本,M个特征

单个树建立过程:

1.随机在N个样本当中选择一个样本,重复N次(样本有可能重复)

2.随机在M个特征当中选出m个特征,m<<M

随机又放回的抽样(bootstrap)

随机森林API

随机森林的优点

1.在当前所有算法中,具有极好的准确率

2.能够有效地运行在大数据集上

3.能够处理具有高维特征的输入样本,而且不需要降维

4.能够评估各个特征在分类问题上的重要性

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值