机器学习-深度学习入门--决策树算法(notes2)

最新推荐文章于 2022-04-23 15:58:07 发布

CassielBodhi

最新推荐文章于 2022-04-23 15:58:07 发布

阅读量204

点赞数

分类专栏： wheat机器学习notes 文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46404263/article/details/107408392

版权

wheat机器学习notes 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

监督学习–分类（决策树算法）

文章目录

==监督学习--分类（决策树算法）==
基本概念
决策树归纳算法(ID3)
决策树应用

机器学习中分类和预测算法的评估：

准确率
速度
强壮型
可规模性
可解释性

基本概念

决策树(Decision Tree)/判定树:类似于流程图的树结构，其中，
每个内部节点表示在一个属性上的测试；
每个分支代表一个属性输出；
而每个树叶结点代表类或类分布；
树的最顶层是根结点。
熵(entropy)概念：信息的度量就等于不确定性的多少；
自信息: 对于一个事件发生的概率携带的信息量 (概率取对数加负号)
(-p*log p)
信息熵(香农熵): 用来一个事物的多种状态的信息量,可以理解为它是一个期望,(发生概率 * 自信息求合计)
-(p1log p1+p2log p2+…)
比特（bit）来衡量信息的多少；变量的不确定性越大，熵就越大。

决策树归纳算法(ID3)

选择属性判断结点

标准：

信息获取量(Information Gain)：
Gain(A)=Info(D)-Infor_A(D)
即：通过A节点分类获取了多少信息
（选比特值最大的作为第一个结点）
重复选择之后的结点。
满足下列条件之一的即可停止分类：

a.给定结点的样本属于同一类；
b.没有剩余属性可以用来进一步划分样本，此情况下，使用多数表决；

决策树优点

直观，便于理解，小规模数据集有效；

决策树缺点

处理连续变量不好；
类别较多时，错误增加较快；
可规模性一般。

衍生的其他算法(C4.5 & CART)

共同点：贪心算法，自上而下；
区别：属性选择度量方法不同

C4.5：gain ratio
CART: gini index
ID3:Information Gain

问：如何处理连续型变量的属性？

树剪枝叶（避免overfitting）

先剪枝；
后剪枝。

决策树应用

基础语言：Python
Python机器学习的库：scikit-learn（开源）
覆盖问题领域：分类、回归、聚类、降维、模型选择、预处理。
```
                 -文章笔记通过学习B站视频资源所做
```

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-深度学习入门--决策树算法(notes2)

监督学习–分类（决策树算法）文章目录==监督学习--分类（决策树算法）==基本概念决策树归纳算法(ID3)机器学习中分类和预测算法的评估：准确率速度强壮型可规模性可解释性基本概念决策树(Decision Tree)/判定树:类似于流程图的树结构，其中，每个内部节点表示在一个属性上的测试；每个分支代表一个属性输出；而每个树叶结点代表类或类分布；树的最顶层是根结点。熵(entropy)概念：信息的度量就等于不确定性的多少；自信息: 对于一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。