机器学习之决策树学习笔记分享

最新推荐文章于 2024-06-07 21:44:58 发布

weixin_45827175

最新推荐文章于 2024-06-07 21:44:58 发布

阅读量321

点赞数 2

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45827175/article/details/108157541

版权

决策树思维导图

在这里插入图片描述

特征选择

特征选择是为了选取具有分类能力的特征，选取准则为信息增益或信息增益比

信息增益

def:特征A对训练数据D的信息增益为g(D,A),定义为集合D的经验熵H(D)和特征A给定条件下D的经验条件熵H(D|A)之差，即
$g (D, A) = H (D) - H (D ∣ A)$
其中熵的定义为：
$H(P)=-\sum_{i=1}^{n}p_ilog_2p_i （pi=p(X=x_i),i=1,2,3...)$
熵越大随机变量的不确定性就越大

条件熵的定义为：
$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i) （pi=p(X=x_i),i=1,2,3...)$
当熵和条件熵为数据统计（特别时极大似然估计）得到时，所对应的熵和条件熵称为经验熵和经验条件熵

介绍完熵和条件熵后，我们继续回到信息增益上

一般地，熵与条件熵之差称为互信息，所以信息增益等价于训练数据集中类与特征的互信息

经验熵H(D)表示对数据集D进行分类的不确定性,经验条件熵表示在给定特征A条件下对数据集D进行分类的不确定性，它们的差，即信息增益表示由于特征A而使得对数据集D的分类的不确定性减少的程度

根据信息增益选取特征的方法为：对训练数据集D，计算每个特征的信息增益，选取信息增益最大的那个特征

信息增益比

以信息增益作为划分训练数据集的准则，存在偏向于选择取值较多的特征的问题。利用信息增益比即可矫正该问题

def:信息增益比的定义为信息增益与训练数据集D关于特征A的值的熵之比，即：
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

最低0.47元/天解锁文章

weixin_45827175

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树学习笔记分享

决策树思维导图特征选择特征选择是为了选取具有分类能力的特征，选取准则为信息增益或信息增益比信息增益def:特征A对训练数据D的信息增益为g(D,A),定义为集合D的经验熵H(D)和特征A给定条件下D的经验条件熵H(D|A)之差，即g(D,A)=H(D)−H(D∣A)g(D,A)=H(D)-H(D|A)g(D,A)=H(D)−H(D∣A)其中熵的定义为：H(P)=−∑i=1npilog2pi（pi=p(X=xi),i=1,2,3...)H(P)=-\sum_{i=1}^{n}p_ilog
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。