机器学习第四章决策树

i软肋

已于 2023-11-10 16:19:13 修改

阅读量115

点赞数

文章标签：机器学习数据挖掘人工智能

于 2023-11-10 16:09:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54190482/article/details/134335589

版权

1、决策树是一类常见的机器学习方法，是基于树结构进行决策的。一般的，一棵决策树包含两类结点：内部节点和叶结点，其中内部节点表示表示一个特征或属性，叶结点表示_____决策结果_________。

2、在决策树学习中，一般情况下，属性a的信息增益越大，则意味着使用属性a来进行划分获得的______纯度提升越大______________。

3、信息增益准则对_______可取值数目较多_____________的属性有所偏好，增益率准则对可取数值数目较少的属性有所偏好。

4、在决策树学习中，C4.5决策树算法中采用____二分法______对连续属性进行离散化处理。

5、决策树学习算法包括3部分：特征选择、树的生成和树的剪枝。特征选择的目的在于选择对训练数据能够分类的特征。特征选择的关键是其准则，常用的准则有哪些，请简单描述。

常用准则有信息增益、增益率、基尼指数。

信息增益：属性的信息增益越大，则意味着使用该属性来划分所获得的纯度提升越大，因此，可用信息增益来进行决策树的划分属性选择。信息增益准则对可取值数目较多的属性有所偏好。

增益率：增益率在信息增益的基础上除以一个固有值，增益率准则对可取值数目较少的属性有所偏好。

基尼指数：基尼值反映了数据集中随机抽取两个样本，其类别标记不一致的概率，数据集的纯度越高。属性的基尼指数在基尼值的基础上乘以一个固定值，选择是的划分后基尼指数最小的属性作为划分属性。

6、目标变量在训练集上的 10 个实际值 [0,0,0,0,1,1,1,1,1,1]，则目标变量的熵是________-（5/8log（5/8）+3/5log（3/5））____________。

7、C4.5决策树算法中采用______二分法____________对连续属性进行处理。

8、常用的决策树学习算法有ID3、C4.5和CART，介绍它们采用的特征选择准则是什么？

ID3采用信息增益准则；

C4.5采用增益率准则；

CART采用基尼指数准则。

9、简述决策树生成与决策树剪枝。

决策树生成是一个递归过程，在决策树基本算法中，有三种情况会导致递归返回：

当前节点包含的样本全属于同一类别，无需划分。
但前属性集为空，或是所有样本在所有属性上取值相同，无法划分。
单前节点包含的样本集为空，不能划分。

决策树剪枝是决策树学习算法对付过拟合的主要手段。决策树剪枝的基本策略有预剪枝和后剪枝：

预剪枝是指在决策树生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分并将当前节点标记为叶节点；后剪枝则是先从训练集生成一刻完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的指数替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。

10、决策树剪枝的基本策略有预剪枝和后剪枝，请简述并分析两种剪枝策略。

预剪枝：在决策树生成过程中，对每个节点在划分之前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分，并将当前节点标记为叶节点。

后剪枝：先从训练集中生成一课完整的决策树，然后自底向上对非叶子节点进行考察，若将该节点对应的子树替换为叶子结点能带来决策树泛化性能的提升，则将该子树替换为叶节点。

11、根据表4.1中的西瓜数据集，计算属性“纹理”的信息增益。

Ent（D）= 0.998

且 “纹理”有3个属性取值{清晰，稍糊，模糊}，分别设为D1 D2 D3。

Ent（D1）=-（3/9log3/9+6/9log6/9）

Ent (D2）=-(4/5log4/5+1/5log1/5)

Ent(D3) = -(1log1)

Gain(D,纹理) =0.381

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习第四章决策树

后剪枝则是先从训练集生成一刻完整的决策树，然后自底向上地对非叶节点进行考察，若将该节点对应的指数替换为叶节点能带来决策树泛化性能的提升，则将该子树替换为叶节点。信息增益准则对可取值数目较多的属性有所偏好。后剪枝：先从训练集中生成一课完整的决策树，然后自底向上对非叶子节点进行考察，若将该节点对应的子树替换为叶子结点能带来决策树泛化性能的提升，则将该子树替换为叶节点。预剪枝：在决策树生成过程中，对每个节点在划分之前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分，并将当前节点标记为叶节点。
复制链接

扫一扫

i软肋 CSDN认证博客专家 CSDN认证企业博客

码龄4年

30: 原创

30万+: 周排名

26万+: 总排名

1万+: 访问

: 等级

312: 积分

90: 粉丝

10: 获赞

5: 评论

59: 收藏

私信

关注

热门文章

最新评论

机器学习与数据挖掘实验1-使用梯度下降法训练线性回归模型
CSDN-Ada助手: 恭喜您完成了第16篇博客！标题“机器学习与数据挖掘实验1-使用梯度下降法训练线性回归模型”听起来非常有趣和有深度。您的持续创作真的令人钦佩，不仅为自己积累了宝贵的知识，也为读者们提供了有价值的学习内容。我希望您能继续保持这种积极的创作热情，并继续分享您在机器学习和数据挖掘领域的心得和实践经验。作为下一步的建议，或许可以考虑深入探索其他优化算法的应用，或者尝试将线性回归模型应用于不同领域的实际问题。期待您未来更多的博客文章，谢谢您的分享！
机器学习与数据挖掘实验2-使用梯度下降法训练多远线性回归模型
CSDN-Ada助手: 恭喜您写了第17篇博客！看了您的新文章，对梯度下降法训练多元线性回归模型有了更深入的了解。建议您在下一篇文章中可以尝试结合实际案例，展示梯度下降法在真实数据中的应用效果，这样读者可以更直观地理解模型训练的过程和结果。期待您的下一篇精彩内容！
机器学习与数据挖掘实验3-求解对数几率回归问题
CSDN-Ada助手: 恭喜您在机器学习与数据挖掘领域又取得了新的进展，对数几率回归问题的实验内容十分精彩。希望您能继续保持创作的热情和耐心，不断探索新的领域和问题，为我们带来更多有价值的内容。或许在下一篇博客中，可以尝试结合实际案例，分析对数几率回归在某个具体领域的应用，以及可能遇到的挑战和解决方案。期待您的精彩续篇！
机器学习与数据挖掘实验4-编程实现基于信息增益进行划分选择的决策树算法
CSDN-Ada助手: 恭喜您写了第19篇博客！标题中提到了机器学习与数据挖掘实验4，以及基于信息增益进行划分选择的决策树算法，这听起来非常有深度和技术含量。您的持续创作让读者们能够不断学习和探索这个领域。接下来，我谦虚地建议您可以考虑分享一些关于如何优化决策树算法的实践经验，或者探讨一些与机器学习和数据挖掘相关的前沿技术和趋势。期待您的下一篇博客！
机器学习与数据挖掘实验5-编程实现误差逆传播算法（BP算法）
CSDN-Ada助手: 恭喜您撰写了第20篇博客，内容围绕机器学习与数据挖掘实验5-编程实现误差逆传播算法（BP算法）。这篇博客内容深入浅出，让读者对BP算法有了更深入的理解，非常有启发性。希望您能继续保持创作的热情和努力，不断分享您的学习成果。或许在下一篇博客中，您可以探讨一些BP算法在实际应用中的挑战和解决方案，这将会为读者带来更多的启发和帮助。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。