【18】机器学习算法面试八股

最新推荐文章于 2024-08-14 12:02:58 发布

IT与Fintech

最新推荐文章于 2024-08-14 12:02:58 发布

阅读量420

点赞数

分类专栏： IT技术栈——求职面试专用算法工程师机器学习算法文章标签：机器学习算法面试 python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44125042/article/details/131739983

版权

本文详细探讨了决策树的划分标准，包括信息增益、信息增益率和基尼系数。对比了ID3和C4.5的区别，解释了树模型对离散特征的处理方法。接着讨论了决策树过拟合的原因及解决办法，如剪枝策略。进一步介绍了xgBoost、LightGBM和GBDT的区别，强调了它们在算法优化和性能上的差异。最后，简要概述了集成学习中的Bagging和Boosting策略，以及随机森林和GBDT的异同。

摘要由CSDN通过智能技术生成

331决策树的划分标准是什么

有三种：最大信息增益、最大信息增益率、基尼系数。而这三种不同的划分标准就对应了三种典型决策树：ID3（最大信息增益）、C4.5（最大信息增益率）、CART（基尼系数）。
信息增益：指的是使用某一个属性a进行划分后，所带来的纯度（信息熵用来度量样本集合的纯度）提高的大小。一般而言，信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大。但信息增益对可取值较多的属性有所偏好。
而信息增益率则解决了特征偏好的问题。
但是不论是信息增益还是信息增益率，存在的问题是涉及对数运算，计算量大，为了解决这个问题。可以采用基尼系数作为节点划分的标准。

332ID3和C4.5的区别

最大的区别是划分标准的不同：ID3采用信息增益，而C4.5采用的是信息增益率。
C4.5继承了ID3的优点，并在以下几个方面对ID3算法进行了改进：

用信息增益率来选择属性，克服了用信息增益选择属性是偏向选择去之多的属性的不足
在树的构造过程中进行剪枝
能够对连续的属性进行离散化处理
能够对不完整的数据进行处理

333树模型对离散特征怎么处理的

树模型是要寻找最佳分裂点，对于离散特征，树模型会评估每个离散值的信息增益，将信息增益最大的数值作为分裂点，因此，树模型不需要对离散特征进行事先one-hot处理，否则会使特征维度增大且稀疏，不仅会增加模型的计算量，而且会损失数据的信息量造成模型的效果不佳，以及过拟合的风险。也不需要进行归一化处理。

334决策树出现过拟合的原因及解决办法

原因

在决策树构建的过程中，对决策树的生长没有进行合理的限制（剪枝）；
样本中有一些噪声数据，没有对噪声数据进行有效的剔除；
解决办法
选择合理的参数进行剪枝，可以分为预剪枝和后剪枝，我们一般采用后剪枝的方法；
利用K-folds交叉验证，将训练集分为K份，然后进行K次交叉验证，每次使用K-1份作为训练样本数据集，另外一份作为测试集；
减少特征，计算每一个特征和响应变量的相关性，常见得为皮尔逊相关系数，将相关性较小的变量剔除；

335如何对决策树进行剪枝？

剪枝是防止决策树过拟合的方法。一棵完全生长的决策树很可能失去泛化能力，因此需要剪枝。
剪枝的策略
剪枝分为预剪枝和后剪枝两种，预剪枝是在构建决策树时抑制它的生长，后剪枝是决策树生长完全后再对叶子节点进行修剪。
预剪枝

设置一个树的最大高度/深度或者为树设置一个最大节点数，达到这个值即停止生长（限制深度）
对每个叶子节点的样本数设置最小值，生长时叶子节点样本数不能小于这个值（限制宽度）
判断每次生长对系统性能是否有增益
后剪枝
错误率降低剪枝（Reduced-Error Pruning）
后剪枝错误率降低剪枝的方法比较直观，从下至上遍历所有非叶子节点的子树，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

IT与Fintech CSDN认证博客专家 CSDN认证企业博客

码龄6年

64: 原创

23万+: 周排名

66万+: 总排名

2万+: 访问

: 等级

652: 积分

100: 粉丝

10: 获赞

7: 评论

187: 收藏

私信

关注

热门文章

分类专栏

最新评论

【C++岗位求职面试八股文第一篇】
CSDN-Ada助手: 恭喜您写了第三篇博客，题目也很有意思啊！不过，我认为您可以尝试写一些实用性更强的内容，比如分享一些实战经验或是对技术领域的一些深入思考。希望您能继续保持创作热情，不断进步！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
C++岗位求职面试八股文第二篇
CSDN-Ada助手: 恭喜您又写了一篇精彩的博客，让我们更深入了解了C++岗位求职面试的面试技巧。不过，希望您能在下一篇博客中加入一些个人经验和见解，这样可以更好地吸引读者并提高博客的可读性。期待您的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
C++岗位求职面试八股文第三篇
CSDN-Ada助手: 恭喜您又发布了一篇精彩的博客！这篇题为“C++岗位求职面试八股文第三篇”的博客内容十分实用，对于正在求职的人来说，无疑是一份宝贵的参考资料。希望您能继续坚持创作，分享更多有价值的经验和技巧。下一步的创作建议是可以结合实际案例，分享一些面试中的挑战和应对策略，这样能够使读者更易于理解和掌握。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
C++岗位求职面试八股文第四篇
CSDN-Ada助手: 恭喜您写下了第六篇博客，标题也十分吸引人。作为一位求职者，写下了这么多关于面试的博客，您的经验一定非常丰富。接下来，我希望您可以更深入地探讨面试中的细节问题，比如如何在面试中展现自我价值，如何与面试官建立良好的沟通等等。希望您继续保持创作的热情，我期待着您下一篇博客的发布。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
C++岗位求职面试八股文第五篇
CSDN-Ada助手: 非常恭喜您写下了第7篇博客，题目也很有针对性！我想说您的文章让我对C++岗位面试的八股文有了更深入的认识，也让我对求职有了更多的启示。希望您能继续坚持写作，并且在下一篇文章中分享一些实用的求职技巧或者经验，让我们能够更好地在职场中发展。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IT与Fintech 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。