【18】机器学习算法面试八股

本文详细探讨了决策树的划分标准,包括信息增益、信息增益率和基尼系数。对比了ID3和C4.5的区别,解释了树模型对离散特征的处理方法。接着讨论了决策树过拟合的原因及解决办法,如剪枝策略。进一步介绍了xgBoost、LightGBM和GBDT的区别,强调了它们在算法优化和性能上的差异。最后,简要概述了集成学习中的Bagging和Boosting策略,以及随机森林和GBDT的异同。
摘要由CSDN通过智能技术生成

331决策树的划分标准是什么

有三种:最大信息增益、最大信息增益率、基尼系数。而这三种不同的划分标准就对应了三种典型决策树:ID3(最大信息增益)、C4.5(最大信息增益率)、CART(基尼系数)。
信息增益:指的是使用某一个属性a进行划分后,所带来的纯度(信息熵用来度量样本集合的纯度)提高的大小。一般而言,信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。但信息增益对可取值较多的属性有所偏好。
而信息增益率则解决了特征偏好的问题。
但是不论是信息增益还是信息增益率,存在的问题是涉及对数运算,计算量大,为了解决这个问题。可以采用基尼系数作为节点划分的标准。

332ID3和C4.5的区别

最大的区别是划分标准的不同:ID3采用信息增益,而C4.5采用的是信息增益率。
C4.5继承了ID3的优点,并在以下几个方面对ID3算法进行了改进:

  1. 用信息增益率来选择属性,克服了用信息增益选择属性是偏向选择去之多的属性的不足
  2. 在树的构造过程中进行剪枝
  3. 能够对连续的属性进行离散化处理
  4. 能够对不完整的数据进行处理

333树模型对离散特征怎么处理的

树模型是要寻找最佳分裂点,对于离散特征,树模型会评估每个离散值的信息增益,将信息增益最大的数值作为分裂点,因此,树模型不需要对离散特征进行事先one-hot处理,否则会使特征维度增大且稀疏,不仅会增加模型的计算量,而且会损失数据的信息量造成模型的效果不佳,以及过拟合的风险。也不需要进行归一化处理。

334决策树出现过拟合的原因及解决办法

原因

  1. 在决策树构建的过程中,对决策树的生长没有进行合理的限制(剪枝);
  2. 样本中有一些噪声数据,没有对噪声数据进行有效的剔除;
    解决办法
  3. 选择合理的参数进行剪枝,可以分为预剪枝和后剪枝,我们一般采用后剪枝的方法;
  4. 利用K-folds交叉验证,将训练集分为K份,然后进行K次交叉验证,每次使用K-1份作为训练样本数据集,另外一份作为测试集;
  5. 减少特征,计算每一个特征和响应变量的相关性,常见得为皮尔逊相关系数,将相关性较小的变量剔除;

335如何对决策树进行剪枝?

剪枝是防止决策树过拟合的方法。一棵完全生长的决策树很可能失去泛化能力,因此需要剪枝。
剪枝的策略
剪枝分为预剪枝和后剪枝两种,预剪枝是在构建决策树时抑制它的生长,后剪枝是决策树生长完全后再对叶子节点进行修剪。
预剪枝

  1. 设置一个树的最大高度/深度或者为树设置一个最大节点数,达到这个值即停止生长(限制深度)

  2. 对每个叶子节点的样本数设置最小值,生长时叶子节点样本数不能小于这个值(限制宽度)

  3. 判断每次生长对系统性能是否有增益
    后剪枝

  4. 错误率降低剪枝(Reduced-Error Pruning)
    后剪枝错误率降低剪枝的方法比较直观,从下至上遍历所有非叶子节点的子树,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT与Fintech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值