机器学习—XGBoost常见问题解析

最新推荐文章于 2023-10-10 11:56:28 发布

哎呦-_-不错

最新推荐文章于 2023-10-10 11:56:28 发布

阅读量4.3k

点赞数 8

分类专栏： # 机器学习理论与实战文章标签： XGBoost 常见问题

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/115213618

版权

文章目录

1.xgboost使用之前是否需要对数据进行归一化处理?

不需要。首先，归一化是对连续特征来说的。那么连续特征的归一化，起到的主要作用是进行数值缩放。数值缩放的目的是解决梯度下降时，等高线是椭圆导致迭代次数增多的问题。而xgboost等树模型是不能进行梯度下降的，因为树模型是阶越的，不可导。树模型是通过寻找特征的最优分裂点来完成优化的。由于归一化不会改变分裂点的位置，因此xgboost不需要进行归一化。

2.xgboost使用之前是否需要对类别型特征进行one-hot处理？

xgboost支持离散类别特征进行onehot编码，因为xgboost只支持数值型的特征。但是不提倡对离散值特别多的特征通过one-hot的方式进行处理。因为one-hot进行特征打散的影响，其实是会增加树的深度。针对取值特别多的离散特征，我们可以通过embedding的方式映射成低纬向量。与单热编码相比，实体嵌入不仅减少了内存使用并加速了神经网络，更重要的是通过在嵌入空间中映射彼此接近的相似值，它揭示了分类变量的内在属性。

3.XGBoost与GBDT的联系和区别有哪些？

GBDT是机器学习算法，XGBoost是该算法的工程实现。
正则项：在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力。
导数信息：GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。
基分类器

最低0.47元/天解锁文章

哎呦-_-不错

关注

8
点赞
踩
40

收藏

觉得还不错? 一键收藏
8
评论
机器学习—XGBoost常见问题解析

文章目录1.xgboost使用之前是否需要对数据进行归一化处理?2.xgboost使用之前是否需要对类别型特征进行one-hot处理？3.XGBoost与GBDT的联系和区别有哪些？4.为什么XGBoost泰勒二阶展开后效果就比较好呢？5.XGBoost对缺失值是怎么处理的？6.XGBoost为什么可以并行训练？1.xgboost使用之前是否需要对数据进行归一化处理? 不需要。首先，归一化是对连续特征来说的。那么连续特征的归一化，起到的主要作用是进行数值缩放。数值缩放的目的是解决梯度下降时，等高线是椭
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。