深入浅出GBDT：二分类算法原理解析

xziyuan

于 2024-07-28 22:21:09 发布

阅读量237

点赞数 4

文章标签：分类数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xziyuan/article/details/140757553

版权

上一篇文章讲了GBDT的回归篇，其实这一篇文章的原理的思想基本与回归相同，不同之处在于分类任务需用的损失函数一般为logloss、指数损失函数。

回顾下logistic regression有助于我们进一步的了解GBDT是如何进行分类的，线性模型是我们使用最简单的模型，但却蕴涵着机器学习中一些重要的基本思想，我们把线性回归模型简写为：

考虑二分类任务，其输出标记为

,而线性回归模型产生的预测值

是实值，于是，我们需要将实值

转换成

的值，单位阶跃函数不连续，因此我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”，并希望它是单调可微的。对数几率函数（logistic function）正是这样一个常用的替代函数：

对数几率函数是一种“Sigmoid”函数，它将

值转化为一个接近0或1的y值，我们将

带入上式得：

进行如下变换：

（线性的）

若将

视为样本

作为正例的可能性，则

是其反例的可能性，两者的比值：

称为“几率（odds）”，反映了

作为正例的相对可能性。对几率取对数则得到“对数几率”（log odds）：

若将上式中的

视为类后验概率估计

,则上式可重写为：

算出：

对于给定的样本集

,

,可以应用极大似然估计法估计模型参数，从而得到logistic模型

设：

;

似然函数为：

对数似然函数为：

对上式求极限找到的

即我们所求的模型（下面我们讲损失函数）

这里要求

的极大值，那么加个负号就是等价于求其最小值，所以上式加上负号我们可以认为是一种损失函数，就是我们说的

对数损失函数

：

其中

;对上式化简：

而

；

参考如下：只不过下面的推导是对

求偏导，方法一模一样：

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。