深入浅出GBDT:二分类算法原理解析

上一篇文章讲了GBDT的回归篇,其实这一篇文章的原理的思想基本与回归相同,不同之处在于分类任务需用的损失函数一般为logloss、指数损失函数。

回顾下logistic regression有助于我们进一步的了解GBDT是如何进行分类的,线性模型是我们使用最简单的模型,但却蕴涵着机器学习中一些重要的基本思想,我们把线性回归模型简写为:

考虑二分类任务,其输出标记为

,而线性回归模型产生的预测值

是实值,于是,我们需要将实值

转换成

的值,单位阶跃函数不连续,因此我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它是单调可微的。对数几率函数(logistic function)正是这样一个常用的替代函数:

对数几率函数是一种“Sigmoid”函数,它将

值转化为一个接近0或1的y值,我们将

带入上式得:

进行如下变换:


(线性的)

若将

视为样本

作为正例的可能性,则

是其反例的可能性,两者的比值:

称为“几率(odds)”,反映了

作为正例的相对可能性。对几率取对数则得到“对数几率”(log odds):

若将上式中的

视为类后验概率估计

,则上式可重写为:

算出:

对于给定的样本集

,

,可以应用极大似然估计法估计模型参数,从而得到logistic模型

设:

;

似然函数为:

对数似然函数为:

对上式求极限找到的

即我们所求的模型(下面我们讲损失函数)

这里要求

的极大值,那么加个负号就是等价于求其最小值,所以上式加上负号我们可以认为是一种损失函数,就是我们说的

对数损失函数

其中

;对上式化简:



参考如下:只不过下面的推导是对

求偏导,方法一模一样:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值