深入理解逻辑回归算法(Logistic Regression)

在继续学习 GBDT(Gradient Boosting Decision Tree) 决策树前,我们需要先来了解下逻辑回归算法(Logistic Regression),因为 GBDT 较为复杂,但在逻辑回归的基础上,理解起来会容易些。

逻辑回归是机器学习中最为基础的算法,也是工业界使用得最多的算法之一,究其原因,在于其简单、高效以及实用。

虽然线性回归也很简单,但却不实用,是因为逻辑回归本质上是一个概率模型,在实际应用中,预测一个 0-1 之间的概率值要比预测一个实数的场景要多得多,比如在广告业务中,我们往往求的是用户点击一条广告的概率。

逻辑回归是一个概率模型,但通过一定的转换,我们依然可以把该模型的预测范围从 0-1 转换到实数范围,所以它和线性回归都可以被归纳到「通用的线性模型」(Generalized Linear Model)中,要理解这种转换,我们需要引入一个概念:odds 和 log(odds)。
在这里插入图片描述
odds 和 log(odds)
odds 是几率、胜算的意思,据维基百科记载,这个概念主要在赌博和统计学领域中使用,且它的历史可以追溯到 16 世纪,早于概率论的发展时期。

odds 很容易理解,拿足球比赛作为例子,假设中国队打巴西队,中国队的赢面是 1,输面是 99,那么中国队赢的 odds 为 1/99,输的 odds 就是 99,odds 和概率的区别也很容易通过这个例子看出来,从概率的角度讲,中国队赢巴西队的概率为 0.01,输的概率为 0.99。

上面的例子还可以看出,中国队赢的 odds 和巴西队赢的 odds 落在不同的取值范围中,中国队赢的 odds 的落在 (0,1) 区间,而巴西队落在 (1,∞) 区间;也就是说,中国队和巴西队比赛,两个队伍的输赢程度应该是相等的,但 1/99 和 99 这两个数,它们的尺度不同,就很难对此做出直观的判断;而 log(odds) 就是用来解决该问题的:
在这里插入图片描述
可以看到,对 odds 加了 log 后,中国队赢和巴西队赢这两种情况的 log(odds) 的绝对值都是 4.6,即两者的输赢程度相同,一眼就可以看出来;且当我们算赢面的 log(odds) 时,通过正负号就可以判断赢面多还是赢面少,如 -4.6 就表示中国队的赢面是少的;此外,当 log(odds) 为 0 时,赢面和输面一样多。

log(odds) 是一个很有用的指标,你可以写一个程序,不断产生 0-100 之间的随机数 x x x,然后把 x x

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值