逻辑回归的前世今生
引子
大家在日常的工作和学习中是不是经常有这样的疑问:邮箱是如何自动区分正常邮件和垃圾邮件的呢?银行是如何判断是否通过你的贷款申请的呢?经常收到某种商品的推荐信息,商家又是如何知道你对这个商品感兴趣的呢?
为了回答上述疑问,这一期给大家介绍逻辑回归算法。逻辑回归,也称Logistic Regression,主要区别于一般的线性回归模型。我们知道,一般的线性回归模型都是处理因变量是连续变量的问题,如果因变量是分类变量,一般线性回归模型就不再适用。逻辑回归算法因其原理的相对简单,可解释性强等优点已成为互联网领域最常用也最有影响力的分类算法之一,同时它还可以作为众多集成算法以及深度学习的基本组成单位,所以学好逻辑回归尤其重要。
我们知道,一般的线性回归模型都是处理因变量是连续变量的问题,如果因变量是定性变量,一般线性回归模型就不再适用了。
或许有人会有疑问,为什么对于分类问题,逻辑回归行而一般的线性回归模型却不行呢?二者的区别又是什么呢?下面将从现实意义和数学理论上给出解释。
- 定性因变量回归方程的意义
设因变量y是只取0,1两个值,考虑简单线性回归模 y=β0+β1xi+ε
在这种y只取0和1两个值的情况下,因变量均值 E(yi)=β0+β1xi 有着特殊的意义。
由于 y 是0-1型随机变量,得到如下概率分布
根据离散型随机变量期望值的定义,可得
所以,作为由回归函数给定的因变量均值, E(y)=β0+β1x 是自变量水平为 x 时
- 逻辑回归模型的特别之处
对于一般的线性模型
误差项有大三假定条件:
(1)误差项 ε 是一个期望为0的随机变量,即 E(ε)=0
(2)对于所有的 x ,
(3)误差项 ε 是一个服从正态分布的随机变量,且相互独立,即 ε∼N(0,σ2) 。
而在因变量y只能取0和1的逻辑回归模型,误差项 ε=y−(β0+β1x) 显然是两点型的离散分布,不满足误差项正态分布的基本假定;同时误差项的方差 Var(εi)=Var(yi)=(β0+β1xi)(1−β0−β1xi) ,可以看出误差项随着 x 的不同水平而变化,是异方差,不满足线性回归的基本假定;当因变量为0和1时,回归方程代表的是概率分布,所以因变量的均值受到如下限制
- 从一般线性回归到逻辑回归
当被解释变量 y 为0和1的二分类变量时,虽然无法采用一般的线性回归模型建模,但是可以借鉴其理论基础:
第一,一般线性模型