Logistic 回归,也称logit 回归,是一个因变量是类别型变量的回归模型。
在这里,我们介绍0-1型因变量的情况,即,因变量只取0或1,可以表示例如
成功/失败、输/赢、存活/死亡、健康/患病等状态。Logistic 回归广泛应用
于机器学习、医学和社会科学领域。例如,在临床医疗中,根据观测的患者各项指标,如性别、年龄、身体质量指数(BMI )和血液检测等,预测该患者是否患糖尿病。再例如,在美国选举的民调预测,根据选民的年龄、性别、种族、收入、居住地和以往选举的投票情况,预测选民将投票支持民主党还是共和党。
Logit 回归模型
设自变量组成的输入向量 x ,因变量 y 是二值的,即,
在随机误差 ε 零均值的假设下,即, E(ε)=0 ,有
易见,回归函数 f(x)∈[0,1] ,所以使用 logit 函数代替。
Logit 函数,也称 sigmoid 函数,定义为
显然, logit 函数在 R 上是单调增加的,不妨设
则反函数为 η=lnζ1−ζ
现在,假设 η 是输入向量 x 的线性组合,即, η=βTx ,有
简记 p=P(y=1|x)=logit(βTx) .
现在,定义 logit 函数的逆 y ,得到
这样,就得到了一般的线性回归。
交叉熵误差函数
- 熵 (Entropy )
设一个随机变量 X ,分布为
称 H(X) 为 X 的熵(entropy ),有时也记为
- 交叉熵 (cross entropy )
设定义在相同事件集上的两个概率分布 p,q ,称
为分布 p,q 的交叉熵。
交叉熵在信息论的意义是,当我们用分布 q 作为“代码书”,编码来自分布
- 交叉熵最小原则
交叉熵最小化(cross-entropy minimization )经常用于模型优化和稀有事件概率估计。
假设比较分布 q 和一个固定的参考分布
因此,在 logistic 回归中,可以用交叉熵作为损失函数来优化模型。
参数的最大似然估计
已知样本 (xi,yi) , i=1,2,…,n.yi∈{
0,1} . 则
由 yi