应用机器学习(四):Logistic 回归

Logistic 回归,也称logit 回归,是一个因变量是类别型变量的回归模型。
在这里,我们介绍0-1型因变量的情况,即,因变量只取0或1,可以表示例如
成功/失败、输/赢、存活/死亡、健康/患病等状态。Logistic 回归广泛应用
于机器学习、医学和社会科学领域。例如,在临床医疗中,根据观测的患者各项指标,如性别、年龄、身体质量指数(BMI )和血液检测等,预测该患者是否患糖尿病。再例如,在美国选举的民调预测,根据选民的年龄、性别、种族、收入、居住地和以往选举的投票情况,预测选民将投票支持民主党还是共和党。

Logit 回归模型

设自变量组成的输入向量 x ,因变量 y 是二值的,即, y{0,1} . 回归模型

y=f(x)+ε

在随机误差 ε 零均值的假设下,即, E(ε)=0 ,有
f(x)=E(y|x)=P(y=1|x)

易见,回归函数 f(x)[0,1] ,所以使用 logit 函数代替。

Logit 函数,也称 sigmoid 函数,定义为

logit(η)=11+eη=eηeη+1,ηR


[-6, 6]内的logit曲线

显然, logit 函数在 R 上是单调增加的,不妨设
ζ=logit(η)=11+eη=eηeη+1

则反函数为 η=lnζ1ζ

现在,假设 η 是输入向量 x 的线性组合,即, η=βTx ,有

E(y|x)=P(y=1|x)=logit(βTx)

简记 p=P(y=1|x)=logit(βTx) .
现在,定义 logit 函数的逆 y ,得到

y=lnp1p=βTx

这样,就得到了一般的线性回归。

交叉熵误差函数

  • (Entropy )

设一个随机变量 X ,分布为 p ,定义

H(X)=Σxp(x)logp(x)

H(X) X 的熵(entropy ),有时也记为 H(p) ,用它来度量 X (或分布 p )的不确定性。

  • 交叉熵 (cross entropy )

设定义在相同事件集上的两个概率分布 p,q ,称

H(p,q)=Σxp(x)logq(x)

为分布 p,q 的交叉熵。

交叉熵在信息论的意义是,当我们用分布 q 作为“代码书”,编码来自分布 p 的数据所用的平均比特(bit )数。

  • 交叉熵最小原则

交叉熵最小化(cross-entropy minimization )经常用于模型优化和稀有事件概率估计。
假设比较分布 q 和一个固定的参考分布 p ,可以证明

H(p,q)H(p)p=q

因此,在 logistic 回归中,可以用交叉熵作为损失函数来优化模型。

参数的最大似然估计

已知样本 (xi,yi) , i=1,2,,n.yi{ 0,1} . 则

pi=P(yi=1|xi)=logit(βTxi)=eβxieβxi+1

yi

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值