统计学习方法第6章逻辑斯蒂回归

逻辑斯蒂回归是一种分类方法。

逻辑斯蒂分布

设X是随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数
分布函数 F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x) = P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx)=1+e(xμ)/γ1
密度函数 f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ

逻辑斯蒂回归是一个分类算法,这个算法的输出在0到1之间
具体做法是,利用sigmoid函数,将每一个点映射到(0,1)之间。如果是用作二分类,则大于0.5可以判定为正类,小于0.,5可以判定为负类。
在这里插入图片描述

二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)表示,形式为参数化的逻辑斯蒂分布。
P ( Y = 1 ∣ x ) = e x p ( w ∗ x + b ) 1 + e x p ( w ∗ x + b ) P(Y=1|x)=\frac{exp(w*x + b)}{1+exp(w*x+b)} P(Y=1x)=1+exp(wx+b)exp(wx+b)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ∗ x + b ) P(Y=0|x)=\frac{1}{1+exp(w*x+b)} P(Y=0x)=1+exp(wx+b)1
w为权值向量,b为偏置。 x ∈ R n x\in R^n xRn是输入, Y ∈ { 0 , 1 } Y \in \{0,1\} Y{0,1}为输出。
根据上面两个式子可以求得 P ( Y = 1 ∣ x ) 和 P ( Y = 0 ∣ x ) P(Y=1|x)和P(Y=0|x) P(Y=1x)P(Y=0x),比较两个条件概率的大小,将实例x分到概率值较大的一类。
有时为了方便,将权值和输入向量进行扩充,仍记做w,x,
w = ( w ( 1 ) , w ( 2 ) , … , w ( n ) , b ) , x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) , 1 ) w=(w^{(1)},w^{(2)},\dots,w^{(n)},b),x=(x^{(1)},x^{(2)},\dots,x^{(n)},1) w=(w(1),w(2),,w(n),b),x=(x(1),x(2),,x(n),1)
则有 P ( Y = 1 ∣ x ) = e x p ( w ∗ x ) 1 + e x p ( w ∗ x ) P(Y=1|x)=\frac{exp(w*x)}{1+exp(w*x)} P(Y=1x)=1+exp(wx)exp(wx)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ∗ x ) P(Y=0|x)=\frac{1}{1+exp(w*x)} P(Y=0x)=1+exp(wx)1
一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。
如果事件发生的概率为p,那么该事件的几率为p/1-p,该事件的对数几率或logit函数是
l o g i t ( p ) = l o g p 1 − p = l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ∗ x logit(p)=log\frac{p}{1-p}=log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w*x logit(p)=log1pp=log1P(Y=1x)P(Y=1x)=wx

参数模型估计

对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)},其中, x i ∈ R n , y i ∈ { 0 , 1 } x_i \in R_n,y_i \in \{0,1\} xiRn,yi{0,1},可以应用极大似然估计法估计模型参数。
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)
似然函数为 ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi
对两边求对数,则对数似然函数为
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]
= ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] \quad\quad\quad=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] =i=1N[yilog1π(xi)π(xi)+log(1π(xi))]
= ∑ i = 1 N [ y i ( w ∗ x i ) − l o g ( 1 + e x p ( w ∗ x i ) ] \quad\quad\quad=\sum_{i=1}^N[y_i(w*x_i)-log(1+exp(w*x_i)] =i=1N[yi(wxi)log(1+exp(wxi)]
对L(w)求极大值,得到w的估计值。通常采用梯度下降法及拟牛顿法。
假设w的极大似然估计值是 w ^ \hat{w} w^,那么学到的逻辑斯蒂回归模型为
P ( Y = 1 ∣ x ) = e x p ( w ^ ∗ x ) 1 + e x p ( w ^ ∗ x ) P(Y=1|x)=\frac{exp(\hat w*x)}{1+exp(\hat w*x)} P(Y=1x)=1+exp(w^x)exp(w^x)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ^ ∗ x ) P(Y=0|x)=\frac{1}{1+exp(\hat w*x)} P(Y=0x)=1+exp(w^x)1

多项式逻辑斯蒂回归

假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯蒂回归模型是
P ( Y = k ∣ x ) = e x p ( w k ∗ x ) 1 + ∑ k = 1 K − 1 e x p ( w k ∗ x ) , K = 1 , 2 , … , K − 1 P(Y=k|x)=\frac{exp(w_k*x)}{1+\sum_{k=1}^{K-1}exp(w_k*x)},K=1,2,\dots,K-1 P(Y=kx)=1+k=1K1exp(wkx)exp(wkx),K=1,2,,K1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k ∗ x ) P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k*x)} P(Y=Kx)=1+k=1K1exp(wkx)1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值