逻辑回归
逻辑回归是一种经典的分类方法,属于判别模型。
逻辑斯蒂分布
设
X
X
X是连续随机变量,
X
X
X服从逻辑斯蒂分布是指
X
X
X具有以下分布函数:
F
(
x
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
x
F(x)=P(X\leq x)=\frac{1}{1+e^{-x}}
F(x)=P(X≤x)=1+e−x1
分布函数
F
(
x
)
F(x)
F(x)又可称为Sigmoid函数,函数图形如下图所示:
二项逻辑回归模型
二项逻辑回归模型是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)表示。随机变量 X X X取值为实数,随机变量Y取值为1或0。
二项逻辑回归模型的条件概率分布:
P
1
=
P
(
Y
=
1
∣
X
)
=
exp
(
w
⋅
x
+
b
)
1
+
exp
(
w
⋅
x
+
b
)
P_{1}=P(Y=1|X)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}
P1=P(Y=1∣X)=1+exp(w⋅x+b)exp(w⋅x+b)
P
0
=
P
(
Y
=
0
∣
X
)
=
1
1
+
exp
(
w
⋅
x
+
b
)
P_{0}=P(Y=0|X)=\frac{1}{1+\exp(w\cdot x+b)}
P0=P(Y=0∣X)=1+exp(w⋅x+b)1
逻辑回归比较两个条件概率值的大小,将实例
x
x
x分类到概率值较大的那一类。
综合以上条件概率分布可将模型表示为以下函数:
P
(
Y
∣
X
)
=
P
1
P
0
=
P
(
Y
=
1
∣
X
)
Y
P
(
Y
=
0
∣
X
)
1
−
Y
P(Y|X)=P_{1}P_{0}=P(Y=1|X)^{Y}P(Y=0|X)^{1-Y}
P(Y∣X)=P1P0=P(Y=1∣X)YP(Y=0∣X)1−Y
通过逻辑回归模型可以将线性函数
w
⋅
x
w\cdot x
w⋅x转换为概率,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.
模型参数估计
逻辑回归模型学习时,可以应用极大似然估计法估计模型参数,从而得到逻辑回归模型。假设
w
w
w的极大似然估计是
w
^
\hat{w}
w^,且数据样本之间是独立同分布的,故有
w
^
=
arg max
w
log
P
(
Y
∣
X
)
=
arg max
w
log
∏
i
=
1
N
P
(
y
i
∣
x
i
)
(
独
立
同
分
布
)
=
arg max
w
∑
i
=
1
N
log
P
(
y
i
∣
x
i
)
=
arg max
w
∑
i
=
1
N
(
y
i
log
P
1
+
(
1
−
y
i
)
log
P
0
)
\begin{aligned} \hat{w}&=\argmax_{w}\log P(Y|X)\\ &=\argmax_{w}\log\prod_{i=1}^{N}P(y_{i}|x_{i})\quad (独立同分布)\\ &=\argmax_{w}\sum_{i=1}^{N}\log P(y_{i}|x_{i})\\ &=\argmax_{w}\sum_{i=1}^{N}(y_{i}\log P_{1}+(1-y_{i})\log P_{0}) \end{aligned}
w^=wargmaxlogP(Y∣X)=wargmaxlogi=1∏NP(yi∣xi)(独立同分布)=wargmaxi=1∑NlogP(yi∣xi)=wargmaxi=1∑N(yilogP1+(1−yi)logP0)
这样问题就变成了对数似然函数为目标函数的最优化问题。逻辑回归学习中通常采用的方法是梯度下降法及拟牛顿法。
多项逻辑回归
可将二项的逻辑回归模型推广到多项逻辑回归模型,用于多项分类。假设离散型随机变量Y的取值集合是
1
,
2
,
⋯
,
K
{1,2,\cdots,K}
1,2,⋯,K,那么多项逻辑回归模型是:
P
(
Y
=
k
∣
X
)
=
exp
(
w
k
⋅
x
)
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
,
k
=
1
,
2
,
⋯
,
K
−
1
P(Y=k|X)=\frac{\exp(w_{k}\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_{k}\cdot x)},\quad k=1,2,\cdots,K-1
P(Y=k∣X)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,⋯,K−1
P
(
Y
=
K
∣
X
)
=
1
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
P(Y=K|X)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_{k}\cdot x)}
P(Y=K∣X)=1+∑k=1K−1exp(wk⋅x)1
二项逻辑回归的参数估计法也可推广到多项逻辑回归。