机器学习中常见的任务就是回归和分类,线性回归得到一个连续的取值,而分类需要一个离散的取值,常见的二分类就是用1表示正分类,0表示负分类。因此,就想把得到的连续的值映射到离散的0和1上。
最理想的就是“单位阶跃函数”
y
=
{
0
,
z
<
0
0.5
,
z
=
0
1
,
z
>
0
y=\left\{\begin{array}{cl} 0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0 \end{array}\right.
y=⎩⎨⎧0,0.5,1,z<0z=0z>0
然而,“单位阶跃函数”不是连续的,线性模型得到的是连续的,然后就找到了代替函数:
y
=
1
1
+
e
−
z
y=\frac{1}{1+e^{-z}}
y=1+e−z1
称为Sigmoid函数
极大似然估计计算w
离散型随机变量
y
∈
{
0
,
1
}
y \in\{0,1\}
y∈{0,1}的取值为1和0的概率分别为:
p
(
y
=
1
∣
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1 \mid \boldsymbol{x})=\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}}=\frac{e^{\boldsymbol{w}^{\mathrm{T}} x+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}
p(y=1∣x)=1+e−(wTx+b)1=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
−
p
(
y
=
1
∣
x
)
=
1
1
+
e
T
T
x
+
b
p(y=0 \mid \boldsymbol{x})=1-p(y=1 \mid \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{T}^{\mathrm{T}} \boldsymbol{x}+b}}
p(y=0∣x)=1−p(y=1∣x)=1+eTTx+b1
为了便于讨论,类似多元线性回归,
令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
,
则上式可简写为
p
(
y
=
1
∣
x
^
;
β
)
=
e
β
T
x
^
1
+
e
β
T
x
^
=
p
1
(
x
^
;
β
)
p
(
y
=
0
∣
x
^
;
β
)
=
1
1
+
e
β
T
x
^
=
p
0
(
x
^
;
β
)
\begin{aligned} &\text { 令 } \boldsymbol{\beta}=(\boldsymbol{w} ; b), \hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1), \text { 则上式可简写为 }\\ &\begin{aligned} &p(y=1 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=\frac{e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \\ &p(y=0 \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=\frac{1}{1+e^{\beta^{\mathrm{T}} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \end{aligned} \end{aligned}
令 β=(w;b),x^=(x;1), 则上式可简写为 p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
可得随机变量
y
∈
{
0
,
1
}
y \in\{0,1\}
y∈{0,1}的概率质量函数为:
p
(
y
∣
x
^
;
β
)
=
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
p(y \mid \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})
p(y∣x^;β)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)
似然函数为:
L
(
β
)
=
∏
i
=
1
m
p
(
y
i
∣
x
^
i
;
β
)
L(\boldsymbol{\beta})=\prod_{i=1}^{m} p\left(y_{i} \mid \hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)
L(β)=i=1∏mp(yi∣x^i;β)
取对数:
综合y=0和y=1得:
由于损失函数通常是以最小化为优化目标,所以,将该式最小化加个-号即可,即求:
的最小值。
(信息论的推导不太会,线不做笔记了)
对数几率回归的三要素
- 模型:线性模型,输出值的范围为 [ 0 , 1 ] [0,1] [0,1],近似阶跃的单调可微函数
- 策略:极大似然估计和信息论
- 算法:梯度下降,牛顿法。