1.一元线性回归
1.1 最小二乘估计
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
=
∑
i
=
1
m
(
y
i
−
(
w
x
i
+
b
)
)
2
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\begin{aligned} E_{\left ( w,b \right ) } &=\sum_{i=1}^{m} \left ( y_i-f\left (x_i \right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-\left ( wx_i + b\right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-wx_i-b \right ) ^{2} \end{aligned}
E(w,b)=i=1∑m(yi−f(xi))2=i=1∑m(yi−(wxi+b))2=i=1∑m(yi−wxi−b)2
1.2 极大似然估计
用途:估计概率分布的参数值
方法:对于离散型(连续型)随机变量
X
X
X,假设其概率质量函数为
P
(
x
;
θ
)
P(x;\theta)
P(x;θ)(概率密度函数为
p
(
x
;
θ
)
p(x;\theta)
p(x;θ),其中
θ
\theta
θ为待估计的参数值(可以有多个)。现有
x
1
,
x
2
,
x
3
,
…
,
x
n
x_1,x_2,x_3,\dots,x_n
x1,x2,x3,…,xn是来自
X
X
X的
n
n
n个独立同分布的样本,它们的联合概率为
L
(
θ
)
=
∏
i
=
1
n
P
(
x
i
;
θ
)
L\left ( \theta \right ) =\prod_{i=1}^{n} P\left (x_i;\theta \right )
L(θ)=i=1∏nP(xi;θ)
其中
x
1
,
x
2
,
x
3
,
…
,
x
n
x_1,x_2,x_3,\dots,x_n
x1,x2,x3,…,xn是已知量,
θ
\theta
θ是未知量,因此以上概率是一个关于
θ
\theta
θ的函数,称
L
(
θ
)
L\left ( \theta \right )
L(θ)为样本的似然函数。极大似然估计的直观想法:使得观测样本出现概率最大的分布就是待求分布,即使得联合概率(似然函数)
L
(
θ
)
L(\theta)
L(θ)取到最大值的
θ
∗
\theta^*
θ∗即为
θ
\theta
θ的估计值。
对于线性回归模型来说,可以假设其为以下模型:
y
=
w
x
+
b
+
ε
y=wx+b+\varepsilon
y=wx+b+ε
其中
ε
\varepsilon
ε为不受控制的随机误差,通常假设其服从均值为0的正态分布
ε
∼
N
(
0
,
σ
2
)
\varepsilon\sim N(0,\sigma^2)
ε∼N(0,σ2),所以
ε
\varepsilon
ε的概率密度函数为
p
(
ε
)
=
1
2
π
σ
exp
(
−
ε
2
2
σ
2
)
p\left ( \varepsilon \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{\varepsilon^2 }{2\sigma^2 } \right )
p(ε)=2πσ1exp(−2σ2ε2)
将
ε
\varepsilon
ε用
y
−
(
w
x
+
b
)
y-(wx+b)
y−(wx+b)替换可得
p
(
y
)
=
1
2
π
σ
exp
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
p\left ( y \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right )
p(y)=2πσ1exp(−2σ2(y−(wx+b))2)
上式可以看作
y
∼
N
(
w
x
+
b
,
σ
2
)
y\sim N(wx+b,\sigma^2)
y∼N(wx+b,σ2),可以用极大似然估计来估计
w
w
w和
b
b
b的值,似然函数为
L
(
w
,
b
)
=
∏
i
=
1
m
p
(
y
i
)
=
∏
i
=
1
m
1
2
π
σ
exp
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
\begin{aligned} L\left ( w,b \right ) &=\prod_{i=1}^{m} p\left (y_i \right ) \\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right ) \end{aligned}
L(w,b)=i=1∏mp(yi)=i=1∏m2πσ1exp(−2σ2(y−(wx+b))2)
ln
L
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
)
=
∑
i
=
1
m
ln
1
2
π
σ
exp
(
−
(
y
i
−
(
w
x
i
+
b
)
)
2
2
σ
2
)
=
∑
i
=
1
m
ln
1
2
π
σ
+
∑
i
=
1
m
(
−
(
y
i
−
(
w
x
i
+
b
)
)
2
2
σ
2
)
=
m
ln
1
2
π
σ
−
1
2
σ
2
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\begin{aligned} \ln_{}{L\left ( w,b \right )} &=\sum_{i=1}^{m} \ln_{}{p\left (y_i \right )} \\ &=\sum_{i=1}^{m}\ln_{}{ \frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )}\\ &= \sum_{i=1}^{m}\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}+\sum_{i=1}^{m}\left(-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )\\ &=m\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}-\frac{1}{2\sigma ^2} \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned}
lnL(w,b)=i=1∑mlnp(yi)=i=1∑mln2πσ1exp(−2σ2(yi−(wxi+b))2)=i=1∑mln2πσ1+i=1∑m(−2σ2(yi−(wxi+b))2)=mln2πσ1−2σ21i=1∑m(yi−wxi−b)2
其中
m
,
σ
m,\sigma
m,σ均为常数,所以最大化
ln
L
(
w
,
b
)
\ln_{}{L\left ( w,b \right )}
lnL(w,b)等价于最小化
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2
∑i=1m(yi−wxi−b)2,
即
(
w
∗
,
b
∗
)
=
arg
max
(
w
,
b
)
ln
L
(
w
,
b
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\begin{aligned} \left ( w^*,b^* \right ) &=\arg \max_{\left ( w,b \right ) } \ln_{}{L\left ( w,b \right )}\\ &=\arg \min_{\left ( w,b \right ) } \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned}
(w∗,b∗)=arg(w,b)maxlnL(w,b)=arg(w,b)mini=1∑m(yi−wxi−b)2
1.3 求解 w w w和 b b b
求解
w
w
w和
b
b
b其本质上是一个多元函数求最值点的问题,更具体而言,是凸函数求最值点的问题。
推导思路:
1.证明
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
E_{(w,b)}= \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2
E(w,b)=∑i=1m(yi−wxi−b)2是关于
w
w
w和
b
b
b的凸函数
2.用凸函数求最值的思路求解出
w
w
w和
b
b
b
1.4 机器学习三要素
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(通常会产生出一个“损失函数”)
- 算法:求解损失函数,确定最优模型
2.多元线性回归
w
^
∗
=
arg
min
w
^
∗
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
\hat{w } ^*=\arg\min _{\hat{w } ^*}\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right )
w^∗=argw^∗min(y−Xw^)T(y−Xw^)
求解
w
^
\hat{w }
w^依然是多元函数求最值点的问题,同样也是凸函数求最值点的问题。
推导思路:
1.证明
E
w
^
=
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
E_{\hat{w }}=\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right )
Ew^=(y−Xw^)T(y−Xw^)是关于
w
^
\hat{w }
w^的凸函数。
2.用凸函数求最值的思路求解出
w
^
\hat{w }
w^
3.对数几率回归
3.1 极大似然估计
第一步:确定概率密度函数
已知离散型随机变量
y
∈
{
0
,
1
}
y\in \{0,1\}
y∈{0,1}取值为1和0的概率分别建模为
p
(
y
=
1
∣
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p\left ( y=1|x \right ) =\frac{1}{1+e^{-\left (w^Tx+b \right )}} =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}
p(y=1∣x)=1+e−(wTx+b)1=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
p\left ( y=0|x \right ) =\frac{1}{1+e^{w^Tx+b}}
p(y=0∣x)=1+ewTx+b1
令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\beta=(w;b),\hat{x}=(x;1)
β=(w;b),x^=(x;1),则上式可简写为
p
(
y
=
1
∣
x
^
;
β
)
=
e
β
T
x
^
1
+
e
β
T
x
^
=
p
1
(
x
^
;
β
)
p\left ( y=1|\hat{x};\beta \right ) =\frac{e^{\beta^T\hat{x}}}{1+e^{\beta^T\hat{x}}}=p_1\left ( \hat{x};\beta \right )
p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
p
(
y
=
0
∣
x
^
;
β
)
=
1
1
+
e
β
T
x
^
=
p
0
(
x
^
;
β
)
p\left ( y=0|\hat{x};\beta \right ) =\frac{1}{1+e^{\beta^T\hat{x}}}=p_0\left ( \hat{x};\beta \right )
p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
由以上概率取值可推得随机变量
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1}的概率质量函数为
p
(
y
∣
x
^
;
β
)
=
y
⋅
p
1
(
x
^
;
β
)
+
(
1
−
y
)
⋅
p
0
(
x
^
;
β
)
p\left ( y|\hat{x};\beta \right )=y\cdot p_1\left ( \hat{x};\beta \right ) +(1-y)\cdot p_0\left ( \hat{x};\beta \right )
p(y∣x^;β)=y⋅p1(x^;β)+(1−y)⋅p0(x^;β)
第二步:写出似然函数
L
(
β
)
=
∏
i
=
1
m
p
(
y
i
∣
x
^
i
;
β
)
L\left ( \beta \right ) =\prod_{i=1}^{m} p\left ( y_i|\hat{x}_i;\beta \right )
L(β)=i=1∏mp(yi∣x^i;β)
对数似然函数为
ℓ
(
β
)
=
∑
i
=
1
m
ln
(
y
i
⋅
p
1
(
x
i
^
;
β
)
+
(
1
−
y
i
)
⋅
p
0
(
x
i
^
;
β
)
)
=
∑
i
=
1
m
ln
(
y
i
e
β
T
x
^
i
1
+
e
β
T
x
^
i
+
1
−
y
i
1
+
e
β
T
x
^
i
)
=
∑
i
=
1
m
(
ln
(
y
i
e
β
T
x
^
i
+
1
−
y
i
)
−
ln
(
1
+
e
β
T
x
^
i
)
)
=
∑
i
=
1
m
(
y
i
β
T
x
i
^
−
ln
(
1
+
e
β
T
x
^
i
)
)
\begin{aligned} \ell \left ( \beta \right ) &=\sum_{i=1}^{m} \ln_{}{\left ( y_i\cdot p_1\left ( \hat{x_i};\beta \right ) +(1-y_i)\cdot p_0\left ( \hat{x_i};\beta \right ) \right ) }\\ &=\sum_{i=1}^{m} \ln_{}{\left ( \frac{y_ie^{\beta^T\hat{x}_i}}{1+e^{\beta^T\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^T\hat{x}_i}} \right ) }\\ &=\sum_{i=1}^{m} \left ( \ln_{}{\left ( y_ie^{\beta^T\hat{x}_i}+1-y_i \right ) -\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i} \right ) }} \right ) \\ &=\sum_{i=1}^{m}\left (y_i\beta^T\hat{x_i}-\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i}\right ) } \right ) \end{aligned}
ℓ(β)=i=1∑mln(yi⋅p1(xi^;β)+(1−yi)⋅p0(xi^;β))=i=1∑mln(1+eβTx^iyieβTx^i+1+eβTx^i1−yi)=i=1∑m(ln(yieβTx^i+1−yi)−ln(1+eβTx^i))=i=1∑m(yiβTxi^−ln(1+eβTx^i))
3.2 对数几率回归算法的机器学习三要素:
1.模型:线性模型,输出值的范围为
[
0
,
1
]
[0,1]
[0,1],近似阶跃的单调可微函数
2.策略:极大似然估计,信息论
3.算法:梯度下降、牛顿法
4.二分类线性判别分析
4.1 算法原理
从几何的角度,让全体训练样本经过投影后:
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
4.2 损失函数推导
经过投影后,异类样本的中心尽可能远:
max
∥
w
T
μ
0
−
w
T
μ
1
∥
2
2
\max \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2
max∥∥wTμ0−wTμ1∥∥22
经过投影后,同类样本的方差尽可能小:
min
w
T
Σ
0
w
\min w^T\Sigma _0w
minwTΣ0w
max
J
=
∥
w
T
μ
0
−
w
T
μ
1
∥
2
2
w
T
Σ
0
w
+
w
T
Σ
1
w
=
∥
w
T
μ
0
−
w
T
μ
1
∥
2
2
w
T
(
Σ
0
+
Σ
1
)
w
=
w
T
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
w
w
T
(
Σ
0
+
Σ
1
)
w
\begin{aligned} \max J&=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\Sigma _0w+w^T\Sigma _1w}\\ &=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\left ( \Sigma _0+\Sigma _1 \right ) w}\\ &=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T\left ( \Sigma _0+\Sigma _1 \right ) w} \end{aligned}
maxJ=wTΣ0w+wTΣ1w∥∥wTμ0−wTμ1∥∥22=wT(Σ0+Σ1)w∥∥wTμ0−wTμ1∥∥22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw
令
S
b
=
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T
Sb=(μ0−μ1)(μ0−μ1)T,
S
w
=
Σ
0
+
Σ
1
S_w=\Sigma _0+\Sigma _1
Sw=Σ0+Σ1,
则优化问题转化为
min
w
−
w
T
S
b
w
s
.
t
.
w
T
S
w
w
=
1
\min_w-w^TS_bw\\ s.t. \quad w^TS_ww=1
wmin−wTSbws.t.wTSww=1
由拉格朗日乘子法可得拉格朗日函数为
L
(
w
,
λ
)
=
−
w
T
S
b
w
+
λ
(
w
T
S
w
w
−
1
)
\begin{aligned} L\left ( w,\lambda \right ) =-w^TS_bw+\lambda \left ( w^TS_ww-1 \right ) \end{aligned}
L(w,λ)=−wTSbw+λ(wTSww−1)
对
w
w
w求偏导可得
∂
L
(
w
,
λ
)
∂
w
=
−
(
S
b
+
S
b
T
)
w
+
λ
(
S
w
+
S
w
T
)
w
\begin{aligned} \frac{\partial L\left ( w,\lambda \right )}{\partial w} =-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w \end{aligned}
∂w∂L(w,λ)=−(Sb+SbT)w+λ(Sw+SwT)w
令上式等于0可得
S
b
w
=
λ
S
w
w
S_bw=\lambda S_ww
Sbw=λSww
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
w
=
λ
S
w
w
(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww
(μ0−μ1)(μ0−μ1)Tw=λSww
令
(
μ
0
−
μ
1
)
T
w
=
γ
(\mu_0-\mu_1)^Tw=\gamma
(μ0−μ1)Tw=γ可得
w
=
γ
λ
S
w
−
1
(
μ
0
−
μ
1
)
w=\frac{\gamma }{\lambda } S_w^{-1}(\mu_0-\mu_1)
w=λγSw−1(μ0−μ1)
参考文献:
- 《机器学习》周志华著 清华大学出版社
- Datawhale开源学习课程https://datawhale.feishu.cn/docs/doccndJC2sbSfdziNcahCYCx70W