贝叶斯线性回归
线性回归当噪声为高斯分布的时候,最小二乘损失导出的结果相当于对概率模型应用 MLE,引入参数先验分布是高斯分布,那么 MAP的结果相当于岭回归的正则化,如果先验是拉普拉斯分布,那么相当于 Lasso 的正则化。
利用贝叶斯方法来求解参数的后验分布,线性回归的模型假设为:
f
(
x
)
=
w
T
x
y
=
f
(
x
)
+
ε
ε
∼
N
(
0
,
σ
2
)
\begin{aligned} f(x)=w^Tx \\ y=f(x)+\varepsilon\\ \varepsilon\sim\mathcal{N}(0,\sigma^2) \end{aligned}
f(x)=wTxy=f(x)+εε∼N(0,σ2)
在贝叶斯方法中,需要解决推断和预测两个问题。
推断
引入高斯先验:
p
(
w
)
=
N
(
0
,
Σ
p
)
p(w)=\mathcal{N}(0,\Sigma_p)
p(w)=N(0,Σp)
对参数的后验分布进行推断:
p
(
w
∣
X
,
Y
)
=
p
(
w
,
Y
∣
X
)
p
(
Y
∣
X
)
=
p
(
Y
∣
w
,
X
)
p
(
w
∣
X
)
∫
p
(
Y
∣
w
,
X
)
p
(
w
∣
X
)
d
w
p(w|X,Y)=\frac{p(w,Y|X)}{p(Y|X)}=\frac{p(Y|w,X)p(w|X)}{\int p(Y|w,X)p(w|X)dw}
p(w∣X,Y)=p(Y∣X)p(w,Y∣X)=∫p(Y∣w,X)p(w∣X)dwp(Y∣w,X)p(w∣X)
由于 X X X 对 w w w(先验)无影响 → \to → p ( w ∣ X ) = p ( w ) p(w|X)=p(w) p(w∣X)=p(w),代入先验得到: p ( w ∣ X , Y ) ∝ ∏ i = 1 N N ( y i ∣ w T x i , σ 2 ) ⋅ N ( 0 , Σ p ) p(w|X,Y)\propto \prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)\cdot\mathcal{N}(0,\Sigma_p) p(w∣X,Y)∝i=1∏NN(yi∣wTxi,σ2)⋅N(0,Σp)
由于高斯分布的自共轭性质,可以得到后验分布也是一个高斯分布,上式右边第一项:
∏
i
=
1
N
N
(
y
i
∣
w
T
x
i
,
σ
2
)
=
1
(
2
π
)
N
/
2
σ
N
exp
(
−
1
2
σ
2
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
)
=
1
(
2
π
)
N
/
2
σ
N
exp
(
−
1
2
(
Y
−
X
w
⏟
μ
)
T
(
σ
−
2
I
⏟
Σ
−
1
)
(
Y
−
X
w
)
)
=
N
(
X
w
,
σ
2
I
)
\begin{aligned}\prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)&=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2\sigma^2}\sum\limits_{i=1}^N(y_i-w^Tx_i)^2)\\ &=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2}(Y-\underbrace{Xw}_{\color{blue}\mu})^T(\underbrace{\sigma^{-2}\mathbb{I}}_{\color{blue}\Sigma^{-1}})(Y-Xw)) \\ &=\mathcal{N}(Xw,\sigma^2\mathbb{I}) \end{aligned}
i=1∏NN(yi∣wTxi,σ2)=(2π)N/2σN1exp(−2σ21i=1∑N(yi−wTxi)2)=(2π)N/2σN1exp(−21(Y−μ
Xw)T(Σ−1
σ−2I)(Y−Xw))=N(Xw,σ2I)
所以:
p
(
w
∣
X
,
Y
)
∝
N
(
X
w
,
σ
2
I
)
⋅
N
(
0
,
Σ
p
)
∝
exp
(
−
1
2
σ
2
(
Y
−
X
w
)
T
σ
−
2
I
(
Y
−
X
w
)
−
1
2
w
T
Σ
p
−
1
w
)
⏟
只关心指数部分
⇓
转换成标准形式
exp
(
−
1
2
(
X
T
Σ
w
−
1
X
⏟
二次项
−
2
μ
w
T
Σ
−
1
X
⏟
一次项
+
c
o
n
s
t
)
)
\begin{aligned} p(w|X,Y)&\propto\mathcal{N}(Xw,\sigma^2\mathbb{I})\cdot\mathcal{N}(0,\Sigma_p)\\ &\propto\underbrace{\exp(-\frac{1}{2\sigma^2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) }_{\color{blue}\text{只关心指数部分}}\\ &\color{blue}\qquad\qquad\qquad\qquad\qquad\qquad\Downarrow_{\text{转换成标准形式}}\\ &\exp(-\frac12(\underbrace{X^T\Sigma_w^{-1}X}_{\color{blue}\text{二次项}}-\underbrace{2\mu_w^T\Sigma^{-1}X}_{\color{blue}\text{一次项}}+const)) \end{aligned}
p(w∣X,Y)∝N(Xw,σ2I)⋅N(0,Σp)∝只关心指数部分
exp(−2σ21(Y−Xw)Tσ−2I(Y−Xw)−21wTΣp−1w)⇓转换成标准形式exp(−21(二次项
XTΣw−1X−一次项
2μwTΣ−1X+const))
将上式转换成标准形式就可以得到对应的
μ
w
\color{blue}\mu_w
μw 和
Σ
w
\color{blue}\Sigma_w
Σw ,其对应关系如下:
exp
(
−
1
2
(
X
−
μ
)
T
Σ
−
1
(
X
−
μ
)
)
标准形
=
exp
(
−
1
2
(
X
T
Σ
−
1
X
−
2
μ
T
Σ
−
1
X
+
c
o
n
s
t
)
)
\begin{aligned} &\exp(-\frac12(X-\mu)^T\Sigma^{-1}(X-\mu))\color{blue}\qquad_\text{标准形}\\ &=\exp(-\frac12(X^T\Sigma^{-1}X-2\mu^T\Sigma^{-1}X+const)) \end{aligned}
exp(−21(X−μ)TΣ−1(X−μ))标准形=exp(−21(XTΣ−1X−2μTΣ−1X+const))
采用配方的方式来得到最终的分布:
N
(
μ
w
,
Σ
w
)
\color{blue}\mathcal{N}(\mu_w,\Sigma_w)
N(μw,Σw),提取二次项:
−
1
2
σ
2
w
T
X
T
X
w
−
1
2
w
T
Σ
p
−
1
w
⇒
Σ
w
−
1
=
σ
−
2
X
T
X
+
Σ
p
−
1
=
A
-\frac{1}{2\sigma^2}w^TX^TXw-\frac{1}{2}w^T\Sigma_p^{-1}w\\ \Rightarrow{\color{blue}\Sigma_w^{-1}}=\sigma^{-2}X^TX+\Sigma_p^{-1}=A
−2σ21wTXTXw−21wTΣp−1w⇒Σw−1=σ−2XTX+Σp−1=A
一次项: 1 2 σ 2 2 Y T X w = σ − 2 Y T X w \frac{1}{2\sigma^2}2Y^TXw=\sigma^{-2}Y^TXw 2σ212YTXw=σ−2YTXw 于是: μ w T Σ w − 1 = σ − 2 Y T X ⇒ μ w = σ − 2 A − 1 X T Y \mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX\\ \Rightarrow{\color{blue}\mu_w}=\sigma^{-2}A^{-1}X^TY μwTΣw−1=σ−2YTX⇒μw=σ−2A−1XTY
预测
给定一个
x
∗
x^*
x∗,求解
y
∗
y^*
y∗,所以
f
(
x
∗
)
=
x
∗
T
w
f(x^*)=x^{*T}w
f(x∗)=x∗Tw,代入参数后验,有
x
∗
T
w
∼
N
(
x
T
μ
w
,
x
∗
T
Σ
w
x
∗
)
x^{*T}w\sim \mathcal{N}(x^{T}\mu_w,x^{*T}\Sigma_wx^*)
x∗Tw∼N(xTμw,x∗TΣwx∗),添上噪声项:
p
(
y
∗
∣
X
,
Y
,
x
∗
)
=
∫
w
p
(
y
∗
∣
w
,
X
,
Y
,
x
∗
)
p
(
w
∣
X
,
Y
,
x
∗
)
d
w
=
∫
w
p
(
y
∗
∣
w
,
x
∗
)
p
(
w
∣
X
,
Y
)
d
w
=
N
(
x
∗
T
μ
w
,
x
∗
T
Σ
w
x
∗
+
σ
2
)
\begin{aligned} p(y^*|X,Y,x^*)&=\int_wp(y^*|w,X,Y,x^*)p(w|X,Y,x^*)dw\\ &=\int_wp(y^*|w,x^*)p(w|X,Y)dw\ \\ &=\mathcal{N}(x^{*T}\mu_w,x^{*T}\Sigma_wx^*+\sigma^2) \end{aligned}
p(y∗∣X,Y,x∗)=∫wp(y∗∣w,X,Y,x∗)p(w∣X,Y,x∗)dw=∫wp(y∗∣w,x∗)p(w∣X,Y)dw =N(x∗Tμw,x∗TΣwx∗+σ2)
参考文献
【1】贝叶斯线性回归
【2】贝叶斯统计观点下的拉普拉斯平滑
【3】伯努利分布、二项分布和Beta分布,从贝叶斯观点出发
【4】朴素贝叶斯实战篇之新浪新闻分类