线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

线性回归的损失函数

J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21i=1m(y(i)θTx(i))2

线性回归-最小二乘的概率解释(频率学派-最大似然估计)

当我们面对回归问题时,为什么会采用线性回归,最小二乘法来定义成本函数,即1/2的差的平方和。

这里给出概率解释:

我们拟合的直线的函数值即预测值必然和真实值会存在误差。那么假定一个等式:
y ( i ) = θ T x ( i ) + ϵ y^{(i)} = \theta^Tx^{(i)}+\epsilon y(i)=θTx(i)+ϵ

其中各个样本的误差项,是独立同分布且服从高斯分布(正态分布)。(可根据中心极限定理来看)

即就是:
ϵ ( i ) ∼ N ( 0 , σ 2 ) \epsilon^{(i)} \sim N(0,\sigma^2) ϵ(i)N(0,σ2)
P ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2}) P(ϵ(i))=2π σ1exp(2σ2(y(i)θTx(i))2)

均值为0,容易理解.

所以,

P ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2}) P(y(i)x(i);θ)=2π σ1exp(2σ2(y(i)θTx(i))2)

也就是要面对 在 θ \theta θ为参数给定一个x时预测值y是真实值的概率服从正太分布,要求得概率最大时的?

使用最大似然估计
L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned} L(θ)=i=1mp(y(i)x(i);θ)=i=1m2π σ1exp(2σ2(y(i)θTx(i))2)
l ( θ ) = ln ⁡ ( L ( θ ) ) = ln ⁡ ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = ∑ i = 1 m ln ⁡ 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = m l n 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \begin{aligned} l(\theta) &=\ln (L(\theta)) \\ &=\ln \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \ln \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m l n \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned} l(θ)=ln(L(θ))=lni=1m2π σ1exp(2σ2(y(i)θTx(i))2)=i=1mln2π σ1exp(2σ2(y(i)θTx(i))2)=mln2π σ1σ2121i=1m(y(i)θTx(i))2
根据此过程,要求此函数的最大值 ,需求上式中后项函数 J ( θ ) J(\theta) J(θ) 的最小值,
J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21i=1m(y(i)θTx(i))2

此函数又即为最小二乘估计的目标函数。

岭回归的损失函数

J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∣ ∣ θ ∣ ∣ 2 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda||\theta||_2^2 J(θ)=21i=1m(y(i)θTx(i))2+λθ22

岭回归的概率解释(贝叶斯学派-最大后验估计)

以贝叶斯学派得角度来看:

我们引入高斯噪声 ϵ \epsilon ϵ 来看可以知道:
y ( i ) ∣ θ ∼ N ( 0 , σ 0 2 ) y^{(i)}|\theta \sim N(0, \sigma_0^2) y(i)θN(0,σ02)

也就是:
P ( y ∣ θ ) = 1 2 π σ e x p ( − ( y − θ T x ) 2 2 σ 2 ) P(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{} -\theta^Tx^{})^2}{2\sigma^2}) P(yθ)=2π σ1exp(2σ2(yθTx)2)

我们假定参数 θ \theta θ 也服从一个高斯分布:
P ( θ ) = 1 2 π σ 0 e x p ( − ∣ ∣ θ ∣ ∣ 2 2 2 σ 0 2 ) P(\theta) = \frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{||\theta||^2_2}{2\sigma_0^2}) P(θ)=2π σ01exp(2σ02θ22)

以及贝叶斯定理:
P ( θ ∣ y ) = P ( y ∣ θ ) P ( θ ) P ( y ) P(\theta|y) = \frac{P(y|\theta)P(\theta)}{P(y)} P(θy)=P(y)P(yθ)P(θ)

根据最大后验估计:

θ ^ = arg ⁡ max ⁡ θ P ( θ ∣ y ) = arg ⁡ max ⁡ P ( y ∣ θ ) ⋅ P ( θ ) = arg ⁡ max ⁡ θ log ⁡ [ P ( y ∣ θ ) ⋅ P ( θ ) ] = arg ⁡ max ⁡ θ log ⁡ ( 1 2 π σ ⋅ 1 2 π σ 0 ) + log ⁡ exp ⁡ { − ( y − θ 2 x ) 2 2 σ 2 − ∥ θ ∥ 2 2 σ 0 2 } = arg ⁡ min ⁡ θ ( y − θ 2 x ) 2 2 σ 2 + ∥ θ ∥ 2 2 σ 0 2 = arg ⁡ min ⁡ θ ( y − θ 2 x ) 2 + σ 2 σ 0 2 ∥ θ ∥ 2 \begin{aligned} \hat{\theta} &=\arg \max _{\theta} P(\theta | y)=\arg \max P(y | \theta) \cdot P(\theta) \\ &=\arg \max _{\theta} \log [P(y | \theta) \cdot P(\theta)] \\ &=\arg \max _{\theta} \log \left(\frac{1}{\sqrt{2 \pi} \sigma} \cdot \frac{1}{\sqrt{2 \pi} \sigma_{0}}\right)+\log \exp \left\{-\frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}-\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}}\right\} \\ &=\arg \min _{\theta} \frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}+\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}} \\ &=\arg \min _{\theta}\left(y-\theta^{2} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}}\|\theta\|^{2} \end{aligned} θ^=argθmaxP(θy)=argmaxP(yθ)P(θ)=argθmaxlog[P(yθ)P(θ)]=argθmaxlog(2π σ12π σ01)+logexp{2σ2(yθ2x)22σ02θ2}=argθmin2σ2(yθ2x)2+2σ02θ2=argθmin(yθ2x)2+σ02σ2θ2

MAP: θ M A P ^ = arg ⁡   min ⁡ θ ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + σ 2 σ 0 2 ∣ ∣ θ ∣ ∣ 2 \hat{\theta_{MAP}} = \arg~\min_{\theta} \sum_{i=1}{m}(y^{(i)}-\theta^Tx^{(i)})^2+\frac{\sigma^2}{\sigma_0^2}||\theta||^2 θMAP^=arg θmini=1m(y(i)θTx(i))2+σ02σ2θ2

岭回归: J ( θ ) = ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∣ ∣ θ ∣ ∣ 2 J(\theta) = \sum_{i=1}{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda||\theta||^2 J(θ)=i=1m(y(i)θTx(i))2+λθ2

结论

最小二乘估计 LSE <==> 极大似然估计 MLE(noise 为 高斯分布)
正则化最小二乘 RLSE <==> 最大后验概率估计MAP(先验和噪声均为高斯分布)

最大后验估计与最大似然估计

最大后验概率估计MAP相比于最大似然估计MLP多了一个假定服从某种分布的先验知识

参见 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 这篇博客。

  • 11
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TransientYear

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值