MSE=MLE, 似然函数和极大似然估计的关系

MSE=MLE

在线性回归中,当误差(或残差)被假设为正态分布时,最小均方误差(MSE)的最小化与最大似然估计(MLE)是等价的。
为了理解这一点,让我们从最大似然估计开始:[下面的 β \beta β其实就是我们平时常用的符号 θ \theta θ,即要学习的参数]

考虑一个简单的线性回归模型:
y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ
其中, ϵ \epsilon ϵ是误差项,并假设它遵循正态分布,即: ϵ ∼ N ( 0 , σ 2 ) \epsilon\sim\mathcal{N}(0,\sigma^2) ϵN(0,σ2)
这意味着给定输入 x x x 和参数 β 0 , β 1 \beta_0, \beta_1 β0,β1 ,输出 y y y 的条件概率分布是:
y ∣ x ∼ N ( β 0 + β 1 x , σ 2 ) y \mid x \sim N\left(\beta_0+\beta_1 x, \sigma^2\right) yxN(β0+β1x,σ2)

因此,对于给定的数据点 ( x i , y i ) \left(x_i, y_i\right) (xi,yi) ,似然函数为:
L ( β 0 , β 1 , σ 2 ∣ x i , y i ) = 1 2 π σ 2 e − ( y i − β 0 − β 1 x i ) 2 2 σ 2 L\left(\beta_0, \beta_1, \sigma^2 \mid x_i, y_i\right)=\frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(y_i-\beta_0-\beta_1 x_i\right)^2}{2 \sigma^2}} L(β0,β1,σ2xi,yi)=2πσ2 1e2σ2(yiβ0β1xi)2

总体似然函数为所有数据点的乘积:
L ( β 0 , β 1 , σ 2 ) = ∏ i = 1 n L ( β 0 , β 1 , σ 2 ∣ x i , y i ) L\left(\beta_0, \beta_1, \sigma^2\right)=\prod_{i=1}^n L\left(\beta_0, \beta_1, \sigma^2 \mid x_i, y_i\right) L(β0,β1,σ2)=i=1nL(β0,β1,σ2xi,yi)

通常,为了方便计算,我们考虑对数似然函数 (log-likelihood) :
log ⁡ L ( β 0 , β 1 , σ 2 ) = − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 \log L\left(\beta_0, \beta_1, \sigma^2\right)=-\frac{n}{2} \log \left(2 \pi \sigma^2\right)-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2 logL(β0,β1,σ2)=2nlog(2πσ2)2σ21i=1n(yiβ0β1xi)2

为了最大化对数似然函数,我们需要最小化 ∑ i = 1 n ( y i − β 0 − β 1 x i ) 2 \sum_{i=1}^n\left(y_i-\beta_0-\beta_1 x_i\right)^2 i=1n(yiβ0β1xi)2 ,这正是最小均方误差。

似然函数

似然函数是一个统计概念,用于描述在给定某些参数下观察到数据的可能性 (或"似然")。它是一种衡量模型与观测数据匹配程度的方法。

具体来说,假设我们有一个概率模型,它由一组参数 θ \boldsymbol{\theta} θ 定义,并且我们有一些观察到的数据 X \boldsymbol{X} X 。似然函数 L ( θ ∣ X ) L(\boldsymbol{\theta} \mid \boldsymbol{X}) L(θX) 表示在给定参数 θ \boldsymbol{\theta} θ 的情况下,观察到数据 X \boldsymbol{X} X 的可能性。

数学上,如果 p ( X ∣ θ ) p(\boldsymbol{X} \mid \boldsymbol{\theta}) p(Xθ) 是在给定参数 θ \boldsymbol{\theta} θ 下数据 X \boldsymbol{X} X 的概率分布,则似然函数可以表示为: L ( θ ∣ X ) = p ( X ∣ θ ) L(\boldsymbol{\theta} \mid \boldsymbol{X})=p(\boldsymbol{X} \mid \boldsymbol{\theta}) L(θX)=p(Xθ)

值得注意的是,虽然似然函数和概率函数在形式上看起来相似,但它们的解释和用途是不同的。概率函数描述了在给定参数下观察到某一特定数据的概率; 而似然函数描述的是在观察到某一特定数据时,不同参数的可能性或相对合理性。

在统计学中,最大似然估计 (MLE) 是一种常用的方法,它的目标是找到一组参数 θ \boldsymbol{\theta} θ ,使得似然函数达到最大值,即这组参数最能解释观察到的数据。

似然函数 L ( θ ∣ X ) L(\theta|X) L(θX)是参数 θ \theta θ的函数。给定观察到的数据 X X X,似然函数描述的是在不同的参数 θ \theta θ值下产生这些观测数据的“可能性”或“似然度”。简单来说,似然函数就是表示当参数为 θ \theta θ时,观测数据 X X X出现的概率。

似然函数和极大似然估计的关系

当然可以,让我们通过一个简单的例子来解释似然函数和极大似然估计 (MLE) 之间的关系。

例子:抛硬币
假设我们有一个可能是不均匀的硬币,并且我们想要估计这个硬币正面朝上的概率 p p p 。我们抛这个硬币10次,并观察到了7次正面和3次反面。

  1. 似然函数:

似然函数描述了给定一个特定的 p p p (硬币正面朝上的概率),观察到当前数据(7次正面和3 次反面) 的“可能性”或“似然”。

假设每次抛硬币都是独立的,那么观察到7次正面和3次反面的概率是:
L ( p ) = p 7 ( 1 − p ) 3 L(p)=p^7(1-p)^3 L(p)=p7(1p)3

这就是似然函数。注意,这个函数是关于 p p p 的,表示在不同的 p p p 值下,观察到这个特定结果的可能性。
2. 极大似然估计 (MLE):

MLE 的目的是找到一个 p p p 的值,使得上面的似然函数 L ( p ) L(p) L(p) 最大。换句话说,我们想找到一个 p p p 的值,使得在这个 p p p 下,观察到7次正面和3次反面的可能性最大。

为了找到这个值,我们可以对似然函数求导,并找到导数为 0 的点。具体来说,我们通常对对数似然函数求导,因为对数函数可以将乘法转化为加法,使得计算更简单。

当我们求解这个问题时,会发现最大似然估计的结果为:
p ^ M L E = 7 10 = 0.7 \hat{p}_{M L E}=\frac{7}{10}=0.7 p^MLE=107=0.7

这意味着,根据我们的观测数据,最有可能的硬币正面朝上的概率是0.7。
总结一下,似然函数描述了在给定模型参数时,观察到某一特定数据的可能性,而极大似然估计是一种方法,用于找到使似然函数最大的模型参数值。在这个例子中,模型参数就是硬币正面朝上的概率 p p p

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在PyTorch中,可以使用最大似然估计(Maximum Likelihood Estimation,MLE)来选择合适的损失函数。最大似然估计是一种常用的参数估计方法,通过最大化观测数据的似然函数估计模型参数。 PyTorch提供了各种损失函数,可以根据具体的任务和数据类型选择适当的损失函数进行最大似然估计。以下是一些常用的损失函数示例: 1. 对于分类任务: - 交叉熵损失函数(CrossEntropyLoss):适用于多分类任务,将模型预测的概率分布与真实标签之间的差异最小化。 - 二元交叉熵损失函数(BCELoss):适用于二分类任务,将模型预测的概率与真实标签之间的差异最小化。 2. 对于回归任务: - 均方误差损失函数MSELoss):将模型预测的值与真实值之间的差异平方和最小化。 - 平均绝对误差损失函数(L1Loss):将模型预测的值与真实值之间的差异绝对值平均化。 这些损失函数都是基于最大似然估计的原理,通过最小化或最大化特定的目标函数估计模型的参数。根据具体的问题和数据类型,选择合适的损失函数非常重要。 需要注意的是,PyTorch中的损失函数通常是对一个批次(batch)的样本进行计算的,因此在使用时需要将模型预测值与真实标签对齐,并考虑合适的维度和权重设置。 总之,PyTorch提供了多种损失函数,可以用于最大似然估计的模型训练。选择合适的损失函数取决于具体的任务和数据类型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值