硬啃:《Deep Learning》机器学习基础篇(三)

继续紧接上文内容,接下来我们要学习统计领域的相关知识,统计领域给了我们很多工具来实现机器学习的目标,不仅可以解决训练集上的任务,还可以泛化。例如一些基本概念,估计、偏差和方差,对于正式刻画泛化、欠拟合和过拟合都非常有帮助。


估计、偏差和方差

点估计

点估计试图为一些感兴趣的量提供一个单例“最优”预测。一般地,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数,也有可能是整个函数。

为了区分参数估计和真实值,我们习惯将参数 θ \theta θ的点估计表示为 θ ^ \hat{\theta} θ^

{ x ( 1 ) , … , x ( m ) } \{x^{(1)},\ldots,x^{(m)}\} {x(1),,x(m)} m m m个独立同分布的数据点。点估计统计量是这些数据的任意函数:

θ ^ m = g ( x ( 1 ) , … , x ( m ) ) \hat{\theta}_{m}=g(x^{(1)},\ldots,x^{(m)}) θ^m=g(x(1),,x(m))

这个定义不要求 g g g返回一个接近 θ \theta θ的值,或者 g g g的值域恰好是 θ \theta θ的允许取值范围。点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。

函数估计:有时我们会关注函数估计。这时我们试图从输入向量 x x x预测变量 y y y。假设有一个函数 f ( x ) f(x) f(x)表示 y y y x x x之间的近似关系。例如,我们可能假设 y = f ( x ) + ϵ y=f(x)+\epsilon y=f(x)+ϵ,其中 ϵ \epsilon ϵ y y y中未能从 x x x预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似 f f f,或者估计 f ^ \hat{f} f^。函数估计和参数估计是一样的,函数估计是函数空间中的一个点估计。

偏差

估计的偏差量被定义为

b i a s ( θ ^ m ) = E ( θ ^ m ) − θ bias(\hat{\theta}_{m})=\mathbb E(\hat{\theta}_m)-\theta bias(θ^m)=E(θ^m)θ

其中期望作用在所有的数据上, θ \theta θ是用于定义数据生成分布的真实值。如果 b i a s ( θ ^ m ) = 0 bias(\hat{\theta}_{m})=0 bias(θ^m)=0,那么估计量 θ ^ m \hat{\theta}_m θ^m被称为无偏,这意味着 E ( θ ^ m ) = θ \mathbb E(\hat{\theta}_m)=\theta E(θ^m)=θ。如果 lim ⁡ m → ∞ b i a s ( θ ^ m ) = 0 \displaystyle\lim_{m\rightarrow\infty}bias(\hat{\theta}_{m})=0 mlimbias(θ^m)=0,那么估计量 θ ^ m \hat{\theta}_{m} θ^m被称为是渐近无偏,这意味着 lim ⁡ m → ∞ E ( θ ^ m ) = θ \displaystyle\lim_{m\rightarrow\infty}\mathbb E(\hat{\theta}_{m})=\theta mlimE(θ^m)=θ


示例1:伯努利分布

考虑一组服从均值为 θ \theta θ的伯努利分布的独立同分布样本 { x ( 1 ) , … , x ( m ) } \{x^{(1)},\ldots,x^{(m)}\} {x(1),,x(m)}

P ( x ( i ) ; θ ) = θ x ( i ) ( 1 − θ ) ( 1 − x ( i ) ) P(x^{(i)};\theta)=\theta^{x^{(i)}}(1-\theta)^{(1-x^{(i)})} P(x(i);θ)=θx(i)(1θ)(1x(i))

这个分布中的参数 θ \theta θ的常用估计量是训练样本的均值:

θ ^ m = 1 m ∑ i = 1 m x ( i ) \hat{\theta}_m=\dfrac{1}{m}\displaystyle\sum^m_{i=1}x^{(i)} θ^m=m1i=1mx(i)

判断这个估计量是否有偏,我们将上式代入到偏差定义式中:

b i a s ( θ ^ m ) = E ( θ ^ m ) − θ = E [ 1 m ∑ i = 1 m x ( i ) ] − θ = 1 m ∑ i = 1 m E [ x ( i ) ] − θ = 1 m ∑ i = 1 m ∑ x ( i ) = 0 1 ( x ( i ) θ x ( i ) ( 1 − θ ) ( 1 − x ( i ) ) ) − θ = 1 m ∑ i = 1 m ( θ ) − θ = θ − θ = 0 bias(\hat{\theta}_{m})=\mathbb E(\hat{\theta}_m)-\theta \\ =\mathbb E\bigg[\dfrac{1}{m}\displaystyle\sum^m_{i=1}x^{(i)}\bigg]-\theta \\ =\dfrac{1}{m}\displaystyle\sum^m_{i=1}\mathbb E[x^{(i)}]-\theta \\ =\dfrac{1}{m}\sum^m_{i=1}\sum^1_{x^{(i)}=0}\bigg(x^{(i)}\theta^{x^{(i)}}(1-\theta)^{(1-x^{(i)})}\bigg)-\theta \\ =\dfrac{1}{m}\sum^m_{i=1}(\theta)-\theta \\ =\theta-\theta=0 bias(θ^m)=E(θ^m)θ=E[m1i=1mx(i)]θ=m1i=1mE[x(i)]θ=m1i=1mx(i)=01(x(i)θx(i)(1θ)(1x(i)))θ=m1i=1m(θ)θ=θθ=0

因为 b i a s ( θ ^ ) = 0 bias(\hat{\theta})=0 bias(θ^)=0,我们称估计 θ ^ \hat\theta θ^是无偏的。


示例2:均值的高斯分布估计

现在考虑一组独立同分布的样本 { x ( 1 ) , … , x ( m ) } \{x^{(1)},\ldots,x^{(m)}\} {x(1),,x(m)}服从高斯分布 p ( x ( i ) ) = N ( x ( i ) ; μ , σ 2 ) p(x^{(i)})=N(x^{(i)};\mu,\sigma^2) p(x(i))=N(x(i);μ,σ2),其中 i ∈ { 1 , … , m } i\in\{1,\ldots,m\} i{1,,m}。高斯分布密度函数如下:

p ( x ( i ) ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 ( x ( i ) − μ ) 2 σ 2 ) p(x^{(i)};\mu,\sigma^2)=\dfrac{1}{\sqrt{2\pi\sigma^2}}exp\bigg(-\dfrac{1}{2}\dfrac{(x^{(i)}-\mu)^2}{\sigma^2}\bigg) p(x(i);μ,σ2)=2πσ2 1exp(21σ2(x(i)μ)2)

高斯均值参数的常用估计量被称为样本均值

μ ^ m = 1 m ∑ i = 1 m x ( i ) \hat\mu_m=\dfrac{1}{m}\sum^m_{i=1}x^{(i)} μ^m=m1i=1mx(i)

判断样本均值是否有偏,我们再次计算它的期望:

b i a s ( μ ^ m ) = E [ μ ^ m ] − μ = E [ 1 m ∑ i = 1 m x ( i ) ] − μ = ( 1 m ∑ i = 1 m E [ x ( i ) ] ) − μ = ( 1 m ∑ i = 1 m μ ) − μ = μ − μ = 0 bias(\hat\mu_m)=\mathbb E[\hat\mu_m]-\mu \\ =\mathbb E\bigg[\dfrac{1}{m}\sum^m_{i=1}x^{(i)}\bigg]-\mu \\ =\bigg(\dfrac{1}{m}\sum^m_{i=1}\mathbb E[x^{(i)}]\bigg)-\mu \\ =\bigg(\dfrac{1}{m}\sum^m_{i=1}\mu\bigg)-\mu \\ =\mu -\mu =0 bias(μ^m)=E[μ^m]μ=E[m1i=1mx(i)]μ=(m1i=1mE[x(i)])μ=(m1i=1mμ)μ=μμ=0

因此我们发现样本均值是高斯均值参数的无偏估计量。


示例3:高斯分布方差估计

本例中,我们比较高斯分布方差参数 σ 2 \sigma^2 σ2的两个不同估计。我们探讨是否存在一个是有偏的。

我们考虑的第一个方差估计被称为样本方差

σ ^ m = 1 m ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 \hat\sigma_m=\dfrac{1}{m}\sum^m_{i=1}\bigg(x^{(i)}-\hat\mu_m\bigg)^2 σ^m=m1i=1m(x(i)μ^m)2

其中 μ ^ m \hat\mu_m μ^m是样本均值,更形式化的表示我们对计算感兴趣

b i a s ( σ ^ m 2 ) = E [ σ ^ m 2 ] − σ 2 bias(\hat\sigma_m^2)=\mathbb E[\hat\sigma_m^2]-\sigma^2 bias(σ^m2)=E[σ^m2]σ2

首先我们估计项 E [ σ ^ m 2 ] \mathbb E[\hat\sigma_m^2] E[σ^m2]

E [ σ ^ m 2 ] = E [ 1 m ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 ] = m − 1 m σ 2 \mathbb E[\hat\sigma_m^2]=\mathbb E\bigg[\dfrac{1}{m}\sum^m_{i=1}\big(x^{(i)-\hat\mu_m}\big)^2\bigg] \\ =\dfrac{m-1}{m}\sigma^2 E[σ^m2]=E[m1i=1m(x(i)μ^m)2]=mm1σ2

回到上面的式子,我们可以得到 σ ^ m 2 \hat\sigma_m^2 σ^m2的偏差时 − σ 2 m -\dfrac{\sigma^2}{m} mσ2。因此样本方式是有偏估计。

无偏样本方差估计:

σ ~ m 2 = 1 m − 1 ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 \tilde\sigma^2_m=\dfrac{1}{m-1}\sum^m_{i=1}\big(x^{(i)}-\hat\mu_m\big)^2 σ~m2=m11i=1m(x(i)μ^m)2

提供了另一种可选方案。正如名字所示,这个估计是无偏的。也就是说这里 E [ σ ~ m 2 ] = σ 2 \mathbb E[\tilde\sigma^2_m]=\sigma^2 E[σ~m2]=σ2

E [ σ ~ m 2 ] = E [ 1 m − 1 ∑ i = 1 m ( x ( i ) − μ ^ m ) 2 ] = m m − 1 E [ σ ^ m 2 ] = m m − 1 ( m − 1 m σ 2 ) = σ 2 \mathbb E[\tilde\sigma^2_m]=\mathbb E\bigg[\dfrac{1}{m-1}\sum_{i=1}^m\big(x^{(i)}-\hat\mu_m\big)^2\bigg] \\ =\dfrac{m}{m-1}\mathbb E[\hat\sigma^2_m] \\ =\dfrac{m}{m-1}\bigg(\dfrac{m-1}{m}\sigma^2\bigg) \\ =\sigma^2 E[σ~m2]=E[m11i=1m(x(i)μ^m)2]=m1mE[σ^m2]=m1m(mm1σ2)=σ2

我们有两个估计量:一格式有偏的,另一个是无偏的。尽管无偏是我们所满意的情况,但是它并不总是“最好”的估计。经常会使用一些重要性质的有偏估计。


方差和标准差

有时我们希望能够对估计量的另一个性值进行判断,期望变化的程度是多少。正如前文提到的估计量的期望可以决定它的偏差,我们可以计算它的方差来判断它变化的程度:

V a r ( θ ^ ) Var(\hat{\theta}) Var(θ^)

其中的变量为训练集。另外如果对方差开根号,得到的就是标准差,记作 S E ( θ ^ ) SE(\hat{\theta}) SE(θ^)

正如我们希望我们训练的模型的偏差更小,同样的方差我们也希望它能尽可能的小。

均值的标准差:

S E ( μ m ^ ) = V a r [ 1 m ∑ i = 1 m x ( i ) ] = σ m SE(\hat{\mu_m})=\sqrt{Var\bigg[\dfrac{1}{m}\sum_{i=1}^mx^{(i)}\bigg]}=\dfrac{\sigma}{\sqrt{m}} SE(μm^)=Var[m1i=1mx(i)] =m σ

其中 σ 2 \sigma^2 σ2是样本 x ( i ) x^{(i)} x(i)的真实方差。标准差记作 σ \sigma σ。均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布,我们可以用标准差计算出真实期望落在所选定区域的概率。例如,以均值 μ ^ m \hat{\mu}_m μ^m为中心的95%置信区间是

( μ ^ m − 1.96 S E ( μ ^ m ) , μ ^ m + 1.96 S E ( μ ^ m ) ) (\hat{\mu}_m-1.96SE(\hat{\mu}_m),\hat{\mu}_m+1.96SE(\hat{\mu}_m)) (μ^m1.96SE(μ^m),μ^m+1.96SE(μ^m))

以上区间是基于均值 μ ^ m \hat{\mu}_m μ^m和方差 S E ( μ ^ m ) 2 SE(\hat{\mu}_m)^2 SE(μ^m)2的高斯分布。在机器学习中算法A比算法B好的指标就是指算法A的误差的95%置信区间的上界小于算法B的误差的95%置信区间的下界。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值