样本方差公式推导--为什么样本方差的分母是n-1

Linzerox

已于 2022-05-25 21:38:40 修改

阅读量1.4k

点赞数 5

分类专栏：数字信号处理文章标签：概率论机器学习矩阵数字信号处理算法

于 2022-05-25 00:09:35 首次发布

本文链接：https://blog.csdn.net/zero_lzy/article/details/124957529

版权

数字信号处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

概要

因为使用n作为分母会导致方差被低估，将分母替换为n-1可以保证样本方差是一种无偏估计

理想情况

首先，我们假定随机变量 $X$ 的数学期望 $\mu$ 是已知的，然而方差 ${{\sigma }^{2}}$ 未知。如果我们得到一组随机变量 $X$ 的样本 $\left\{ {{X}_{i}},i=1,2,3...n \right\}$ 。

在这个条件下，根据方差的定义我们有：

$E\left[ {{\left( {{X}_{i}}-\mu \right)}^{2}} \right]={{\sigma }^{2}},\quad \forall i=1,\ldots ,n$

由此可得：

$E\left[ \frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\mu \right)}^{2}}} \right]={{\sigma }^{2}}$

因此， $\frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\mu \right)}^{2}}}$ 是方差 ${{\sigma }^{2}}$ 的一个无偏估计。此时，除的分母仍然是 $n$ 。

使用样本均值代替数学期望

现在，假定随机变量 $X$ 的数学期望 $\mu$ 是未知的，我们使用样本数据来估计数学期望 $\mu$ ：

$\bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}}$

如果我们直接使用上式，代替数学期望 $\mu$ ，则会导致低估方差，如下所示：

$\begin{array}{l} E\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}\right)=E\left(\frac{1}{n} \sum_{i=1}^{n}\left[\left(X_{i}-\mu\right)+(\mu-\bar{X})\right]^{2}\right) \\ =E\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}+\frac{2}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)(\mu-\bar{X})+\frac{1}{n} \sum_{i=1}^{n}(\mu-\bar{X})^{2}\right) \\ =E\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}+2(\bar{X}-\mu)(\mu-\bar{X})+(\mu-\bar{X})^{2}\right) \\ =E\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}-(\mu-\bar{X})^{2}\right) \\ \leq E\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}\right)=\sigma^{2} \end{array}$

对 ${{(\mu -\bar{X})}^{2}}$ 项进行分析:
$\begin{array}{l} E\left((\mu-\bar{X})^{2}\right)=E\left((\bar{X}-\mu)^{2}\right) \\ =E\left(\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}-\mu\right)^{2}\right) \\ =E\left(\left(\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\mu\right)\right)^{2}\right) \end{array}$
对多个独立随机变量，存在下述公式：
方差计算公式：
$D(X)=E\left( {{X}^{2}} \right)-{{[E(X)]}^{2}}$
均值的均值：
$\begin{aligned} & E(X)=E\left( \frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}} \right) \\ & =\frac{1}{n}E\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right) \\ & =E\left( {{X}_{i}} \right) \\ & =\bar{X} \end{aligned}$
均值的方差：
$\begin{aligned} D(\bar{X}) &=D\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right) \\ &=\frac{1}{n^{2}} D\left(\sum_{i=1}^{n} X_{i}\right) \\ &=\frac{1}{n} D\left(X_{i}\right) \end{aligned}$
所以：
$\begin{aligned} & E\left( {{(\mu -\bar{X})}^{2}} \right)=E\left( {{\left( \frac{1}{n}\sum\limits_{i=1}^{n}{\left( {{X}_{i}}-\mu \right)} \right)}^{2}} \right) \\ & \xrightarrow{A=\frac{1}{n}\sum\limits_{i=1}^{n}{\left( {{X}_{i}}-\mu \right)}}E\left( {{A}^{2}} \right) \\ & =D\left( A \right)-E{{\left( A \right)}^{2}} \\ & \xrightarrow{E(A)=0}\frac{1}{n}D\left( {{X}_{i}}-\mu \right) \\ & =\frac{1}{n}D\left( {{X}_{i}} \right) \\ & =\frac{1}{n}{{\sigma }^{2}} \end{aligned}$
结合以上结果，可以知道：
$\begin{aligned} & E\left( \frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}} \right)=E\left( \frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\mu \right)}^{2}}}-{{(\mu -\bar{X})}^{2}} \right) \\ & =E\left( \frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\mu \right)}^{2}}} \right)-E\left( {{(\mu -\bar{X})}^{2}} \right) \\ & ={{\sigma }^{2}}-\frac{1}{n}{{\sigma }^{2}} \\ & =\frac{n-1}{n}{{\sigma }^{2}} \end{aligned}$
要使样本方差的期望等于总体方差，就需要进行修正，也即给样本方差乘上 $\frac{n}{n-1}$ 。
所以得到样本方差为：
$\frac{n}{n-1}\cdot \frac{1}{n}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\frac{1}{n-1}\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}$

Linzerox

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
样本方差公式推导--为什么样本方差的分母是n-1

概要因为使用n作为分母会导致方差被低估，将分母替换为n-1可以保证样本方差是一种无偏估计理性情况首先，我们假定随机变量XXX的数学期望μ\muμ是已知的，然而方差[{{\sigma }^{2}}]未知。如果我们得到一组随机变量XXX的样本{Xi,i=1,2,3...n}\left\{ {{X}_{i}},i=1,2,3...n \right\}{Xi,i=1,2,3...n}。在这个条件下，根据方差的定义我们有：E[(Xi−μ)2]=σ2,∀i=1,…,nE\left[ {{\left( {
复制链接

扫一扫