【随记】终于知道样本方差无偏估计中 n-1 的来源了！

Geeker · LStar

已于 2024-08-16 21:52:35 修改

阅读量453

点赞数 6

分类专栏：随记机器学习数学文章标签：统计学数学机器学习

于 2024-08-16 21:50:52 首次发布

本文链接：https://blog.csdn.net/weixin_46836893/article/details/141267952

版权

机器学习同时被 3 个专栏收录

16 篇文章 3 订阅

订阅专栏

随记

1 篇文章 0 订阅

订阅专栏

数学

1 篇文章 0 订阅

订阅专栏

创建时间：2024-08-16
首发时间：2024-08-16
最后编辑时间：2024-08-16
作者：Geeker_LStar

顾名思义，【随记】这个专栏没有固定的主题。它可能会包含一些有趣的数学问题（咳咳咳，论我的突发奇想）或一些 “有趣” 的 bug，等等。相当于一种日常记录，有点像大杂烩。
你或许能从其中找到一些有趣的东西…嘿嘿。⭐

今天下午在写《机器学习》专栏中讲主成分分析的文章，讲到样本主成分分析的协方差计算的时候，我发现 “取平均值” 并不是乘 $\frac{1}{n}$ ，而是乘 $\frac{1}{n-1}$ . 同时，我之前早就发现，在用样本数据而不是总体数据计算方差的时候，也是一样用 $\frac{1}{n-1}$ 而非 $\frac{1}{n}$ 做取平均值。
这个问题我好奇了挺久的，看到一些说法是 “这种计算叫做无偏估计，除以 n-1 是为了补偿样本而非总体带来的偏差” 或 “样本数据消耗了一个自由度，所以要 -1”，不过我觉得这些说法在数学上不够严谨，so，这一篇就从数学的角度来解释（证明）一下 $\frac{1}{n-1}$ 的合理性！

okay 先来看一下问题的背景。
我们现在有一堆数据，想要计算这一堆数据的方差。但是很抱歉哦（？），我们不能用所有数据去计算总体方差，而是只能选择其中的一部分数据去计算样本方差 ~~（别问为什么问就是我也不知道）~~ 。我们的目的就是让样本方差 $s^2$ 的期望尽可能接近总体方差 $\sigma^2$ 。（后面我们可以证明，样本方差的期望就等于总体方差，所以被叫做 “无偏估计”。

okay（什么口头禅），我们把【处理前的】（看好这四个字）样本方差记作 $s^2$ ，则有：
$s^2 = \sum_{i=1}^{n}(x_i-\bar{x})^2$

其中 $x_i$ 就是第 $i$ 个数据， $\bar{x}$ 就是样本均值。至于为什么是处理前的，因为它没有做【取平均值】的操作（无论是取 1/n 还是 1/n-1）。
嗯…因为最终是要和总体方差建立关联的，所以我们不妨先在 $s^2$ 中引入总体均值 $\mu$ 。
$s^2= \sum_{i=1}^{n}((x_i-\mu)-(\bar{x}-\mu))^2$

很显然式子本身并没有改变。
好的，接下来我们进行一波简单的变形（其实就是打开完全平方）。
$s^2= \sum_{i=1}^{n}((x_i-\mu)^2+2(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2)$

then，我们利用 $\sum$ 的性质，把一个 $\sum$ 拆成三个。
$s^2= \sum_{i=1}^{n}(x_i-\mu)^2+\sum_{i=1}^{n}2(x_i-\mu)(\bar{x}-\mu)+\sum_{i=1}^{n}(\bar{x}-\mu)^2$

en…现在我们需要一些《注意力》（《注意到》（（（doge）
我们不妨把三项拆开来看。首先第一项 $\sum_{i=1}^{n}(x_i-\mu)^2$ 。哦吼，这玩意不就是每一个样本和总体均值的差的平方的和嘛，这是啥，这不就是方差 * n 嘛（（因为正经的方差需要在平方和前面 * $1/ n$ .
所以第一项破案了， $\sum_{i=1}^{n}(x_i-\mu)^2=n\sigma^2$ ，前面说过 $\sigma^2$ 就是总体方差。

第二项， $\sum_{i=1}^{n}2(x_i-\mu)(\bar{x}-\mu)$ 。这个怎么说，首先 $2(\bar{x}-\mu)$ 是一个定值，所以我们可以把它提到 $\sum$ 外面，即：
$\sum_{i=1}^{n}2(x_i-\mu)(\bar{x}-\mu)=2(\bar{x}-\mu)\sum_{i=1}^{n}(x_i-\mu)$