统计学基础概念：总体（population）与样本（sample）

最新推荐文章于 2025-02-26 08:35:01 发布

weixin_43840683

最新推荐文章于 2025-02-26 08:35:01 发布

阅读量2.2w

点赞数 7

文章标签：概率论统计学统计模型

本文链接：https://blog.csdn.net/weixin_43840683/article/details/106173118

版权

商业统计原理体会1：总体（population）和样本（sample）

统计的目的
- 统计量（观察量）
- 样本均值（sample mean）和总体均值（population mean ）

统计的目的

上了一学期的课之后，最直观的感受就是统计学最开始是在做着么一件事：用样本估计总体。
当样本数量和整体数量一致，也就是说你对所有研究对象都做了调查，这时的样本等于总体。但这显然不需要之后的各种各样的数学工具和模型来统计，因为你只需要一个个点过来就知道结果了。所以说，统计学大部分模型的目的是为了处理总体量较大，无法全部采样的情况，此时样本和总体的差值就是模型的重点也就是常说的noise或者叫sampleing error。

统计量（观察量）

知道统计的目的是什么之后，下一步就是怎么去分析了，但首先要找到需要分析的是什么，什么量可以去被我们分析。常见的几个统计量就那么几个，均值，方差，标准差。
但需要注意，我们这里讨论有偏估计（因为无偏估计没有什么意义），这时候，样本均值和总体均值应当是两个量，同样自然也分样本方差与整体方差等等。
另外，有些数据不好用均值去描述，就比如美国大选，选民支持的比例，这个东西的mean 就很奇怪，因为人要么是支持，要么是不支持，类似于一个伯努利变量，就是扔硬币。你不能说每个人0.7支持0.3不支持，它的每个数据点要么在0要么在1而不是围绕均值分布的。所以一般会用proportion比例来描述它。同样它也有sample proportion 和 population proportion两种。

样本均值（sample mean）和总体均值（population mean ）

再次强调，咱们的目的是什么？若取均值作为观察量，那么我们的目的应当是得到总体的均值，怎么得到？通过所取样本的均值去估计。
那么接下来自然会产生问题：样本均值和总体均值有怎么样的关系？接下来就是数学家们的成果了，中心极限定理(central limit theorem)，简称CLT，意思大概就是，当n（sample的数量）越大，sample mean 的分布就越接近一个正态分布，实际上我们一般更喜欢先把sample mean 标准化得到一个z值，然后再去将它的分布看作一个近乎标准正态分布。需要注意的是，这里说n越大分布越接近正态分布（具体感兴趣的可以去看CLT怎么推出来的），但实际上是否越接近对我们没意义，我们反正是要把它看成正态分布的，对我们有意义的是，当n太小的时候，看成正态分布就有点离谱了，我们关心的是多大才差不多能看成正态分布，这是一个经验值，我们这门课上是取30，别的情况可能不一样但一般差不多。

接下来就对上面的话用数学语言写一写。
样本个体记X，总体均值记 $\mu$ ，样本均值记 $\bar{X}$ ，样本数量记n ，总体方差记 $\sigma^{2}$ 。
用CLT估计， $\bar{X}～N(\mu,\sigma^{2})$
若先标准化，得到sample mean 对应的z-value记 $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ ，同样z有 $z ～ N (0, 1)$ 。注意下，这里为什么是 $\sigma/\sqrt{n}$ ，建议学一下基本概率论(n个iid加起来的方差)，我最开始也都忘了。

总结一下，到目前为止得到了什么，得到了样本均值的概率分布，而我们的目的是得到对总体均值的估计。
样本均值概率分布有三个参数，第一是统计得到的 $\bar{X}$ ，已知。第二是总体均值 $\mu$ ，这是我们所希望得到的，第三是总体方差 $\sigma^{2}$ ，这里就会有所疑惑，我们不知道总体的数据，那么肯定得不到总体方差了，就会出现两个变量而我们只有一个方程。这就是接下来要讨论的了，样本方差和总体方差的区别以及如何通过样本方差去估计总体方差。