商业统计原理体会1:总体(population)和样本(sample)
统计的目的
上了一学期的课之后,最直观的感受就是统计学最开始是在做着么一件事:用样本估计总体。
当样本数量和整体数量一致,也就是说你对所有研究对象都做了调查,这时的样本等于总体。但这显然不需要之后的各种各样的数学工具和模型来统计,因为你只需要一个个点过来就知道结果了。所以说,统计学大部分模型的目的是为了处理总体量较大,无法全部采样的情况,此时样本和总体的差值就是模型的重点也就是常说的noise或者叫sampleing error。
统计量(观察量)
知道统计的目的是什么之后,下一步就是怎么去分析了,但首先要找到需要分析的是什么,什么量可以去被我们分析。常见的几个统计量就那么几个,均值,方差,标准差。
但需要注意,我们这里讨论有偏估计(因为无偏估计没有什么意义),这时候,样本均值和总体均值应当是两个量,同样自然也分样本方差与整体方差等等。
另外,有些数据不好用均值去描述,就比如美国大选,选民支持的比例,这个东西的mean 就很奇怪,因为人要么是支持,要么是不支持,类似于一个伯努利变量,就是扔硬币。你不能说每个人0.7支持0.3不支持,它的每个数据点要么在0要么在1而不是围绕均值分布的。所以一般会用proportion比例来描述它。同样它也有sample proportion 和 population proportion两种。
样本均值(sample mean)和总体均值(population mean )
再次强调,咱们的目的是什么?若取均值作为观察量,那么我们的目的应当是得到总体的均值,怎么得到?通过所取样本的均值去估计。
那么接下来自然会产生问题:样本均值和总体均值有怎么样的关系?接下来就是数学家们的成果了,中心极限定理(central limit theorem),简称CLT,意思大概就是,当n(sample的数量)越大,sample mean 的分布就越接近一个正态分布,实际上我们一般更喜欢先把sample mean 标准化得到一个z值,然后再去将它的分布看作一个近乎标准正态分布。需要注意的是,这里说n越大分布越接近正态分布(具体感兴趣的可以去看CLT怎么推出来的),但实际上是否越接近对我们没意义,我们反正是要把它看成正态分布的,对我们有意义的是,当n太小的时候,看成正态分布就有点离谱了,我们关心的是多大才差不多能看成正态分布,这是一个经验值,我们这门课上是取30,别的情况可能不一样但一般差不多。
接下来就对上面的话用数学语言写一写。
样本个体记X,总体均值记
μ
\mu
μ,样本均值记
X
ˉ
\bar{X}
Xˉ,样本数量记n ,总体方差记
σ
2
\sigma^{2}
σ2。
用CLT估计,
X
ˉ
~
N
(
μ
,
σ
2
)
\bar{X}~N(\mu,\sigma^{2})
Xˉ~N(μ,σ2)
若先标准化,得到sample mean 对应的z-value记
z
=
X
ˉ
−
μ
σ
/
n
z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}
z=σ/nXˉ−μ,同样z有
z
~
N
(
0
,
1
)
z~N(0,1)
z~N(0,1)。注意下,这里为什么是
σ
/
n
\sigma/\sqrt{n}
σ/n,建议学一下基本概率论(n个iid加起来的方差),我最开始也都忘了。
总结一下,到目前为止得到了什么,得到了样本均值的概率分布,而我们的目的是得到对总体均值的估计。
样本均值概率分布有三个参数,第一是统计得到的
X
ˉ
\bar{X}
Xˉ,已知。第二是总体均值
μ
\mu
μ,这是我们所希望得到的,第三是总体方差
σ
2
\sigma^{2}
σ2,这里就会有所疑惑,我们不知道总体的数据,那么肯定得不到总体方差了,就会出现两个变量而我们只有一个方程。这就是接下来要讨论的了,样本方差和总体方差的区别以及如何通过样本方差去估计总体方差。
另外上面还有一个问题没有解决,对于不用均值描述的统计量,其分布是否也能用CLT估计?它又如何去估计总体的值呢?