统计学基础概念:总体(population)与样本(sample)

商业统计原理体会1:总体(population)和样本(sample)

统计的目的

上了一学期的课之后,最直观的感受就是统计学最开始是在做着么一件事:用样本估计总体
当样本数量和整体数量一致,也就是说你对所有研究对象都做了调查,这时的样本等于总体。但这显然不需要之后的各种各样的数学工具和模型来统计,因为你只需要一个个点过来就知道结果了。所以说,统计学大部分模型的目的是为了处理总体量较大,无法全部采样的情况,此时样本和总体的差值就是模型的重点也就是常说的noise或者叫sampleing error。

统计量(观察量)

知道统计的目的是什么之后,下一步就是怎么去分析了,但首先要找到需要分析的是什么,什么量可以去被我们分析。常见的几个统计量就那么几个,均值,方差,标准差。
但需要注意,我们这里讨论有偏估计(因为无偏估计没有什么意义),这时候,样本均值和总体均值应当是两个量,同样自然也分样本方差与整体方差等等。
另外,有些数据不好用均值去描述,就比如美国大选,选民支持的比例,这个东西的mean 就很奇怪,因为人要么是支持,要么是不支持,类似于一个伯努利变量,就是扔硬币。你不能说每个人0.7支持0.3不支持,它的每个数据点要么在0要么在1而不是围绕均值分布的。所以一般会用proportion比例来描述它。同样它也有sample proportion 和 population proportion两种。

样本均值(sample mean)和总体均值(population mean )

再次强调,咱们的目的是什么?若取均值作为观察量,那么我们的目的应当是得到总体的均值,怎么得到?通过所取样本的均值去估计。
那么接下来自然会产生问题:样本均值和总体均值有怎么样的关系?接下来就是数学家们的成果了,中心极限定理(central limit theorem),简称CLT,意思大概就是,当n(sample的数量)越大,sample mean 的分布就越接近一个正态分布,实际上我们一般更喜欢先把sample mean 标准化得到一个z值,然后再去将它的分布看作一个近乎标准正态分布。需要注意的是,这里说n越大分布越接近正态分布(具体感兴趣的可以去看CLT怎么推出来的),但实际上是否越接近对我们没意义,我们反正是要把它看成正态分布的,对我们有意义的是,当n太小的时候,看成正态分布就有点离谱了,我们关心的是多大才差不多能看成正态分布,这是一个经验值,我们这门课上是取30,别的情况可能不一样但一般差不多。

接下来就对上面的话用数学语言写一写。
样本个体记X,总体均值记 μ \mu μ,样本均值记 X ˉ \bar{X} Xˉ,样本数量记n ,总体方差记 σ 2 \sigma^{2} σ2
用CLT估计, X ˉ ~ N ( μ , σ 2 ) \bar{X}~N(\mu,\sigma^{2}) XˉN(μ,σ2)
若先标准化,得到sample mean 对应的z-value记 z = X ˉ − μ σ / n z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} z=σ/n Xˉμ,同样z有 z ~ N ( 0 , 1 ) z~N(0,1) zN(0,1)。注意下,这里为什么是 σ / n \sigma/\sqrt{n} σ/n ,建议学一下基本概率论(n个iid加起来的方差),我最开始也都忘了。

总结一下,到目前为止得到了什么,得到了样本均值的概率分布,而我们的目的是得到对总体均值的估计。
样本均值概率分布有三个参数,第一是统计得到的 X ˉ \bar{X} Xˉ,已知。第二是总体均值 μ \mu μ,这是我们所希望得到的,第三是总体方差 σ 2 \sigma^{2} σ2,这里就会有所疑惑,我们不知道总体的数据,那么肯定得不到总体方差了,就会出现两个变量而我们只有一个方程。这就是接下来要讨论的了,样本方差和总体方差的区别以及如何通过样本方差去估计总体方差。

另外上面还有一个问题没有解决,对于不用均值描述的统计量,其分布是否也能用CLT估计?它又如何去估计总体的值呢?

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值