如何用样本估计总体?
笔记来源:Population and Estimated Parameters, Clearly Explained!!!
将上述结果绘制成直方图
直方图对应的正态分布图如下:
我们无法测得所有肝脏细胞中基于X的mRNA,我们需要用样本来估计总体,这里我们用240 billion中的5个细胞作为样本,图中每个绿点代表一个细胞,其值代表此细胞中基因X所含mRNA的数量
我们看一看当样本数据有2个时,计算出来的样本均值与总体均值的差距在哪,样本标准差与总体标准差的差距在哪
我们发现样本数据越多,我们的样本均值就越接近总体均值,样本标准差就越接近总体标准差
统计学的主要目标之一是量化我们对总体进行估计的信心
统计学家经常计算p值和置信区间,以量化估计参数(也就是样本计算出来的均值、标准差等等)的可信程度
个人理解:因为总体的量太多,有时候无法进行测量,或者说要耗费大量的人力物力,现在我们用一些样本来估计这个不可测或不好测的总体,而估计总归是有好有坏的,后来人们就使用置信区间来评判这个估计的好坏或者说有多少可信度