基本概念
- 抽样误差
在一个总体(包括全部个体)中抽取样本(包括全部个体中的部分个体),样本统计量之间的差异就体现了抽样误差。由于抽样误差的存在,如果用样本统计量直接估算总体参数,则肯定会有一定的误差,所以在估计总体参数的时候需要考虑到这种偏差的存在,即用置信区间来估计总体参数。
- 标准误
标准误则可以通过一次样本来计算抽取误差的大小。如果标准误较小,则说明抽样误差小,意味着样本很稳定,对总体的代表性较好;如果标准误较大,则说明抽样误差大,提示样本代表性不强,这种情况下需要加大样本量。
- t分布
t分布可以看做是小样本时的正态分布,当数据量大时,就变成了正态分布,当数据量小时,就是正态分布。当自由度为30时,t分布与正态分布就已经十分接近了,当自由度为50时,差别就已经微乎其微了。
t分布主要是与均数有关的抽样分布,常用于两个均数是否相等的统计检验、回归系数是否为0的统计检验。这些检验的形式都是某参数是否等于0,如两个差值是否等于0,回归系数是否等于0.
F分布是与方差有关的抽样分布,常用于方差齐性检验、方差分析和回归模型检验。他们都是针对方差而不是均值,如方差齐性检验是两个方差之比,方差分析是组间或组内之比,回归模型检验是模型方差与残差方差之比。
卡方分布也是与方差有关的抽样分析,但