抽样分布、大数定律与中心极限定理
抽样分布
抽样分布即为统计量的分布 。
抽样分布与概率分布比较
- 相同点:都是概率分布
- 不同点:
- 分类角度不同,常见的概率分布是从分布形态角度出发进行分类的,而抽样分布则是从参数角度进行分类
- 抽样分布一般表现为分布族,随着决定参数的不同,抽样分布的形态也会随之变化
Z分布
- 背景:样本均值推断总体均值是最重要的推断统计学内容。样本均值的抽样分布是样本均值推断总体均值的桥梁。样本均值的抽样分布有一个重要的特性,我们称之为中心极限定理,即任意分布的总体,当样本容量n>=30时,均值的抽样分布同样服从正态分布
- 普通正态分布可以转化为标准正态分布,我们将转化成标准正态分布的均值抽样分布成为Z分布(一般以字母命名的分布就是抽样分布)
- 两种满足Z分布的适用条件:一是由正态分布总体的样本组成的均值抽样分布,样本容量没有要求;第二种情况是由来自任意分布总体的大样本组成的均值抽样分布,要求样本容量大于或等于30
T分布
- 背景:Z分布只能覆盖部分均值抽样分布的情况,它特别适合总体标准差一直的正态分布总体或样本容量大于或等于30的任意分布总体的抽样情况。对于总体标准差未知的情况,我们引入另一个重要的均值抽样分布类型-T分布
- T分布曲线呈倒置的钟形,并且关于y=0的纵轴对称,分布曲线从负无穷到正无穷大无限延伸。当自由度等于或大于30时,T分布曲线几乎与标准正态分布曲线重合。
卡方分布
- 卡方统计量时一个随机变量,它能够表明样本方差和总体方差的比值关系。卡方统计量决定的抽样分布就是卡方分布
- 卡方分布和T分布一样,是一个概率分布族,对每一个自由度都有一个具体的卡方分布于其对应。卡方分布是不对称的,长尾拖在右边。随着自由度的增加,卡方分布逐渐变成单峰,且越来越堆成,但不是关于0对称,而是关于自由度对称。
F分布
- F统计量时由两个独立的卡方统计量被各自的自由度相除后的比,所以F分布的分布曲线与卡方分布曲线相似。随着自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1.
- F分布的应用:F分布能够用来推断两个总体方差之间的比值关系,是后面的方差分析的理论基础。
大数定律
大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理 。
- 切比雪夫大数定律
设
,…是一列相互独立的随机变量(或者两两不相关),他们分别存在期望
和方差
。若存在常数C使得:
则对任意小的正数 ε,满足公式一:
将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
特别需要注意的是,切比雪夫大数定理并未要求
同分布,相较于后面介绍的伯努利大数定律和辛钦大数定律更具一般性 。
- 伯努利大数定律
设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有公式二:
该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
- 辛钦大数定律
辛钦大数定律:常用的大数定律
设
为独立同分布的随机变量序列,若
的数学定律存在,则服从大数定律:
即对任意的ε>0,有公式三 :
中心极限定理
独立同分布的中心极限定理
设随机变量X1,X2,…Xn,…独立同分布,并且具有有限的数学期望和方差:E(Xi)=μ,D(Xi)=σ20(k=1,2…),则对任意x,分布函数
满足
该定理说明,当n很大时,随机变量
近似地服从标准正态分布N(0,1)。因此,当n很大时,
近似地服从正态分布N(nμ,nσ2).该定理是中心极限定理最简单又最常用的一种形式,在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。