Table of Contents
- 1. 基本概念
- 2. 点估计、区间估计
- 3. 假设检验
- 4. 单因素方差分析
1 基本概念
- 样本、总体与统计量
- 研究对象的全体称为 总体 , 总体对应一个随机变量 X 和分布 F(x)
- 单个研究对象称为 个体
- n 个个体称为 样本 (X1,⋯,Xn) , 称 n 为样本容量
- 一般地, 样本是和总体独立同分的一串随机变量
- 统计量: 样本的函数, 和未知参数无关
- 常见的统计量
- 样本均值: Xˉ=1n∑i=1nXi
- 样本方差: S2=1n−1∑i=1n(Xi−Xˉ)2
- 样本协方差 1n−1∑i1=n(Xi−Xˉ)(Yi−Yˉ)2
- 样本相关系数
ρˆ(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2−−−−−−−−−−−−−−−−−−−−√
2 点估计、区间估计
- 点估计
- 设总体均值为 μ , 方差为 σ2 , 均为待估计的参数
- 样本均值 Xˉ 是均值的无偏估计
- 样本方差 S2 为 σ2 的无偏估计
- 正态总体下点估计的性质
- 设总体服从 N(μ,σ2) 的分布, 参数均未知
- Xˉ=1n∑i=1nXi
- Xˉ∼N(μ,σ2n) 标准化后有 Xˉ−μσ/n√∼N(0,1)
- (n−1)S2σ2∼χ2(n−1)
- 将
σ
用
S=S2−−√
代替得
Xˉ−μS/n−−√∼t(n−1)
- 正态单总体均值和方差的区间估计
- σ2 已知时, μ 的置信水平为 1−α 的置信区间为
[Xˉ±σn−−√Uα/2]- σ2 未知时, μ 的置信水平为 1−α 的置信区间为
[Xˉ±Sn−−√tα/2(n−1)]
3 假设检验
- 单总体均值的假设检验 (
σ2
已知)
- H0:μ=μ0,↔H1:μ≠μ0
- 原假设成立时
Z=Xˉ−μ0σ/n−−√∼N(0,1)- 对立假设成立时, |Z| 倾向于取较大的值, 由实际的样本计算 |Z| 的观测值 |z|value
-
|z|value
是否偏大
pvalue=P(|Z|≥|z|value)
的大小来衡量, 称此尾概率为 pvalue
- 如果 p−value 小于给定的显著性水平, 则拒绝原假设
- 单总体均值的假设检验 (
σ2
未知)
- H0:μ=μ0,↔H1:μ≠μ0
- 原假设成立时
t=Xˉ−μ0S/n−−√∼t(n−1)-
|t|value
是否偏大用
pvalue=P(|t|≥|t|value)
的大小来衡量, 称此尾概率为 p值
- 如果 p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
- 两总体的均值差的检验
- X∼N(μ1,σ2),Y∼N(μ2,σ2) σ2 为未知参数
- 分别从两个独立总体中抽取样本 X1,⋯,Xn1,Y1,⋯,Yn2
- 检验如下假设 H0:μ1=μ2↔H1:μ1≠μ2
- 取检验统计量为
t=Xˉ−YˉSw1n1+1n2−−−−−−−√
- 原假设成立时 t∼t(n1+n2−2)
- 对立假设成立, 检验统计量 |t| 倾向于取较大的值
- 检验方法
- 由实际的样本计算 |t| 的观测值 |t|value
-
|t|value
是否偏大用
pvalue=P(|t|≥|t|value)
的大小来衡量, 称此尾概率为 p值
- 如果 p−value 小于给定的显著性水平(小概率的上限), 则拒绝原假设
- 一点注记
- 这里的
Sw=S2w−−−√
, 其中
S2w=(n1−1)S2X+(n2−1)S2Yn1+n2−2
- 其中 (n1−1)S2X=∑i=1n1(Xi−Xˉ)2,(n2−1)S2Y=∑j=1n2(Yi−Yˉ)2
- 代入可得
S2w=∑i=1n1(Xi−Xˉ)2+∑j=1n2(Yi−Yˉ)2n1+n2−2
- 可以证明, 所得的 S2w 实际上是 σ2 的无偏估计
- 有 (n1+n2−2)S2wσ2∼χ2(n1+n2−2)
- 这里的
Sw=S2w−−−√
, 其中
- F 检验
- 自由度为 n1+n2−2 的 t 分布的平方 服从自由度为 F(1,n1+n2−2) 的F分布
- 考虑上面两样本 t 检验统计量的平方形式
t2=(Xˉ−Yˉ)2(1n1+1n2)−1(n1+n2−2)S2wn1+n2−2=SSA/1SSE/(n1+n2−2)
- F检验续
- 考虑上述式子的分子
- 记
μˉ=n1Xˉ+n2Yˉn1+n2
为两总体的总平均值
===(Xˉ−Yˉ)2(1n1+1n2)−1n1(Xˉ−μˉ)2+n2(Yˉ−μˉ)2n1n22(Xˉ−Yˉ)2(n1+n2)2+n2n21(Xˉ−Yˉ)2(n1+n2)2n1n2n1+n2(Xˉ−Yˉ)2
- F检验续
- 记总平方和为 SST=∑i=1n1(Xi−μˉ)2+∑i=1n2(Yi−μˉ)2
- 两群体之间差异平方和为 SSA=n1(Xˉ−μˉ)2+n2(Yˉ−μˉ)2
- 两群体内差异平方和为 SSE=∑i=1n1(Xi−Xˉ)2+∑j=1n2(Yi−Yˉ)2
- 则有 SST=SSA+SSE , 在原假设成立的条件下可以证明:
SSTσ2∼χ2(n1+n2−1), SSAσ2∼χ2(1), SSEσ2∼χ2(n1+n2−2)- 此时有
t2=SSA/1SSE/(n1+n2−2)∼F(1,n1+n2−2)
4 单因素方差分析
- 三组样本均值的比较
- 如果有三组样本, 记起均值分别为 μ1,μ2,μ3 检验其均值是不是全部相等, 即检验 H0:μ1=μ2=μ3↔H1:不全相等
- 采用哪个统计量可以度量 原假设和对立假设之间的差异呢
- 采用两两比较的方法-—学过的
- 可以猜想如果类别数从 3 增加到10
- 检验统计量的构造
- 记
Xˉ=1n∑j=13∑i=1njXji
- 其中 n=n1+n2+n3
- 记 SSA=∑j=13nj(Xˉj⋅−Xˉ)2 其中 Xˉj⋅=1nj∑i=1njXji 为第 j 组的均值, 则 SST 度量了三组样本的均值和总均值之间的差别
- 可以证明 原假设成立时, 有 SSAσ2∼χ2(2)
- 检验方法 SSAσ2 偏大时拒绝原假设
- 存在的问题: σ2 未知, 怎么办
- 记
Xˉ=1n∑j=13∑i=1njXji
-
σ2
直接用估计值代替就可以吗
- 记 SST=∑j=13∑i=1nj(Xji−Xˉ)2 为总平方和
- 记 SSE=∑j=13∑i=1nj(Xji−Xˉj⋅)2 度量了随机误差
- 可以证明 SSE/(n−3) 实际上是误差方差 σ2 的无偏估计
- σ2 用估计值代替后的分布难以刻画,为使得分子分布具有可比性,分子除以相应的自由度
- 检验统计量采用
F=SSA/(3−1)SSE/(n−3)
- 检验统计量的分布
- 可以证明 原假设成立时 F∼F(2,n−3)
- 不妨设
σ2
为三组样本的共同方差, 则
H0
成立时
SSTσ2∼χ2(n−1),SST=SSA+SSE
- 从而有
SSAσ2∼χ2(2), SSEσ2∼χ2(n−3)
- 且 SSA 和 SSE 相互独立
- 单因素方差分析的R实现
fc<-sample(1:3,100,replace=TRUE) y<-fc+rnorm(100) fc<-as.factor(fc)
boxplot(y~fc,col=2:4)
fc.ao<-aov(y~fc) anova(fc.ao)
Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) fc 2 77.498 38.749 35.634 2.497e-12 *** Residuals 97 105.480 1.087 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1