【统计学笔记】第6章 统计量及其抽样分布

本文详细介绍了统计学中的统计量,包括样本均值、方差、变异系数等,并探讨了抽样分布的概念,如χ2分布、t分布、F分布以及它们与正态分布的关系。此外,还讨论了样本比例、样本均值差的分布以及样本方差的分布规律,是理解统计推断和概率论的关键章节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6.1 统计量

  • 6.1.1 统计量的概率

    📖 统计量
    从某总体中抽取样本后,为了使统计推断成为可能,要把分散在样本中的信息集中起来,针对不同的研究目的,构造不同的样本函数,这种函数称为统计量。

    样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。

  • 6.1.2 常用统计量

    🔑 样本的均值

    X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i Xˉ=n1i=1nXi

    反映总体X数学期望的信息。

    🔑 样本方差

    S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 S2=n11i=1n(XiXˉ)2

    反映总体X方差的信息。

    🔑 样本变异系数

    V = S X ˉ V=\frac{S}{\bar{X}} V=XˉS

    反映总体变异系数C( = D ( X ) E ( X ) =\frac{\sqrt{D(X)}}{E(X)} =E(X)D(X) )的信息。

    📖 变异系数反映出随机变量在以它的均值为单位时,取数的离散程度。
    此统计量笑出了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度,比如不同群里或行业的收入差距描述。

    🔑 样本k阶矩

    m k = 1 n ∑ i = 1 n X i k m_k=\frac{1}{n}\sum_{i=1}^nX_i^k mk=n1i=1nXik

    🔑 样本k阶中心矩

    u k = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) k u_k=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^k uk=n11i=1n(XiXˉ)k

    🔑 样本偏度

    α 3 = n − 1 ∑ i = 1 n ( X i − X ˉ ) 3 ( ∑ i = 1 n ( X i − X ˉ ) 2 ) 3 2 \alpha_3= \sqrt{n-1} \frac{ \displaystyle \sum_{i=1}^n(X_i-\bar{X})^3 }{ \displaystyle (\sum_{i=1}^n(X_i-\bar{X})^2)^{\frac{3}{2}} } α3=n1 (i=1n(XiXˉ)2)23i=1n(XiXˉ)3

    🔑 样本峰度

    α 4 = n − 1 ∑ i = 1 n ( X i − X ˉ ) 4 ( ∑ i = 1 n ( X i − X ˉ ) 2 ) 2 − 3 \alpha_4= n-1 \frac{ \displaystyle \sum_{i=1}^n(X_i-\bar{X})^4 }{ \displaystyle (\sum_{i=1}^n(X_i-\bar{X})^2)^2 }-3 α4=n1(i=1n(XiXˉ)2)2i=1n(XiXˉ)43

    反映出总体峰度的信息。

📌 6.1.3 次序统计量
如果抽取的样本按照从小到大的顺序排列,那么就称对应的统计量为次序统计量。
比如:中位数、分位数、四分位数、样本极差

📌 6.1.4 充分统计量
统计量加工过程中一点信息都不损失的统计量称为充分统计量。

6.2 关于分布的几个概念

📌 6.2.1 抽样分布

统计推断的三个中心内容:抽样分布、参数估计和假设检验。
在总体X的分布类型已知时,若对任一自然数n,都能导出统计量T=T(X1,X2,…,Xn)的分布的数学表达式,这种分布称为精确的抽样分布。

📌 6.2.2 渐近分布
当n较大时,统计量T的极限分布作为抽样分布的一种近似,这种极限分布常称为渐进分布。

6.3 由正态分布导出的几个重要分布

  • 6.3.1 χ 2 \chi^2 χ2分布

    📌 χ 2 \chi^2 χ2分布

    设随机变量X1,X2,…,Xn相互独立,且 Xi(i=1,2,…,n)服从标准正态分布 N(0,1),则它们的平方和 ∑ i = 1 n X i 2 \displaystyle\sum_{i=1}^n{X_i^2} i=1nXi2服从自由度为n的 χ 2 \chi^2 χ2分布。

    🔑 数学期望

    E ( χ 2 ) = n E(\chi^2)=n E(χ2)=n

    🔑 方差

    D ( χ 2 ) = 2 n D(\chi^2)=2n D(χ2)=2n

    🔑 可加性

    χ 1 2 ∼ χ 2 ( n 1 ) \chi_1^2\sim{\chi^2(n_1)} χ12χ2(n1) χ 2 2 ∼ χ 2 ( n 2 ) \chi_2^2\sim{\chi^2(n_2)} χ22χ2(n2),且独立,则:

    χ 1 2 + χ 2 2 ∼ χ 2 ( n 1 + n 2 ) \chi_1^2+\chi_2^2\sim{\chi^2(n_1+n_2)} χ12+χ22χ2(n1+n2)

    📖 当自由度增加到足够大时, χ 2 \chi^2 χ2的概率密度曲线趋于对称;
    当自由度n→+∞时, χ 2 \chi^2 χ2分布的极限分布是正态分布;

    χ p 2 ( n ) \chi_p^2(n) χp2(n),称为 χ 2 ( n ) \chi^2(n) χ2(n)的p分位数;当自由度n很大时, 2 χ 2 ( n ) \sqrt{2\chi^2(n)} 2χ2(n) 近似服从 N ( 2 n − 1 , 1 ) N(\sqrt{2n-1},1) N(2n1 ,1)
    实际上,当自由度n>45时,有:

    χ p 2 ( n ) ≈ 1 2 ( μ p + 2 n − 1 ) 2 \chi_p^2(n)\approx{\frac{1}{2}(\mu_p+\sqrt{2n-1})^2} χp2(n)21(μp+2n1 )2

  • 6.3.2 t分布

    📌 t分布
    设随机变量 X ~ N ( 0 , 1 ) X~N(0,1) XN01 Y ~ χ 2 ( n ) Y~\chi^2(n) Yχ2(n),且X与Y独立,则 t = X Y / n t=\frac{X}{\sqrt{Y/n}} t=Y/n X,其分布称为t分布,记为t(n),其中n为其自由度。

    t分布的密度函数是一偶函数;
    当n≥2时,t分布的数学期望 E ( t ) = 0 E(t)=0 E(t)=0
    当n≥2时,t分布的数学期望 D ( t ) = n n − 2 D(t)=\frac{n}{n-2} D(t)=n2n

    📌 柯西分布
    自由度为1的t分布。

    随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。
    一般当n≥30时,t分布与标准正态分布就非常接近。

    🔑 正态分布与t分布的关系

    设X1,X2,…,Xn是来自正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μσ2)的一个样本,则:

    n ( X ˉ − μ ) S ∼ t ( n − 1 ) \frac{ \sqrt{n}(\bar{X}-\mu) }{ S }\sim{t(n-1)} Sn (Xˉμ)t(n1)

    其中 X ˉ \bar{X} Xˉ是正态分布的均值, S S S为正态分布的标准差。

    🔑 两个正态分布与t的关系

    设X和Y是两个相互独立的总体, X   N ( μ 1 , σ 2 ) , Y   N ( μ 2 , σ 2 ) X~N(μ_1,σ^2),Y~N(μ_2,σ^2) X N(μ1σ2)Y N(μ2σ2),X1,X2,…,Xn是来自X的一个样本,Y1,Y2,…,Ym是来自Y的一个样本,则:

    ( X ˉ − Y ˉ ) − ( μ 1 − μ 2 ) S x y m n m + n ∼ t ( n + m − 2 ) \frac{ (\bar{X}-\bar{Y})-(\mu_1-\mu_2) }{ S_{xy} }\sqrt{\frac{mn}{m+n}} \sim{t(n+m-2)} Sxy(XˉYˉ)(μ1μ2)m+nmn t(n+m2)

    其中 S x y 2 = ( n − 1 ) S x 2 + ( m − 1 ) S y 2 n + m − 2 \displaystyle S_{xy}^2=\frac{ (n-1)S_x^2+(m-1)S_y^2 }{ n+m-2 } Sxy2=n+m2(n1)Sx2+(m1)Sy2

  • 6.3.3 F分布

    📖 F分布
    设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n的 χ 2 χ^2 χ2分布,随机变量X有如下表达式: X = Y / m Z / n = n Y m Z X=\frac{Y/m}{Z/n}=\frac{nY}{mZ} X=Z/nY/m=mZnY,则称X服从第一自由度为m,第二自由度为n的F分布,简记为 X ~ F ( m , n ) X~F(m,n) XFmn

    🔑 数学期望

    E ( X ) = n n − 2 , n > 2 E(X)=\frac{n}{n-2},n>2 E(X)=n2n,n>2

    🔑 方差

    D ( X ) = 2 n 2 ( m + n − 2 ) m ( n − 2 ) ( n − 4 ) , n > 4 D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)},n>4 D(X)=m(n2)(n4)2n2(m+n2),n>4

    🔑 P分位数

    F p ( v 1 , v 2 ) = 1 F 1 − p ( v 2 , v 1 ) F_p(v_1,v_2)=\frac{1}{F_{1-p}(v_2,v_1)} Fp(v1,v2)=F1p(v2,v1)1

    📖 F分布与t分布的关系
    如果随机变量X服从t(n)分布,则 X 2 X^2 X2服从 F ( 1 , n ) F(1,n) F(1,n)的F分布

6.4 样本均值的分布与中心极限定理

📖 中心极限定理
设从均值为 μ \mu μ、方差为 σ 2 \sigma^2 σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值 X ˉ \bar{X} Xˉ的抽样分布近似服从均值为 μ \mu μ、方差为 σ 2 / n \sigma^2/n σ2/n的正态分布。

📖 大样本、小样本
通常n≥30为大样本,反之为小样本,但这只是经验说法。

大样本、小样本之间并不是以样本量大小来区分的。
在样本量固定的条件下所进行的统计推断、问题分析,不管样本量有多大,都称为小样本问题;
在样本量 n → ∞ n→\infty n的条件下进行的推断统计、问题分析,则称为大样本问题。

📖 案例:抽样样本对总体的概率计算
在这里插入图片描述

6.5 样本比例的抽样分布

📖 如果在样本大小为n的样本中具有某一特征的个体数为X,则样本比例为 p ^ = X n \hat{p}=\frac{X}{n} p^=nX,可以用样本比例 p ^ \hat{p} p^来估计总体比例 π \pi π

🔑 由二项分布和渐进分布的理论可知,当n充分大时, p ^ \hat{p} p^的分布可以用正态分布去逼近。
此时 p ^ \hat{p} p^服从均值为 π \pi π、方差为 π ( 1 − π ) n \frac{\pi(1-\pi)}{n} nπ(1π)的正态分布,即:

p ^ ∼ N ( π , π ( 1 − π ) n ) \hat{p}\sim{N(\pi,\frac{\pi(1-\pi)}{n})} p^N(π,nπ(1π))

6.6 两个样本平均值之差的分布

🔑 设 X ˉ 1 \bar{X}_1 Xˉ1是独立地抽自总体 X 1 ∼ N ( μ 1 , σ 1 2 ) X_1\sim{N(\mu_1,\sigma_1^2)} X1N(μ1,σ12)的一个容量为 n 1 n_1 n1的样本的均值,
X ˉ 2 \bar{X}_2 Xˉ2是独立地抽自总体 X 2 ∼ N ( μ 2 , σ 2 2 ) X_2\sim{N(\mu_2,\sigma_2^2)} X2N(μ2,σ22)的一个容量为 n 2 n_2 n2的样本的均值,
则有:

E ( X ˉ 1 − X ˉ 2 ) = μ 1 − μ 2 E(\bar{X}_1-\bar{X}_2)=\mu_1-\mu_2 E(Xˉ1Xˉ2)=μ1μ2

D ( X ˉ 1 − X ˉ 2 ) = σ 1 2 n 1 + σ 2 2 n 2 D(\bar{X}_1-\bar{X}_2)=\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} D(Xˉ1Xˉ2)=n1σ12+n2σ22

如果两个总体为正态分布,则 X ˉ 1 − X ˉ 2 \bar{X}_1-\bar{X}_2 Xˉ1Xˉ2也为正态分布,均值方差亦如上。

🔑 样本比例之差的抽样分布
设分别从具有参数为 π 1 \pi_1 π1和参数为 π 2 \pi_2 π2的二项总体中抽取包含 n 1 n_1 n1个观测值和 n 2 n_2 n2个观测值的独立样本,则两个样本比例差的抽样分布为:

p ^ 1 − p ^ 2 = X 1 n 1 − X 2 n 2 \hat{p}_1-\hat{p}_2=\frac{X_1}{n_1}-\frac{X_2}{n_2} p^1p^2=n1X1n2X2

E ( p ^ 1 − p ^ 2 ) = π 1 − π 2 E(\hat{p}_1-\hat{p}_2)=\pi_1-\pi_2 E(p^1p^2)=π1π2

D ( p ^ 1 − p ^ 2 ) = π 1 ( 1 − π 1 ) n 1 + π 2 ( 1 − π 2 ) n 2 D(\hat{p}_1-\hat{p}_2)=\frac{\pi_1(1-\pi_1)}{n_1}+\frac{\pi_2(1-\pi_2)}{n_2} D(p^1p^2)=n1π1(1π1)+n2π2(1π2)

n 1 n_1 n1 n 2 n_2 n2很大时 , p ^ 1 − p ^ 2 ,\hat{p}_1-\hat{p}_2 p^1p^2的抽样分布近似为正态分布,其均值方差亦如上。

6.7 关于样本方差的分布

🔑 样本方差的分布
设总体分布为 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的正态分布,则样本方差S^2的分布为:

( n − 1 ) S 2 / σ 2 ∼ χ 2 ( n − 1 ) (n-1)S^2/\sigma^2\sim{\chi^2(n-1)} (n1)S2/σ2χ2(n1)

其中 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n1)为自由度为n-1的卡方分布

🔑 两个样本方差比的分布
设X1,X2,…,Xn1是来自正态总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N(μ1,σ12)的一个样本,Y1,Y2,…,Yn2是来自正态总体 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N(μ2,σ22)的一个样本,且Xi(i=1,2,…,n1)与Yi(i=1,2,…,n2)相互独立,则:

S x 2 / S y 2 σ 1 2 / σ 2 2 = S x 2 / σ 1 2 S y 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{ S_x^2/S_y^2 }{ \sigma_1^2/\sigma_2^2 }=\frac{ S_x^2/\sigma_1^2 }{ S_y^2/\sigma_2^2 }\sim{F(n_1-1,n_2-1)} σ12/σ22Sx2/Sy2=Sy2/σ22Sx2/σ12F(n11,n21)

其中:

S x 2 = 1 n 1 − 1 ∑ i = 1 n 1 ( X i − X ˉ ) 2 S_x^2=\frac{1}{n_1-1} \sum_{i=1}^{n_1}(X_i-\bar{X})^2 Sx2=n111i=1n1(XiXˉ)2

S y 2 = 1 n 2 − 1 ∑ i = 1 n 2 ( Y i − Y ˉ ) 2 S_y^2=\frac{1}{n_2-1} \sum_{i=1}^{n_2}(Y_i-\bar{Y})^2 Sy2=n211i=1n2(YiYˉ)2

X ˉ = 1 n 1 ∑ i = 1 n 1 X i \bar{X}= \frac{1}{n_1} \sum_{i=1}^{n_1}X_i Xˉ=n11i=1n1Xi

Y ˉ = 1 n 2 ∑ i = 1 n 2 Y i \bar{Y}= \frac{1}{n_2} \sum_{i=1}^{n_2}Y_i Yˉ=n21i=1n2Yi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值