文章目录
第七章 数理统计的基础知识
特殊:部分(样本)推断全体(总体)
7.1 总体与样本
-
概念:
- 总体 population X X X:被研究对象的全体,是一个随机变量。
- 个体:总体中的成员
-
目的:研究总体 X X X 的分布或数字特征。
-
方法:抽样调查——简单随机抽样
-
概念:
-
样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn:样本容量为 n n n 的来自总体 X X X 的简单随机样本
样本是一个 n n n 维随机变量。
-
样本观测值:样本的取值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
-
-
性质: i . i . d . i.i.d. i.i.d.
- 代表性:样本 X i X_i Xi 与考察总体 X X X 同分布。
- 独立性:样本随机变量 X i X_i Xi 相互独立。
总体:一锅汤的味道
样本:一勺汤
使样本满足性质的动作:搅拌均匀
考察动作:品尝
-
-
总体、样本、样本值的关系:
- 只能得到样本值(数据),得不到样本
- 通过样本值推断总体情况
- 总体分布决定样本值的概率规律(样本取到样本值的规律)
-
样本和总体分布的关系:样本视为 n n n 维随机变量
- 总体 X X X 为离散型随机变量:若分布律为 P ( X = x ) = p ( x ) P(X=x)=p(x) P(X=x)=p(x),则 P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = i . i . d . ∏ i = 1 n p ( x i ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)\xlongequal{i.i.d.}\prod\limits_{i=1}^np(x_i) P(X1=x1,X2=x2,...,Xn=xn)i.i.d.i=1∏np(xi)
- 总体 X X X 为连续型随机变量:若密度函数为 f X ( x ) f_X(x) fX(x),则 f ( x 1 , x 2 , . . . , x n ) = i . i . d . ∏ i = 1 n f ( x i ) f(x_1,x_2,...,x_n)\xlongequal{i.i.d.}\prod\limits_{i=1}^nf(x_i) f(x1,x2,...,xn)i.i.d.i=1∏nf(xi)
7.2 三大分布
7.2.1 卡方分布 Chi-square( χ 2 \chi^2 χ2 分布)
n n n 个独立的标准正态分布的平方和
- 定义:样本 X i ∼ N ( 0 , 1 ) , i = 1 , 2 , . . . , n X_i\sim N(0,1),i=1,2,...,n Xi∼N(0,1),i=1,2,...,n,称随机变量 χ 2 = ∑ i = 1 n X i 2 \color{red}\chi^2=\sum\limits_{i=1}^nX_i^2 χ2=i=1∑nXi2 服从自由度为 n n n 的 χ 2 \chi^2 χ2 分布,记为 χ 2 ∼ χ 2 ( n ) \chi^2\sim\chi^2(n) χ2∼χ2(n)。
- 密度函数:有 χ 2 ( n ) = Γ ( n 2 , 1 2 ) \chi^2(n)=\Gamma(\dfrac{n}{2},\dfrac{1}{2}) χ2(n)=Γ(2n,21),即密度函数 f ( x , n ) = { 1 2 n 2 Γ ( n 2 ) x n 2 − 1 e − x 2 , x > 0 0 , x ≤ 0 \color{red}f(x,n)=\begin{cases}\begin{aligned}&\dfrac{1}{2^{n\over 2}\Gamma(\dfrac{n}{2})}x^{{n\over 2}-1}e^{-{x\over 2}}, &x>0 \\&0,&x\le 0\end{aligned} \end{cases} f(x,n)=⎩⎪⎪⎨⎪⎪⎧22nΓ(2n)1x2n−1e−2x,0,x>0x≤0
-
性质:
- 可加性:设 χ 1 2 ∼ χ 2 ( n ) , χ 2 2 ∼ χ 2 ( m ) \chi^2_1\sim \chi^2(n),\chi^2_2\sim \chi^2(m) χ12∼χ2(n),χ22∼χ2(m),且 χ 1 2 , χ 2 2 \chi^2_1,\chi^2_2 χ12,χ22 相互独立,则 χ 1 2 + χ 2 2 ∼ χ 2 ( n + m ) \color{red}\chi^2_1+\chi^2_2\sim \chi^2(n+m) χ12+χ22∼χ2(n+m)
证明:由 Γ \Gamma Γ 分布可加性可知
7.2.2 学生氏分布 Student( t t t 分布)
- 定义:设 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X\sim N(0,1),Y\sim\chi^2(n) X∼N(0,1),Y∼χ2(n),且 X X X 与 Y Y Y 相互独立,称随机变量 t = X Y \color{red}t=\dfrac{X}{\sqrt{Y}} t=YX 服从自由度为 n n n 的 t t t 分布,记为 t ∼ t ( n ) t\sim t(n) t∼t(n)。
- 密度函数: t ( x , n ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + x 2 n ) − n + 1 2 , x ∈ R \color{red}t(x,n)=\dfrac{\Gamma(\dfrac{n+1}{2})}{\sqrt{n\pi}\Gamma(\dfrac{n}{2})}\left(1+\dfrac{x^2}{n}\right)^{-{n+1\over2}},\quad x\in R t(x,n)=nπΓ(2n)Γ(2n+1)(1+nx2)−2n+1,x∈R
-
性质:
-
偶函数:对称于纵轴
-
期望: E ( t ) = { 不 存 在 , n = 1 0 , n ≥ 2 E(t)=\begin{cases}\begin{aligned}&不存在, &n=1 \\&0,&n\ge2\end{aligned} \end{cases} E(t)={不存在,0,n=1n≥2
-
渐近正态性:当 n ⟶ ∞ n\longrightarrow \infty n⟶∞ 时,有 lim n → ∞ t ( x , n ) = 1 2 π e − x 2 2 , x ∈ R \lim\limits_{n\rightarrow \infty}t(x,n)=\dfrac{1}{\sqrt{2\pi}}e^{-{x^2\over 2}},\quad x\in R n→∞limt(x,n)=2π1e−2x2,x∈R. 即当 n ≥ 45 n\ge 45 n≥45 时, t ( n ) ∼ N ( 0 , 1 ) \color{red}t(n)\sim N(0,1) t(n)∼N(0,1).
-
7.2.3 F分布
1924年英国统计学家 R.A.Fisher 提出
- 定义:设 X ∼ χ 2 ( n ) , Y ∼ χ 2 ( m ) X\sim \chi^2(n),Y\sim\chi^2(m) X∼χ2(n),Y∼χ2(m),且 X X X 与 Y Y Y 相互独立,称随机变量 F = X / n Y / m \color{red}F=\dfrac{X/n}{Y/m} F=Y/mX/n 服从自由度为 ( n , m ) (n,m) (n,m) 的 F F F 分布,记为 F ∼ F ( n , m ) F\sim F(n,m) F∼F(n,m)。其中 n n n 为第一自由度, m m m 为第二自由度。
- 密度函数: F ( x , n , m ) = { Γ ( n + m 2 ) Γ ( n 2 ) Γ ( m 2 ) ( n m ) n 2 x n 2 − 1 ( 1 + n m x ) − n + m 2 , x > 0 0 , x ≤ 0 \color{red}F(x,n,m)=\begin{cases}\begin{aligned}&\dfrac{\Gamma\left(\dfrac{n+m}{2}\right)}{\Gamma\left(\dfrac{n}{2}\right)\Gamma\left(\dfrac{m}{2}\right)}\left(\dfrac{n}{m}\right)^{n\over 2}x^{{n\over2}-1}\left(1+\dfrac{n}{m}x \right)^{-{n+m\over 2}} , &x>0 \\&0,&x\le 0\end{aligned} \end{cases} F(x,n,m)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧Γ(2n)Γ(2m)Γ(2n+m)(mn)2nx2n−1(1+mnx)−2n+m,0,x>0x≤0
- 性质:
- 若 F ∼ F ( n , m ) F\sim F(n,m) F∼F(n,m),则 1 F ∼ F ( m , n ) \dfrac{1}{F}\sim F(m,n) F1∼F(m,n)
7.2.4 分位点 Quantile
-
定义:若实数 a p a_p ap 满足 F ( a p ) = P ( X ≤ a p ) = p \color{red}F(a_p)=P(X\le a_p)=p F(ap)=P(X≤ap)=p,称 a p a_p ap 为 X X X 分布的(下侧) p p p 分位点。
- 中位数 median:当 p = 1 2 p=\dfrac{1}{2} p=21 时, a 1 2 a_{1\over 2} a21 称为中位数
-
常见 p p p 分位点:
-
正态分布 u p u_p up: − u p = u 1 − p -u_p=u_{1-p} −up=u1−p
-
卡方分布 χ p 2 ( n ) \chi_p^2(n) χp2(n): χ p 2 ( n ) ≈ 1 2 ( u p + 2 n − 1 ) 2 \chi_p^2(n)\approx \dfrac{1}{2}(u_p+\sqrt{2n-1})^2 χp2(n)≈21(up+2n−1)2
-
t t t 分布 t p ( n ) t_p(n) tp(n): t p ( n ) ≈ u p t_p(n)\approx u_p tp(n)≈up
-
F F F 分布 F p ( n , m ) F_p(n,m) Fp(n,m): F p ( n , m ) = 1 F 1 − p ( n , m ) F_p(n,m)=\dfrac{1}{F_{1-p}(n,m)} Fp(n,m)=F1−p(n,m)1
例 \color{White}\colorbox{Fuchsia}{例} 例: u 0.975 = 1.96 , χ 0.99 2 ( 10 ) = 23.209 , t 0.95 ( 6 ) = 1.9432 , F 0.05 ( 15 , 10 ) = 0.394 u_{0.975}=1.96,\chi_{0.99}^2(10)=23.209,t_{0.95}(6)=1.9432,F_{0.05}(15,10)=0.394 u0.975=1.96,χ0.992(10)=23.209,t0.95(6)=1.9432,F0.05(15,10)=0.394
-
7.3 统计量与抽样分布定理
7.3.1 统计量
统计量:样本( n n n 维随机变量)的某个函数
-
概念:
-
样本函数:样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 的一个连续随机变量函数 g ( X 1 , X 2 , . . . , X n ) g(X_1,X_2,...,X_n) g(X1,X2,...,Xn)
-
统计量:不含未知参数的样本函数 g ( X 1 , X 2 , . . . , X n ) g(X_1,X_2,...,X_n) g(X1,X2,...,Xn)
统计量是一个随机变量
-
统计量的观测值:代入样本观测值后的 g ( x 1 , x 2 , . . . , x n ) g(x_1,x_2,...,x_n) g(x1,x2,...,xn)
统计量的观测值是实数
-
-
常见统计量:
- 样本均值: X ‾ = 1 n ∑ i = 1 n X i = M 1 \overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^nX_i=M_1 X=n1i=1∑nXi=M1
- 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ≠ C 2 S^2=\dfrac{1}{\color{red}n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\ne C_2 S2=n−11i=1∑n(Xi−X)2=C2
- 样本 k k k 阶原点矩: M k = 1 n ∑ i = 1 n X i k M_k=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^k Mk=n1i=1∑nXik
- 样本 k k k 阶中心矩: C k = 1 n ∑ i = 1 n ( X i − X ‾ ) k C_k=\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k Ck=n1i=1∑n(Xi−X)k
7.3.2 抽样分布定理
抽样分布定理:已知总体分布,常用统计量与样本函数的分布结果
-
一个正态总体下的抽样分布定理:样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
-
样本均值:
- X ‾ ∼ N ( μ , σ 2 n ) \overline{X}\sim N(\mu,\dfrac{\sigma^2}{n}) X∼N(μ,nσ2)
- X ‾ − μ σ / n ∼ N ( 0 , 1 ) \dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) σ/nX−μ∼N(0,1)
- 推论(显然):样本 X i X_i Xi 来自任何总体,都有 E ( X ‾ ) = E ( X ) , D ( X ‾ ) = D ( X ) n E(\overline{X})=E(X),D(\overline{X})=\dfrac{D(X)}{n} E(X)=E(X),D(X)=nD(X)
-
自由度为 ( n − 1 ) (n-1) (n−1) 的 χ 2 \chi^2 χ2 分布:
- ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \dfrac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
- X ‾ \overline{X} X 与 S 2 S^2 S2 相互独立
- 等价表达式(偏差平方和): ( n − 1 ) S 2 = ∑ i = 1 n ( X i − X ‾ ) 2 = n B 2 (n-1)S^2=\sum\limits_{i=1}^n(X_i-\overline{X})^2=nB_2 (n−1)S2=i=1∑n(Xi−X)2=nB2
-
自由度为 ( n − 1 ) (n-1) (n−1) 的 t t t 分布:
-
t = X ‾ − μ S / n ∼ t ( n − 1 ) t=\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) t=S/nX−μ∼t(n−1)
证明:
∵ X ‾ 与 S 2 独 立 , 从 而 U = X ‾ − μ σ / n ∼ N ( 0 , 1 ) 与 V = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) 独 立 ∴ t = U V n − 1 = X ‾ − μ σ / n ( n − 1 ) S 2 σ 2 n − 1 = X ‾ − μ S / n ∼ t ( n − 1 ) \because \overline{X}与S^2独立,从而U=\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)与V=\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1) 独立\\ \therefore t=\dfrac{U}{\sqrt{\dfrac{V}{n-1}}}=\dfrac{\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\dfrac{\dfrac{(n-1)S^2}{\sigma^2}}{n-1}}}=\dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) ∵X与S2独立,从而U=σ/nX−μ∼N(0,1)与V=σ2(n−1)S2∼χ2(n−1)独立∴t=n−1VU=n−1σ2(n−1)S2σ/nX−μ=S/nX−μ∼t(n−1) -
推论:样本 X i X_i Xi 来自任何总体 X X X,都有 E ( X ) = μ , D ( X ) = σ 2 > 0 E(X)=\mu,D(X)=\sigma^2>0 E(X)=μ,D(X)=σ2>0,当 n → ∞ n\rightarrow \infty n→∞ 时,
- X ‾ − μ σ / n ∼ N ( 0 , 1 ) \dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) σ/nX−μ∼N(0,1)
- X ‾ − μ S / n ∼ N ( 0 , 1 ) \dfrac{\overline{X}-\mu}{S/\sqrt{n}}\sim N(0,1) S/nX−μ∼N(0,1)
-
-
-
两个正态总体下的抽样分布定理:两个总体 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22)
- 均值样本之差:
- X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y}\sim N(\mu_1-\mu_2,\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma_2^2}{n_2}) X−Y∼N(μ1−μ2,n1σ12+n2σ22)
- U = X ‾ − Y ‾ − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) U=\dfrac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma^2_1}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) U=n1σ12+n2σ22X−Y−(μ1−μ2)∼N(0,1)
- T = ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) T=\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim t(n_1+n_2-2) T=Swn11+n21(X−Y)−(μ1−μ2)∼t(n1+n2−2),其中 S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\dfrac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22.
- F = S 1 2 / σ 1 2 S 2 / σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F=\dfrac{S_1^2/\sigma_1^2}{S_2/\sigma_2^2}\sim F(n_1-1,n_2-1) F=S2/σ22S12/σ12∼F(n1−1,n2−1).
- 均值样本之差:
例题 \color{White}\colorbox{Fuchsia}{例题} 例题: