文章目录
Chapter 5:充分统计量、点估计及其评价准则
一、充分统计量
Part 1:充分统计量的定义和性质
统计量的引入是为了简化样本的繁杂,但在利用统计量进行统计推断时,一个自然的问题是:我们所用的统计量,是否把样本中所有的有效信息全部提取出来了?如果某几个统计量,包含了样本中关于我们感兴趣的问题的所有信息,则这几个统计量对我们后面的统计推断会非常有用。这就是充分统计量的来源。
充分统计量的定义:设样本 X \boldsymbol X X 的分布族为 { f ( x ; θ ) : θ ∈ Θ } \{f(x;\theta):\theta\in\Theta\} { f(x;θ):θ∈Θ} ,其中 Θ \Theta Θ 是参数空间。对于统计量 T = T ( X ) T=T(\boldsymbol X) T=T(X) ,若在已知 T T T 的条件下,样本 X \boldsymbol X X 的条件分布与参数 θ \theta θ 无关,则称 T ( X ) T(\boldsymbol X) T(X) 为参数 θ \theta θ 的充分统计量。
在实际应用时,对于连续型随机变量,其条件分布为条件概率密度函数,对于离散型随机变量,其条件分布为条件概率分布列。
基于上述定义,显然可以得到充分统计量具有如下的性质:充分统计量的一一变换仍然是充分统计量。我们可以用一个单值可逆函数来表示一一变换,把这一性质具体写为:如果 T T T 是参数 θ \theta θ 的充分统计量,且 S ( t ) S(t) S(t) 是一个单值可逆函数,则 S ( T ) S(T) S(T) 也是 θ \theta θ 的充分统计量。
证明这个性质也很容易,利用单值可逆函数的性质,即有事件 { S = s } \{S=s\} {
S=s} 与 { T = S − 1 ( s ) } \left\{T=S^{-1}(s)\right\} {
T=S−1(s)} 等价,进而有 { S ∈ A } \{S\in A\} {
S∈A} 与 { T ∈ S − 1 ( A ) } \left\{T\in S^{-1}(A)\right\} {
T∈S−1(A)} 等价,其中 A A A 可以理解为统计量 S ( T ) S(T) S(T) 的取值空间。所以
P ( X 1 < x 1 , X 2 < x 2 , ⋯ , X n < x n ∣ S = s ) = P ( X 1 < x 1 , X 2 < x 2 , ⋯ , X n < x n ∣ T = S − 1 ( s ) ) . P(X_1<x_1,X_2<x_2,\cdots,X_n<x_n|S=s)=P(X_1<x_1,X_2<x_2,\cdots,X_n<x_n|T=S^{-1}(s)) \ . P(X1<x1,X2<x2,⋯,Xn<xn∣S=s)=P(X1<x1,X2<x2,⋯,Xn<xn∣T=S−1(s)) .
比较常用的是,样本均值 X ˉ \bar{X} Xˉ 是某个参数 θ \theta θ 的充分统计量,等价于 ∑ i = 1 n X i \sum\limits_{i=1}^nX_i i=1∑nXi 也是参数 θ \theta θ 的充分统计量。
这里有一个对充分统计量的通俗的理解:设想有两个试验员,试验员甲可观察到样本 ( X 1 , X 2 , ⋯ , X n ) \left(X_1,X_2,\cdots,X_n\right) (X1,X2,⋯,Xn) ,试验员乙只能观察到统计量 T = T ( X 1 , X 2 , ⋯ , X n ) T=T(X_1,X_2,\cdots,X_n) T=T(X1,X2,⋯,Xn) 。如果 T T T 是充分统计量,则他们得到的关于 θ \theta θ 的信息应该是等价的。
Part 2:正态分布的充分统计量
下面我们用一个例子来说明,如何用定义来判断充分统计量。我们来验证在总体方差 σ 2 \sigma^2 σ2 已知的情况下,正态分布的样本均值是一个充分统计量。
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 是来自正态总体 N ( μ , σ 2 ) N\left(\mu,\sigma^2\right) N(μ,σ2) 的 i . i . d . {\rm i.i.d.} i.i.d. 的样本,其中 μ \mu μ 是未知参数, σ 2 \sigma^2 σ2 是已知常数。由上述结论,我们只需验证 T = ∑ i = 1 n X i T=\sum\limits_{i=1}^nX_i T=i=1∑nXi 是 μ \mu μ 的充分统计量。
由于总体分布是连续的,故不易直接计算条件分布,因此我们作正交变换 Y = A X \boldsymbol Y=\boldsymbol A\boldsymbol X Y=AX 。其中 Y = ( Y 1 , Y 2 , ⋯ , Y n ) T \boldsymbol Y=(Y_1,Y_2,\cdots,Y_n)^{\rm T} Y=(Y1,Y2,⋯,Yn)T , A \boldsymbol A A 是第一行为 ( 1 n , 1 n , ⋯ , 1 n ) \left(\frac1{\sqrt{n}},\frac1{\sqrt{n}},\cdots,\frac1{\sqrt{n}}\right) (n1,n1,⋯,n1) 的正交矩阵。具体的变换方式我们在第二节探究正态总体的抽样分布的时候有详细介绍,此时有 Y 1 = T / n Y_1=T/\sqrt{n} Y1=T/n 。由此可知,在给定 T T T 的条件,即为在给定 Y 1 Y_1 Y1 的条件。
由于正交变换是可逆的,且正交矩阵 A \boldsymbol A A 与参数 μ \mu μ 无关,所以 X \boldsymbol X X 和 Y \boldsymbol Y Y 两组样本可以相互转换,没有丢失任何信息。所以,要证在给定 T T T 的条件下, X ∣ T \boldsymbol X|T X∣T 的分布与 μ \mu μ 无关,只需证 Y ∣ Y 1 \boldsymbol Y|Y_1 Y∣Y1 的分布与 μ \mu μ 无关。
我们已知正交变换之后的 Y \boldsymbol Y Y 的分布:
Y 1 ∼ N ( n μ , σ 2 )