点估计
1 点估计
在数理统计中,总体分布未知,因此参数也是未知的。即使总体分布情形已知,由于难以观测到总体中所有个体,也无法精确得到总体参数的具体取值。总体分布的未知参数称为总体参数。例如 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)存在两个未知参数。总体参数的取值存在限制,将总体参数取值范围称为参数空间,记作 Θ \Theta Θ。
基于样本数据估计总体的参数有两种方式,一种是点估计,另一种是区间估计,区间估计前面推文已经阐述。这里对点估计进行阐述。点估计是指依据样本估计总体参数的某个值,具体做法就是基于样本数据 X 1 , X 2 … X n X_1,X_2\dots X_n X1,X2…Xn构造某个函数 h ( X 1 , X 2 … X n ) h(X_1,X_2\dots X_n) h(X1,X2…Xn),并用这个函数 h h h来估计总体参数 θ \theta θ。其中函数 h h h称为统计量,它是关于样本观测的函数,不含任何未知参数。显然统计量 h h h也是随机变量,因为它是关于 n n n维随机变量 ( X 1 , X 2 … X n ) (X_1,X_2\dots X_n) (X1,X2…Xn)的函数。使用统计量的某个函数 g ( h ) g(h) g(h)对总体参数 θ \theta θ进行表示, g ( h ) g(h) g(h)称为 θ \theta θ的估计量。某一次抽样得到的具体观测 X 1 = x 1 , X 2 = x 2 … X n = x n X_1=x_1,X_2=x_2\dots X_n =x_n X1=x1,X2=x2…Xn=xn可以计算出统计量 h h h的具体的值,进而得到参数 θ \theta θ的具体估计值 g ( h ) g(h) g(h),记作 θ ^ ( x 1 , x 2 , … x n ) \hat{\theta}(x_1,x_2,\dots x_n) θ^(x1,x2,…xn)。常用的点估计包括矩估计和极大似然估计。
2 矩估计
矩估计是指用样本矩替换总体矩,进而对总体未知参数进行估计。例如使用样本均值代替总体期望,使用样本
k
k
k阶原点矩替换总体
k
k
k阶原点矩,使用样本
k
k
k阶中心矩替换总体
k
k
k阶中心矩等。
1
n
∑
i
=
1
n
x
i
→
E
(
X
)
;
1
n
∑
i
=
1
n
x
i
k
→
E
(
X
k
)
;
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
k
→
E
(
(
X
−
E
(
X
)
)
k
)
\dfrac{1}{n}\sum_{i=1}^nx_i\to E(X);\dfrac{1}{n}\sum_{i=1}^nx^k_i\to E(X^k);\dfrac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^k\to E((X-E(X))^k)
n1i=1∑nxi→E(X);n1i=1∑nxik→E(Xk);n1i=1∑n(xi−xˉ)k→E((X−E(X))k)
例如,为估计样本方差,使用方差计算公式
D
(
X
)
=
E
(
X
2
)
−
(
E
X
)
2
D(X)=E(X^2)-(EX)^2
D(X)=E(X2)−(EX)2
将公式右端替换为对应的样本矩,则方差估计为
σ
^
2
=
1
n
∑
i
=
1
n
X
i
2
−
X
ˉ
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
\hat{\sigma}^2 =\dfrac{1}{n}\sum_{i=1}^nX^2_i-\bar{X} =\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2
σ^2=n1i=1∑nXi2−Xˉ=n1i=1∑n(Xi−Xˉ)2
例:已知随机扰动项 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) ε∼N(0,σ2), Y = a + b X + ε Y = a+bX+\varepsilon Y=a+bX+ε,且 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0,使用矩方法求估计量 a , b a,b a,b。
已知 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) ε∼N(0,σ2),因此 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,第一个矩方程:
E ( Y − a − b X ) = 0 ⇒ E ( Y ) = a + b E ( X ) E(Y-a-bX)=0 \Rightarrow E(Y)=a+bE(X) E(Y−a−bX)=0⇒E(Y)=a+bE(X)
使用样本矩替换总体矩得到
1 n ∑ i = 1 n y i = a + b 1 n ∑ i = 1 n x i \dfrac{1}{n}\sum_{i=1}^ny_i=a+b\dfrac{1}{n}\sum_{i=1}^nx_i n1i=1∑nyi=a+bn1i=1∑nxi
或者
y ˉ = a + b x ˉ \bar{y} = a+b\bar{x} yˉ=a+bxˉ
该矩方程包括两个未知量 a , b a,b a,b,因此至少还要寻找一个矩方程才可识别 a , b a,b a,b。 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0表明 X X X和 ε \varepsilon ε不相关,则根据协方差计算公式
c o v ( X , ε ) = E ( X ε ) − E ( X ) E ( ε ) = E ( X ε ) = E ( X ( Y − a − b X ) ) = E ( X Y ) − a E ( X ) − b E ( X 2 ) = 0 \begin{aligned} cov(X,\varepsilon)=&E(X\varepsilon)-E(X)E(\varepsilon) \\ =& E(X\varepsilon)=E(X(Y-a-bX))\\ =& E(XY)-aE(X)-bE(X^2)=0 \end{aligned} cov(X,ε)===E(Xε)−E(X)E(ε)E(Xε)=E(X(Y−a−bX))E(XY)−aE(X)−bE(X2)=0
于是得到第二个样本矩方程
x ˉ a + b 1 n ∑ i = 1 n x i 2 = 1 n ∑ i = 1 n x i y i \bar{x } a+b\dfrac{1}{n}\sum_{i=1}^nx^2_i =\dfrac{1}{n}\sum_{i=1}^nx_iy_i xˉa+bn1i=1∑nxi2=n1i=1∑nxiyi
联立上述两个矩方程求解出 a , b a,b a,b
b = 1 n ∑ x i y i − x ˉ y ˉ 1 n ∑ x i 2 − x ˉ 2 = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 = c o v ( x , y ) v a r ( x ) b = \dfrac{\dfrac{1}{n}\sum x_iy_i-\bar{x}\bar{y}}{\dfrac{1}{n}\sum x_i^2-\bar{x}^2}=\dfrac{\sum(x-\bar{x})(y-\bar{y})}{\sum(x-\bar{x})^2} = \dfrac{cov(x,y)}{var(x)} b=n1∑xi2−xˉ2n1∑xiyi−xˉyˉ=∑(x−xˉ)2∑(x−xˉ)(y−yˉ)=var(x)cov(x,y)a = b x ˉ − y ˉ a = b\bar{x}-\bar{y} a=bxˉ−yˉ
上述结果表明,如果没有条件 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0,无法识别 a , b a,b a,b,其中条件 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0表明 X X X不存在内生性。
3 极大似然估计
设
(
X
1
,
X
2
…
X
n
)
(X_1,X_2\dots X_n)
(X1,X2…Xn)是来自
X
X
X总体的一个样本,
X
i
X_i
Xi的概率密度为
f
(
x
i
,
θ
)
f(x_i,\theta)
f(xi,θ),其中
θ
\theta
θ是总体分布的参数,
θ
∈
Θ
\theta\in \Theta
θ∈Θ。假设随机变量
X
i
X_i
Xi满足独立特性,即
X
i
X_i
Xi服从独立同分分布,则
n
n
n维随机变量
(
X
1
,
X
2
…
X
n
)
(X_1,X_2\dots X_n)
(X1,X2…Xn)联合概率密度函数为、
L
(
θ
;
x
1
,
⋯
,
x
n
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
,
θ
∈
Θ
L\left(\theta ; x_1, \cdots, x_n\right)= \prod_{i=1}^n f\left(x_i ; \theta\right), \quad \theta \in \Theta
L(θ;x1,⋯,xn)=i=1∏nf(xi;θ),θ∈Θ
当
X
X
X为离散型,
L
(
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
=
P
(
X
1
=
x
1
,
⋯
,
X
n
=
x
n
)
L(\theta)=\prod_{i=1}^n f\left(x_i ; \theta\right)=P\left(X_1=x_1, \cdots, X_n=x_n\right)
L(θ)=i=1∏nf(xi;θ)=P(X1=x1,⋯,Xn=xn)
如果存在
θ
^
=
θ
^
(
x
1
,
x
2
…
x
n
)
\hat{\theta} = \hat{\theta}(x_1,x_2\dots x_n)
θ^=θ^(x1,x2…xn),使得
L
(
θ
)
L(\theta)
L(θ)的值最大,即联合概率密度函数值最大,则称
θ
^
=
θ
^
(
x
1
,
x
2
…
x
n
)
\hat{\theta} = \hat{\theta}(x_1,x_2\dots x_n)
θ^=θ^(x1,x2…xn)为
θ
\theta
θ的一个极大似然估计值,
θ
^
=
θ
^
(
X
1
,
X
2
…
X
n
)
\hat{\theta} = \hat{\theta}(X_1,X_2\dots X_n)
θ^=θ^(X1,X2…Xn)是
θ
\theta
θ的极大似然估计量。
😀极大似然估计认为:给定什么样的总体参数,使当前抽取的样本的概率最大;为点估计总体参数,最大化样本联合概率密度函数(极大似然函数)来解估计总体参数。
😋矩估计的思想:随着样本容量增加,样本矩将概率收敛到总体矩,因此使用样本矩来替换总体矩,通过构建矩方程来求解估计总体未知参数。
为求解估计总体参数
θ
\theta
θ,对极大似然函数取对数得到
ln
L
(
θ
;
x
1
,
⋯
,
x
n
)
=
∑
i
=
1
n
f
(
x
i
;
θ
)
,
θ
∈
Θ
\ln L\left(\theta ; x_1, \cdots, x_n\right)= \sum_{i=1}^n f\left(x_i ; \theta\right), \quad \theta \in \Theta
lnL(θ;x1,⋯,xn)=i=1∑nf(xi;θ),θ∈Θ
最大化
ln
L
\ln L
lnL,计算
ln
L
\ln L
lnL关于参数
θ
\theta
θ的梯度,并等于0
∇
θ
ln
L
(
θ
;
x
1
,
⋯
,
x
n
)
=
0
\nabla_\theta \ln L\left(\theta ; x_1, \cdots, x_n\right) =0
∇θlnL(θ;x1,⋯,xn)=0
进而求解出关于总体参数的各估计量
(
θ
^
1
…
θ
^
k
)
(\hat{\theta}_1\dots \hat{\theta}_k)
(θ^1…θ^k)。
例:设 X i ∼ N ( μ , σ 2 ) , i = 1 , … n X_i \sim N(\mu,\sigma^2),i = 1,\dots n Xi∼N(μ,σ2),i=1,…n, μ ∈ R \mu\in R μ∈R, σ 2 > 0 \sigma^2>0 σ2>0,用极大似然方法估计 μ , σ 2 \mu,\sigma^2 μ,σ2。
第一步:写出极大似然函数
L ( μ , σ 2 ) = ( 2 π σ 2 ) − n 2 exp { − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 } . L\left(\mu, \sigma^2\right)=\left(2 \pi \sigma^2\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2\right\} . L(μ,σ2)=(2πσ2)−2nexp{−2σ21i=1∑n(xi−μ)2}.
取对数化简
ln L ( μ , σ 2 ) = − n 2 ln ( 2 π ) − n 2 ln σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 . \ln L\left(\mu, \sigma^2\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2 . lnL(μ,σ2)=−2nln(2π)−2nlnσ2−2σ21i=1∑n(xi−μ)2.
第二步:对各总体参数求导
{ ∂ ∂ μ ln L ( μ , σ 2 ) = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 , ∂ ∂ σ 2 ln L ( μ , σ 2 ) = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 , \left\{\begin{array}{l} \frac{\partial}{\partial \mu} \ln L\left(\mu, \sigma^2\right)=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0, \\ \\ \frac{\partial}{\partial \sigma^2} \ln L\left(\mu, \sigma^2\right)=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0, \end{array}\right. ⎩ ⎨ ⎧∂μ∂lnL(μ,σ2)=σ21∑i=1n(xi−μ)=0,∂σ2∂lnL(μ,σ2)=−2σ2n+2σ41∑i=1n(xi−μ)2=0,
计算得到
μ = x ˉ , σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = s n 2 \mu=\bar{x}, \sigma^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=s_n^2 μ=xˉ,σ2=n1i=1∑n(xi−xˉ)2=sn2
参考书籍:《概率论与数理统计》,上海:同济大学出版社,2015