参数点估计

点估计是根据样本数据估计总体参数的某个值。矩估计利用样本矩来估计总体矩,例如用样本均值估计总体期望。极大似然估计则是通过最大化样本数据出现的概率来估计参数。在正态分布的例子中,矩估计和极大似然估计都给出了样本均值作为均值μ的估计,样本方差作为方差σ²的估计。
摘要由CSDN通过智能技术生成

点估计


1 点估计

在数理统计中,总体分布未知,因此参数也是未知的。即使总体分布情形已知,由于难以观测到总体中所有个体,也无法精确得到总体参数的具体取值。总体分布的未知参数称为总体参数。例如 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)存在两个未知参数。总体参数的取值存在限制,将总体参数取值范围称为参数空间,记作 Θ \Theta Θ

基于样本数据估计总体的参数有两种方式,一种是点估计,另一种是区间估计,区间估计前面推文已经阐述。这里对点估计进行阐述。点估计是指依据样本估计总体参数的某个值,具体做法就是基于样本数据 X 1 , X 2 … X n X_1,X_2\dots X_n X1,X2Xn构造某个函数 h ( X 1 , X 2 … X n ) h(X_1,X_2\dots X_n) h(X1,X2Xn),并用这个函数 h h h来估计总体参数 θ \theta θ。其中函数 h h h称为统计量,它是关于样本观测的函数,不含任何未知参数。显然统计量 h h h也是随机变量,因为它是关于 n n n维随机变量 ( X 1 , X 2 … X n ) (X_1,X_2\dots X_n) (X1,X2Xn)的函数。使用统计量的某个函数 g ( h ) g(h) g(h)对总体参数 θ \theta θ进行表示, g ( h ) g(h) g(h)称为 θ \theta θ的估计量。某一次抽样得到的具体观测 X 1 = x 1 , X 2 = x 2 … X n = x n X_1=x_1,X_2=x_2\dots X_n =x_n X1=x1,X2=x2Xn=xn可以计算出统计量 h h h的具体的值,进而得到参数 θ \theta θ的具体估计值 g ( h ) g(h) g(h),记作 θ ^ ( x 1 , x 2 , … x n ) \hat{\theta}(x_1,x_2,\dots x_n) θ^(x1,x2,xn)。常用的点估计包括矩估计极大似然估计


2 矩估计

矩估计是指用样本矩替换总体矩,进而对总体未知参数进行估计。例如使用样本均值代替总体期望,使用样本 k k k阶原点矩替换总体 k k k阶原点矩,使用样本 k k k阶中心矩替换总体 k k k阶中心矩等。
1 n ∑ i = 1 n x i → E ( X ) ; 1 n ∑ i = 1 n x i k → E ( X k ) ; 1 n ∑ i = 1 n ( x i − x ˉ ) k → E ( ( X − E ( X ) ) k ) \dfrac{1}{n}\sum_{i=1}^nx_i\to E(X);\dfrac{1}{n}\sum_{i=1}^nx^k_i\to E(X^k);\dfrac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^k\to E((X-E(X))^k) n1i=1nxiE(X);n1i=1nxikE(Xk);n1i=1n(xixˉ)kE((XE(X))k)
例如,为估计样本方差,使用方差计算公式
D ( X ) = E ( X 2 ) − ( E X ) 2 D(X)=E(X^2)-(EX)^2 D(X)=E(X2)(EX)2
将公式右端替换为对应的样本矩,则方差估计为
σ ^ 2 = 1 n ∑ i = 1 n X i 2 − X ˉ = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 \hat{\sigma}^2 =\dfrac{1}{n}\sum_{i=1}^nX^2_i-\bar{X} =\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2 σ^2=n1i=1nXi2Xˉ=n1i=1n(XiXˉ)2


例:已知随机扰动项 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) εN(0,σ2), Y = a + b X + ε Y = a+bX+\varepsilon Y=a+bX+ε,且 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0,使用矩方法求估计量 a , b a,b a,b

已知 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim N(0,\sigma^2) εN(0,σ2),因此 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,第一个矩方程:
E ( Y − a − b X ) = 0 ⇒ E ( Y ) = a + b E ( X ) E(Y-a-bX)=0 \Rightarrow E(Y)=a+bE(X) E(YabX)=0E(Y)=a+bE(X)
使用样本矩替换总体矩得到
1 n ∑ i = 1 n y i = a + b 1 n ∑ i = 1 n x i \dfrac{1}{n}\sum_{i=1}^ny_i=a+b\dfrac{1}{n}\sum_{i=1}^nx_i n1i=1nyi=a+bn1i=1nxi
或者
y ˉ = a + b x ˉ \bar{y} = a+b\bar{x} yˉ=a+bxˉ


该矩方程包括两个未知量 a , b a,b a,b,因此至少还要寻找一个矩方程才可识别 a , b a,b a,b c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0表明 X X X ε \varepsilon ε不相关,则根据协方差计算公式
c o v ( X , ε ) = E ( X ε ) − E ( X ) E ( ε ) = E ( X ε ) = E ( X ( Y − a − b X ) ) = E ( X Y ) − a E ( X ) − b E ( X 2 ) = 0 \begin{aligned} cov(X,\varepsilon)=&E(X\varepsilon)-E(X)E(\varepsilon) \\ =& E(X\varepsilon)=E(X(Y-a-bX))\\ =& E(XY)-aE(X)-bE(X^2)=0 \end{aligned} cov(X,ε)===E()E(X)E(ε)E()=E(X(YabX))E(XY)aE(X)bE(X2)=0
于是得到第二个样本矩方程
x ˉ a + b 1 n ∑ i = 1 n x i 2 = 1 n ∑ i = 1 n x i y i \bar{x } a+b\dfrac{1}{n}\sum_{i=1}^nx^2_i =\dfrac{1}{n}\sum_{i=1}^nx_iy_i xˉa+bn1i=1nxi2=n1i=1nxiyi


联立上述两个矩方程求解出 a , b a,b a,b
b = 1 n ∑ x i y i − x ˉ y ˉ 1 n ∑ x i 2 − x ˉ 2 = ∑ ( x − x ˉ ) ( y − y ˉ ) ∑ ( x − x ˉ ) 2 = c o v ( x , y ) v a r ( x ) b = \dfrac{\dfrac{1}{n}\sum x_iy_i-\bar{x}\bar{y}}{\dfrac{1}{n}\sum x_i^2-\bar{x}^2}=\dfrac{\sum(x-\bar{x})(y-\bar{y})}{\sum(x-\bar{x})^2} = \dfrac{cov(x,y)}{var(x)} b=n1xi2xˉ2n1xiyixˉyˉ=(xxˉ)2(xxˉ)(yyˉ)=var(x)cov(x,y)

a = b x ˉ − y ˉ a = b\bar{x}-\bar{y} a=bxˉyˉ

上述结果表明,如果没有条件 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0,无法识别 a , b a,b a,b,其中条件 c o v ( X , ε ) = 0 cov(X,\varepsilon)=0 cov(X,ε)=0表明 X X X不存在内生性


3 极大似然估计

( X 1 , X 2 … X n ) (X_1,X_2\dots X_n) (X1,X2Xn)是来自 X X X总体的一个样本, X i X_i Xi的概率密度为 f ( x i , θ ) f(x_i,\theta) f(xi,θ),其中 θ \theta θ是总体分布的参数, θ ∈ Θ \theta\in \Theta θΘ。假设随机变量 X i X_i Xi满足独立特性,即 X i X_i Xi服从独立同分分布,则 n n n维随机变量 ( X 1 , X 2 … X n ) (X_1,X_2\dots X_n) (X1,X2Xn)联合概率密度函数为、
L ( θ ; x 1 , ⋯   , x n ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Θ L\left(\theta ; x_1, \cdots, x_n\right)= \prod_{i=1}^n f\left(x_i ; \theta\right), \quad \theta \in \Theta L(θ;x1,,xn)=i=1nf(xi;θ),θΘ
X X X为离散型,

L ( θ ) = ∏ i = 1 n f ( x i ; θ ) = P ( X 1 = x 1 , ⋯   , X n = x n ) L(\theta)=\prod_{i=1}^n f\left(x_i ; \theta\right)=P\left(X_1=x_1, \cdots, X_n=x_n\right) L(θ)=i=1nf(xi;θ)=P(X1=x1,,Xn=xn)
如果存在 θ ^ = θ ^ ( x 1 , x 2 … x n ) \hat{\theta} = \hat{\theta}(x_1,x_2\dots x_n) θ^=θ^(x1,x2xn),使得 L ( θ ) L(\theta) L(θ)的值最大,即联合概率密度函数值最大,则称 θ ^ = θ ^ ( x 1 , x 2 … x n ) \hat{\theta} = \hat{\theta}(x_1,x_2\dots x_n) θ^=θ^(x1,x2xn) θ \theta θ的一个极大似然估计值, θ ^ = θ ^ ( X 1 , X 2 … X n ) \hat{\theta} = \hat{\theta}(X_1,X_2\dots X_n) θ^=θ^(X1,X2Xn) θ \theta θ的极大似然估计量。

😀极大似然估计认为:给定什么样的总体参数,使当前抽取的样本的概率最大;为点估计总体参数,最大化样本联合概率密度函数(极大似然函数)来解估计总体参数。

😋矩估计的思想:随着样本容量增加,样本矩将概率收敛到总体矩,因此使用样本矩来替换总体矩,通过构建矩方程来求解估计总体未知参数。


为求解估计总体参数 θ \theta θ,对极大似然函数取对数得到
ln ⁡ L ( θ ; x 1 , ⋯   , x n ) = ∑ i = 1 n f ( x i ; θ ) , θ ∈ Θ \ln L\left(\theta ; x_1, \cdots, x_n\right)= \sum_{i=1}^n f\left(x_i ; \theta\right), \quad \theta \in \Theta lnL(θ;x1,,xn)=i=1nf(xi;θ),θΘ
最大化 ln ⁡ L \ln L lnL,计算 ln ⁡ L \ln L lnL关于参数 θ \theta θ的梯度,并等于0
∇ θ ln ⁡ L ( θ ; x 1 , ⋯   , x n ) = 0 \nabla_\theta \ln L\left(\theta ; x_1, \cdots, x_n\right) =0 θlnL(θ;x1,,xn)=0
进而求解出关于总体参数的各估计量 ( θ ^ 1 … θ ^ k ) (\hat{\theta}_1\dots \hat{\theta}_k) (θ^1θ^k)


例:设 X i ∼ N ( μ , σ 2 ) , i = 1 , … n X_i \sim N(\mu,\sigma^2),i = 1,\dots n XiN(μ,σ2),i=1,n μ ∈ R \mu\in R μR, σ 2 > 0 \sigma^2>0 σ2>0,用极大似然方法估计 μ , σ 2 \mu,\sigma^2 μ,σ2

第一步:写出极大似然函数
L ( μ , σ 2 ) = ( 2 π σ 2 ) − n 2 exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 } . L\left(\mu, \sigma^2\right)=\left(2 \pi \sigma^2\right)^{-\frac{n}{2}} \exp \left\{-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2\right\} . L(μ,σ2)=(2πσ2)2nexp{2σ21i=1n(xiμ)2}.
取对数化简
ln ⁡ L ( μ , σ 2 ) = − n 2 ln ⁡ ( 2 π ) − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 . \ln L\left(\mu, \sigma^2\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2 . lnL(μ,σ2)=2nln(2π)2nlnσ22σ21i=1n(xiμ)2.
第二步:对各总体参数求导
{ ∂ ∂ μ ln ⁡ L ( μ , σ 2 ) = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 , ∂ ∂ σ 2 ln ⁡ L ( μ , σ 2 ) = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 , \left\{\begin{array}{l} \frac{\partial}{\partial \mu} \ln L\left(\mu, \sigma^2\right)=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0, \\ \\ \frac{\partial}{\partial \sigma^2} \ln L\left(\mu, \sigma^2\right)=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0, \end{array}\right. μlnL(μ,σ2)=σ21i=1n(xiμ)=0,σ2lnL(μ,σ2)=2σ2n+2σ41i=1n(xiμ)2=0,
计算得到
μ = x ˉ , σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = s n 2 \mu=\bar{x}, \sigma^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=s_n^2 μ=xˉ,σ2=n1i=1n(xixˉ)2=sn2


参考书籍:《概率论与数理统计》,上海:同济大学出版社,2015


-END-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值