点估计
设总体 X X X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体 X X X的一个样本来估计总体未知参数的值得问题称为参数的点估计问题。
举例:
某炸药厂,一天中发生着火现象的次数
X
X
X是一个随机变量,假设
X
X
X服从
λ
>
0
\lambda>0
λ>0泊松分布,即
X
∼
π
(
λ
)
X \sim \pi(\lambda)
X∼π(λ)。根据现有的样本量估计参数
λ
\lambda
λ
着火次数k | 0 1 2 3 4 5 6 >=7 |
---|---|
发生k次着火的天数 | 75 90 54 22 6 2 1 0 |
根据
λ
=
E
(
X
)
\lambda=E(X)
λ=E(X),以上的数据表示
X
=
0
X=0
X=0出现了75次,
X
=
1
X=1
X=1出现了90次…,一共有250个样本
E
(
X
)
=
0
×
75
+
1
×
90
+
2
×
54
+
3
×
22
+
4
×
6
+
5
×
2
+
6
×
1
250
=
1.22
E(X)=\frac{0 \times 75+1 \times 90 +2 \times 54+3 \times 22 +4 \times 6 + 5 \times 2+ 6 \times 1}{250}=1.22
E(X)=2500×75+1×90+2×54+3×22+4×6+5×2+6×1=1.22
所以估计参数
λ
=
1.22
\lambda=1.22
λ=1.22
点估计:设总体
X
X
X的分布函数
F
(
x
;
θ
)
F(x;\theta)
F(x;θ)的形式为已知,
θ
\theta
θ是待估参数,
X
1
,
X
2
,
.
.
.
,
X
n
X_{1},X_{2},...,X_{n}
X1,X2,...,Xn是
X
X
X的一个样本,
x
1
,
x
2
,
.
.
.
,
x
n
x_{1},x_{2},...,x_{n}
x1,x2,...,xn是对应的样本值。点估计问题是构造出一个适当的统计量
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}(X_{1},X_{2},...,X_{n})
θ^(X1,X2,...,Xn),用它的观察值
θ
^
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\hat{\theta}(x_{1},x_{2},...,x_{n})
θ^(x1,x2,...,xn)作为未知参数
θ
\theta
θ的近似值,称
θ
^
(
X
1
,
X
2
,
.
.
.
,
X
n
)
\hat{\theta}(X_{1},X_{2},...,X_{n})
θ^(X1,X2,...,Xn)为
θ
\theta
θ的估计量,
θ
^
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\hat{\theta}(x_{1},x_{2},...,x_{n})
θ^(x1,x2,...,xn)为
θ
\theta
θ的估计值。
下面介绍两种常用的构造估计量的方法:矩估计和最大似然估计
##矩估计法
设
X
X
X为连续型随机变量,其概率密度为
f
(
x
:
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
f(x:\theta_{1}, \theta_{2},...,\theta_{k})
f(x:θ1,θ2,...,θk);或
X
X
X为离散型随机变量,其概率密度为
P
{
X
=
x
}
=
p
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
P\{X=x\}=p(x;\theta_{1}, \theta_{2},...,\theta_{k})
P{X=x}=p(x;θ1,θ2,...,θk),其其中
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_{1}, \theta_{2},...,\theta_{k}
θ1,θ2,...,θk为待估参数。假设总体
X
X
X前
k
k
k阶矩为:
μ
l
=
E
(
X
l
)
=
∫
−
∞
∞
x
l
f
(
x
:
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
d
x
,
(
X
是
连
续
型
)
\mu_{l}=E(X^{l})=\int_{-\infty}^{\infty}x^{l}f(x:\theta_{1}, \theta_{2},...,\theta_{k}) dx,(X是连续型)
μl=E(Xl)=∫−∞∞xlf(x:θ1,θ2,...,θk)dx,(X是连续型)
μ
l
=
E
(
X
l
)
=
∑
x
∈
R
x
x
l
p
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
,
(
X
是
离
散
型
)
\mu_{l}=E(X^{l})=\sum_{x \in R_{x}}x^{l}p(x;\theta_{1}, \theta_{2},...,\theta_{k}),(X是离散型)
μl=E(Xl)=x∈Rx∑xlp(x;θ1,θ2,...,θk),(X是离散型)
l
=
1
,
2
,
⋯
 
,
k
l=1,2,\cdots,k
l=1,2,⋯,k
其中,
R
x
R_{x}
Rx是
x
x
x可能取值的范围。
X
1
,
X
2
,
.
.
.
,
X
n
X_{1},X_{2},...,X_{n}
X1,X2,...,Xn是来自
X
X
X的样本,样本矩为
A
l
=
1
n
∑
i
=
1
n
X
i
l
A_{l}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{l}
Al=n1i=1∑nXil
样本矩依概率收敛于相应的总体矩
u
l
u_{l}
ul,样本矩的连续函数依概率收敛于相应的总体矩的连续函数。因此,可以使用样本矩作为相应的总体矩的估计量,样本矩的连续函数作为相应的总体矩的连续函数的估计量,此估计法被称为矩估计法。具体做法如下:
{
μ
1
=
μ
1
(
θ
1
,
θ
2
,
⋯
 
,
θ
k
)
μ
2
=
μ
2
(
θ
1
,
θ
2
,
⋯
 
,
θ
k
)
⋯
μ
k
=
μ
k
(
θ
1
,
θ
2
,
⋯
 
,
θ
k
)
\left\{\begin{matrix} \mu_{1}=\mu_{1}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \mu_{2}=\mu_{2}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \cdots\\ \mu_{k}=\mu_{k}(\theta_{1},\theta_{2},\cdots ,\theta_{k}) \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧μ1=μ1(θ1,θ2,⋯,θk)μ2=μ2(θ1,θ2,⋯,θk)⋯μk=μk(θ1,θ2,⋯,θk)
这是包含
k
k
k个未知数
θ
1
,
θ
2
,
⋯
 
,
θ
k
\theta_{1},\theta_{2},\cdots ,\theta_{k}
θ1,θ2,⋯,θk的联立方程组。一般来说,可以得到:
{
θ
1
=
θ
1
(
μ
1
,
μ
2
,
⋯
 
,
μ
k
)
θ
2
=
θ
2
(
μ
1
,
μ
2
,
⋯
 
,
μ
k
)
⋯
θ
k
=
θ
k
(
μ
1
,
μ
2
,
⋯
 
,
μ
k
)
\left\{\begin{matrix} \theta_{1}=\theta_{1}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \theta_{2}=\theta_{2}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \cdots\\ \theta_{k}=\theta_{k}(\mu_{1},\mu_{2},\cdots ,\mu_{k}) \end{matrix}\right.
⎩⎪⎪⎨⎪⎪⎧θ1=θ1(μ1,μ2,⋯,μk)θ2=θ2(μ1,μ2,⋯,μk)⋯θk=θk(μ1,μ2,⋯,μk)
以
A
i
A_{i}
Ai代替上述中的
μ
i
,
i
=
1
,
2
,
⋯
 
,
k
\mu_{i},i=1,2,\cdots,k
μi,i=1,2,⋯,k,可得:
θ
i
^
=
θ
i
(
A
1
,
A
2
,
⋯
 
,
A
k
)
,
i
=
1
,
2
,
⋯
 
,
k
\hat{\theta_{i}}=\theta_{i}(A_{1},A_{2},\cdots, A_{k}),i=1,2,\cdots,k
θi^=θi(A1,A2,⋯,Ak),i=1,2,⋯,k
分别作为
θ
i
,
i
=
1
,
2
,
⋯
 
,
k
\theta_{i},i=1,2,\cdots,k
θi,i=1,2,⋯,k的估计量,称为矩估计量,观察值称为矩估计值。
最大似然估计
离散型
设总体
X
X
X属于离散型,分布律
P
{
X
=
x
}
=
p
(
x
;
θ
)
,
θ
∈
Θ
P\{X=x\}=p(x;\theta),\theta \in \Theta
P{X=x}=p(x;θ),θ∈Θ的形式为已知,
θ
\theta
θ为待估参数,
Θ
\Theta
Θ为
θ
\theta
θ可能取值的范围。设
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots,X_{n}
X1,X2,⋯,Xn为来自
X
X
X的样本,
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn为对应的样本值,它们都是已知的常数。易知样本
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots,X_{n}
X1,X2,⋯,Xn取到
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn的概率,即事件
{
X
1
=
x
1
,
X
2
=
x
2
,
⋯
 
,
X
n
=
x
n
}
\{X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\}
{X1=x1,X2=x2,⋯,Xn=xn}发生的概率为:
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
=
∏
i
=
1
n
p
(
x
i
;
θ
)
,
θ
∈
Θ
L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}p(x_{i};\theta),\theta \in \Theta
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏np(xi;θ),θ∈Θ
概率值随
θ
\theta
θ的取值而变化,是
θ
\theta
θ的函数,
L
(
θ
)
L(\theta)
L(θ)称为样本的似然函数。
现在我们已经取到了样本值
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn,表明取到这一样本值的概率
L
(
θ
)
L(\theta)
L(θ)比较大。当
θ
=
θ
0
∈
Θ
\theta=\theta_{0} \in \Theta
θ=θ0∈Θ时
L
(
θ
)
L(\theta)
L(θ)取得最大值,而
Θ
\Theta
Θ中的其他值使得
L
(
θ
)
L(\theta)
L(θ)取得较小的值,所以认为取
θ
0
\theta_{0}
θ0为未知参数
θ
\theta
θ的估计值最为合理,这就是最大似然估计,即:
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
^
)
=
max
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)
L(x1,x2,⋯,xn;θ^)=θ∈ΘmaxL(x1,x2,⋯,xn;θ)
这样的得到的
θ
^
\hat{\theta}
θ^与样本值
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn有关,常被记为
θ
^
(
x
1
,
x
2
,
⋯
 
,
x
n
)
\hat{\theta}(x_{1},x_{2},\cdots,x_{n})
θ^(x1,x2,⋯,xn),称为参数
θ
\theta
θ的最大似然估计值,统计量
θ
^
(
X
1
,
X
2
,
⋯
 
,
X
n
)
\hat{\theta}(X_{1},X_{2},\cdots,X_{n})
θ^(X1,X2,⋯,Xn)称为参数
θ
\theta
θ的最大似然估计量。
连续型
设总体
X
X
X属于连续型,概率密度
f
(
x
;
θ
)
,
θ
∈
Θ
f(x;\theta),\theta \in \Theta
f(x;θ),θ∈Θ的形式为已知,
θ
\theta
θ为待估参数,
Θ
\Theta
Θ为
θ
\theta
θ可能取值的范围。设
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots,X_{n}
X1,X2,⋯,Xn为来自
X
X
X的样本,
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn为对应的样本值,它们都是已知的常数。易知样本
X
1
,
X
2
,
⋯
 
,
X
n
X_{1},X_{2},\cdots,X_{n}
X1,X2,⋯,Xn取到
x
1
,
x
2
,
⋯
 
,
x
n
x_{1},x_{2},\cdots,x_{n}
x1,x2,⋯,xn的概率,即为随机点
(
X
1
,
X
2
,
⋯
 
,
X
n
)
(X_{1},X_{2},\cdots,X_{n})
(X1,X2,⋯,Xn)落在点
(
x
1
,
x
2
,
⋯
 
,
x
n
)
(x_{1},x_{2},\cdots,x_{n})
(x1,x2,⋯,xn)的邻域(边长分别为
d
x
1
,
d
x
2
,
⋯
 
,
d
x
n
dx_{1},dx_{2},\cdots,dx_{n}
dx1,dx2,⋯,dxn的
n
n
n维立方体)内的概率近似为:
∏
i
=
1
n
f
(
x
i
;
θ
)
d
x
i
\prod_{i=1}^{n}f(x_{i};\theta)dx_{i}
i=1∏nf(xi;θ)dxi
其值随
θ
\theta
θ的变化而变化,取
θ
\theta
θ的估计值
θ
^
\hat{\theta}
θ^使得概率取得最大值,但因子
∏
i
=
1
n
d
x
i
\prod_{i=1}^{n}dx_{i}
∏i=1ndxi与
θ
\theta
θ无关,故只需要考虑函数:
L
(
θ
)
=
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)
L(θ)=L(x1,x2,⋯,xn;θ)=i=1∏nf(xi;θ)
的最大值,
L
(
θ
)
L(\theta)
L(θ)称为样本的似然函数,若
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
^
)
=
max
θ
∈
Θ
L
(
x
1
,
x
2
,
⋯
 
,
x
n
;
θ
)
L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)
L(x1,x2,⋯,xn;θ^)=θ∈ΘmaxL(x1,x2,⋯,xn;θ)
则
θ
^
(
x
1
,
x
2
,
⋯
 
,
x
n
)
\hat{\theta}(x_{1},x_{2},\cdots,x_{n})
θ^(x1,x2,⋯,xn),称为参数
θ
\theta
θ的最大似然估计值,统计量
θ
^
(
X
1
,
X
2
,
⋯
 
,
X
n
)
\hat{\theta}(X_{1},X_{2},\cdots,X_{n})
θ^(X1,X2,⋯,Xn)称为参数
θ
\theta
θ的最大似然估计量。
对数似然方程
似然函数中的连乘操作容易造成下溢,取对数之后可以变为相加的形式:
log
L
(
θ
)
=
∑
i
=
1
n
f
(
x
i
;
θ
)
\log L(\theta)=\sum_{i=1}^{n}f(x_{i};\theta)
logL(θ)=i=1∑nf(xi;θ)
确定最大似然估计量的问题归结为求
L
(
θ
)
L(\theta)
L(θ)的最大值问题。很多情况下,
p
(
x
;
θ
)
p(x;\theta)
p(x;θ)和
f
(
x
;
θ
)
f(x;\theta)
f(x;θ)关于
θ
\theta
θ可微,这时
θ
^
\hat{\theta}
θ^可从方程:
d
L
(
θ
)
d
θ
=
0
\frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta}=0
dθdL(θ)=0解得。又因为
L
(
θ
)
L(\theta)
L(θ)和
ln
L
(
θ
)
\ln L(\theta)
lnL(θ)在同一
θ
\theta
θ处取得极值,因此
θ
\theta
θ的最大似然估计
θ
\theta
θ也可以从方程
d
ln
L
(
θ
)
d
θ
=
0
\frac{ \mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0
dθdlnL(θ)=0求的,而使用对数方程求解比较方便,称为对数似然方程。
#无偏估计量
对于待估参数,不同的样本值就会得到不同的估计值。要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,换句话说,估计量的均值(数学期望)应等于未知参数的真值。若估计量
θ
^
=
θ
^
(
X
1
,
X
2
,
⋯
 
,
X
n
)
\hat{\theta}=\hat{\theta}(X_{1},X_{2},\cdots,X_{n})
θ^=θ^(X1,X2,⋯,Xn)的数学期望
E
(
θ
^
)
E(\hat{\theta})
E(θ^)存在,则有
E
(
θ
^
)
=
θ
E(\hat{\theta})=\theta
E(θ^)=θ
无偏估计的实际意义为无系统偏差。