极大似然估计
最大似然原理
极大似然估计
极大似然估计是建立在最大似然原理的基础上的一个统计方法。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。通过观察若干次实验的结果,利用实验结果得到某个参数值能够使样本出现的概率最大,则称为极大似然估计。
简而言之,极大似然估计的目的是利用已知的样本结果,反推最有可能导致这样结果的参数值。
似然函数
假设一个样本集
D
D
D的
n
n
n个样本都是独立同分布的,并且该样本集为
D
=
x
1
,
x
2
,
…
,
x
n
D={x_1,x_2,\ldots,x_n}
D=x1,x2,…,xn
似然函数(likelihood function):联合概率密度函数
p
(
D
∣
θ
)
p(D|\theta)
p(D∣θ)称为相对于
x
1
,
x
2
,
…
,
x
n
{x_1,x_2,\ldots,x_n}
x1,x2,…,xn的
θ
\theta
θ的似然函数。
l
(
θ
)
=
p
(
D
∣
θ
)
=
p
(
x
1
,
x
2
,
…
,
x
n
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
l(\theta) = p(D|\theta) = p(x_1,x_2,\ldots,x_n|\theta) = \prod_{i=1}^n p(x_i|\theta)
l(θ)=p(D∣θ)=p(x1,x2,…,xn∣θ)=i=1∏np(xi∣θ)
极大似然函数估计值
如果
θ
^
\hat{\theta}
θ^是
θ
\theta
θ参数空间中能使似然函数
l
(
θ
)
l(\theta)
l(θ)最大的
θ
\theta
θ值,则
θ
^
\hat{\theta}
θ^是最可能的参数值,那么
θ
^
\hat{\theta}
θ^是
θ
\theta
θ的最大似然估计量,记作
θ
^
=
d
(
x
1
,
x
2
,
…
,
x
n
)
=
d
(
D
)
\hat{\theta} = d(x_1,x_2,\ldots,x_n) = d(D)
θ^=d(x1,x2,…,xn)=d(D)
并且
θ
^
(
x
1
,
x
2
,
…
,
x
n
)
\hat{\theta}(x_1,x_2,\ldots,x_n)
θ^(x1,x2,…,xn)称作极大似然函数估计值。
求解极大似然函数
给出求解最大
θ
\theta
θ值的公式
θ
^
=
a
r
g
m
a
x
⏟
θ
l
(
θ
)
=
a
r
g
m
a
x
⏟
θ
∏
i
=
1
n
p
(
x
i
∣
θ
)
\hat{\theta} = arg \underbrace{max}_\theta l(\theta) = arg \underbrace{max}_\theta \prod_{i=1}^n p(x_i|\theta)
θ^=argθ
maxl(θ)=argθ
maxi=1∏np(xi∣θ)
为了方便计算,定义对数似然函数
H
(
θ
)
H(\theta)
H(θ),即对似然函数求对数
H
(
θ
)
=
ln
l
(
θ
)
H(\theta) = \ln{l(\theta)}
H(θ)=lnl(θ)
因此求最大
θ
\theta
θ值的公式变成了
θ
^
=
a
r
g
m
a
x
⏟
θ
H
(
θ
)
=
a
r
g
m
a
x
⏟
θ
ln
l
(
θ
)
=
a
r
g
m
a
x
⏟
θ
∏
i
=
1
n
ln
p
(
x
i
∣
θ
)
\hat{\theta} = arg \underbrace{max}_\theta H(\theta) = arg \underbrace{max}_\theta \ln{l(\theta)} = arg \underbrace{max}_\theta \prod_{i=1}^n \ln{p(x_i|\theta)}
θ^=argθ
maxH(θ)=argθ
maxlnl(θ)=argθ
maxi=1∏nlnp(xi∣θ)
并且可以发现公式中只有一个变量
θ
\theta
θ
未知参数只有一个
如果
θ
\theta
θ为标量,在似然函数满足连续、可微的情况下,则极大似然估计量是下面微分方程的解
d
H
(
θ
)
d
θ
=
d
ln
l
(
θ
)
d
θ
=
0
{\frac{dH(\theta)}{d\theta}} = {\frac{d\ln{l(\theta)}}{d\theta}} = 0
dθdH(θ)=dθdlnl(θ)=0
位置参数有多个
如果
θ
\theta
θ为
k
k
k维向量,可以把
θ
\theta
θ记作
θ
=
[
θ
1
,
θ
2
,
…
,
θ
k
]
T
\theta = [\theta_1,\theta_2,\ldots,\theta_k]^T
θ=[θ1,θ2,…,θk]T,对
θ
1
,
θ
2
,
…
,
θ
k
\theta_1,\theta_2,\ldots,\theta_k
θ1,θ2,…,θk求梯度,可得
Δ
θ
=
[
∂
∂
θ
1
,
∂
∂
θ
2
,
⋯
,
∂
∂
θ
s
]
T
\Delta_\theta=[{\frac{\partial}{\partial_{\theta_1}}},{\frac{\partial}{\partial_{\theta_2}}},\cdots,{\frac{\partial}{\partial_{\theta_s}}}]^T
Δθ=[∂θ1∂,∂θ2∂,⋯,∂θs∂]T
如果似然函数满足连续、可导的情况下,则最大似然估计量就是如下方程的解:
Δ
θ
H
(
θ
)
=
Δ
θ
ln
l
(
θ
)
=
∑
i
=
1
n
Δ
θ
ln
(
p
(
x
i
∣
θ
)
)
=
0
\Delta_\theta{H(\theta)} = \Delta_\theta\ln{l(\theta)} = \sum_{i=1}^n \Delta_\theta \ln(p(x_i|\theta)) = 0
ΔθH(θ)=Δθlnl(θ)=i=1∑nΔθln(p(xi∣θ))=0
总结
方程的解只是一个估计值,只有在样本趋于无限多的时候,才会逐渐接近真实值。