似然函数(Likelihood Function)是统计学中的一个重要概念,用于衡量一组观察数据在假设的不同参数值下发生的可能性
。
在参数估计中,极大似然估计(Maximum Likelihood Estimation, MLE)是一个常用的技术,它基于似然函数来找到最有可能
产生观察数据的参数值。
下面我们将详细探讨似然函数的概念、公式及其在极大似然估计中的应用。
似然函数定义
假设我们有一组独立同分布(IID)的观察数据 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn,它们的分布由参数 θ \theta θ 决定。
似然函数
L
(
θ
∣
x
1
,
x
2
,
…
,
x
n
)
L(\theta|x_1, x_2, \ldots, x_n)
L(θ∣x1,x2,…,xn) 定义为当参数为
θ
\theta
θ 时,数据集
(
x
1
,
x
2
,
…
,
x
n
)
(x_1, x_2, \ldots, x_n)
(x1,x2,…,xn) 发生的概率。
然而,在似然函数的上下文中,我们考虑参数 θ \theta θ 为变量,而观察数据作为固定值。
似然函数的公式
对于连续型随机变量
,似然函数可以表示为:
L ( θ ∣ x 1 , x 2 , … , x n ) = f ( x 1 ∣ θ ) f ( x 2 ∣ θ ) ⋯ f ( x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta|x_1, x_2, \ldots, x_n) = f(x_1|\theta)f(x_2|\theta)\cdots f(x_n|\theta) = \prod_{i=1}^{n}f(x_i|\theta) L(θ∣x1,x2,…,xn)=f(x1∣θ)f(x2∣θ)⋯f(xn∣θ)=i=1∏nf(xi∣θ)
其中,
f
(
x
i
∣
θ
)
f(x_i|\theta)
f(xi∣θ) 是观察
x
i
x_i
xi 在参数
θ
\theta
θ 下的概率密度函数。
对于离散型随机变量
,似然函数可以表示为:
L ( θ ∣ x 1 , x 2 , … , x n ) = P ( X 1 = x 1 ∣ θ ) P ( X 2 = x 2 ∣ θ ) ⋯ P ( X n = x n ∣ θ ) = ∏ i = 1 n P ( X i = x i ∣ θ ) L(\theta|x_1, x_2, \ldots, x_n) = P(X_1=x_1|\theta)P(X_2=x_2|\theta)\cdots P(X_n=x_n|\theta) = \prod_{i=1}^{n}P(X_i=x_i|\theta) L(θ∣x1,x2,…,xn)=P(X1=x1∣θ)P(X2=x2∣θ)⋯P(Xn=xn∣θ)=i=1∏nP(Xi=xi∣θ)
其中,
P
(
X
i
=
x
i
∣
θ
)
P(X_i=x_i|\theta)
P(Xi=xi∣θ) 是观察
x
i
x_i
xi 在参数
θ
\theta
θ 下的概率质量函数。
极大似然估计
极大似然估计的目标是找到参数
θ
\theta
θ 的值,使得似然函数
L
(
θ
∣
x
1
,
x
2
,
…
,
x
n
)
L(\theta|x_1, x_2, \ldots, x_n)
L(θ∣x1,x2,…,xn) 达到最大
。这个参数值记作
θ
^
\hat{\theta}
θ^。
目标公式
极大似然估计的数学表达式可以写作:
θ ^ = arg max θ L ( θ ∣ x 1 , x 2 , … , x n ) \hat{\theta} = \arg\max_\theta L(\theta|x_1, x_2, \ldots, x_n) θ^=argθmaxL(θ∣x1,x2,…,xn)
公式的应用
为了简化计算,通常会使用似然函数的对数形式
,因为对数函数是单调递增的,所以极大化似然函数等价于极大化其对数
。对数似然函数定义为:
log L ( θ ∣ x 1 , x 2 , … , x n ) = ∑ i = 1 n log ( f ( x i ∣ θ ) ) \log L(\theta|x_1, x_2, \ldots, x_n) = \sum_{i=1}^{n}\log(f(x_i|\theta)) logL(θ∣x1,x2,…,xn)=i=1∑nlog(f(xi∣θ))
接下来,我们对
log
L
(
θ
∣
x
1
,
x
2
,
…
,
x
n
)
\log L(\theta|x_1, x_2, \ldots, x_n)
logL(θ∣x1,x2,…,xn) 关于
θ
\theta
θ 求导数,并设导数等于零来找到极值点:
d d θ log L ( θ ∣ x 1 , x 2 , … , x n ) = 0 \frac{d}{d\theta}\log L(\theta|x_1, x_2, \ldots, x_n) = 0 dθdlogL(θ∣x1,x2,…,xn)=0
解这个方程就可以找到极大似然估计 θ ^ \hat{\theta} θ^。
示例
以伯努利试验
为例,假设每次试验成功的概率为
θ
\theta
θ,我们观察到了
k
k
k 次成功,共进行了
n
n
n 次试验。似然函数为:
L ( θ ∣ x = k ) = ( n k ) θ k ( 1 − θ ) n − k L(\theta|x=k) = \binom{n}{k}\theta^k(1-\theta)^{n-k} L(θ∣x=k)=(kn)θk(1−θ)n−k
对数似然函数为:
log L ( θ ∣ x = k ) = k log ( θ ) + ( n − k ) log ( 1 − θ ) \log L(\theta|x=k) = k\log(\theta) + (n-k)\log(1-\theta) logL(θ∣x=k)=klog(θ)+(n−k)log(1−θ)
对 θ \theta θ 求导数并设为零:
k θ − n − k 1 − θ = 0 \frac{k}{\theta} - \frac{n-k}{1-\theta} = 0 θk−1−θn−k=0
解得极大似然估计 θ ^ = k n \hat{\theta} = \frac{k}{n} θ^=nk。
以上就是似然函数和极大似然估计的详细介绍,包括它们的定义、公式、目标以及如何在实际问题中应用。