前言
极大似然估计的核心思想是:利用已知数据来计算最可能获得这种数据分布的概率密度函数。
方法
- 似然函数:
p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{k=1}^{n} p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right) p(D∣θ)=k=1∏np(xk∣θ)
注意:似然函数 p ( D ∣ θ ) p(D|\theta) p(D∣θ)是关于 θ \theta θ的函数,即 θ \theta θ的似然函数。
-
对数似然函数(log likelihood)
l ( θ ) ≡ ln p ( D ∣ θ ) = ∑ k = 1 n ln p ( x k ∣ θ ) \begin{aligned} l(\boldsymbol{\theta}) &\equiv \ln p(\mathcal{D} \mid \boldsymbol{\theta}) \\ &= \sum_{k=1}^{n} \ln p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right) \end{aligned} l(θ)≡lnp(D∣θ)=k=1∑nlnp(xk∣θ) -
求解参数
θ ^ = arg max θ l ( θ ) \hat{\boldsymbol{\theta}}=\arg \max _{\boldsymbol{\theta}} l(\boldsymbol{\theta}) θ^=argθmaxl(θ)
图解
下图中的 θ \theta θ代表高斯分布中的均值未知,可以看到数据,似然函数,和对数似然函数之间的关系。
一旦我们使似然函数最大,则 θ \theta θ约为3,可以看到此时均值大概就在现有数据中的中点位置。
参考文献
- R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification. John Wiley & Sons, 2012.