机器学习基础：极大似然估计（Machine Learning Fundamentals: Maximum Likelihood Estimation）

此人姓于名叫罩百灵

已于 2022-03-18 16:57:31 修改

阅读量315

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 MLE 极大似然估计 maximum likelihood

于 2021-03-24 21:57:54 首次发布

本文链接：https://blog.csdn.net/xuyangcao123/article/details/115188931

版权

25 篇文章 4 订阅

订阅专栏

本文介绍了极大似然估计的基本原理，通过已知数据计算概率密度函数，以找到最佳参数。似然函数p(D∣θ)是关于θ的函数，最大化对数似然函数l(θ)可以得到最优参数θ^。在图解中展示了当θ接近数据中位数时，似然函数达到最大。参考文献提及了《Pattern Classification》一书。

摘要由CSDN通过智能技术生成

前言

极大似然估计的核心思想是：利用已知数据来计算最可能获得这种数据分布的概率密度函数。

似然函数：
$p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{k=1}^{n} p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right)$

注意：似然函数 $p(D|\theta)$ 是关于 $\theta$ 的函数，即 $\theta$ 的似然函数。

对数似然函数（log likelihood）
$\begin{aligned} l(\boldsymbol{\theta}) &\equiv \ln p(\mathcal{D} \mid \boldsymbol{\theta}) \\ &= \sum_{k=1}^{n} \ln p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right) \end{aligned}$
求解参数
$\hat{\boldsymbol{\theta}}=\arg \max _{\boldsymbol{\theta}} l(\boldsymbol{\theta})$

下图中的 $\theta$ 代表高斯分布中的均值未知，可以看到数据，似然函数，和对数似然函数之间的关系。

一旦我们使似然函数最大，则 $\theta$ 约为3，可以看到此时均值大概就在现有数据中的中点位置。

在这里插入图片描述

R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification. John Wiley & Sons, 2012.

关注