机器学习基础:极大似然估计(Machine Learning Fundamentals: Maximum Likelihood Estimation)

本文介绍了极大似然估计的基本原理,通过已知数据计算概率密度函数,以找到最佳参数。似然函数p(D∣θ)是关于θ的函数,最大化对数似然函数l(θ)可以得到最优参数θ^。在图解中展示了当θ接近数据中位数时,似然函数达到最大。参考文献提及了《Pattern Classification》一书。
摘要由CSDN通过智能技术生成

前言

极大似然估计的核心思想是:利用已知数据来计算最可能获得这种数据分布的概率密度函数。

方法

  1. 似然函数:
    p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) p(\mathcal{D} \mid \boldsymbol{\theta})=\prod_{k=1}^{n} p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right) p(Dθ)=k=1np(xkθ)

注意:似然函数 p ( D ∣ θ ) p(D|\theta) p(Dθ)是关于 θ \theta θ的函数,即 θ \theta θ的似然函数。

  1. 对数似然函数(log likelihood)
    l ( θ ) ≡ ln ⁡ p ( D ∣ θ ) = ∑ k = 1 n ln ⁡ p ( x k ∣ θ ) \begin{aligned} l(\boldsymbol{\theta}) &\equiv \ln p(\mathcal{D} \mid \boldsymbol{\theta}) \\ &= \sum_{k=1}^{n} \ln p\left(\mathbf{x}_{k} \mid \boldsymbol{\theta}\right) \end{aligned} l(θ)lnp(Dθ)=k=1nlnp(xkθ)

  2. 求解参数
    θ ^ = arg ⁡ max ⁡ θ l ( θ ) \hat{\boldsymbol{\theta}}=\arg \max _{\boldsymbol{\theta}} l(\boldsymbol{\theta}) θ^=argθmaxl(θ)

图解

下图中的 θ \theta θ代表高斯分布中的均值未知,可以看到数据,似然函数,和对数似然函数之间的关系。

一旦我们使似然函数最大,则 θ \theta θ约为3,可以看到此时均值大概就在现有数据中的中点位置。

在这里插入图片描述

参考文献

  1. R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification. John Wiley & Sons, 2012.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

此人姓于名叫罩百灵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值