极大似然估计**是神经网络和很多复杂模型得以优化求解的理论基础, 我们今天来学习并试着深入理解极大似然估计的原理和推导, 最后我们对极大似然估计进行3D可视化, 建立一种直观的认识.
要理解极大似然估计是什么, 首先要明白概率密度(质量)函数是什么, 如果你不知道的话, 那就简短解释一下:
概率密度函数用来描述某个随机变量取某个值的时候,取值点所对应的的概率 ( p r o b a b i l i t y ) (probability) (probability)的函数.
如下图, 我们现在有一个概率分布, 属于正态分布: X ∼ N ( μ , σ 2 ) , f ( x ; μ , σ ) = 1 σ 2 π exp ( − ( x − μ ) 2 2 σ 2 ) X \sim N(\mu,\sigma^2), \quad f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right) X∼N(μ,σ2),f(x;μ,σ)=σ2π1exp(−2σ2(x−μ)2)
其中 μ \mu μ是均值, σ \sigma σ是标准差. 如果你不熟悉正态分布, 我们简单回顾一下 μ \mu μ指的是均值, 在下图中, 均值是 0 0 0则正态分布的概率在均值处概率最高, 以均值为中心两边是对称的, σ \sigma σ是标准差, 标准差控制着概率分布偏离均值的程度, 标准差越大概率分布越扁平, 越小的话, 概率分布越集中于均值.
我们另有一个数据点, 是一个随机变量, 取值 2.5 2.5 2.5, 我们将 x = 2.5 x=2.5 x=2.5代入 f ( x ; μ = 5 , σ = 2 ) f(x;\mu=5,\sigma=2) f(x;μ=5,σ=2)得出下图出中绿色直线的长度, 也就是得到了 P ( x = 2.5 ∣ μ = 5 , σ = 2 ) P(x=2.5 \mid \mu=5, \sigma=2) P(x=2.5∣μ=5,σ=2)
意义为 x = 2.5 x=2.5 x=2.5在上面定义的正态分布中的概率, 也就是给定一个概率分布, 随机变量在这个概率分布中出现的可能性, 而 f ( x ; μ , σ ) = 1 σ 2 π exp ( − ( x − μ ) 2 2 σ 2 ) f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right) f(x;μ,σ)=