一.极大似然估计
通俗定义:已知样本的结果信息,求在哪种模型下,出现这些样本结果的概率最大。极大似然估计法提供了一种用观测数据来评估模型参数的方法。
极大似然的思路:设 f(y,θ) 是随机变量 Y 的密度函数,其中 θ 是该分布的未知参数,若有一随机样本 Y1,Y2,⋯,Yn ,则 θ 的极大似然估计值是具有产生该观测样本的最高概率的那个 θ 值,或者换句话说, θ 的极大似然估计值是使密度函数 f(y,θ) 达到最大的 θ 值。
举例说明:
ex.袋子中有黑白两种球,颜色比例不知,做100次有放回抽样(独立同分布),其中70次为白球,30次为黑球,极大似然估计就可通过样本的抽样结果求得袋子中球的分布模型的参数。
P(样本结果|Model)=P(x1,x2,x3,...,x100|Model)
多个相互独立事件同时发生的概率=每个事件发生概率的乘积,因此,
上式=P(x1|Model)P(x2|Model)...P(x100|Model)=
p就是要求的模型参数值,不同的p导致P(样本结果|Model)不同,有无数种选择,极大似然估计要选择使P(样本结果|Model)值最大的参数p,将其看作p的函数,则令其导数=0,即可求得使P(样本结果|Model)最大得参数值p。
,求得p=0.7。
由于总体有离散型和连续型两种分布,离散型分布通过分布律来构造似然函数,而连续型分布通过概率密度函数来构造似然函数。
连续型分布构造步骤:
- 写出似然函数
- 对似然函数取对数
- 求导数
- 解似然方程
二.李航统计学习中:当模型是条件概率分布,损失函数是对数函数时,经验风险最小化就等价于极大似然估计(最大化后验概率估计)
假设模型条件概率分布为:
最小化经验风险 :
等价于:
极大似然估计:
将式2取对数后累乘变累加,再求最大值,即为公式1,因此两者等价。