引言
贝叶斯公式中依据先验概率 P ( ω i ) P(\omega_i) P(ωi)和类条件概率密度 P ( X ∣ ω i ) P(X|\omega_i) P(X∣ωi)求得后验概率。贝叶斯决策论核心思想是非常简单,为了最小化风险,选择后验概率最大的类别(最小化误差概率)来设计最优分类器。但在实际应用中我的能获取的样本数据只有有限条且先验概率以及类条件概率均无法得知。在实际问题中,我们需要根据已有的数据设计出正确的分类器。
一个朴素的想法是利用手中的训练样本来估计问题中涉及到的先验概率及类条件概率密度函数,将该估计值作为实际值设计分类器。在模式识别问题中,估计先验概率吧往往十分容易,而估计类条件概率密度就会困难很多。其原因在于:估计先验概率时,再有监督学习问题中每个样本的类别(标签,自然状态)都是已知的,我们只需要依照经验用样本数据计算各个类别出现的频率并以此作为先验概率即可;估计类条件概率密度函数时,很多情况下我们的样本数据过少,当用于表示特征的向量x维数很大时,会发生很严重的计算复杂度问题。解决方法是把条件概率密度参数化,如果我们事先已知类条件概率密度函数的函数形式以及参数个数且先验知识允许我们把条件概率密度参数化,求解难度就会显著降低。例如,如果我们正确的假设 P ( X ∣ ω i ) P(X|\omega_i) P(X∣ωi)是一个多元正态分布,这样我们就把问题从估计函数简化为估计函数的参数 μ i \mu_i μi和 Σ i \Sigma_i Σi。
我们已经将概率密度函数估计问题转化为参数估计问题。参数估计中两种常用且有效的方法是:最大似然估计和贝叶斯参数估计(本文对MLE进行分析)。参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难),所以使用最大似然估计需要满足一些假设:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (i.i.d),且有充分的训练样本。
最大似然估计(MLE)
最大似然估计简单概括为:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。也即模型已定,参数未知”。
首先确定似然函数的概念,这里我们对似然函数和条件概率函数进行区分:
对于函数 P ( x ∣ θ ) P(x|\theta) P(x∣θ),其中x表示具体数据, θ \theta θ则表示模型参数:
a.函数自变量为x, θ \theta θ是一常数,这个函数叫做条件概率函数(probability function),它描述对于已知条件下x出现概率是多少。
b.函数自变量为 θ \theta θ,x是一常数,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数 θ \theta θ,出现x这个样本点的概率是多少。
由于样本集中的样本均为独立同分布的,所以只讨论一个类别下的样本集D,记已知样本集为 D = x 1 , x 2 , . . . , x n D={x_1,x_2,...,x_n} D=x1