最大熵模型中的对数似然函数的解释

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wkebj/article/details/77965714

最大熵模型中的对数似然函数的解释

最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(y|x)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给出对数似然函数的一般形式:

Lp¯=xp(x)p¯(x).

其实并没有解决问题。为了方便以后其他人的学习和理解,我结合自己的理解给出完整的解释。

其实第一眼之所以不理解,因为这是最大似然函数的另外一种形式。一般书上描述的最大似然函数的一般形式是各个样本集X中各个样本的联合概率:

L(x1,x2,...,xn;θ)=i=1np(xi;θ).

其实这个公式和上式是等价的。x1,x2,...,xn是样本具体观测值。随机变量X是离散的,所以它的取值范围是一个集合,假设样本集的大小为nX的取值有k个,分别是v1,v2,...,vk。用C(X=vi)表示在观测值中样本vi出现的频数。所以L(x1,x2,...,xn;θ)可以表示为:
L(x1,x2,...,xn;θ)=i=1kp(vi;θ)C(X=vi).

对等式两边同时开n次方,可得
L(x1,x2,...,xn;θ)1n=i=1kp(vi;θ)C(X=vi)n.

因为经验概率p¯(x)=C(X=vi)n,所以简写得到:
L(x1,x2,...,xn;θ)1n=xp(x;θ)p¯(x).

很明显对L(x1,x2,...,xn;θ)求最大值和对L(x1,x2,...,xn;θ)1n求最大值的优化的结果是一样的。整理上式所以最终的最大似然函数可以表示为:
L(x;θ)=xp(x:θ)p¯(x).

忽略θ,更一般的公式就是本文的第一个公式。集合公式一,参考v_JULY_v博客中的最大熵模型中的数学推导(http://m.blog.csdn.net/v_july_v/article/details/40508465),可得到联合概率密度的似然函数,即最大熵中的对数似然函数:
(5)Lp¯=logx,yp(x,y)p¯(x,y)(6)=x,yp¯(x,y)logp(x,y)(7)=x,yp¯(x,y)log[p¯(x)p(y|x)](8)=x,yp¯(x,y)logp(y|x)+x,yp¯(x,y)logp¯(x)

上述公式第二项是一个定值(都是样本的经验概率),一旦样本集确定,就是个常数,可以忽略。所以最终的对数似然函数为:
Lp¯=x,yp¯(x,y)logp(y|x).

上式就是最大熵模型中用到的对数似然函数。

阅读更多

没有更多推荐了,返回首页