条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场可以用于不同的预测问题,本章仅论及它在标注问题的应用。因此主要讲述线性链(linear chain)条件随机场,这时,问题变成了由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是极大似然估计或正则化的极大似然估计。线性链条件随机场应用于标注问题是由Lafferty等人于2001年提出的。
概率无向图模型
概率无向图模型(probabilistic undirected graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。本节首先叙述概率无向图模型的定义,然后介绍概率无向图模型的因子分解。
模型定义
先啰嗦一下图的定义:
图(graph)是由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作v和e,结点和边的集合分别记作V和E,图记作G=(V,E)。无向图是指边没有方向的图。
概率图模型(probabilistic graphical model)是由图表示的概率分布。设有联合概率分布,是一组随机变量。由无向图G=(V,E)表示概率分布。即在图G中,结点表示一个随机变量,;边表示随机变量之间的概率依赖关系。
给定一个联合概率分布和表示它的无向图G。首先定义无向图表示的随机变量之间存在的成对马尔可夫性(pairwise Markov property)、局部马尔可夫性(local Markov property)和全局马尔可夫性(global Markov property)。
成对马尔可夫性:设u和v是无向图G中任意两个没有边连接的结点,结点u和v分别对应随机变量和。其他所有结点为O(集合),对应的随机变量组是。成对马尔可夫性是指给定随机变量组的条件下随机变量和是条件独立的,即
其实这么定义有些啰嗦了,一句话,没有直连边的任意两个节点都是独立的。
局部马尔可夫性:设是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v,W以外的其他所有结点。v表示的随机变量是,W表示的随机变量组是,O表示的随机变量组是。局部马尔可夫性是指在给定随机变量组的条件下随机变量与随机变量组是独立的,即
在时,等价地,
下图表示了局部马尔可夫性。
我觉得局部马尔可夫性就是成对马尔可夫性的推论。
全局马尔可夫性:设结点集合A,B是在无向图G中被结点集合C分开的任意结点集合,如图所示。结点集合A,B和C所对应的随机变量组分别是,和。全局马尔可夫性是指给定随机变量组条件下随机变量组和是条件独立的,即
上述成对的、局部的、全局的马尔可夫性定义是等价的。
下面定义概率无向图模型。
定义(概率无向图模型)设有联合概率分布,由无向图G=(V,E)表示,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型(probability undirected graphical model),或马尔可夫随机场(Markov random field)。
以上是概率无向图模型的定义,实际上,我们更关心的是如何求其联合概率分布。对给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解,这样便于模型的学习与计算。事实上,概率无向图模型的最大特点就是易于因子分解。下面介绍这一结果。
概率无向图模型的因子分解
首先给出无向图中的团与最大团的定义。
定义(团与最大团)无向图G中任何两个结点均有边连接的结点子集称为团(clique)。若C是无向图G的一个团,并且不能再加进任何一个G的结点使其成为一个更大的团,则称此C为最大团(maximal clique)。
下图表示由4个结点组成的无向图。图中由2个结点组成的团有5个:{y1,y2},{y2,y3},{y3,y4}和{y4,y2},{y1,y3}。有2个最大团:{y1,y2,y3}和{y2,y3,y4}。而{y1,y2,y3,y4}不是一个团,因为y1和y4没有边连接。
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解(factorization)。
给定概率无向图模型,设其无向图为G,C为G上的最大团,表示C对应的随机变量。那么概率无向图模型的联合概率分布可写作图中所有最大团C上的函数的乘积形式,即
其中,Z是规范化因子(normalization factor),由式
给出。规范化因子保证构成一个概率分布。函数称为势函数(potential function)。这里要求势函数是严格正的,通常定义为指数函数:
概率无向图模型的因子分解由下述定理来保证。
定理(Hammersley-Clifford定理)概率无向图模型的联合概率分布可以表示为如下形式:
其中,C是无向图的最大团,是C的结点对应的随机变量,是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的。
条件随机场的定义与形式
条件随机场的定义
条件随机场(conditional random field)是给定随机变量X条件下,随机变量Y的马尔可夫随机场。这里主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear chain conditional random field)。线性链条件随机场可以用于标注等问题。这时,在条件概率模型中,Y是输出变量,表示标记序列,X是输入变量,表示需要标注的观测序列。也把标记序列称为状态序列(参见隐马尔可夫模型)。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型;预测时,对于给定的输入序列x,求出条件概率最大的输出序列y。