【ML】条件随机场 —— 形式化定义与参数

最新推荐文章于 2023-12-04 12:23:43 发布

Anova.YJ

最新推荐文章于 2023-12-04 12:23:43 发布

阅读量311

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44246009/article/details/117352515

版权

机器学习专栏收录该内容

39 篇文章 2 订阅

订阅专栏

本文深入探讨概率图模型，包括无向图模型及其马尔可夫性质，介绍了因子分解定理。接着，重点讲解条件随机场，特别是线性链条件随机场在标注问题中的应用，阐述其参数化形式、向量化表示和矩阵形式。通过对实例的计算，展示了条件随机场如何计算概率和进行预测。

摘要由CSDN通过智能技术生成

第一部分给出概率图模型的定义与性质，以及对它意义重大的因子分解定理；第二部分给出条件随机场本质是概率图模型这一定义，而后针对使用最多的线性链条件随机场给出概率计算以及参数学习算法。

概率无向图.

概率图模型 Probabilistic Graphical Model 是借助图表示的概率分布，现假设有联合概率分布 $P(Y),Y\in\mathcal Y$ 是一组随机变量，我们以无向图 $G = (V, E)$ 来表示这一概率分布，其中顶点 $v\in V$ 表示一个随机变量 $Y_v$ ，边 $e\in E$ 表示随机变量之间的概率依赖关系。
概率图模型需要满足马尔可夫性，并且在图表示中，马尔可夫性的表现形式可以是如下三种，不难验证它们本质上是等价的。
【成对马尔可夫性 Pairwise】对于无向图 $G$ 中任意两个没有边连接的顶点 $u, v$ ，它们对应的随机变量分别为 $Y_u,Y_v$ ，其余所有顶点集合记为 $O$ ，对应的随机变量组为 $Y_O$ ，那么在给定随机变量组 $Y_O$ 的条件下， $Y_u$ 和 $Y_v$ 条件独立： $P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)\cdot P(Y_v|Y_O)$
【局部马尔可夫性 Local】设 $v$ 是无向图 $G$ 中的任意一个顶点， $W$ 为所有与 $v$ 有边相连的顶点集合， $O$ 是除 $v, W$ 以外的所有顶点集合，它们对应的随机变量、随机变量组分别为 $Y_v,Y_W,Y_O$ ，那么在给定随机变量组 $Y_W$ 的条件下， $Y_v$ 和 $Y_O$ 条件独立： $P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)\cdot P(Y_O|Y_W)$ 并且根据贝叶斯公式，当 $P(Y_O|Y_W)>0$ 时我们有： $P(Y_v|Y_W)=\frac{P(Y_v,Y_O|Y_W)}{P(Y_O|Y_W)}=P(Y_v|Y_W,Y_O)$ 直观上来看，给定条件 $Y_W$ 时 $Y_v$ 的概率分布和给定条件为 $Y_W\wedge Y_O$ 时 $Y_v$ 的概率分布相同，我们可以简单地认为 $Y_O$ 并不会影响 $Y_v$ 的概率分布，但严格上还需要注意这里是条件独立，与二者独立还是有区别的： $P(Y_v,Y_O)=P(Y_v)\cdot P(Y_O)$

上图中蓝色点为 $v$ ，红色点集合为 $W$ ，其余所有灰色节点为 $O .$
【全局马尔可夫性 Global】设顶点集合 $A, B$ 是无向图 $G$ 中被顶点集合 $C$ 分开的任意顶点集合，它们对应的随机变量组分别为 $Y_A,Y_B,Y_C$ ，那么在给定 $Y_C$ 的条件下， $Y_A$ 和 $Y_B$ 条件独立： $P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)\cdot P(Y_B|Y_C)$

上图中 $X_A,X_C$ 在给定条件 $X_B$ 下是条件独立的。
【Defn】对于联合概率分布 $P (Y)$ ，由无向图 $G = (V, E)$ 表示，其中顶点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 $P (Y)$ 满足上述三种马尔可夫性的一种，那么就称此联合概率分布为 概率无向图模型PGM 或 马尔可夫随机场MRF.
对于给定的概率无向图模型，我们更关心的是如何求出其表示的联合概率分布，因子分解定理的意义就是 —— 整体的联合概率分布可以表示为若干个子联合概率分布的乘积。

在给出因子分解定理之前，我们回忆一下图论中团与极大团的定义，无向图 $G$ 中任意两个顶点之间均有边相连的顶点集合称为团，显然团与其确定的边构成完全图；而图 $G$ 的极大团则意味着该团中不能再加入任何一个 $G$ 中顶点使其成为一个更大的团，称之为极大团maximal clique.
对于上图而言，下面的顶点集都是它的团：
- 但显然 ${0,5\}$ 中可以加入顶点 $4$ 使之成为更大的团，因此 ${0,5\}$ 不是极大团，但显然上述图中并不存在完全图 $K_4$ ，因此我们可以断言 ${0,4,5\},\{1,2,4\}$ 均为极大团。上图的全部极大团如下：

注意到 ${3,4\}$ 是顶点数为 $2$ 的极大团，向其中加入任何一个顶点都会使其不再是团，另外还有最大团的概念，即基数最大的极大团，也就是上图中的前三个极大团，它们基数相同，均为 $3 .$

将概率无向图的联合概率分布表示为其极大团上的随机变量组的函数乘积形式，称为概率无向图的因子分解Factorization. 给定概率无向图 $G = (V, E)$ ， $C$ 表示图 $G$ 的极大团， $Y_C$ 表示对应的随机变量组，那么联合概率分布 $P (Y)$ 可以表示如下： $P(Y)=\frac1Z\prod_C\Psi_C(Y_C)\tag{1}$ 其中 $\Psi_C$ 被称为势函数，要求是严格正的，常见形式为指数函数： $\Psi_C(Y_C)=\exp\Big(-E[Y_C]\Big)$ $Z$ 是规范化因子，保证 $P (Y)$ 构成概率分布，由下式给出： $Z=\sum_Y\prod_C\Psi_C(Y_C)$ 这里对 $Y$ 求和的意义并不直观，个人理解是对所有可能的随机变量取值求和，这样可以和后续条件随机场中的物理意义相一致。
上述定理即为因子分解定理，也由于提出者的名字被称为 Hammersley-Clifford 定理，它的意义就是概率无向图所表示的联合概率分布可以被写作其所有极大团对应随机变量组势函数的乘积形式，注意乘积的对象是所有极大团。

条件随机场.

条件随机场 Conditional Random Field是给定随机变量 $X$ 条件下随机变量 $Y$ 的马尔可夫随机场(概率无向图)，本篇主要讲述的是定义在线性链上的特殊条件随机场，称为线性链条件随机场，多用于标注问题。条件随机场的模型形式为 $P (Y ∣ X)$ ，其中 $Y$ 是输出变量，可以视作标注序列； $X$ 是输入变量，是待标注的观测序列。
类比隐马尔科夫模型中观测序列和状态序列的概念，我们也将 $Y$ 称作状态序列，在学习时我们利用训练数据集，进行极大似然估计(正则化极大似然估计)来得到条件概率模型 $\hat P(Y|X)$ ；预测时对于给定的观测序列 $x$ ，输出 $\argmax_y\hat P(y|x)$ 即可。
条件随机场的形式化定义如下：设 $X, Y$ 是随机变量， $P (Y ∣ X)$ 是在给定 $X$ 条件下 $Y$ 的条件概率分布，如果 $Y$ 构成一个马尔可夫随机场(由无向图 $G$ 表示)，并且下式： $P(Y_v|X,Y_u,u\neq v)=P(Y_v|X,Y_u,u\sim v)$ 对于任意的 $v$ 都成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。
其中 $u\neq v$ 表示除顶点 $v$ 以外的所有顶点， $u\sim v$ 表示和 $v$ 有边连接的所有顶点， $Y_v,Y_u$ 表示与之对应的随机变量，上式直观来看说明了只有那些 $v$ 直接相连的顶点才存在随机变量之间的依赖关系。

【线性链条件随机场】设 $X=\{X_1,X_2,\cdots,X_n\},Y=\{Y_1,Y_2,\cdots,Y_n\}$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布构成马尔可夫随机场，即满足如下线性链情况下的马尔可夫性： $P(Y_i|X,Y_1,Y_2,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1})$ 那么条件概率分布 $P (Y ∣ X)$ 就成为线性链条件随机场，注意上式在 $i = 1, i = n$ 时需要特殊考虑。

条件随机场参数化.

以下所有的讨论都是针对线性链条件随机场而言的，简记为条件随机场。其直观形式如下图所示：

我们进行形式化推导时一般以第一种 —— 将 $X$ 表示为单个顶点为辅助理解图。
对上述线性链条件随机场应用因子分解定理，即条件概率分布 $P(Y|X),Y=\{Y_1,Y_2,\cdots,Y_n\}$ 可以被表示为因子乘积的形式，其中每个因子是定义在极大团上的势函数，并且借助上图我们可以发现，对于以 $\{Y_1,Y_2,\cdots,Y_n\}$ 为顶点的概率图模型而言，其极大团就是相邻的两个顶点，我们定义如下形式的势函数： $\ln\Psi_C(Y_C)=\ln\Psi_C(y_{i-1},y_i)=\sum_k\lambda_k\cdot t_k(y_{i-1},y_i,x,i)+\sum_{l}\mu_l\cdot s_l(y_i,x,i)$ 因此对于 $(1)$ 式而言，我们有： $P(Y|X)=\frac1{Z(x)}\prod_C\Psi_C(Y_C)=\frac1{Z(x)}\exp\Big(\sum_i\ln\Psi_C(y_{i-1},y_i)\Big)$ 因此我们得到线性链条件随机场的参数化形式： $P(Y|X)=\frac1{Z(x)}\exp\Big(\sum_i\sum_k\lambda_k\cdot t_k(y_{i-1},y_i,x,i)+\sum_i\sum_l\mu_l\cdot s_l(y_i,x,i)\Big)\tag{2}$
其中 $t_k,s_l$ 被称为特征函数， $\lambda_k,\mu_l$ 是对应的权值，而规范化因子 $Z (x)$ 的计算方法如下： $Z(x)=\sum_y\exp\Big(\sum_i\ln\Psi_C(y_{i-1},y_i)\Big)$ 其求和的对象是所有可能的输出序列。
$t_k(\cdot)$ 是定义在概率图中边上的特征函数，称为转移特征，依赖于当前位置和前一位置，同一条边上可以有不同的边特征函数 $t_{k1}(\cdot),t_{k2}(\cdot)$ ；对应的， $s_l(\cdot)$ 是定义在概率图中顶点上的特征函数，称为状态特征，依赖于当前位置。可以归纳发现，特征函数 $t_k,s_l$ 都依赖于局部位置，是局部特征函数，通常定义为 ${0,1\}$ 二值函数，满足特征条件时取 $1$ ，不满足时取 $0 .$ 线性链条件随机场能够完全由特征函数和对应的权值确定。

【例】场景为标注问题，输入观测序列为 $X=\{X_1,X_2,X_3\}$ ，输出标记序列为 $Y=\{Y_1,Y_2,Y_3\},Y_i\in\{0,1\}.$
对于转移特征函数，我们定义如下： $t_1=t_1(y_1=1,y_2=2,x,2),~\lambda_1=1$ $t_2=t_2(y_2=1,y_3=2,x,3),~\lambda_2=1$ $t_3=t_3(y_1=1,y_2=1,x,2),~\lambda_3=0.6$ $t_4=t_4(y_2=2,y_3=1,x,3),~\lambda_4=1$ $t_5=t_5(y_1=2,y_2=1,x,2),~\lambda_5=1$ $t_6=t_6(y_2=2,y_3=2,x,3),~\lambda_6=0.2$ 可以发现在同一条边上存在不同的转移特征函数，它们对应的权值由 $\lambda_i$ 表示。
对于状态特征函数，定义如下： $s_1=s_1(y_1=1,x,1),~\mu_1=1$ $s_2=s_2(y_1=2,x,1),~\mu_2=0.5$ $s_3=s_3(y_2=2,x,2),~\mu_3=0.5$ $s_4=s_4(y_2=1,x,2),~\mu_4=0.8$ $s_5=s_5(y_3=1,x,3),~\mu_5=0.8$ $s_6=s_6(y_3=2,x,3),~\mu_6=0.5$ 可以发现对于相同的顶点，也存在不同的状态特征函数，其权值由 $\mu_i$ 表示。
对于给定的观测序列 $x$ ，如果我们要求输出状态序列为 $y = (1, 2, 2)$ 的非规范化概率，即没有除以 $Z (x)$ 的值，计算方法为： $P\Big(y=(1,2,2)|x\Big)\propto\exp\Big[\sum_{k=1}^6\lambda_k\sum_{i=2}^3t_k(y_{i-1},y_i,x,i)+\sum_{l=1}^6\mu_l\sum_{i=1}^3s_l(y_i,x,i)\Big]$ 代入实际数值计算后得到指数部分为： $\lambda_1\cdot t_1(1,2,x,2)+\lambda_6\cdot t_6(2,2,x,3)+\mu_1\cdot s_1(1,x,1)+\mu_3\cdot s_3(2,x,2)+\mu_6\cdot s_6(2,x,3)=3.2$ 因此： $P\Big(y=(1,2,2)|x\Big)\propto\exp(3.2)$

条件随机场向量化.

在上一部分参数化的基础上，对条件随机场进行向量化。声明：这一步骤不涉及本质问题，仅仅是数学形式上的等价推导。
考察 $(2)$ 式我们发现，每个特征函数 $t_k,s_l$ 都对于位置参数 $i$ 进行了求和操作，我们尝试先进行局部特征函数对于位置参数的求和，得到全局特征函数，具体操作如下：我们有 $K_1$ 个转移特征函数， $K_2$ 个状态特征函数，将他们统一起来，即令 $K=K_1+K_2$ ，并定义：
$f_k(y_{i-1},y_i,x,i)=\left\{ \begin{aligned} &t_k(y_{i-1},y_i,x,i),k=1,2,\cdots,K_1\\ &s_l(y_i,x,i),k=K_1+l,l=1,2,\cdots,K_2 \end{aligned} \right.$ 相应地权值定义如下： $w_k=\left\{ \begin{aligned} &\lambda_k,k=1,2,\cdots,K_1\\ &\mu_l,k=K_1+l,l=1,2,\cdots,K_2 \end{aligned} \right.$
将函数 $f_k$ 对位置参数 $i$ 求和，得到： $f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i),~k=1,2,\cdots,K$ 于是 $(2)$ 式可以改写为： $P(y|x)=\frac1{Z(x)}\exp\Big(\sum_{k=1}^Kw_k\cdot f_k(y,x)\Big)$ $Z(x)=\sum_y\exp\Big(\sum_{k=1}^Kw_k\cdot f_k(y,x)\Big)$
进一步向量化，令： $w=(w_1,w_2,\cdots,w_K)^T$ $F(y,x)=\Big(f_1(y,x),f_2(y,x),\cdots,f_K(y,x)\Big)^T$ 那么上式可以进一步简化为： $P(y|x)=\frac1{Z(x)}\exp\Big(w\cdot F(y,x)\Big)$ $Z(x)=\sum_y\exp\Big(w\cdot F(y,x)\Big)$

条件随机场矩阵形式.

矩阵形式不同于前面的直接参数化 $(2)$ 式，基于条件随机场的矩阵形式能够快速计算出给定输入序列 $x$ 条件下某个状态序列 $y$ 的条件概率 $P (y ∣ x) .$ 在矩阵形式中我们对于每个状态序列引入一个特殊的起点 $y_0$ 和特殊的终点 $y_{n+1}.$
对于从 $i=1,2,\cdots,n+1$ 范围内的 $y_{i-1},y_i$ 而言，我们假设它们的取值集合基数为 $m$ ，那么我们可以定义一个 $m$ 阶的矩阵 $M_i(x)$ ，其中的元素为： $M_i(x){[y_{i-1},y_i]}=\exp\Big(\sum_{k=1}^Kw_k\cdot f_k(y_{i-1},y_i,x,i)\Big)$
基于这样的定义，给定观测序列 $x$ ，某个状态序列 $y$ 的非规范化概率就可以通过 $n + 1$ 个矩阵 $M_i(x)$ 中对应位置元素的乘积来得到，即： $P(y|x)\propto\prod_{i=1}^{n+1}M_i(x)[y_{i-1},y_i]=M_1(x)[y_0,y_1]\cdot M_2(x)[y_1,y_2]\cdots M_{n+1}(x)[y_n,y_{n+1}]$ 对上式进行规范化得到： $P(y|x)=\frac1{Z(x)}\prod_{i=1}^{n+1}M_i(x)[y_{i-1},y_i]$ $Z(x)=\Big(\prod_{i=1}^{n+1}M_i(x)\Big)[y_0,y_{n+1}]$
在我们的假设中， $y_0$ 和 $y_{n+1}$ 分别是起始与终止状态，而 $Z (x)$ 是所有以 $y_0$ 为起始状态， $y_{n+1}$ 为终止状态的路径 $y_1y_2\cdots y_n$ 的非规范化概率之和。

出于前后统一，并起到验证作用，我们对条件随机场参数化中给出的例子，采用矩阵形式进行计算，矩阵的计算我们选取三个矩阵作为示例详细计算，一头一尾以及中间的某个矩阵： $M_1(x),M_4(x),M_2(x)$ ，并且本例中我们假设 $y_0=1,y_4=1.$
对于 $M_1(x)$ 而言，其元素的计算式如下： $M_1(x)[y_0,y_1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(y_0,y_1,x,1)\Big)$ 由于前面假定了 $y_0=1$ ，所以我们只需要计算元素 $[1, 1], [1, 2]$ ，其计算式分别为： $M_1(x)[1,1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,1,x,1)\Big)=\exp(1)$ $M_1(x)[1,2]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,2,x,1)\Big)=\exp(0.5)$ 因此我们不难得到矩阵 $M_1(x)$ 的数值： $M_1(x)=\left[ \begin{matrix} \exp(1) & \exp(0.5) \\ 0 & 0 \end{matrix} \right]$
对于 $M_2(x)$ 而言，其元素 $[1, 1], [1, 2], [2, 1], [2, 2]$ 都是需要我们计算的，其计算式分别为： $M_2(x)[1,1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,1,x,2)\Big)=\exp(1.4)$ $M_2(x)[1,2]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,2,x,2)\Big)=\exp(1.5)$ $M_2(x)[2,1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(2,1,x,2)\Big)=\exp(1.8)$ $M_2(x)[2,2]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(2,2,x,2)\Big)=\exp(0.5)$ 因此 $M_2(x)$ 的数值如下： $M_2(x)=\left[ \begin{matrix} \exp(1.4) & \exp(1.5) \\ \exp(1.8) & \exp(0.5) \end{matrix} \right]$
对于 $M_3(x)$ 而言，其元素 $[1, 1], [1, 2], [2, 1], [2, 2]$ 都是需要我们计算的，其计算式分别为： $M_3(x)[1,1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,1,x,3)\Big)=\exp(0.8)$ $M_3(x)[1,2]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(1,2,x,3)\Big)=\exp(1.5)$ $M_3(x)[2,1]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(2,1,x,3)\Big)=\exp(1.8)$ $M_3(x)[2,2]=\exp\Big(\sum_{k=1}^{12}w_k\cdot f_k(2,2,x,3)\Big)=\exp(0.7)$ 因此 $M_3(x)$ 的数值如下： $M_3(x)=\left[ \begin{matrix} \exp(0.8) & \exp(1.5) \\ \exp(1.8) & \exp(0.7) \end{matrix} \right]$
对于 $M_4(x)$ 而言，由于假设了 $y_4=1$ ，因此我们仅需要计算 $[1, 1], [2, 1]$ ，其计算式结果均为 $\exp(0)=1$ ，因为特征函数中并没有 $i = 4$ 的存在，所以其数值如下： $M_4(x)=\left[ \begin{matrix} 1 & 0 \\ 1 & 0 \end{matrix} \right]$
写到这里突然发现，上面每个计算式最终的等号都忘了取自然指数，但不影响计算非规范化概率，我们仍然求状态序列 $y = (1, 2, 2)$ 的条件概率，可以得到： $P\Big(y=(1,2,2)|x\Big)\propto\exp(1+1.5+0.7+0)=\exp(3.2)$ 并且归一化因子 $Z (x)$ 的计算式如下： $Z(x)=\Big(\prod_{i=1}^4M_i(x)\Big)[1,1]$ 表示了所有以 $y_0=1,y_4=1$ 为始、终状态的状态序列 $y_1y_2y_3$ 的非规范化概率之和。

在下篇中将会介绍线性链条件随机场的概率计算 $P(Y_i=y_i|x),P(Y_{i-1}=y_{i-1},Y_i=y_i|x)$ ，这里用到的算法是和HMM中类似的前向-后向算法；线性链条件随机场的参数学习方法，我们可以看到这里的问题情境是监督学习，因此可以基于极大似然估计(以及带正则化的极大似然估计)来实现参数学习，具体的实现方法有改进迭代尺度法、梯度下降法以及拟牛顿法；线性链条件随机场的预测算法，这一问题中又用到了曾经在HMM中介绍过的维特比算法，可以前往《隐马尔科夫模型》中参考更多细节。