条件随机场原理（CRF）

碌碌无为的小张

已于 2024-05-08 12:05:05 修改

阅读量756

点赞数 2

分类专栏： NLP 文章标签：机器学习算法概率论

于 2023-06-03 01:38:44 首次发布

本文链接：https://blog.csdn.net/weixin_52862386/article/details/131001673

版权

NLP 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

条件随机场（CRF）是一种概率模型，常用于序列标注任务。它打破了隐马尔可夫模型的观测独立性和齐次马尔可夫性假设，使得输入和输出之间的关系更为灵活。CRF的核心是概率无向图模型，通过因子分解来表示联合概率分布。学习问题涉及最大化似然函数以找到最优参数，而解码问题则寻找给定输入时最可能的输出序列。

摘要由CSDN通过智能技术生成

CRF算法背景

条件随机场（Conditional Random Fiedl）是指给定一组输入的随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。条件随机场打破了隐马尔可夫模型的俩个假设（观测独立性假设和齐次马尔可夫性假设），使输入向量和输出向量之间的关系更加明显，从而使其在文本处理等问题上的表现更加优越。

条件随机场相关的知识基础

概率无向图模型

概率无向图模型的定义

概率无向图模型又称马尔可夫随机场，它是一个可以由无向图表示的联合概率分布。

设无向图 $G = (V, E)$ 表示概率分布 $P (Y)$ ，其中结 $v\in V$ 表示一个随机变量 $Y_{v}$ ，边 $e\in E$ 表示随机变量之间的概率依赖关系。

若联合概率分布 $P (Y)$ 满足成对马尔可夫性、局部马尔可夫性或者是全局马尔可夫性，就称此联合概率分布为概率无向图（马尔可夫随机场）。

成对马尔可夫性

在无向图中任意给定的俩个没有边连接的点 $u(Y_{u})$ 和 $v(Y_{v})$ ，并记其他所有节点为 $O(Y_{O})$ 。成对马尔可夫性是指在给定随机变量组的 $Y_{O}$ 的条件下， $Y_{u}$ 和 $Y_{v}$ 是相互独立的。即 $P(Y_{v},Y_{u}|Y_{O})=P(Y_{v}|Y_{O})P(Y_{u}|Y_{O})$

局部马尔可夫性

设结点 $v\in V$ ，与 $v$ 相连的所有节点集合为 $W$ ，以及除了 $W(Y_{W})$ 和 $v(Y_{v})$ 外的所有节点为 $O(Y_{O})$ 。局部马尔可夫性是指在给定随机变量组 $Y_{W}$ 的前提下，随机变量 $Y_{v}$ 和随机变量组 $Y_{O}$ 相互独立，即
$P(Y_{v},Y_{O}|Y_{W}) = P(Y_{v}|Y_{W})P(Y_{O}|Y_{W})$ 当 $P(Y_{O}|Y_{W})>0$ 时，可以有
$P(Y_{v}|Y_{W})=P(Y_{v}|Y_{O},Y_{W})$

全局马尔可夫性

设集合 $A 、 C$ 是被集合 $B$ 分开的任意节点集合。全局马尔可夫性是指在给定随机变量组 $Y_{B}$ 的前提下随机变量组 $Y_{A}$ 和随机变量组 $Y_{C}$ 相互独立，即
$P(Y_{A},Y_{C}|Y_{B}) = P(Y_{A}|Y_{B})P(Y_{C}|Y_{B})$

概率无向图模型的因子分解

无向图中的团与最大团

无向图中任何俩个结点均有边连接的结点子集称为团。若该团再无法通过增加结点称为更大的团，则惩称之为最大团。（这里我们可以通过图来看下，团只要任意俩个点连通即可，但最大团是再增加便失去团的性质了）,下面通过例子展示一下团和最大团
在这里插入图片描述
从上图我们可以发现上图中的团有 $((A, B), (A, C), (B, C), (C, D), (A, B, C))$ 。然后我们逐个分析分析团 $(A, B)$ ，团 $(A, B)$ 可以增加结点 $C$ ，成为团 $(A, B, C)$ ，所以它不是最大团。同理团 $(A, C)$ 和团 $(B, C)$ 也是团而不是最大团。对于团 $(C, D)$ ，我们可以发现它无法增加结点变成更大的团，所以它也是最大团。最后分析团 $(A, B, C)$ ，如果团加入结点 $D$ ，则失去了团的性质，所以团 $(A, B, C)$ 是最大团

因子分解

将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解。（简而言之，联合概率分布就是把所有的最大团都乘起来）

给定一个无向图 $G$ ， $C$ 表示 $G$ 的所有的最大团， $Y_{C_{i}}$ 表示某个最大团 $C_{i}$ 的随机变量。所以概率无向图模型的联合概率分布 $P (Y)$ 可以表示为 $P(Y)=\frac{1}{Z}\prod_{C}\Psi_{c}(Y_{c})$
其中 $\displaystyle Z =\sum_{Y}\prod_{C}\Psi_{C}(Y_{C})$ 表示为规范化因子（相当于做了个归一化的操作）
其中 $\displaystyle \Psi_{C}(Y_{C})$ 称为势函数且严格正，通常我们定义 $\displaystyle \Psi_{C}(Y_{C}) = \exp\{-E(Y_{C})\}$ ， $E(Y_{C})$ 称为能量函数。

条件随机场的定义

条件随机场就是在给定随机变量 $X$ 的前提下，随机变量Y的马尔可夫场。这里我们主要研究线性链上的马尔可夫场，也称之为线性链条件随机场(linear chain conditional random field)。即 $P (Y ∣ X)$ 的定义如下 $\frac{1}{Z}\exp\{\sum_{i=1}^{K}F_{i}(x_{C_{i}})\}$ 所以有 $P(Y)=\frac{1}{Z}\prod_{C}\exp\{-E(Y_{C})\}=\frac{1}{Z}\exp{\sum_{i=1}^{K}}F_{i}(x_{C_{i}})=\frac{1}{Z}\exp\{\sum_{t=1}^{T}F_{t}(y_{t-1},y_{t},x_{1:T})\}$ 其中 $F_{t}(y_{t-1},y_{t},x_{1:T})$ 是每个最大团的的函数。

我们可以通过下图解释一下为什么可以用这个公式进行表达。下图是线性链条件随机场，其中 $X$ 是给定的随机变量，这里的随机变量 $Y$ 构成了马尔可夫随机场，所以相邻的变量 $y$ 之间构成一个最大团。注意这里讨论的是输出变量Y的随机场与X无关
在这里插入图片描述
接下来我们需要解决 $F_{t}(y_{t-1},y_{t},x_{1:T})$ 表示式的问题。它可以拆成三部分 $\Delta_{y_{t-1}}$ 、 $\Delta_{y_{t}}$ 和 $\Delta_{y_{t},y_{t-1}}$ ，即 $F_{t}(y_{t-1},y_{t},x_{1:T})=\Delta_{y_{t-1}}+\Delta_{y_{t}}+\Delta_{y_{t},y_{t-1}}$ 然后我们通过观察可以发现 $\Delta_{y_{t-1}}$ 在 $t$ 取 $t - 1$ 时也出现了，所以我们可以进行合并，即 $F_{t}(y_{t-1},y_{t},x_{1:T})=\Delta_{y_{t}}+\Delta_{y_{t},y_{t-1}}$ 将 $\Delta_{t-1}$ 扔给了 $F_{t-1}$ ，这样可以带来计算上的化简。

接下来可以定义 $\Delta$ 函数，对 $\Delta_{y_{t-1},y_{t},x_{1:T}}$ ，可以有 $\Delta_{y_{t-1},y_{t},x_{1:T}} = \sum^{K}_{k=1}\lambda_{k}f_{k}(y_{t-1},y_{t},x_{1:T})$ 其中 $f_{k}(y_{t-1},y_{t},x_{1:T})$ 可以认为是一个特征函数，举例如下：
$f_{k}(y_{t-1}=名词,y_{t}=形容词,x_{1:T})=0$ $f_{k}(y_{t-1}=形容词,y_{t}=名词,x_{1:T})=1$ 通过这种特殊制的方式来定义函数 $f$ ， $K$ 指其个数， $\lambda_{k}$ 指其权重

对 $\Delta_{y_{t},x_{1:T}}$ ，有 $\Delta_{y_{t},x_{1:T}} = \sum_{l=1}^{L}\eta_{l}g_{l}(y_{t},x_{1:T})$
其中 $g_{l}(y_{t},x_{1:T})$ 为特征函数， $L$ 指其个数， $\eta_{l}$ 指其权重

所以 $P (Y ∣ X)$ 可以简化 $\begin{alignat*}{2}P(Y|X)&=\frac{1}{Z}\exp \{\sum^{T}_{t=1}\left[ \sum^{K}_{k=1}\lambda_{k}f_{k}(y_{t-1},y_{t},x_{1:T})+\sum_{l=1}^{L}\eta_{l}g_{l}(y_{t},x_{1:T})\right] \} \\ &=\frac{1}{Z}\exp \{\sum_{k=1}^{K}\lambda_{k}\sum_{t=1}^{T}f_{k}(y_{t-1},y_{t},x_{1:T})+\sum_{l=1}^{L}\eta_{l}\sum_{t=1}^{T}g_{l}(y_{t},x_{1:T})\}\end{alignat*}$

这里的累加可以化成矩阵的形式，令 $y=\begin{pmatrix} y_{1} \\ y_{2} \\ \vdots\\ y_{T} \end{pmatrix},x = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots\\ x_{T} \end{pmatrix},\lambda=\begin{pmatrix} \lambda_{1} \\ \lambda_{2} \\ \vdots\\ \lambda_{T} \end{pmatrix},\eta=\begin{pmatrix} \eta_{1} \\ \eta_{2} \\ \vdots\\ \eta_{T} \end{pmatrix}$ $\begin{pmatrix} f_{1} \\ f_{2} \\ \vdots\\ f_{T} \end{pmatrix}=f(y_{t-1},y_{t},x_{1:T}),g = \begin{pmatrix} g_{1} \\ g_{2} \\ \vdots\\ g_{T} \end{pmatrix}=g(y_{t},x_{1:T})$ 则有 $\begin{alignat*}{2}\sum_{k=1}^{K}\lambda_{k}\sum_{t=1}^{T}f_{k}(y_{t-1},y_{t},x_{1:T})+\sum_{l=1}^{L}\eta_{l}\sum_{t=1}^{T}g_{l}(y_{t},x_{1:T}) &=\lambda^{T}\sum_{t=1}^{T}f+\eta^{T}\sum_{t=1}^{T}g\end{alignat*}$
这里我们还可以在简化一点，令 $\theta = \begin{pmatrix} \lambda\\ \eta\end{pmatrix},H = \begin{pmatrix} \sum_{t=1}^{T}f\\ \sum_{t=1}^{T}g\end{pmatrix}$
即 $\lambda^{T}\sum_{t=1}^{T}f+\eta^{T}\sum_{t=1}^{T}g = \theta^{T}H$

最后，我们可以得到 $\frac{1}{z(x,\theta)}\exp\{\theta^{T}H(y_{t},y_{t-1},x_{1:T})\}=\frac{1}{z(x,\theta)}\exp\{<\theta,H>\}$

条件随机场主要解决的三个问题

条件随机场的概率计算问题

条件随机场的概率计算问题主要是讨论边缘概率计算的问题即求 $P(y_{t}|X)$

即给定 $P (Y = y ∣ X = x)$ ，求 $P(y_{t}=i|x)$ $\frac{1}{z}\prod_{t=1}^{T}\Psi_{t}(y_{t-1},y_{t},x)$ ，故 $P(y_{t}=i|x)=\sum_{y_{1},y_2,\cdots,y_{t-1},y_{t+1},\cdots,y_{T}}P(y|x)=\sum_{y_{1}:y_{t-1}}\sum_{y_{t+1}:y_{T}}\frac{1}{z}\prod_{t^{'}=1}^{T}\Psi_{t^{'}}(y_{t^{'}-1},y_{t^{'}},x)$

上述等式的算法复杂度为 $O(|s|^{T}\cdot T)$ ，复杂度为指数级，所以需要进行简化。

首先可以将连乘展开，可以发现对于 $t$ 时刻前包括 $t$ 时刻的势能函数只与 $y_{1}:y_{t-1}$ 有关， $t$ 时刻后的势能函数只与 $y_{t+1}:y_{T}$ 有关。
所以这里可以将其切分成俩部分 $P(y_{t}=i|x) =\frac{1}{z} \delta_{left},\delta_{right}$
其中 $\delta_{left} = \sum_{y_{1}:y_{t-1}}\Psi(y_{0},y_{1},x)\cdot \Psi(y_{1},y_{2},x)\cdots \Psi(y_{t-2},y_{t-1},x)\cdot \Psi(y_{t-1},y_{t}=i,x)$ $\delta_{right} = \sum_{y_{t+1}:y_{T}}\Psi(y_{t}=i,y_{t+1},x)\cdot \Psi(y_{t+2},y_{t+3},x)\cdots \Psi(y_{T-2},y_{T-1},x)\cdot \Psi(y_{T-1},y_{T},x)$

先对 $\delta_{left}$ 进行简化 $\delta_{left}=\sum_{y_{0}}\Psi(y_{0},y_{1},x)\sum_{y_{1}}\Psi(y_{1},y_{2},x)\cdots\sum_{y_{t-2}}\Psi(y_{t-2},y_{t-1},x)\sum_{y_{t-1}} \Psi(y_{t-1},y_{t}=i,x)$
这里可以令 $\alpha_{t}(i) =\delta_{left}$ ，则有 $\alpha_{t}(i)=\alpha_{t-1}(j)\sum_{j}\Psi(y_{t-1}=j,y_{t}=i,x)$

同理对于 $\delta_{right}$ y有 $\delta_{right}=\sum_{y_{T}}\Psi(y_{T-1},y_{T},x)\sum_{y_{T-1}}\Psi(y_{T-2},y_{T-1},x)\cdots\sum_{y_{t+2}}\Psi(y_{t+1},y_{t+2},x)\sum_{y_{t+1}} \Psi(y_{t}=i,y_{t+1},x)$

这里令 $\beta_{t}(i) = \delta_{right}$ ，则有 $\beta_{t}(i) = \sum_{j}\Psi(y_{t}=i,y_{t+1}=j,x)\beta_{t+1}(j)$

综上，有 $\frac{1}{z}\alpha_{t}(i)\beta_{t}(i)$
其中 $\alpha_{T}^{T}(x) ones(1,|s|)$

条件随机场的学习问题

条件随机场的学习问题就是如何根据现有的训练数学求解最优的模型参数，即 $\hat{\theta}=\argmax\prod_{i=1}^{N}P(y^{i}|x^{i})$ 其中 $N$ 为训练的数据量， $\theta=(\lambda,\eta)$
所以学习算法的目的是通过极大化似然函数，求得更优的参数。将概率密度函数代入有 $\hat{\lambda},\hat{\eta}=\argmax_{\lambda,\eta}\prod_{i=1}^{N}\frac{1}{z(x,\lambda,\eta)}\exp\{\sum_{t=1}^{T}\left[\lambda^{T}f(y_{t-1},y_{t},x)+\eta^{T}g(y_{t},x)\right]\}$ 由于是指数函数的累积，所以可以取对数简化 $\hat{\lambda},\hat{\eta} = \argmax_{\lambda,\eta}\sum_{i=1}^{N}\left[-\log{z(x^{i},\lambda,\eta)}+\sum_{t=1}^{T}\left[\lambda^{T}f(y_{t-1},y_{t},x)+\eta^{T}g(y_{t},x)\right]\right]$
这里令 $\displaystyle L(\lambda,\eta,x^{i})=\sum_{i=1}^{N}\left[-\log{z(x^{i},\lambda,\eta)}+\sum_{t=1}^{T}\left[\lambda^{T}f(y_{t-1},y_{t},x)+\eta^{T}g(y_{t},x)\right]\right]$ ，则有 $\hat{\lambda},\hat{\eta} = \argmax_{\lambda,\eta}L(\lambda,\eta,x^{i})$ 由于是求函数最大值，所以要用梯度上升进行求解
$\nabla_{\lambda}L=\sum_{i=1}^{N}\left[-\nabla_{\lambda}\log{z(x^{i},\lambda,\eta)}+\sum_{t=1}^{T}f(y_{t-1},y_{t},x^{i})\right]$
这里有个知识点就是log-partition function的求导结果为充分统计量的数学期望，即
$\begin{alignat*}{2}\nabla_{\lambda}\log{z(x^{i},\lambda,\eta)}&=E\left[\sum_{t=1}^{T}f(y_{t-1},y_{t},x^{i})\right]\\&=\sum_{y}P(y|x^{i})\sum_{t=1}^{T}f(y_{t-1},y_{t},x^{i})\\&=\sum_{t=1}^{T}\sum_{y}P(y|x^{i})f(y_{t-1},y_{t},x^{i})\\&=\sum_{t=1}^{T}\sum_{y_{t-1}}\sum_{y_{t}}\sum_{y_{t_1}:y_{t-2}}\sum_{y_{t+1}:y_{T}}P(y|x^{i})f(y_{t-1},y_{t},x^{i})\\&=\sum_{t=1}^{T}\sum_{y_{t-1}}\sum_{y_{t}}P(y_{t-1},y_{t}|x^{i})f(y_{t-1},y_{t},x^{i})\end{alignat*}$ 这里 $P(y_{t-1},y_{t}|x^{i})$ 跟概率密度函数的计算是类似的，但是多了一个变量简单而言 $\displaystyle P(y_{t-1},y_{t}|x^{i})=\frac{1}{z}\alpha_{t-2}\Psi(y_{t-1},y_{t}|x^i)\beta_{t+1}$

然后就可以求其更新后的 $\lambda$ ，即
$\lambda^{t+1} = \lambda^{t}+step*\nabla_{\lambda}L(\lambda^{t},\eta^{t},x^{i})$

同理对于 $\eta$ ，有 $\eta^{t+1} = \eta^{t}+step*\nabla_{\eta}L(\lambda^{t},\eta^{t},x^{i})$
（这里充分统计量、边缘概率密度和 $\eta$ 的导数后续再研究补上，但整体的思想比较明确了）

条件随机场的Decoding问题

条件随机场的解码问题与HMM中的解码问题类似，都是求条件概率最大的输出序列，即 $\begin{alignat*}{2}y^{*}&=\argmax_{y_{1},y_{2},\cdots,y_{T}}P(y|x)\\ &=\argmax_{y_{1},y_{2},\cdots,y_{T}}\frac{1}{z(x,\theta)}\theta^{T}H\\ &=\argmax_{y_{1},y_{2},\cdots,y_{T}}\theta^{T}H\\&=\argmax_{y_{1},y_{2},\cdots,y_{T}}\sum_{t=1}^{T}\theta^{T}\begin{pmatrix} f\\g \end{pmatrix}\\ &=\argmax_{y_{1},y_{2},\cdots,y_{T}}\sum_{t=1}^{T}\theta^{T}F(y_{t-1},y_{t},x)\end{alignat*}$

接下来令 $\Eta_{t}(i)$ 为 $t$ 时刻 $y$ 取值 $i$ 的最大概率，则有 $\Eta_{1}(i) = \theta^{T}F(y_{0},y_{1}=i,x)$ 则递推公式为 $H_{t+1}(i)= \max_{j=1,2,\cdots,|s|}\{H_{t}(j)+\theta^{T}F(y_{t}=j,y_{t+1}=i,x)\}$

同时使用 $\Theta_{t+1}(i)$ 记录 $t + 1$ 时刻取 $y = i$ 时 $t$ 时刻最佳的 $y_{t}$ ，即 $\Theta_{t+1}(i)=\argmax_{j=1,2,\cdots,|s|}\{H_{t}(j)+\theta^{T}F(y_{t}=j,y_{t+1}=i,x)\}$

所以我们可以用回溯方法求解最佳路径，令 $\displaystyle y^{*}_{T} = \argmax_{i=1,2,\cdots,|s|}\Eta_{T}(i)$ 则有 $y_{t}^{*} =\Theta_{t+1}(y_{t+1}^{*}) \quad t=T-1,T-2,\cdots,1$

所以最优的路径 $y^{*} = (y_{1}^{*},y_{2}^{*},\cdots,y_{n}^{*})$

以上内容属于个人学习总结，如有错误请指正

碌碌无为的小张

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
条件随机场原理（CRF）

条件随机场（Conditional Random Fiedl）是指给定一组输入的随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。条件随机场打破了隐马尔可夫模型的俩个假设（观测独立性假设和齐次马尔可夫性假设），使输入向量和输出向量之间的关系更加明显，从而使其在文本处理等问题上的表现更加优越。概率无向图模型又称马尔可夫随机场，它是一个可以由无向图表示的联合概率分布。设无向图G=(V,E)G=(V,E)G=(V,E)表示概率分布P(Y)P(Y)P(Y)，其中结v∈V
复制链接

扫一扫

专栏目录