BiLSTM-CRF-3

最新推荐文章于 2024-07-25 23:06:58 发布

枫林扬

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量802

点赞数 2

分类专栏：机器学习文章标签： NLP 深度学习人工智能 CRF

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

2.3 CRF损失函数

CRF损失函数中包含了真实标签序列得分和所有可能标签序列的总得分，正常情况下，真实标签序列得分在所有可能标签序列得分中是最高的。

比如，假设数据集中的标签如下所示：

Label	Index
B-Person	0
I-Person	1
B-Organization	2
I-Organization	3
O	4
START	5
END	6

那么，在第一节中我们假设的句子 $x$ ，所有可能的标签序列组合为:

(1) START B-Person B-Person B-Person B-Person B-Person END
(2) START B-Person I-Person B-Person B-Person B-Person END
…
(10) **START B-Person I-Person O B-Organization O END **
…
(N) O O O O O O O

假设一共有N中可能的标签序列组合，且第 $i$ 个标签序列的得分为 $P_i$ ，那么所有可能标签序列组合的总得分为：

$P_{total} = P_1 + P_2 + ... + P_N = e^{S_1} + e^{S_2} + ... + e^{S_N}$

按照我们之前的假设，第10个是真实的标签序列，那么，我们想要的结果是第10个标签序列得分在所有可能的标签序列得分中是最高的。

因此，我们可以定义模型的损失函数，在整个模型训练过程中，BiLSTM-CRF模型的参数不断地进行更新，使得真实标签序列得分在所有可能标签序列组合得分中的占比是最高的。因此，模型的损失函数格式如下所示：

$\frac{P_{RealPath}}{P_1+P_2+...+P_N}$

那么，问题就来了：

如何定义一个标签序列的得分？
如何计算所有可能标签序列组合的总得分？
在计算总得分中，一定需要计算每一个可能的标签序列的得分吗？

接下来，我们来解答每一个问题。

2.4 真实标签序列得分

前面我们定义了标签序列得分为 $P_i$ ，以及所有可能标签序列的总得分为：

$P_{total} = P_1 + P_2 + ... + P_N = e^{S_1} + e^{S_2} + ... + e^{S_N}$

其中 $e^{S_i}$ 表示第i个标签序列得分。

显然，在所有可能的标签序列组合必然存在一个序列是真实标签序列，而剩下的标签序列组合都是错误的，比如序列”**START B-Person I-Person O B-Organization O END **“是正确的，而序列‘START B-Person I-Person B-Person B-Person B-Person END’是错误的。

在整个模型训练过程中，CRF层的损失函数只需要两个得分：

一个是真实标签序列得分
一个是所有可能标签序列组合的总得分

而我们的学习目的是让真实的标签序列得分在总得分中的占比是最高的。

对于真实标签序列的得分 $e^{S_i}$ ，我们直接计算 $S_i$ 即可。

我们使用之前的案例，真实的标签序列为“**START B-Person I-Person O B-Organization O END **”，即：

句子 $x$ 由5个字符组成， $w_1,w_2,w_3,w_4,w_5$
我们在句子前后增加两个字符，记为 $w_0,w_6$
$S_i$ 主要由第一节中提到的Emission Score和Transition Score组成，即 $S_i = Emission Score + Transition Score$

2.4.1 Emission Score

Emission Score计算公式如下所示：

$Emission Score = x_{0,START} + x_{1,B-Person} + x_{2,I-Person} + x_{3,O} + x_{4,B-Organization} + x_{5,O} + x_{6,END}$

其中：

$x_{index,label}$ 表示第index个词被标记为label的得分
$x_{1,B-Person}, x_{2,I-Person} , x_{3,O}, x_{4,B-Organization},x_{5,O}$ 为BiLSTM层的输出
一般 $x_{0,START}$ 和 $x_{6,END}$ 为0

2.4.2 Transition Score

Transition Score计算公式如下所示:

$T r a n s i t i o n S c o r e =$
$t_{START \rightarrow B-Person} + t_{B-Person \rightarrow I-Person} +$
$t_{I-Person \rightarrow O} + t_{O \rightarrow B-Organization} + t_{B-Organization \rightarrow O} + t_{O \rightarrow END}$

其中:

$t_{label1 \rightarrow label2}$ 表示 $l a b e l 1$ 到 $l a b e l 2$ 的transition Score。
transition Score主要是在CRF层进行计算的，也就是说，transition Score完全是CRF层的参数。

因此，我们通过计算 $s_i$ ，可以得到第i条标签序列的得分。

2.5 所有可能标签序列组合的总得分

前面，我们计算了单条标签序列得分，接下来，我们需要计算所有可能标签序列的总得分。由之前内容可知，总得分的计算公式为;

$P_{total} = P_1 + P_2 + ... + P_N = e^{S_1} + e^{S_2} + ... + e^{S_N}$

很显然，总得分计算方式就是每一条标签序列得分的求和，那么我们能想到的最简单的方法就是先计算每一条的标签序列得分，然后将所有的标签序列得分进行相加得到总得分。虽然计算很简单，但是效率不高，需要很长的训练时间。

接下来,我们将通过公式推导来认识总得分计算过程。

2.6 CRF的损失函数

由前面可知，CRF层的损失函数为:

$\frac{P_{RealPath}}{P_1 + P_2 + … + P_N}$

我们对其对数化，即：

$\log \frac{P_{RealPath}}{P_1 + P_2 + … + P_N}$

一般在模型训练过程中，我们希望损失函数最小化，因此，在损失函数添加一个负号，即:

$L o g L o s s F u n c t i o n$
$\log \frac{P_{RealPath}}{P_1 + P_2 + … + P_N}$
$\log \frac{e^{S_{RealPath}}}{e^{S_1} + e^{S_2} + … + e^{S_N}}$
$log(e^{S_{RealPath}}) - \log(e^{S_1} + e^{S_2} + … + e^{S_N}))$
$S_{RealPath} - \log(e^{S_1} + e^{S_2} + … + e^{S_N}))$
$\sum_{i=1}^{N} x_{iy_i} + \sum_{i=1}^{N-1} t_{y_iy_{i+1}} - \log(e^{S_1} + e^{S_2} + … + e^{S_N}))$

因此，对于总得分，我们需要一个高效的方法计算:

$log(e^{S_1} + e^{S_2} + … + e^{S_N})$

2.6.1 emission Score和transition Score

为了简化公式，我们假设句子的长度为3，即:

$x = (w_0,w_1,w_2)$

假设数据集中只有两个标签，即：

$LabelSet = (l_1,l_2)$

则emission Score矩阵可从BiLSTM层的输出获得，即：

	$l_1$	$l_2$
$w_0$	$x_{01}$	$x_{02}$
$w_1$	$x_{11}$	$x_{12}$
$w_2$	$x_{21}$	$x_{22}$

其中 $x_{ij}$ 为单元 $w_i$ 被标记为 $l_j$ 的得分。

而且，我们可以从CRF层中得到transition Score矩阵，即:

	$l_1$	$l_2$
$l_1$	$t_{11}$	$t_{12}$
$l_2$	$t_{21}$	$t_{22}$

其中 $t_{ij}$ 为标签 $i$ 到标签 $j$ 的得分。

2.6.2 公式推导

记住我们的目标是计算: $log(e^{S_1} + e^{S_2} + … + e^{S_N})$

很显然，我们可以使用动态规划思想进行计算（如果你不了解动态规划，没关系，本文将一步一步地进行解释，当然还是建议你学习下动态规划算法）。简而言之，首先，我们计算 $w_0$ 的所有可能序列的总得分。接着，我们使用上一步的总得分计算 $w_0 \rightarrow w_1$ 的总得分。最后，我们同样使用上一步的总得分计算 $w_0 \rightarrow w_1 \rightarrow w_2$ 的总得分。最后的总得分就是我们想要的总得分。

很明显，我们每一次计算都需要利用到上一步计算得到的结果，因此，接下来，你将看到两个变量:

obs: 定义当前单元的信息
previous: 存储上一步计算的最后结果

备注：以下内容如果看不懂的话，结合上面的emission Score矩阵和transition Score矩阵一起看就明白了

首先，我们计算 $w_0$ :

$obs = [x_{01},x_{02}]$
$p r e v i o u s = N o n e$

如果我们的句子只有一个词 $w_0$ ，那么存储上一步结果的 $p r e v i o u s$ 为 $N o n e$ ，另外，对于 $w_0$ 而言， $obs = [x_{01},x_{02}]$ ，其中 $x_{01}$ 和 $x_{02}$ 分别为emission Score（ＢiLSTM层的输出）。

因此， $w_0$ 的所有可能标签序列总得分为:

$TotalScore(w_0)=\log (e^{x_{01}} + e^{x_{02}})$

接着，我们计算 $w_0 \rightarrow w_1$ :

$obs = [x_{11},x_{12}]$
$previous = [x_{01},x_{02}]$

为了计算方便，我们将 $p r e v i o u s$ 转变为:

$\begin{pmatrix} x_{01} & x_{01} \\ x_{02} & x_{02} \end{pmatrix}$

同样，将 $o b s$ 转变为:

$\begin{pmatrix} x_{11} & x_{12} \\ x_{11} & x_{12} \end{pmatrix}$
备注：通过矩阵方式计算更高效

接着，我们将 $p r e v i o u s, a b s$ 和transition Score进行相加,即:
$\begin{pmatrix} x_{01}&x_{01}\\ x_{02}&x_{02} \end{pmatrix} + \begin{pmatrix} x_{11}&x_{12}\\ x_{11}&x_{12} \end{pmatrix} + \begin{pmatrix} t_{11}&t_{12}\\ t_{21}&t_{22} \end{pmatrix}$

接着，可得到:

$\begin{pmatrix} x_{01}+x_{11}+t_{11}&x_{01}+x_{12}+t_{12}\\ x_{02}+x_{11}+t_{21}&x_{02}+x_{12}+t_{22} \end{pmatrix}$
从而我们可得到当前的 $p r e v i o u s$ 为:

$previous=[\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}), \log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})]$

实际上，第二步已经算完了，可能还有人还无法理解如何得到 $w_0$ 到 $w_1$ 的所有可能序列组合（ $label_1 \rightarrow label_1, label_1 \rightarrow label_2 , label_2 \rightarrow label_1, label_2 \rightarrow label_2$ ）的总得分，其实你主要按照以下计算方式即可;

$TotalScore(w_0 → w_1)$

$log (e^{previous[0]} + e^{previous[1]})$

$log (e^{\log(e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})}+ e^{\log(e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})} )$

$log(e^{x_{01}+x_{11}+t_{11}}+e^{x_{02}+x_{11}+t_{21}}+e^{x_{01}+x_{12}+t_{12}}+e^{x_{02}+x_{12}+t_{22}})$

很明显，与 $log(e^{S_1} + e^{S_2} + … + e^{S_N})$ 很相似。

在上述公式中，我们可以看到:

$S_1 = x_{01}+x_{11}+t_{11}$ ( $label_1$ → $label_1$ )
$S_2 = x_{02}+x_{11}+t_{21}$ ( $label_2$ → $label_1$ )
$S_3 = x_{01}+x_{12}+t_{12}$ ( $label_1$ → $label_2$ )
$S_4 = x_{02}+x_{12}+t_{22}$ ( $label_2$ → $label_2$ )

接着我们计算 $w_0$ → $w_1$ → $w_2$ :

如果你理解了上一步的计算过程的话，其实这一步的计算与上一步类似。即：

$obs = [x_{21}, x_{22}]$

$previous=[\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}), \log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})]$

类似于第二步，我们将 $p r e v i o u s$ 转化为:

同样，将 $o b s$ 转化为:

$\begin{pmatrix} x_{21}&x_{22}\\ x_{21}&x_{22} \end{pmatrix}$

将 $p r e v i o u s ， o b s$ 和transition Score进行相加，即:

$\begin{pmatrix} \log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})&\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})\\ \log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})&\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}}) \end{pmatrix} + \begin{pmatrix} x_{21}&x_{22}\\ x_{21}&x_{22} \end{pmatrix} + \begin{pmatrix} t_{11}&t_{12}\\ t_{21}&t_{22} \end{pmatrix}$
更新 $p r e v i o u s$ 为:
$previous = [\log( e^{\log (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}}) + x_{22} + t_{12}} + e^{\log (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}}) + x_{22} + t_{22}})]$
$log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{22} + t_{12}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{22} + t_{22}})]$

当计算到最后一步时，我们使用新的 $p r e v i o u s$ 计算总得分:

$TotalScore(w_0 → w_1 → w_2)$

$log (e^{previous[0]} + e^{previous[1]})$

$log (e^{\log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{21} + t_{11}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{21} + t_{21}} )}$

$e^{\log( (e^{x_{01}+x_{11}+t_{11}} + e^{x_{02}+x_{11}+t_{21}})e^{x_{22} + t_{12}} + (e^{x_{01}+x_{12}+t_{12}} + e^{x_{02}+x_{12}+t_{22}})e^{x_{22} + t_{22}})} )$

$log (e^{x_{01}+x_{11}+t_{11}+x_{21}+t_{11}}+e^{x_{02}+x_{11}+t_{21}+x_{21}+t_{11}}$
$e^{x_{01}+x_{12}+t_{12}+x_{21}+t_{21}}+e^{x_{02}+x_{12}+t_{22}+x_{21}+t_{21}}$
$e^{x_{01}+x_{11}+t_{11}+x_{22}+t_{12}}+e^{x_{02}+x_{11}+t_{21}+x_{22}+t_{12}}$
$e^{x_{01}+x_{12}+t_{12}+x_{22}+t_{22}}+e^{x_{02}+x_{12}+t_{22}+x_{22}+t_{22}})$

到这里，我们就完成了 $log(e^{S_1} + e^{S_2} + … + e^{S_N})$ 的计算过程。

参考文献

[1] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K. and Dyer, C., 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.
https://arxiv.org/abs/1603.01360

枫林扬

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
BiLSTM-CRF-3

2.3 CRF损失函数CRF损失函数中包含了真实标签序列得分和所有可能标签序列的总得分，正常情况下，真实标签序列得分在所有可能标签序列得分中是最高的。比如，假设数据集中的标签如下所示：LabelIndexB-Person0I-Person1B-Organization2I-Organization3O4START5END6...
复制链接

扫一扫

专栏目录