Dependency Parsing as MRC-based Span-Span Prediction

最新推荐文章于 2023-02-27 10:26:59 发布

刘皮狠

最新推荐文章于 2023-02-27 10:26:59 发布

阅读量206

点赞数

分类专栏：论文阅读 NLP 文章标签：算法人工智能

本文链接：https://blog.csdn.net/weixin_43938099/article/details/128080124

版权

NLP 同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

论文阅读

10 篇文章 0 订阅

订阅专栏

Dependency Parsing as MRC-based Span-Span Prediction

任务介绍

依存句法分析(dependency parsing)

研究句子中词与词之间的关系。依存关系由核心词（head）与依存词（dependent）表示，每个核心词对应其成分的中心（如名词之于名词短语，动词之于动词短语）。最常用的关系分为两大类：从句关系（clausal relations）与修饰语关系（modiﬁer relations）。

例如，「趣味」是「脱离」的 DOBJ 关系，也就是直接宾语（Direct object），这就是从句关系；「低级」是「趣味」的 AMOD 关系，也就是形容词修饰语（Adjectival modiﬁer），这就是修饰语关系。

该任务的目的是输入句子，输出词与词之间依存关系。

研究问题

针对以span级别构建依存树，现有的高阶方法不能完全解决构建问题，提出一种可以解决以span级别的构建依存树的方法。

主要工作

提出一种新的dependency parsing的方法。该方法通过直接对span-span关系建模来构造dependency tree。该方法包含两个步骤：

文本span提议模块。该模块提出候选span，每个span代表在dependency tree中的一个子树，表示为(root, begin, end)。
span链接模块。该模块在所提议的span之间建立链接。

使用机器阅读理解(machine reading comprehension, MRC)框架作为backbone来形式化span链接模块，其中的一个span作为查询来提供它应该链接到的span/subtree。

方法

标记(notations)

给定一个输入句子，表示为 $s=(w_0,w_1,...,w_n)$ ，其中 $n$ 表示句子的长度， $w_0$ 是一个虚拟的标记，表示句子的根。

将dependency parsing任务公式化为从所有根为 $w_0$ 可能的树中找到得分最高的树。
$\hat T=\arg\max score(T_{w_0})$
每个标记 $w_i$ 都有相对于的子树 $T_{w_i}$ ，该子树可以用一个span来表示，其中 $T_{w_i}·s$ 是它最左边的标记， $T_{w_i}·e$ 是最右边的标记。

标记举例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PYZ1Mv8G-1669619150799)(C:\Users\Liu\Desktop\Learning\研究生\截图\image-20221026141142126.png)]

$T_{love}$ 表示整个句子 “I love Tim’s cat”，子树 $T_{cat}$ 的span是“Tim’s cat”.

每个有向弧 $w_i\rightarrow w_j$ 表示一对父子关系，其中 $T_{w_j}$ 是 $T_{w_i}$ 的子树。

打分公式

树由span和它们之间的链接组成，所以将评分函数形式化为：
$\begin{aligned} &\operatorname{score}\left(T_{w_0}\right)=\sum_{i=1}^n \operatorname{score}_{\text {span }}\left(T_{w_i}\right) \\ &\quad+\lambda \sum_{\left(w_i \rightarrow w_j\right) \in T_{w_0}} \text { score }_{\text {link }}\left(T_{w_i}, T_{w_j}\right) \end{aligned}$
其中

$score_{span}(T_{w_i})$ 表示根为 $w_i$ 的子树覆盖从 $T_{w_i}·s$ 到 $T_{w_i}·e$ 的可能性。
$score_{link}(T_{w_i})$ 表示树 $T_{W_j}$ 是 $T_{w_i}$ 子树的可能性。
$\lambda$ 是一个超参。

span提议模块

$score_{span}(T_{w_i})$ 的得分可以分解为两个部分，从左半span的得分和右半span的得分。
$\begin{aligned} \text { score }_{\text {span }}\left(T_{w_i}\right) &=\text { score }_{\text {start }}\left(T_{w_i} \cdot s \mid w_i\right) \\ &+\operatorname{score}_{\text {end }}\left(T_{w_i} \cdot e \mid w_i\right) \end{aligned}$
其中

$\text { score }_{\text {start }}\left(T_{w_i} \cdot s \mid w_i\right)$ 表示从 $T_{w_i}·s$ 到 $w_i$ 的span得分，从而将任务转换为文本跨度提取问题。

使用仿射函数来对 $score_{start}(j|i)$ 进行span打分。
$\text { score }_{\text {start }}(j \mid i)=\mathbf{x}_i^{\top} U_{\text {start }} \mathbf{x}_j+\mathbf{w}_{\text {start }}^{\top} \mathbf{x}_j$
其中

$\in \mathbb{R}^{d\times d}$ 和 $\in \mathbb{R}^d$ 是可训练的参数。
$x_i \in \mathbb{R}^d$ 和 $x_j\in \mathbb{R}^d$ 是 $w_i$ 和 $w_j$ 的标记表示。通过将句子 $s$ 输入到BERT获得 $x_i$ 和 $x_j$ 的表示。

使用以下损失来优化左半span方案模块：
$\mathcal{L}_{\text {span }}^{\text {start }}=-\sum_{i=1}^n \log \frac{\exp \left(\text { score }_{\text {start }}\left(T_{w_i} \cdot s \mid i\right)\right)}{\sum_{j=1}^n \exp \left(\operatorname{score}_{\text {start }}(j \mid i)\right)}$
这个目标强制模型对于每个单词 $w_i$ 找到正确的span从开始 $T_{w_i}\cdot s$ 。

对于 $\text { score }_{\text {end}}\left(T_{w_i} \cdot e \mid w_i\right)$ 同理有
$\operatorname{score}_{\text {end }}(j \mid i)=\mathbf{x}_i^{\top} U_{\mathrm{end}} \mathbf{x}_j+\mathbf{w}_{\mathrm{end}}^{\top} \mathbf{x}_j$
优化右半跨度方案模块：
$\mathcal{L}_{\text {span }}^{\text {end }}=-\sum_{i=1}^n \log \frac{\exp \left(\text { score }_{\text {end }}\left(T_{w_i} \cdot e \mid i\right)\right)}{\sum_{j=1}^n \exp \left(\text { score }_{\text {end }}(j \mid i)\right)}$

span链接模块

给定两个子树 $T_{w_i}$ 和 $T_{w_j}$ ，链接模块通过打分 $score_{link}(T_{w_i},T_{w_j})$ 来表示 $T_{w_j}$ 是 $T_{w_i}$ 子树的可能性。

使用机器阅读理解(MRC)框架作为骨干来计算分数。它通过在三元组{context( $X$ ), query( $q$ ), answer( $a$ )}上操作。其中

context( $X$ )表示原始的句子 $s$
query( $q$ )表示子span( $T_{w_j}\cdot s,T_{w_j}\cdot e$ )
answer( $a$ )表示父span( $T_{w_i}\cdot s,T_{w_i}\cdot e$ )

该框架最基本的想法是使用子span查询整个句子可以直接提示识别相应的父span，这比简单地输入两个提取的span然后确定它们是否具有父子关系更有效。

构建Query

通过综合考虑span和它的根公式化query：
$\begin{gathered} \langle\mathrm{sos}\rangle, T_{w_j} . s, T_{w_j} . s+1, \ldots, T_{w_j}-1,\langle\mathrm{sor}\rangle, \\ \left.T_{w_j},\langle\text { eor }\right\rangle, T_{w_j}+1, \ldots, \\ T_{w_j} . e-1, T_{w_j} . e,\langle\text { eos }\rangle \end{gathered}$
其中

$< s o s >, < s o r >, < e o r >, < e o s >$ 是特殊标记符。分别表示span的起点，根的起点，根的终点和span的终点。

这种结构的表示方法存在一种问题：查询中不包含 $T_{w_j}$ 的位置信息。

于是采用一个更方便的策略，其中查询是原始的句子。 $< s o s >, < s o r >, < e o r >, < e o s >$ 用来表示子树的位置。

answer提取

直接从MRC模型中获取框架

通过识别answer span的开始和结束，分别用 $\operatorname{score}_{\text {parent }}^s\left(T_{w_i} . s \mid T_{w_j}\right)$ 和 $\operatorname{score}_{\text {parent }}^e\left(T_{w_i} . e \mid T_{w_j}\right)$ 来表示。
同时希望能够answer中获取根 $T_{w_i}$ ，用 $\operatorname{score}_{\text {parent }}^r\left({w_i} \mid T_{w_j}\right)$ 来表示。
同时希望确定父子之间的关系类别。使用 $\operatorname{score}_{\text {parent }}^l\left(l \mid {w_i},{w_j}\right)$ 来表示。

综上所述：
$\begin{aligned} &\text { score }_{\text {parent }}\left(T_{w_i} \mid T_{w_j}\right)= \\ &\text { score }_{\text {parent }}^r\left(w_i \mid T_{w_j}\right)+\text { score }_{\text {parent }}^s\left(T_{w_i} \cdot s \mid T_{w_j}\right)+ \\ &\text { score }_{\text {parent }}^e\left(T_{w_i} \cdot e \mid T_{w_j}\right)+\text { score }_{\text {parent }}^l\left(l \mid T_{w_j}, w_i\right) \end{aligned}$
在MRC设置中是query和context的拼接，表示为{, query, , context}

$h_t$ 表示从BERT输出的索引t的token的表示。
$\begin{aligned} &\text { score }_{\text {parent }}^r\left(w_t \mid T_{w_j}\right)=\frac{\exp \left(\mathbf{h}_{\text {root }}^{\top} \times \mathbf{h}_t\right)}{\sum_{t^{\prime} \in \text { context }} \exp \left(\mathbf{h}_{\text {root }}^{\top} \times \mathbf{h}_{t^{\prime}}\right)}\\ &\text { score }_{\text {parent }}^s\left(w_t \mid T_{w_j}\right)=\frac{\exp \left(\mathbf{h}_{\text {start }}^{\top} \times \mathbf{h}_t\right)}{\sum_{t^{\prime} \in \text { context }} \exp \left(\mathbf{h}_{\text {start }}^{\top} \times \mathbf{h}_{t^{\prime}}\right)} \\ &\text { score }_{\text {parent }}^e\left(w_t \mid T_{w_j}\right)=\frac{\exp \left(\mathbf{h}_{\text {end }}^{\top} \times \mathbf{h}_t\right)}{\sum_{t^{\prime} \in \operatorname{context}} \exp \left(\mathbf{h}_{\text {end }}^{\top} \times \mathbf{h}_{t^{\prime}}\right)}\\ &\text { score }_{\text {parent }}^l\left(l \mid T_{w_j}, w_i\right)=\frac{\exp \left(\mathbf{h}_l^{\top} \times \mathbf{h}_{w_i}\right)}{\sum_{l^{\prime} \in \mathcal{L}} \exp \left(\mathbf{h}_{l^{\prime}}^{\top} \times \mathbf{h}_{w_i}\right)} \end{aligned}$

mutual dependency

上式中只描述了父级单向依赖关系，而没有描述子级依赖关系。
$\begin{aligned} &\operatorname{score}_{\text {child }}\left(T_{w_j} \mid T_{w_i}\right)= \\ &\operatorname{score}_{\text {child }}^r\left(w_j \mid T_{w_i}\right)+\operatorname{score}_{\text {child }}^s\left(T_{w_j} . s \mid T_{w_i}\right)+ \\ &\text { score }_{\text {child }}^e\left(T_{w_j} . e \mid T_{w_i}\right)+\operatorname{score}_{\text {child }}^l\left(l \mid T_{w_i}, T_{w_j}\right) \end{aligned}$
最后 $score_{link}$ 的评分记为
$\begin{aligned} \operatorname{score}_{\text {link }}\left(T_{w_i}, T_{w_j}\right) &=\text { score }_{\text {child }}\left(T_{w_j} \mid T_{w_i}\right) \\ &+\text { score }_{\text {parent }}\left(T_{w_i} \mid w_j\right) \end{aligned}$
使用多标签交叉熵 $L_{parent}$ 表示 $score_{parent}$

使用二元交叉熵 $L_child$ 表示 $score_{child}$

最终链接模块的交叉熵表示为 $L_{link}=L_{parent}+L_{child}$

推导

整个模型的推导如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LfNQwgsm-1669619150801)(C:\Users\Liu\Desktop\Learning\研究生\截图\image-20221026153424217.png)]

该算法的关键点在于可以将 $score(T_{w_0})$ 的公式一般化：
$\begin{aligned} &\operatorname{score}\left(T_w\right)=\sum_{T_{w_i} \subseteq T_w} \text { score }_{\text {span }}\left(T_{w_i}\right) \\ &+\lambda \sum_{\left(w_i \rightarrow w_j\right) \in T_w} \text { score }_{\text {link }}\left(T_{w_i}, T_{w_j}\right) \end{aligned}$

$\left\{T_{w_i} \mid T_{w_i} \subseteq T_w, i=0,1, \ldots, n\right\}$ 是 $T_w$ 的所有子树。

根据 $T_w$ 存在路径 $\to w_{i_1}\to...\to w_i$ 可以将上述公式重写为：
$\begin{aligned} &\operatorname{score}\left(T_w\right)=\operatorname{score}_{\text {span }}\left(T_w\right) \\ &+\sum_{T_{w_j} \in \mathcal{C}\left(T_w\right)}\left[\operatorname{score}\left(T_{w_j}\right)+\lambda \text { score }_{\text {link }}\left(T_w, T_{w_j}\right)\right] \end{aligned}$

$\mathcal{C}\left(T_w\right)=\left\{T_{w_i} \mid\left(w \rightarrow w_i\right) \in T_w, i=\right.$ $\ldots n\}$ 表示 $T_w$ 的所有直接子树的集合.

projective decoding

给定在提议阶段获得的检索跨度，使用CKY风格的自下而上动态规划算法来找到基于打分公式得分最高的投影树。

Non-projective decoding

射影性质保证每个子树在文本中都是一个连续的跨度。

但是存在一个问题，当树中存在一定数量的非投影时会表现得糟糕。

解决方法就是采用MST（最大扫描树）算法。获取每对标记 $w_i$ 和 $w_j$ （而不是span）的分数，用 $score_{edge}(w_i,w_j)$ 表示。
$\begin{gathered} \operatorname{score}_{\text {edge }}\left(w_i, w_j\right)=\max _{T_{w_i}, T_{w_j}}\left[\text { score }_{\text {span }}\left(T_{w_i}\right)\right. \\ \left.+\operatorname{score}_{\text {span }}\left(T_{w_j}\right)+\lambda \operatorname{score}_{\text {link }}\left(T_{w_i}, T_{w_j}\right)\right] \end{gathered}$

实验

数据集及评价指标

数据集：

English Penn Treebank v3.0(PTB)数据集

PTB数据集包含39832个句子作为训练数据，2416个句子作为测试数据。

Chinese Treebank v5.1(CTB)数据集

CTB包含16091个句子作为训练数据和1910个句子作为测试数据。

Universal Dependency Treebanks v2.2(UD)数据集

选择其中12种语言。

度量指标：

使用unlabeled attachment score(UAS)和attachment score(LAS)作为评价指标。

实验结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z8KG4kcS-1669619150801)(C:\Users\Liu\Desktop\Learning\研究生\截图\image-20221026163441185.png)]

上表显示了在PTB和CTB上的不同模型的结果。由于这些方法在其方法中同时利用了dependency和constituency信息，因此不能与文中的方法相比较。

将模型与PTB/CTB测试集上的现有状态模型进行了比较。
对于没有预训练 LM 的模型，所提出的基于QAnet的span预测模型优于所有基线，说明了所提出的span预测框架在依赖解析方面的有效性。
对于基于 BERT 的模型，所提出的span预测模型优于基于BERT的Biaffine模型以及其他竞争基线。在 PTB 上，性能已经优于所有以前的基线，除了 LAS 指标与 PTB 上的 HiePTR（95.46 对 95.47）相比，但表现低于基于 RoBERTa 的模型。在 CTB 上，所提出的跨度预测模型获得了 93.14% UAS 的新 SOTA 性能。
对于基于 RoBERTa 的模型，所提出的模型在 PTB 上实现了 97.24% UAS 和 95.49% LAS 的新 SOTA 性能。由于 PTB 和 CTB 几乎只包含投影树，因此投影解码策略明显优于非投影 MST 算法。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Wl5O4ea-1669619150802)(C:\Users\Liu\Desktop\Learning\研究生\截图\image-20221026163733790.png)]

上表将模型与现有的在UD测试集上的最先进的方法进行了比较。

将模型与 UD 测试集上现有的最先进方法进行了比较。除了在西班牙语中，提出的模型比 SOTA 模型略逊 0.02，而用 XLM-RoBERTa 增强的提出的模型在所有其他 11 种语言上实现了 SOTA 性能，平均性能提升 0.3。由于 UD 中的许多语言都具有显着部分的非投影树，因此 MST 解码的性能明显优于投影解码，从而在几乎所有语言集中带来了新的 SOTA 性能。