论文详读-关系抽取

雀氏要弩利呀窝香祺谟焅槁鐼漄

于 2022-07-25 20:26:59 发布

阅读量481

点赞数

文章标签：学习人工智能

本文链接：https://blog.csdn.net/weixin_43607587/article/details/118676709

版权

论文提出了一种新的依赖驱动的关系抽取方法，使用注意力图卷积网络（A-GCN）处理依存树中的噪声。A-GCN通过赋予不同依赖关系不同的权重来区分重要信息，同时整合依赖类型信息，避免了固定剪枝策略的需要。在标准GCN基础上，A-GCN引入了注意力机制，能够更有效地利用依存树中的上下文信息，提高了关系抽取的性能。实验在ACE2005和SemEval数据集上展示了这种方法的有效性。

摘要由CSDN通过智能技术生成

天气晴

论文题目：《Dependency-driven Relation Extraction
with Attentive Graph Convolutional Networks》

论文概要：

目前存在问题：目前现有EE研究中，都收到了依赖树的噪声影响，在目前的信息提取中，句法树特别是依存树，主要是因为它们提供了有用词之间的长距离词连接，从而引导系统更好地提取实体对之间的关系，但是密集地利用依赖信息并不能带来良好的性能，因为依赖树的噪声可能会给关系分类带来混淆。

如图，如果要预测“牛奶”和“南瓜混合物”时，可能“南瓜混合物”和“碗”之间的依存关系可能会引入噪声。因此编码依赖信息之前，之前的研究始终需要必要的剪枝策略，但由于固定的剪枝策略不能保证生成包含所有重要上下文信息且过滤掉所有噪声的子树，因此有必要设计一种适当的方法来区分依存树中的噪声并对其进行相应建模。

论文中心：提出了一种依赖驱动的神经忘了方法用于RE，用现成的工具包获取输入句子的依存树，然后在依存树上构建图，并为任意两个词之间的不同标记依存关系分配不同的权重，权重根据连接及其依存类型计算，最后根据学习的权重由AGCN预测关系。在这样做的过程中，A-GCN不仅能够区分重要的上下文信息和依赖树，并相应地利用它们，因此不需要依赖剪枝策略，而且A-GCN还可以利用以前大多数研究

论文方法：

给定一个非结构化输入句X，共有n个单词。E1和E2表示X的实体，然后通过上述公式来预测E1和E2的关系。Tx是工具包中获取的X的依存树。R是关系类型集。p是计算给定两个实体的特定关系r∈R的概率值。r帽是A-CGN的输出也就是最大的可能是哪个关系的概率，X，和Tx作为输入

标准图神经网络作为输入句子的编码语境模型。GCN的图是根据单词依存关系构建的，并由邻接矩阵A=（ai，j）n×n，如果i=j时ai，j=1，或者这是在xi和xj的关系（通常忽略连接方向）（arc）在依存树Tx和否则ai，j=0。依靠A，每个单词xi∈X，和l个GCN层收集其上下文单词在TX中携带的信息。

这里h（l-1）j表示第l-1个GCN层xj输出表示，h（0）j是xj编码器的输出，w（l）和b（l）是可以训练的矩阵和第l层GCN层的偏差，分别，σ是relu激活函数

具有依赖类型的A-GCN

注意，在标准GCN（例如，等式（2））中，字之间的连接被同等对待（即，ai，j为0或1）。因此，基于GCN的RE模型无法区分不同连接的重要性，因此对其进行剪枝对于RE非常重要。

因此，我们为这项任务提出了A-GCN，它使用注意力机制来计算不同连接的权重，以便模型能够相应地利用不同的依赖关系连接。此外，标准GCN和大多数以前的研究省略了与依赖关系相关的依赖类型，其中这些类型包含对RE非常有用的信息，并在本工作中引入到A-GCN中。

具体来说，先通过类型矩阵T=（ti，j）n×n，其中ti，j是与xi和xj之间的定向依赖连接（ti，

j和tj，i是不同的依赖关系）相关联的依赖类型（例如，nsubj）。接下来，我们将每个类型ti，j映射到其嵌入的eti，j。然后，在第l个GCN层，通过以下公式计算xi和xj之间连接的权重：

式中，ai，j ∈ A，“·”表示内部产生，s（l）i和s（l）i是xi的两个中间向量和xj，分别由以下公式计算：

圈＋表示向量串联操作，然后，我们将权重p（l）i，j应用于xi和xj之间的相关依赖关系，并通过以下公式获得xi的输出表示：

, 对于标准GCN和h偏（l-1）j（xj的类型增强表示），σ，W（l）和b（l）遵循等式（2）中相同的符号，由以下公式计算：

其中，W（l）T将嵌入et i，j的依赖类型映射到与h（l-1）j相同的维度j。

与标准GCN（即等式（2））相比，我们的方法使用数值加权（即p（l）i，j ∈[0，1]），而不是ai，j的二进制选择，以区分不同连接的重要性，从而相应地利用它们。此外，我们将依赖类型信息整合到计算的权重（即p（l）i，j）和xi的输出表示（即h（l）i）中，这在大多数以前的研究中都没有考虑。

用A-GCN进行关系提取

在将A-GCN应用于RE之前，我们首先通过BERT（Devlin等人，2019）将输入X编码为隐藏向量，h（0）i表示xi的隐藏向量，其中特殊句子初始标记“[CLS]”的隐藏向量（表示为hX）用作整个句子的表示。接下来，我们将h（0）i馈送到我们提出的具有L层的A-GCN模型，并获得相应的输出h（L）i。

然后，我们将最大池机制应用于属于实体提及（即Ek，k=1，2）的单词的输出隐藏向量，以通过以下方式计算实体（表示为hEk）的表示：

然后，我们连接句子（即hX）和两个实体（即he1和hE2）的表示，并将可训练矩阵WR应用于计算向量，以通过以下方式将其映射到输出空间：

其中，o是一个| R |维向量，其每个值都表示关系类型集R中的关系类型。最后，我们应用o的softmax函数通过以下公式预测E1和E2之间的关系r帽：

其中ou表示o中维度u处的值

实验设置

数据集

在实验中，我们使用了两个英语RE基准数据集，即ACE2005EN（ACE05）5和SemEval 2010任务8（SemEval）6（Hendrickx等人，2010）。对于ACE05，我们使用其英文部分并遵循之前的研究（Miwa和Bansal，2016；Christopoulou等人，2018；Ye等人，2019）对其进行预处理（删除两个小子集CTs和un），并将文件分为训练集、开发集和测试集7。对于SemEval，我们使用其官方的训练/测试拆分8。ACE05和SemEval中唯一关系类型的数量分别为7和19。我们在表1中报告了ACE05和SemEval基准数据集的训练/开发/测试集的实例数（即实体对）。

依赖图构造

为了构建A-GCN的图，我们使用标准CoreNLP工具包（SCT）9来获得每个输入句子X的依存树TX。虽然我们的方法能够通过注意力机制区分不同依赖关系的重要性，但如果我们能够通过特定的剪枝策略过滤掉那些给RE带来混淆的依赖关系，仍然是有益的。受之前研究的推动（Xu等人，2015；张等，2018；Y u等人，2020），在本文中，我们通过包括两组依赖连接，即局部连接和全局连接来构建A-GCN的图。具体来说，局部连接包括直接连接到两个实体的头部的所有依存关系，全局连接包括沿两个实体头部之间的最短依存路径（SDP）的所有依存关系，在许多情况下，还涉及不直接连接到两个实体的词。通过一个包含两个实体（即“公司”和基准测试）的示例句子，图3说明了两组依赖关系以及由此产生的邻接矩阵，该矩阵由两组的连接构建。值得注意的是，当SDP较短时，本地组中的连接可能比全局组中的连接更多。

实施

继Soares等人（2019）之后，我们在输入句子中插入了四个特殊标记（即“<e1>”、“<e1>”、“<e2>”和“<e2>”），以标记要研究的两个实体的边界11，这允许编码器在编码期间区分实体的位置，从而提高了模型性能。对于编码器，我们尝试使用BERT（Devlin等人，2019），因为它是一种强大的预训练语言模型，其变体在许多非线性规划任务中取得了最先进的性能（吴和何，2019；Soares等人，2019；吴等人，2019；刁等人，2020；宋等人，2020；Antoun等人，2020；田等人，2020a，b，d，2021b；秦等人，2021；宋等人，2021）。具体来说，我们使用未加密版本的BERT-base和

BERT-large12遵循默认设置（例如，对于BERT-base，我们使用12层具有768维隐藏向量的多头注意；对于BERT-large，我们使用24层具有1024维隐藏向量的多头注意）。

对于A-GCN，我们随机初始化所有可训练参数和依赖类型嵌入。

为了进行评估，我们遵循之前的研究，将标准的微观F1分数13用于ACE05，并将宏观平均F1分数14用于SemEval。在我们的实验中，我们尝试不同的超参数组合，并在开发集上对其进行调优，然后通过在开发集上获得最高F1分数的模型在测试集上进行评估。