关于《Integrating Deep Learning with Logic Fusion for Information Extraction》中规则与神经网络结合的理解

最新推荐文章于 2024-01-08 01:25:56 发布

夜拾柒

最新推荐文章于 2024-01-08 01:25:56 发布

阅读量1.4k

点赞数 1

分类专栏：规则与神经网络

本文链接：https://blog.csdn.net/yeweiyang16/article/details/105014147

版权

规则与神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

阅读感想：本篇文章主要是根据在信息抽取中实体识别和关系抽取任务之间存在一定的关联性，而这种关联性可以体现为逻辑约束的形式。故作者提出了提出了基于描述逻辑的实体识别和关系抽取模型，也是少有的融合符号主义和联结主义的工作。

问题背景：现有的基于pipe-line框架进行信息抽取工作的模型容易产生传播误差，而使用联合训练的深度模型框架却很难强制实体识别和关系抽取任务的一致性。针对上述问题，作者提出将逻辑规则和深度学习融合到一个端到端的框架中，使用概率的方式来计算逻辑规则，并定义映射函数来将DNN中的输出映射到逻辑单元。

方法概述：整个模型由3部分组成——DNN、Logic bank、discrepancy unit，DNN根据输入给出每个单词的预测标签以及可能的关系预测，logic back将领域知识转化为一阶逻辑，并未每个规则赋值置信度权重表明重要程度，将DNN的输出放入logic unit中转化为logic输出（Deep Logic, 神经网络的输出跟规则的满足度），而discrepancy unit负责将logic unit的输出Logic output和神经网络输出Neural output对齐。如下图所示：

一阶逻辑：作者将规则rule使用一阶逻辑的形式表示，比如像这样的形式，另外，作者在文中引入了两个概念，一个是Herbrand interpretation，可以理解为给每个形式化规则赋值的过程。另外还有immediate consequence operator，可以理解为规则的另一种隐射。

深度神经网络模块：这个模块，作者的输入是一个句子，embedding是每个word的预训练的词向量和词性的拼接，经过隐藏层后又加入了多头自注意力机制模块，每一个头负责计算两两单词间的关系（是否在这里可以认为 c = 2^n ，n是输入句子的单词个数）。输出是每个word对应的BIO标签和两两word存在的关系类别。

逻辑融合：这部分是本篇论文的重点，也是我们着重讨论的地方。首先，作者先引入了一个映射函数 $\u$ ，定义了一系列的关于命题连接符的映射规则，目的在于将一阶逻辑映射到一个连续的空间。在本文中的具体作用就是通过计算对于于规则rule中body的神经网络输出，来得到关于rule中body对应的Head的中间值（也是对应上面immediate consequence operator的概念）。具体举例如下：

接着作者给出怎么将神经网络的输出怎么跟logic bank中的规则计算满足度，具体见算法Deep Logic

首先是输入每条句子在神经网络里关于实体和关系的预测值，接着针对rule set的每一条rule，通过映射 $\u$ 得到相关实际实例中body的推导结果，结果包括对应到实例的Head和logic value（该条句子预测结果对于每一条规则的满足值），后面的循环是对应到每条规则每个实体或者关系的算数平均满足值 $\ui$ $u^E_{i,k}$ 和 $u^R_{i,k}$ 。衡量差异函数计算的是针对到每条规则的带权神经网络输出分布和满足度分布间的差异。当然，最终的损失函数作者还加上了深度模型本身的交叉熵损失函数。最后给出与teacher-student网络关于逻辑规则融合神经网络的比较。

不同点：

在teacher-student网络中，该作者专门来得到一个与student分布接近但又尽量满足规则的新的分布——teacher Network。而在本篇文章中，作者直接在原有神经网络的输出中加入规则的影响得到一个关于规则的满足程度的分布，并且与原有的神经网络输出来进行差异度计算从而更新原有网络，而对于teacher-student来说就是在每次迭代过程中通过teacher输出、student输出和真实标签分布差异计算来更新student网络。不是同一任务，无法说孰优孰劣，都很巧妙都很难。最后给出两篇文章中关于满足度的体现，前一个是本篇文章是关于第K条规则满足度分布的形式，teacher-student网络中是以松弛度因子的形式。