Integrating Deep Learning with Logic Fusion for Information Extraction 论文学习

  • 摘要
    信息抽取的目的是从输入文本中产生结构化的信息。针对信息抽取已经提出了很多尝试比如特征工程或深度学习。然而,他们中的大多数都没能将这种复杂关系和任务本身联系起来,这是很重要的。比如说,两个实体之间的关系和他们的实体类型有着很大的相关性,这种依赖关系可以被看做是可以高效表达逻辑规则的复杂的约束。为了将逻辑推理能力和学习能力结合,我们提出了将以一阶逻辑形式的逻辑知识整合,以端到端的方式进行联合训练。整合的框架可以通过逻辑规则增强带有知识正则化的神经元输出,同时更新逻辑规则的权重来符合训练数据的特征。我们证明了提出的模型在多个信息抽取任务上的有效性和通用性。
  • 介绍
    信息抽取包含对输入文本中的重要信息的识别,是知识推理的重要步骤。很多问题可以被归为知识抽取任务,比如命名体识别,实体连接,意见目标抽取,关系抽取等等。在这个工作中,我们以OTE和RE作为挑战任务。给定一段文本,端到端的RE是为了提取目标实体和实体关系。比如说,给定一段文本,任务要求识别出 Rome, Lazio, Naples and Campania是地点实体和Rome和Lazio之间的关系的是 Located_in,对于Naples和Campania也是同样的。OTE的任务是在观点性的文本中识别观点目标,比如 service staff 在“The servicestaff in this restaurant is very kind”。深度神经网络已经被广泛应用在信息抽取任务中。现有的任务中采用卷积神经网络和循环神经网络来学习上下文感知和高级特性,以方便预测。指针网络也被提出用于关系抽取,尽管他们在低级特征工程中有优势,复杂的网络使得在面对大量数据的情况下学习会更加困难。此外DNNs的自动化使得注入先验知识来指导训练过程具有挑战性。相反的,符号逻辑系统提供了一种用逻辑规则表达复杂领域知识的有效方法,并已被证明在数据缺乏时具有优势。受到从经验和背景知识中学习的认知过程的启发,近年来,人们对将深度学习与逻辑推理相结合的兴趣日益浓厚(Manhaeve et al. 2018;主要用于解决逻辑问题。将领域知识作为逻辑规则,通过统一的框架集成到表示学习系统中。该模型由一个深度学习模块和一个逻辑模块组成,其中的深度学习模块包含一个Transformer式的神经网络,学习每个单词的丰富特征表示。
    为了将分布特征和逻辑推理结合,我们通过2个操作将深度学习模块和逻辑模块整合
    1 我们设计了一些映射函数以便来自神经元的信息可以被传入逻辑系统。具体来说,神经元的输出作为逻辑模块的输入,和概率逻辑逻辑运算结合,产生逻辑输出。因此,逻辑模块的输出反映了相关原子之间的神经学习和逻辑交互。此外,还为每个逻辑规则分配了一个可学习的权重,以指示其置信度。每个规则的可学习权值使逻辑系统更灵活,更适合特定的训练数据集,其中更高的权值使相应的规则在语料库中更重要。针对深度学习模块与逻辑系统之间的不一致,提出了一种误差损失度量方法,并将误差降至最小,使之能够通过逻辑知识实现DNNs的正则化。差异损失促使神经参数向规则约束方向更新,同时调整规则权值,使之与具体语料库兼容。
    总的来说,提出的框架有以下的贡献。
    1 我们使用tansformer机制处理信息抽取任务,全面的挖掘输入空间中的关联,这对于关系预测也是有指导性的
    2 我们使用逻辑规则在输出空间中执行复杂的关联并且以一种联合学习机制获得联合推理的方法将这些规则整合到分布表示学习系统中。
    3 我们通过引入使用差异最小化进行知识注入的通用框架,可以被应用于各种DNN模型中,我们也证明了它在信息抽取任务中的有效性。
  • 模型
    在这里插入图片描述提出这个模型的关键动机是输入和输出空间的内在的复杂关系。在输入空间,一句话的实体之间存在关联,比如说 Rome被抽取为一个地点实体,和Lazio有比较近的关系,这样可能帮助确认Lazio是另一个实体。为了探索这些关系,我们使用带有多头注意力机制的Transformer来生成每对单词之间的联系,注入到实体和关系预测中。然而DNN只能隐式捕捉一些关系,没有强制的关系。比如说,我们知道一个实体是人,这个实体和另一个实体的关系是居住于,那么另一个实体的类型是地点。在实体预测中,O标签是不能跟在I标签之后(我认为是两个I中间不能出现O)。
  1. 深度神经网络模块
    在这里插入图片描述
    使用多头注意力机制和双向GRU组成Transformer风格的网络,目的是兼顾顺序和远距离的依赖
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  2. 通过差异损失将逻辑规则注入
    构造两种逻辑规则
    1)关注分类标签之间的依赖关系
    在这里插入图片描述
    在这里插入图片描述
    2) 实体类型和关系之间的联系
    在这里插入图片描述
    为了能让逻辑规则和神经网络兼容,提出了几个构造函数,使得这种关系可以融入到神经网络中。
    在这里插入图片描述
    在这里插入图片描述
    逻辑规则的神经网络输出是
    在这里插入图片描述
    比如在这里插入图片描述
    3.损失函数的计算
    损失函数由两部分组成,第一部分是深度神经网络自身分类的交叉熵损失,第二部分是逻辑输出和神经网络输出之间的差异损失。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>