《Relation Memory Argument Language Model》论文笔记

简介

使用transformer LM最后一层的向量检索最近邻的k个句子,基于当前输入和检索的token向量建立GNN,提高模型的生成效果。

先看一些例子:

在这里插入图片描述

论文相关细节

  • 实体提取方法:采用《Ratinov and Roth, 2009; Nadeau and Sekine, 2007》提取。

  • 关系检索方法:提取之后进行关系检索,因为简单,所以关系三元组的检索采用关键词检索。实体打分采用tf-idf 。Top-K分数的实体被用来检索关系。这里的实体都是从看到的文本中提取的。但是训练的时候是提前提取好的,然后检索。评测的时候,采用Dynamic OpenIE
    (关系不光是从之前看到的文章里面提取,也可以从训练集提取,没跑一个batch检索一次)

  • R memory设置:长度为P,先进先出原则,一篇文章跑完,清空M

  • 关系三元组编码:每个关系三元组都会转换为一个句子序列:(Barack Obama, president of, United States) ->> “Barack Obama, pres- ident of, United States”.
    用了LSTM和一层transformer编码,最后发现LSTM更好,且使用LSTM最后一个token的隐层状态作为关系的向量

模型结构:

在这里插入图片描述

  • mt: 输入和每个关系的计算关注分数,然后乘以每个关系的向量,加和。

  • ht:xl每层自注意力之后的隐层向量

  • 基于mt和ht获取两者的门控分数gt。**

  • 参数设置:512hidden size,16层,128 batch size,4,000 warmup steps

  • 数据集:WikiText-103 (Merity et al., 2017), WMT19 (Barrault et al., 2019), and enwik8 (Hutter, 2012). WikiText-103、WMT19和enwik8的每个实体平均有9.03、7.97和6.66个关系三元组
    模型

实验结果:

  • 1、三元组抽取方法比较:Freebase和OpenIE,
    在这里插入图片描述

  • 2、利用关系三元组的哪部分?全用
    在这里插入图片描述

  • 3、关系M的长度影响:超过300个三元组之后ppl几乎不变

在这里插入图片描述

  • 4、Transformer-xl的M的长度影响
    在这里插入图片描述

  • 5、dynamic openIE的影响
    在这里插入图片描述

  • 6、实体三元组检索方法的影响,tf-idf最优
    在这里插入图片描述

  • 7、速度的影响。训练变慢1.5倍,评测变慢2.1倍

在这里插入图片描述

  • 8、ppl比较,相比于transformer-xl,RelationLM在实体词上的ppl明显更低
    在这里插入图片描述

  • 9、Coherent(逻辑性,连贯性)、knowledge(情节和知识) 比较。
    在这里插入图片描述

WikiText- 103 的test1000个文本,5个人标注

  • 10、gt的值,因为文本中非实体词占大部分,所以大部分的时间集中关注上下文,而不是relation M
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值