简介
使用transformer LM最后一层的向量检索最近邻的k个句子,基于当前输入和检索的token向量建立GNN,提高模型的生成效果。
先看一些例子:
论文相关细节
-
实体提取方法:采用《Ratinov and Roth, 2009; Nadeau and Sekine, 2007》提取。
-
关系检索方法:提取之后进行关系检索,因为简单,所以关系三元组的检索采用关键词检索。实体打分采用tf-idf 。Top-K分数的实体被用来检索关系。这里的实体都是从看到的文本中提取的。但是训练的时候是提前提取好的,然后检索。评测的时候,采用Dynamic OpenIE
(关系不光是从之前看到的文章里面提取,也可以从训练集提取,没跑一个batch检索一次) -
R memory设置:长度为P,先进先出原则,一篇文章跑完,清空M
-
关系三元组编码:每个关系三元组都会转换为一个句子序列:(Barack Obama, president of, United States) ->> “Barack Obama, pres- ident of, United States”.
用了LSTM和一层transformer编码,最后发现LSTM更好,且使用LSTM最后一个token的隐层状态作为关系的向量
模型结构:
-
mt: 输入和每个关系的计算关注分数,然后乘以每个关系的向量,加和。
-
ht:xl每层自注意力之后的隐层向量
-
基于mt和ht获取两者的门控分数gt。**
-
参数设置:512hidden size,16层,128 batch size,4,000 warmup steps
-
数据集:WikiText-103 (Merity et al., 2017), WMT19 (Barrault et al., 2019), and enwik8 (Hutter, 2012). WikiText-103、WMT19和enwik8的每个实体平均有9.03、7.97和6.66个关系三元组
模型
实验结果:
-
1、三元组抽取方法比较:Freebase和OpenIE,
-
2、利用关系三元组的哪部分?全用
-
3、关系M的长度影响:超过300个三元组之后ppl几乎不变
-
4、Transformer-xl的M的长度影响
-
5、dynamic openIE的影响
-
6、实体三元组检索方法的影响,tf-idf最优
-
7、速度的影响。训练变慢1.5倍,评测变慢2.1倍
-
8、ppl比较,相比于transformer-xl,RelationLM在实体词上的ppl明显更低
-
9、Coherent(逻辑性,连贯性)、knowledge(情节和知识) 比较。
WikiText- 103 的test1000个文本,5个人标注
- 10、gt的值,因为文本中非实体词占大部分,所以大部分的时间集中关注上下文,而不是relation M