《Relation Memory Argument Language Model》论文笔记

本文链接：https://blog.csdn.net/weixin_43922901/article/details/123629412

使用transformer LM最后一层的向量检索最近邻的k个句子，基于当前输入和检索的token向量建立GNN，提高模型的生成效果。

在这里插入图片描述

实体提取方法：采用《Ratinov and Roth, 2009; Nadeau and Sekine, 2007》提取。
关系检索方法：提取之后进行关系检索，因为简单，所以关系三元组的检索采用关键词检索。实体打分采用tf-idf 。Top-K分数的实体被用来检索关系。这里的实体都是从看到的文本中提取的。但是训练的时候是提前提取好的，然后检索。评测的时候，采用Dynamic OpenIE
（关系不光是从之前看到的文章里面提取，也可以从训练集提取，没跑一个batch检索一次）
R memory设置：长度为P，先进先出原则，一篇文章跑完，清空M
关系三元组编码：每个关系三元组都会转换为一个句子序列：(Barack Obama, president of, United States) ->> “Barack Obama, pres- ident of, United States”.
用了LSTM和一层transformer编码，最后发现LSTM更好，且使用LSTM最后一个token的隐层状态作为关系的向量

在这里插入图片描述

mt: 输入和每个关系的计算关注分数，然后乘以每个关系的向量，加和。
ht：xl每层自注意力之后的隐层向量
基于mt和ht获取两者的门控分数gt。**
参数设置：512hidden size，16层，128 batch size，4,000 warmup steps
数据集：WikiText-103 (Merity et al., 2017), WMT19 (Barrault et al., 2019), and enwik8 (Hutter, 2012). WikiText-103、WMT19和enwik8的每个实体平均有9.03、7.97和6.66个关系三元组
模型