论文阅读笔记(二):Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

论文阅读笔记(二):Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

“知识是基础,汗水是实践,灵感是思想火花,思想火花人人有,不要放弃它。Chance favors the prepared mind.”——袁隆平寄语青年人


关于论文

收录于 ACL 2021 Findings

作者:Junyi Li1,3, Tianyi Tang1, Wayne Xin Zhao1,3,5*,Zhicheng Wei4, Ruihui Zhao4, Nicholas Jing Yuan1, and Ji-Rong Wen1,3
1Gaoling School of Artificial Intelligence, Renmin University of China,2School of Information, Renmin University of China,3Beijing Key Laboratory of Big Data Management and Analysis Methods,4Huawei Cloud,5Beijing Academy of Artificial Intelligence





摘要

  本文研究如何自动生成描述知识图中事实的自然语言文本。考虑到镜头设置较少,论文充分利用了预训练语言模型(PLM)在语言理解和生成方面的强大能力。论文做出了三个主要的技术贡献,即用于弥合KG编码和PLM之间语义差距的表示对齐、用于生成更好的输入表示的基于关系的KG线性化策略和用于学习KG和文本之间对应关系的多任务学习。在三个基准数据集上的大量实验证明了该模型在文本生成任务中的有效性。特别是,论文的模型在完全监督和低资源设置下都优于所有的比较方法。

1 面临的问题

  论文面临的主要问题有:
  1)如何学习有效的输入表示
  2) 如何捕获文本和KG之间的语义对应

  为了解决上述问题,论文提出:
  (1)用于弥合KG编码和PLM之间语义差距的表示对齐
  (2)用于生成更好的输入表示的基于关系的KG线性化策略
  (3)用于学习KG和文本之间对应关系的多任务学习

2 数据集

  如表1,对WebNLG采用了三个大域(机场、建筑和食品),对GenWiki采用了两个大域(体育和游戏)和 AGENDA。
在这里插入图片描述

3 方法

在这里插入图片描述

3.1 用于弥合KG编码和PLM之间语义差距的表示对齐

  本文采用图神经网络(GNN)作为知识图编码器,对KG中的实体关系进行显式编码。基于GNN的实体嵌入和基于PLM的词(实体)嵌入来自两个不同的语义空间。
  KG编码器  基于GNN的KG编码器旨在为KG生成实体嵌入。将实体表示为一组节点。例如,上图中的实体Iron Man将由两个节点表示:一个用于代表Iron,另一个用于代表Man。这将增强KG编码器对不可见实体的泛化能力,因为它学习具有代表性实体嵌入。
  Text 编码器  为了获得基于PLM的实体嵌入,我们将提供屏蔽文本Y[mask]输入文本编码器,屏蔽文本包含关于实体的丰富上下文信息。
  通过表示对齐,可以将基于GNN的实体嵌入与基于PLM的实体嵌入在语义空间中对齐,从而有效地将KG表示注入PLM中,提高生成质量。

3.2 用于生成更好的输入表示的基于关系的KG线性化策略

  以往的工作通常依赖于随机或预定义的规则,这对KG结构的建模是不灵活的有些关系往往是先词汇化后词汇化的,考虑到这种关系优先性,本文提出了一种基于关系的广度优先搜索(RBFS)策略,将KG遍历并线性化为实体序列。通过RBFS,可以得到一个线性化的实体序列作为文本生成解码器的输入。

3.3 用于学习KG和文本之间对应关系的多任务学习

  目标是生成反映KG中简明事实的文本。加入了一个辅助的KG重构任务来重构KG中的事实,以学习文本和KG之间的语义对应关系。
  文本生成器  目标是使参考文本的可能性最大化,这相当于将负对数可能性最小化,从KG复制实体的能力将丰富生成的文本内容,这可以通过指针生成器实现。
  知识图谱重构  通过引入KG重构任务,捕获输入KG和输出文本之间的语义对应关系,进一步提高了生成可靠文本的效率。

4 论文贡献

  本文研究如何自动生成描述知识图谱(KG)中事实的自然语言文本。借助预训练语言模型(PLMs)在语言理解和生成方面的能力,主要考虑少样本场景。我们提出了三个主要的技术贡献:
  1)用于弥合KG编码和PLM之间语义差距的表示对齐,
  2)用于生成更好的输入表示的基于关系的KG线性化策略,
  3)用于学习KG和文本之间对应关系的多任务学习。




写在最后:
   本人研究方向和兴趣点大致为自然语言处理、医疗问答系统、数据分析和跨境电商,刚开始学习研究,本专题翻译一些顶会期刊,希望能坚持做下去,欢迎有兴趣或者研究方向差不多的朋友一起交流讨论,需要论文原文可私信。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值