论文阅读笔记(二)：Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

最新推荐文章于 2022-08-03 15:53:53 发布

-海绵海绵大海绵-

最新推荐文章于 2022-08-03 15:53:53 发布

阅读量972

点赞数 1

分类专栏：论文阅读笔记文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_43576804/article/details/117732473

版权

论文阅读笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文阅读笔记(二)：Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

“知识是基础，汗水是实践，灵感是思想火花，思想火花人人有，不要放弃它。Chance favors the prepared mind.”——袁隆平寄语青年人

文章目录

论文阅读笔记(二)：Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models
关于论文
摘要
1 面临的问题
2 数据集
3 方法
4 论文贡献

关于论文

收录于 ACL 2021 Findings

作者：Junyi Li^1，3, Tianyi Tang¹, Wayne Xin Zhao^1,3,5*,Zhicheng Wei⁴, Ruihui Zhao⁴, Nicholas Jing Yuan¹, and Ji-Rong Wen^1,3
¹Gaoling School of Artificial Intelligence, Renmin University of China,²School of Information, Renmin University of China,³Beijing Key Laboratory of Big Data Management and Analysis Methods,⁴Huawei Cloud,⁵Beijing Academy of Artificial Intelligence

摘要

本文研究如何自动生成描述知识图中事实的自然语言文本。考虑到镜头设置较少，论文充分利用了预训练语言模型（PLM）在语言理解和生成方面的强大能力。论文做出了三个主要的技术贡献，即用于弥合KG编码和PLM之间语义差距的表示对齐、用于生成更好的输入表示的基于关系的KG线性化策略和用于学习KG和文本之间对应关系的多任务学习。在三个基准数据集上的大量实验证明了该模型在文本生成任务中的有效性。特别是，论文的模型在完全监督和低资源设置下都优于所有的比较方法。

1 面临的问题

论文面临的主要问题有：
1）如何学习有效的输入表示
2) 如何捕获文本和KG之间的语义对应

为了解决上述问题，论文提出：
（1）用于弥合KG编码和PLM之间语义差距的表示对齐
（2）用于生成更好的输入表示的基于关系的KG线性化策略
（3）用于学习KG和文本之间对应关系的多任务学习

2 数据集

如表1，对WebNLG采用了三个大域（机场、建筑和食品），对GenWiki采用了两个大域（体育和游戏）和 AGENDA。
在这里插入图片描述

3 方法

在这里插入图片描述

3.1 用于弥合KG编码和PLM之间语义差距的表示对齐

本文采用图神经网络（GNN）作为知识图编码器，对KG中的实体关系进行显式编码。基于GNN的实体嵌入和基于PLM的词（实体）嵌入来自两个不同的语义空间。
KG编码器 基于GNN的KG编码器旨在为KG生成实体嵌入。将实体表示为一组节点。例如，上图中的实体Iron Man将由两个节点表示：一个用于代表Iron，另一个用于代表Man。这将增强KG编码器对不可见实体的泛化能力，因为它学习具有代表性实体嵌入。
Text 编码器 为了获得基于PLM的实体嵌入，我们将提供屏蔽文本Y_[mask]输入文本编码器，屏蔽文本包含关于实体的丰富上下文信息。
通过表示对齐，可以将基于GNN的实体嵌入与基于PLM的实体嵌入在语义空间中对齐，从而有效地将KG表示注入PLM中，提高生成质量。

3.2 用于生成更好的输入表示的基于关系的KG线性化策略

以往的工作通常依赖于随机或预定义的规则，这对KG结构的建模是不灵活的有些关系往往是先词汇化后词汇化的，考虑到这种关系优先性，本文提出了一种基于关系的广度优先搜索（RBFS）策略，将KG遍历并线性化为实体序列。通过RBFS，可以得到一个线性化的实体序列作为文本生成解码器的输入。

3.3 用于学习KG和文本之间对应关系的多任务学习

目标是生成反映KG中简明事实的文本。加入了一个辅助的KG重构任务来重构KG中的事实，以学习文本和KG之间的语义对应关系。
文本生成器 目标是使参考文本的可能性最大化，这相当于将负对数可能性最小化，从KG复制实体的能力将丰富生成的文本内容，这可以通过指针生成器实现。
知识图谱重构 通过引入KG重构任务，捕获输入KG和输出文本之间的语义对应关系，进一步提高了生成可靠文本的效率。

4 论文贡献

本文研究如何自动生成描述知识图谱（KG）中事实的自然语言文本。借助预训练语言模型（PLMs）在语言理解和生成方面的能力，主要考虑少样本场景。我们提出了三个主要的技术贡献：
1）用于弥合KG编码和PLM之间语义差距的表示对齐，
2）用于生成更好的输入表示的基于关系的KG线性化策略，
3）用于学习KG和文本之间对应关系的多任务学习。

写在最后：
本人研究方向和兴趣点大致为自然语言处理、医疗问答系统、数据分析和跨境电商，刚开始学习研究，本专题翻译一些顶会期刊，希望能坚持做下去，欢迎有兴趣或者研究方向差不多的朋友一起交流讨论，需要论文原文可私信。

-海绵海绵大海绵-

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
论文阅读笔记(二)：Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

“知识是基础，汗水是实践，灵感是思想火花，思想火花人人有，不要放弃它。Chance favors the prepared mind.”——袁隆平寄语青年人
复制链接

扫一扫