ShadowGNN: Graph Projection Neural Network for Text-to-SQL Parser 论文笔记

最新推荐文章于 2025-03-07 07:32:47 发布

weixin_43829169

最新推荐文章于 2025-03-07 07:32:47 发布

阅读量1.6k

点赞数 1

文章标签： nlp

本文链接：https://blog.csdn.net/weixin_43829169/article/details/121560675

版权

摘要

给定一个数据库模式，Text-to-SQL旨在将一个自然语言问题翻译成相应的SQL查询。在跨领域（意思是，如果模型在数据库a，比如说地理信息的数据库上训练，当把模型放在数据库b，比如说企业信息的数据库上测试）的设置下，传统的语义解析模型很难适应未见过的数据库模式。
为了提高模型对罕见和未见过的模式的泛化能力，我们提出了一个新的架构，即ShadowGNN，它在抽象和语义层面上处理模式。通过忽略数据库中语义项的名称，把抽象的数据库模式投影到一个图神经网络上并利用，以获得问题和模式的非词汇化表达。
基于独立于领域的表述，一个关系感知的转化器被用来进一步提取问题和模式之间的逻辑联系。最后，利用一个带有context-free grammer（即SQL的抽象语法树，大部分的Text-to-SQL模型都使用这个语法树来当作 Decoder 部分）的SQL解码器。
在具有挑战性的Text-to-SQL基准Spider上，仿真结果显示ShadowGNN优于最先进的模型。当注释数据极其有限时（只有10%的训练集），ShadowGNN 获得了绝对的5%以上的性能提升，这表明其强大的泛化能力。我们的实现将在https://github.com/WowCZ/shadowgnn上开源。

这一部分介绍了Text-to-SQL的一些难点。

首先，数据库模式被当作一个 domain，其中包含两部分的信息：

最近发布的数据集Spider（Yu等人，2018），隐藏了测试集的数据库模式，这些模式在训练集上是完全不可见的。在这种跨领域的设置中，领域适应是有难度的，主要有两个原因：

首先，测试集和开发集的domain的语义信息在训练集中是不存在的。在给定的开发集上，数据库模式中的35%的 word 并没有出现在训练集的数据库模式中，在问题和模式中很难匹配领域的表述。
第二，数据库模式的结构之间存在着相当大的差异。特别是，数据库模式总是包含语义信息。要获得数据库模式的统一表示是很困难的。在跨领域的设置下，基本的挑战是减轻领域信息的影响。

首先，有必要弄清楚在将NL问题转化为SQL查询的过程中，数据库模式组件的语义信息发挥了哪些作用。

考虑到图1(a)中的例子，对于Text-to-SQL模型来说，基本任务是通过查找带有语义信息的模式（被命名为语义模式 semantic schema）来找出所有提到的列（name）和表（ team , match season）。
在这里插入图片描述

一旦NL问题中提到的列和表与模式组件完全匹配（即NL中的单词出现在数据库中），我们就可以通过用特定的模式组件来替代普通的组件来抽象出NL问题和语义模式。如图图1(b)所示，我们仍然可以利用抽象的NL问题和模式结构来推断SQL查询的结构。

在这里插入图片描述

通过语义模式和抽象模式之间的对应关系，我们可以将抽象查询还原为带有领域信息的可执行SQL查询。

受这一现象的启发，我们将Text-to-SQL模型的编码器分解为两个模块。

首先，我们提出了一个图投影神经网络（GPNN）来抽象 NL问题（NL question） 和 语义模式（semantic schema），其中 domain information 被尽可能地删除。
然后，我们使用 relation-aware transformer（这一部分可以参考另外一篇论文 RAT-SQL）来获得抽象的NL问题的统一表征以及抽象的模式的统一表征。

这一部分介绍了本篇论文借用了哪些论文的模型

在这一节中，我们首先介绍关系图卷积网络（R-GCN)（Schlichtkrull等人，2018），它是我们提出的GPNN的基础。
然后，我们介绍 relation-aware transformer（这一部分可以参考另外一篇论文 RAT-SQL），这是一个在计算注意力权重时考虑关系信息（实际上就是在 self-attention 的基础上加了边的信息）的 transformer 变体。