GRAPPA: Grammar-augmented pre-training for table semantic parsing论文阅读

最新推荐文章于 2024-10-15 09:41:26 发布

麦香猪扒饭

最新推荐文章于 2024-10-15 09:41:26 发布

阅读量500

点赞数 1

分类专栏： NLP 文章标签：自然语言处理神经网络

本文链接：https://blog.csdn.net/weixin_47474348/article/details/115862457

版权

NLP 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

Abstract

这篇文章是还没发表，放在Arxiv上的一篇文章，这篇文章是目前wikiTableQuestion的SOTA，达到了52.7%。另外这篇文章多个监督和弱监督任务都超出目前的SOTA了，估计也是最佳的。
这篇文章主要是对于table semantic parser的预训练。他们通过一些已经存在的text-SQL数据集，也就是给定一句话，这句话所对应的SQL语句也给出的这类数据，使用上下文无关文法在相应的表格上构建question-SQL对，然后使用他们的方法和数据对现有模型做预训练。其实就是用已有的数据集结合表格对现有的semantic parser做预训练。

从图中可以看出，首先将一些text SQL pair的数据集将其语法提取出，然后结合表格用上下文无关文法构建出新的数据集，再利用新的数据集预训练BERT。

Introduction

在这篇文章之前就出现过很多的pre-train model，这些pre train model对于WikiSQL的提升有很大帮助，但总体来说还是有限制的。作者认为最大原因是SPIDER数据集保护的表格种类太多，查询语句太复杂。 而一些语言模型都是使用一些非结构化的数据做预训练，而wikitabelQuestion和WikiSQL这些数据集是存在一些半结构化的数据，比如表格，所以本文的目标就是想要学习一种embedding，能够将表格数据和文本数据结合在一起。
传统的一些数据增强的方法早已被应用在了semantic parsing这个领域上，但是如果说我们通过随机生成数据的话效果不会很好，这些方法利用增强的数据在跨领域的任务不会取得很大的进步，因为输入分布是具有很大差距的。为了解决这个问题，文章的模型也引入了表格-语句的关系作为预训练的数据，MLM loss为了保持模型模拟现实数据的能力。

Model

模型的方法其实不难，更多像是一种组合。主要的技术有两种Data augmented and Table Related Utterances。 模型是使用SPIDER数据集预训练，因为这个数据集是唯一公开发布并且可以得到的数据集。(x,y)中x表示utterances，y表示SQL语句，然后手动寻找出实体和短语，这些实体和短语对应了一些规则，通过这些实体和短语可以得到一些模板，接着使用模板就可以生成数据了。
Show the locations that have at least two performances .
比如图中的句子，实际上是识别了location和at least这两个实体和短语，接着替换得到了下面的question，这就是data augmentes。第二项技术则是收集了TabFact,WikiSQL,WikiTableQuestion的数据集，使用表格和question作为预训练。

Experiments

在所有的强监督和弱监督任务下都超出了SOTA。

Conclusion

这个模型和TaBert很类似，确实在很多任务上起到了很好的效果。model的主要贡献，首先是提出了这个模型，然后超出SOTA，并且标注了SQL中的一些实体。其他的一些技术大多是移植了他人的。但是这篇文章的motivation非常弱，而且预训练所使用的数据集包含了几乎所有的semantic parsing task，model几乎是看到了所有的数据集，所以效果从直观上讲肯定会好好很多。而且这些任务都很相类似，通俗点讲，都是通过某一个语句或者问题推导出程序或者SQL，执行得到结果，无论是domain还是方法都很类似，这样集大成确实也能产生效果。

文章作者可能也是知道他的贡献和创新点不太够，所以实验做了一大堆，几乎是可以的模型都加上了。其实这篇文章最重要的创新应该是Table related question这块，因为在semantic parsing with table这个问题上的难点就是很难集合table解决问题，他这篇文章刚刚好提到了结合table的技术，但也仅仅只是加在一起训练。