GRAPPA: Grammar-augmented pre-training for table semantic parsing论文阅读

Abstract

这篇文章是还没发表,放在Arxiv上的一篇文章,这篇文章是目前wikiTableQuestion的SOTA,达到了52.7%。另外这篇文章多个监督和弱监督任务都超出目前的SOTA了,估计也是最佳的。
这篇文章主要是对于table semantic parser的预训练。他们通过一些已经存在的text-SQL数据集,也就是给定一句话,这句话所对应的SQL语句也给出的这类数据,使用上下文无关文法在相应的表格上构建question-SQL对,然后使用他们的方法和数据对现有模型做预训练。其实就是用已有的数据集结合表格对现有的semantic parser做预训练。

从图中可以看出,首先将一些text SQL pair的数据集将其语法提取出,然后结合表格用上下文无关文法构建出新的数据集,再利用新的数据集预训练BERT。

Introduction

在这篇文章之前就出现过很多的pre-train model,这些pre train model对于WikiSQL的提升有很大帮助,但总体来说还是有限制的。作者认为最大原因是SPIDER数据集保护的表格种类太多,查询语句太复杂。 而一些语言模型都是使用一些非结构化的数据做预训练 ,而wikitabelQuestion和WikiSQL这些数据集是存在一些半结构化的数据,比如表格,所以本文的目标就是想要学习一种embedding,能够将表格数据和文本数据结合在一起。
传统的一些数据增强的方法早已被应用在了semantic parsing这个领域上,但是如果说我们通过随机生成数据的话效果不会很好,这些方法利用增强的数据在跨领域的任务不会取得很大的进步,因为输入分布是具有很大差距的。为了解决这个问题,文章的模型也引入了表格-语句的关系作为预训练的数据,MLM loss为了保持模型模拟现实数据的能力。

Model

模型的方法其实不难,更多像是一种组合。主要的技术有两种Data augmented and Table Related Utterances。 模型是使用SPIDER数据集预训练,因为这个数据集是唯一公开发布并且可以得到的数据集。(x,y)中x表示utterances,y表示SQL语句,然后手动寻找出实体和短语,这些实体和短语对应了一些规则,通过这些实体和短语可以得到一些模板,接着使用模板就可以生成数据了。
Show the locations that have at least two performances .
比如图中的句子,实际上是识别了location和at least这两个实体和短语,接着替换得到了下面的question,这就是data augmentes。第二项技术则是收集了TabFact,WikiSQL,WikiTableQuestion的数据集,使用表格和question作为预训练。

Experiments

在所有的强监督和弱监督任务下都超出了SOTA。

Conclusion

这个模型和TaBert很类似,确实在很多任务上起到了很好的效果。model的主要贡献,首先是提出了这个模型,然后超出SOTA,并且标注了SQL中的一些实体。其他的一些技术大多是移植了他人的。但是这篇文章的motivation非常弱,而且预训练所使用的数据集包含了几乎所有的semantic parsing task,model几乎是看到了所有的数据集,所以效果从直观上讲肯定会好好很多。而且这些任务都很相类似,通俗点讲,都是通过某一个语句或者问题推导出程序或者SQL,执行得到结果,无论是domain还是方法都很类似,这样集大成确实也能产生效果。

文章作者可能也是知道他的贡献和创新点不太够,所以实验做了一大堆,几乎是可以的模型都加上了。其实这篇文章最重要的创新应该是Table related question这块,因为在semantic parsing with table这个问题上的难点就是很难集合table解决问题,他这篇文章刚刚好提到了结合table的技术,但也仅仅只是加在一起训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值