表格问答2:模型

先说一个小插曲。昨天的文章大概介绍了一下NL2SQL问题及数据集,文章发出之后有百度的大佬回复我说正在进行的2020语言与智能技术竞赛有语义解析赛道,百度精心准备了一个高质量的NL2SQL数据集,感兴趣的朋友可以关注一下。

数据集包含200个Database以及对应的2.3979万对(question, SQL query),其中18602对用于训练集,2039用于验证集,3156用于测试集。
200个Database来自百科infobox、百科表格数据、以及互联网上存在的表格数据。每个Database包含若干张表格(2-11张,平均4.1张),人工构建了表之间的链接操作(即foreign key)。为了验证解析算法Database无关性及question无关性,在训练集合和测试集合的Database无交叉。
——2020语言与智能技术竞赛:语义解析任务

说回正题,今天我们将介绍两个NL2SQL模型,X-SQLHydraNet。它俩都来自微软,分别推出于2019年和2020年。X-SQL跟它之前的方案比如SQlNETSQLOVA都比较像,很有代表性;HydraNet对前人解决问题的大框架做了一些修改,变得更加简洁,也更符合预训练语言模型的使用习惯,应该会给大家一点启发。

为了方便大家阅读,我们先来回顾一下WikiSQL的预测目标。WikiSQL数据集进一步把SQL语句结构化(简化),分成了condsselagg三个部分。

  • sel是查询目标列,其值是表格中对应列的序号;
  • agg的值是聚合操作的编号,可能出现的聚合操作有['', 'MAX', 'MIN', 'COUNT', 'SUM', 'AVG']共6种;
  • conds是筛选条件,可以有多个。每个条件用一个三元组(column_index, operator_index, condition)表示,可能的operator_index共有['=', '>', '<', 'OP']四种,condition是操作的目标值,这是不能用分类解决的目标。

X-SQL模型

X-SQL模型结构
↑X-SQL模型结构图

上图是X-SQL的模型结构图,乍一看还是挺复杂的。模型主要分为三层,编码器上下文强化层输出层,我们逐层来解析。

编码器是模型的基础,使用的是同样来自微软的改良版BERT——MT-DNN。这部分的重点是它构造输入的方式,X-SQL的输入序列是由自然语言问题(Query)和各列的名称用[SEP]拼接而成的。为了处理conds为空的情况,模型引入了一个特殊列,用[EMPTY]来表示。模型还把原来BERT的Segment Embedding扩展成了图中黄色的Type Embedding。原来的segment token只有0和1两种,而type扩展成了4种,分别表示query,数值列,文本列和特殊的[EMPTY]列。为了突出引入的信息变多了,它们把原来的[CLS]token重新取名为[CTX]token。

中间是上下文增强层,主要是将每个列名对应的多个token输出的向量聚合并且在混入[CTX]token中的信息,得到一个列向量 r C r_C rC。图中的例子对应的表格原本有两列,第一列名称包含两个token,第二个列包含一个token,加上了特殊列[EMPTY],总共3列。上下文增强层通过三个attentive pooling模块聚合成3个 r C r_C rC向量。

输出层在最上面,可以看到输出层有六种子任务,分别是预测W-NUM(条件个数)W-COL(条件对应列,column_index)W-OP(条件运算符,operator_index)W-VAL(条件目标值,condition)S-COL(查询目标列,sel)S-AGG(查询聚合操作,agg)

  • 由于数据集中绝大多数标签的条件都不会超过4个,W-NUM的预测被建模为一个分类任务,直接取[CTX]token的输出加全连接,这个结果需要最先计算得到。
  • S开头的任务是预测查询目标,都是分类任务。其中S-AGG是从可选的6种操作中选一个,S-COL是从所有的列中选一个
  • W-OP和S-AGG对应,
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值