NL2SQL学习笔记

weixin_47179035

已于 2023-08-04 11:32:09 修改

阅读量1k

点赞数 1

文章标签：学习笔记

于 2023-08-04 11:31:25 首次发布

本文链接：https://blog.csdn.net/weixin_47179035/article/details/132100927

版权

关于表格理解

需要模型编码表格的典型任务包括：

基于表格的语义解析（如文本转SQL），输出常常是能够在表格上执行的SQL语句

基于表格的自动问答，输出是从表格中提取或者生成的答案

基于表格的事实核查，输出是二分类标签（表示语言表述是否符合表格事实）

相关论文

谷歌MATE 2023 可以处理长表格

研究如何将transformer定制为半结构化数据。

我们提出了MATE架构，它允许每个注意头重新排序输入，以便通过多个观点(即列或行方向)遍历数据(图2)。这允许每个注意头拥有自己的数据依赖的局部性概念，从而能够以高效和上下文感知的方式使用稀疏注意。

Sparse self-attention heads on tables in MATE

are of two classes: Row heads attend to tokens inside

cells in the same row, as well as the query. Column

heads attend to tokens in the same column and in the

query. Query tokens attend to all other tokens.

因为它需要将表与与表中提到的实体相关的长段落联合起来处理，从而产生可能不适合标准Transformer模型的大型文档。

Each attention head reorders the tokens by either column or row

index and then applies a windowed attention mechanism

TABERT: Pretraining for Joint Understanding of Textual and Tabular Data, ACL 2020.

有代码

TaBERT是一个建立在BERT上的，采用了对结构化表格进行线性化表征的Transformer-base的BERT模型。相较于大规模表格数据，作者提出了“content snapshot”，所谓“内容快照”，主要是采用算法针对表格中与输入文本最相关的表格子集进行表征的方法。后续作者又提出了“vertical attention”，与“content snapshot”结合来对表格的行进行表征。整个模型为了训练表格数据与自然语言文本的关联，TaBERT采用了平行的2600万个表格以及其对应的英文语料集合。这项技术有两个创新的点，第一个点是不但用上了列名，还用上了行名，但是这不是很正常的吗？文章说表格内容包含的信息比列名要多，然后这是他的motivation？另外文章还提到DB的表格行列很多，如果全部做encoding会造成资源的负担，所以只寻找几行做encoding。这也是motivation之一。

model使用了一些策略选择最相关的行，选择和utterance有n-gram重叠率最高的行。当k=1的时候，这说明只有一行是最相关的，但是很多情况下，输出的答案是和很多行相关的，如果只有一行相关那么可能不太准确，这个时候就找和最相关的这行最相关的其他行，这样选择出snapshot。