Large Language Models are Versatile Decomposers: Decomposing Evidence and Questions for Table-based

最新推荐文章于 2024-08-01 11:23:07 发布

克莱恩~莫雷蒂

最新推荐文章于 2024-08-01 11:23:07 发布

阅读量1k

点赞数 23

分类专栏：大模型推理文章标签：语言模型人工智能深度学习

本文链接：https://blog.csdn.net/weixin_74095289/article/details/139014779

版权

大模型推理专栏收录该内容

9 篇文章 0 订阅

订阅专栏

title: LLM for table reasoning
mathjax: true
date: 2024-05-11 11:44:58
tags:

Large Language Models are Versatile Decomposers Decompose Evidence and Questions for Table-based Reasoning

摘要：

表格推理：

表格推理要求结合表格和问题，表格是结构化的

原有的方法不能够完成复杂的question，并且不能够大表格

提出步骤：
1、首先用LLM去分解表格变为多个小表格

2、用LLM去分解问题。利用sql语句分解为多个小问题

3、结合上面多个表格和多个小问题求解最终答案

实验：
在TabFact, WikiTableQuestion, and FetaQA上面做

更特殊的是：

他们的方法超过了人类在TabFact dataset数据集上

除了令人印象深刻的整体性能之外，我们的方法还具有可解释性的优势，其中返回的结果在某种程度上可以通过生成的子证据和子问题来处理

引言

表格推理很重要：1、对于NLU（自然语言理解）和IR（信息检索）很重要 2、对于下游任务例如FV（基于表格的事实验证）和QA很重要

表格推理难：原因是包括了非结构化文本，半结构化表格

解决的历史过程：
1、综合执行语言和表进行交互，例如sql

不足：忽略了表格内文本块的语义

2、最近基于表格的预训练模型
不足：
1、这些模型需要对大量基于特定任务的下游数据集进行微调在处理具有未见过的推理类型的新数据集时难以获得出色的性能
2、破坏了模型的上下文能力

3、对于预训练模型，不进行微调而是上下文学习引起关注

现在LLM在文本推理上厉害，但是对表格推理还没怎么研究，但是LLM对表格推理有一下技术挑战：

1、大表格困难原因：有很多行和列，难以直接对所有表内容进行编码，而且会有大量不相干信息。例如现在不能扩展到30行以上

2、将复杂问题分解为更简单的子问题可以有效促进LLM的多步推理（Huang et al., 2022；Dua et al., 2022；Chen et al., 2022）。然而，利用思维链提示直接分解复杂问题（Wei et al., 2022）很容易陷入幻觉困境（Ji et al., 2022），模型可能会生成包含信息的误导性子问题(这些子问题和证据不符合)。

综上，作者提出要一个可靠的基于表格的复杂问题分解方法

所以作者提出
探索了上下文学习来分解问题和表格的方法----DATER

具体的步骤：
S1、首先，我们利用强大的LLM将当前问题涉及的（半）结构化证据（一张大表）分解为相关的子证据（一张小表）。
我们借助强大的LLM和一些提示，通过预测行和列的索引来实现子证据提取

优点：去除干扰信息，可解释性强

S2、其次，我们提出了一种“解析-执行-填充”策略，探索编程语言SQL将复杂的非结构化自然语言（NL）问题分解为逻辑和数值计算。

具体来说，我们通过屏蔽数值范围来生成抽象逻辑子问题，然后将抽象逻辑转换为 SQL 查询语言，在证据上执行以获得可靠的子问题。

S3、最后，我们利用分解的子证据和子问题，借助一些上下文提示示例来得到最终答案

到现在理解有点苦难吧，继续往下吧

本文主要贡献

我们借助强大的 LLM 和一些提示性示例，通过预测证据的行和列的相关索引，将“巨大”证据（一张巨大的表格）减少为“小”子证据（一张小表格）。我们的证据分解方法使推理者专注于与给定问题相关的基本子证据。
我们提出了一种新颖的“解析-执行-填充”策略，通过生成中间 SQL 作为桥梁，在强大的 LLM 的帮助下生成数字和逻辑子问题，将复杂的问题分解为更简单的逐步子问题以及一些提示性的例子。我们的问题分解方法已被证明在基于表格的推理中是有效的，而不需要大量带注释的训练数据。
我们对属于基于表的事实验证和基于表的问答任务的三个基准数据集进行了广泛的实验。实验结果表明，我们的 Dater 方法比基于表格的推理的竞争基线取得了明显更好的结果。特别是，Dater 在 TabFact 数据集上首次超越了人类的表现。
除了令人印象深刻的整体性能外，我们的 Dater 还具有可解释性的优势，返回的结果在某种程度上可以通过生成的子证据和子问题来处理

问题表述和符号

在本文中，我们重点关注两个基于表的推理任务，包括基于表的事实验证（FV）和基于表的问答（QA）。

table-based reasoning = { T ,Q ,A}
T代表table
Q代表question
A代表answer

$T = {v_{i,j}|i <= RowT , j <= ColT }$

一个表有ROWT行，colt列
$v_{i,j}$ 代表第i行第j列的表格内容

问题 $Q =< q_1, · · ·, q_n >$ 由 n 个token组成。

对于基于表的 FV，最终答案 A ∈ {0, 1} 是一个布尔值，用于确定输入语句的真假。对于基于表的 QA，答案是自然语言序列 A =< a1,····, an >，n个token，它回答输入语句所描述的问题。

Method

一、上下文学习

证据表Ttest和问题Qtest预测 $p (A t es t ∣ Tt es t, Qt es t, C)$ 可以得到最终答案Atest。
这里， $\dots , C_{|C|} }$ 是来自手动编写的一小组上下文提示，其中每个示例 $C_i = (T_i Prompt, Q_iprompt, A_iprompt)$ 。

在这里插入图片描述

但是仅仅上下文学习不够 —> 用COT来加强 —> COT也不够，有很多的无用信息，因此需要对表格和问题都要分解

表格分解

之前表格分解的一些方法：
之前的研究利用了文本匹配等一些方法（Yin et al., 2020; Chen et al., 2020）来检索子证据，但实证结果表明这些方法往往是不完善的，并且需要大量特定领域的数据训练数据，因为证据检索过程依赖于强大的常识和领域知识，并且需要对问题和表格的共同理解和推理。

因此作者提出用LLM来分解

------------------------》
借助强大的LLM和一些提示，通过预测行和列的索引来实现子证据提取。形式上，在上下文学习阶段，

子证据的行索引 $Rowtest = {Row1, Row2, ...Row_{|Row|}}$ 和列索引 $Coltest = {Col1, Col2, ...Col_{|Col|}}$

子表 ${Ttest}^{-}$
可以通过用完整证据 Ttest 和相应问题 Qtest 预测 $p(Rowtest, Coltest | Ttest, Qtest, C^{ED})$ 来获得。

$C^{ED} = { C^{ED}_1 , \dots , C^{ED}_{|C|} }$ 是一小组上下文示例，

其中每个 $C^{ED}_i$ 都是示例实例（ $Row_i 提示、Col_i 提示、T_i 提示、Q_i提示$ ）。一些详细提示如提示4.2,上面那张图所示。

问题分解

将复杂问题分解为逐步的子问题可以有效促进大型模型的推理过程，这已被证明在数值和常识推理中是有效的（Huang et al., 2022；Dua et al., 2022；陈等人，2022）。然而，我们观察到，利用思维链过程直接分解复杂问题很容易陷入幻觉困境，即LLM可能无法忠实地生成与给定证据（表格）一致的内容，尤其是涉及数值。这会影响后续推理的过程，因此我们需要一种可靠的子问题生成方法。

作者提出了一种“解析执行填充”策略，通过探索编程语言 SQL 来划分逻辑步骤和数值计算，来扩展普通的思想链方法。

首先生成一个抽象逻辑子问题，使用完形填空样式屏蔽数值范围，然后将抽象逻辑转换为 SQL 查询，类似于文本到 SQL 解析。然后，对证据执行SQL语言，得到最终结果进行回填，产生可靠的子问题。
例如，如图底部所示，给出一个问题“在2007-08明尼苏达狂野赛季中，明尼苏达主场比赛的次数比客场比赛的次数多”。，我们首先屏蔽掉提示例子中子问题中涉及数值的跨度，剩下的部分可以看成是逻辑问题。这里，逻辑子问题是“q1：明尼苏达队在主场比赛的{…}次”。和“q2：明尼苏达队客场打了 {…} 次。”
在这里插入图片描述

然后用类似的方法生成sql查询语句

运行sql查询语句得到结果，把数值结果回填到sub question中得到子问题

Jointly Reasoning

在这里插入图片描述

实验

数据集：LLM主要接受网络爬虫数据和代码数据的培训。由于LLM的预训练数据不包含表格数据不存在数据集泄露风险

评估标准：binary classification accuracy 针对able-based fact verification

WikiTableQuestion --------> denotation accuracy
FetaQA ------------------------> BLEU (Papineni et al., 2002) ,ROUGE-1, ROUGE-2, ROUGE-L (Lin, 2004)

在实验中采用 GPT-3 Codex (code-davinci-002) 作为大型语言模型。对于最后的上下文推理学习步骤，分别为 TabFact、WikiTableQuestion 和 FetaQA 注释了 4、2 和 6 个提示示例。为了获得一致的结果，我们使用自洽解码策略（Wang et al., 2022b）。

基线

fine-tuning based methods that require training on task-specific data：

Table-BERT
LogicFactChecker
TaPas
SAT
SaMoE
TAPEX
等等等等，还有很多

基于LLM的方法对于基于情境学习的LLM方法：

Codex（Chen et al., 2021）通过执行情境学习直接生成最终答案
Binder（Cheng et al., 2022）生成编程语言程序并扩展编程语言解决常识性问题的能力。

实验结果

在这里插入图片描述

克莱恩~莫雷蒂

关注

23
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Large Language Models are Versatile Decomposers: Decomposing Evidence and Questions for Table-based

表格推理：表格推理要求结合表格和问题，表格是结构化的原有的方法不能够完成复杂的question，并且不能够大表格提出步骤：1、首先用LLM去分解表格变为多个小表格2、用LLM去分解问题。利用sql语句分解为多个小问题3、结合上面多个表格和多个小问题求解最终答案实验：在TabFact, WikiTableQuestion, and FetaQA上面做更特殊的是：他们的方法超过了人类在TabFact dataset数据集上。
复制链接

扫一扫