论文笔记(1):Large Language Models are few(1)-shot Table Reasoners


在这里插入图片描述

Abstract

已有研究表明,大型语言模型(LLM)在文本的少样本推理中表现excellent,本文证明LLM在表结构的f复杂少样本推理中表现也很competent。

Introduction

已有结构化文本推理方法基于特定的输入输出格式和领域,在实际应用中需要大量语料进行微调才能取得理想效果。
本文希望找到一套通用的不需要微调的对表结构没有严格限制少样本推理模型。

Related works

reasoning over tables: 存在上述缺点
In-context learning with LLMs: GPT-3可以很好地执行少样本学习
Chain of Thoughts Reasoning(CoT):相比传统prompt learning多了一些推理过程模板。
本文没有详细介绍CoT,可以参考原文:论文笔记(2):Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. 2022. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.

作者对不同的数据集的原本用于上下文学习的提示标注了这些思维链,证明要比direct predict有显著提高(且模型越大效果越显著)。

Method

任务:基于表格的QA 和 fact vertification

提示文本生成(对应CoT原文中的Chain-of-thought):linearize the table+concatenate it with a few examples

Models

LLMdetails
GPT3(direct)GPT-3直接预测
GPT3(+CoT)结合chain of thoughts
GPT3(+CoT-SC)结合chain of thoughts和多路径投票策略
CodexCodex模型

Experiment

dataset

question answering: WikiTableQuestions, FetaQA
fact vertification: TabFact, FEVEROUS
作者对每个数据集进行了few-shot的注释,其中direct模型的QA作为prompt(图左),CoT版本模型的Q+Explaination+A作为prompt(图右)。

baselines

Pre-trained Encoder-Decoder Model : against T5(2020) and BART(2020)
Pre-trained Table Understanding Model: TAPAS (2020), TABERT (2020), and TAPEX(2021)
Neural Symbolic Model: LogicFactChecker (2020), Neural-Symbolic Machine (2018)

results

main results

LLMs are not optimized, but highly competent, especially when combined with CoT.

![在这里插入图片描述]()

LLM 表现不是最好的,但与表结构推理模型相差不大,且与COT结合后表现更好。

analysis

Impact of Number of Shots : not sensitive, 1-shot 到2-shot有性能提升,但再增加则鲜有提升。
Quality Evaluation of Reasoning Chains :人工抽取推理链,证明预测结果是基于正确推理路径而非猜测。
Impact of Table Size:highly sensitive, 预测性能随着表增大单调下降,超过1000 tokens时退化为随机猜测。

Limitation

  1. 性能非最优
  2. costly,只有在大size下表现才较好。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值