Challenging BIG-Bench tasks and whether chain-of-thought can solve them--2024年5月7日

论文链接: https://arxiv.org/pdf/2301.00234v3


摘要

一、主要内容

通过实验验证了 CoT 提示在BBH任务集上的有效性
BBH:BIG-Bench 评估套件中那些特别具有挑战性的任务,包括算法和多步骤算术推理、自然语言理解、世界知识使用以及多语言知识和推理等。

二、实验设置

2.1 任务选择

BBH

2.2 提示方法

标准答案提示(ICL)
思维链提示 (CoT)

2.3 模型选择

PaLM、InstructGPT 和 Codex,以评估 CoT 提示对不同模型性能的影响。

2.4 模型规模

2.5 性能评估

使用精确匹配(Exact Match, EM)作为评估指标,通过比较模型生成的输出与参考答案来衡量模型的准确性。

三、实验流程

对于每个 BBH 任务,作者们手动编写了 CoT 示例,并将其与标准答案提示进行了对比。
使用选定的语言模型来处理这些任务,并对两种提示方法下的性能进行评估。

四、实验结果

研究发现,CoT 提示使得 PaLM 模型在 23 个任务中的 10 个上超越了平均人类评分者的表现,而 Codex 模型在 17 个任务上超越了平均人类评分者的表现

4.1 模型规模

足够大的模型才能发挥作用

4.2 突现任务性能

CoT 提示能够在一些原本随模型规模增加而性能提升有限的任务上,实现性能的显著提升

4.3 任务特定分析

算法和多步推理任务:效果显著
自然语言理解任务:自然语言数据上训练的模型(如 PaLM 和 InstructGPT)在这类任务上的性能通常优于在代码和文本数据上训练的 Codex 模型
世界知识使用任务:通用知识有提升,更专业一些效果不好
多语言知识与推理任务:只在 PaLM 模型上显示出了性能提升

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值