剑桥:LLM少量评测即可预测实际效果

在这里插入图片描述

📖标题:100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances
🌐来源:arXiv, 2409.03563

摘要

🔸在高风险应用中,预测LLM在个别任务实例上的表现至关重要。为了做到这一点,一种可能的方法是对所考虑的LLM进行一组任务实例的评估,并训练一个评估员来根据实例的特征来预测其性能。然而,这种方法需要对每个新的LLM进行足够大的任务实例集的评估,以训练一个特定于它的评估员。
🔸在这项工作中,我们利用先前测试过的LLMs的评估结果,以减少预测新LLM性能所需的评估数量。实际上,我们建议在一小组参考实例上测试新的LLM,并训练一个通用的评估员,该评估员根据前者在参考集上的表现和感兴趣实例的特征来预测LLM的性能。我们在HELM-Lite和KindsOfReasoning上进行了实证研究,这是我们介绍的现有推理数据集的集合,我们评估了所有经过指令微调的OpenAI模型,直到GPT4的2024年1月版本。
🔸当在与用于训练通用评估员的实例具有相同分布的实例上预测性能时,我们发现这种方法可以实现与针对完整实例集训练的LLM特定评估员相当的性能。此外,我们发现随机选择参考实例的性能与我们测试的一些高级选择方法一样好。然而,对于分布外的情况,没有明显的胜者出现,总体表现较差,这表明LLMs的固有可预测性较低。

🛎️文章简介

🔸研究问题:大语言模型(LLM)的评估通常需要在足够大的任务实例集上,是否能够减少评估次数?
🔸主要贡献:论文提出了一种通过少量参考实例评估新LLM性能的框架,并展示了其在不同分布数据上的预测能力。

📝重点思路

🔺相关工作

🔸AI系统的实例级预测:对于AI系统很重要,并引入了评估器模型,用于估计AI系统在个体实例上的成功概率。
🔸LLM特征聚合的可预测性:使用LLM的信息如参数量或计算量,可以预测在特定基准的表现。
🔸从现有评估中提取LLM特征:通过对不同基准上的各种LLM的表现进行建模推断,将复杂下游任务的表现与假设的能力维度关联。
🔸通过基准二次采样预测性能:通过聚类模型的置信度对数据集进行二次采样,以预测整个数据集的整体准确性。
🔸LLM推理评估:研究比较多,如GLoRE围绕多项选择、自然语言推理和二值答案,LogiGLUE围绕归纳、演绎和溯因等。

🔺论文方案

🔸研究目标:对于模型m,目标是训练一个分类器(评估器),能够根据提示p,预测m在p的表现。
🔸主要思想:将测试数据集D分成不同的部分,用于训练、验证和评估评估器。
🔸选择参考实例:围绕不同的内在特征选择和分类器家族及其超参数的优化算法,探讨了多种选择参考实例的方法,并选择了在验证数据上表现最佳的组合。
🔸训练通用评估器:通过在验证数据上训练,选择最佳的参考实例集和特征组合,构建一个通用的评估器,用于预测新LLM在新的实例上的性能。

🔎分析总结

🔸分布内:通用评估器的表现与特定评估器相当,甚至在某些情况下优于仅依赖于先前LLM信息或测试LLM在参考实例集上的结果的基线方法。
🔸分布外:所有评估器的预测能力显著下降,表明LLM在分布外场景中的可预测性较低。
🔸实例集选择:随机选择的参考实例集与高级选择方法表现相当,表明在某些情况下,简单的选择方法可能足够。

💡个人观点

论文主要是提供了一个概念说明,训练一个通用评估器的数据还是比较难做的,OOD效果也不是很好。

附录

在这里插入图片描述

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值