【会议报告】国内外大模型测评体系的比较研究_王蕴韬

背景

  1. 大模型评测方法五花八门,缺乏权威

    • 任务单一

    • 互相嵌套

    • 难以复现

    • 数据泄露(互联网数据公开,相当于训练集都见过)

    • 语言偏科(中文不够)

  2. 大模型为AI基准测试带来新挑战

    • 大模型的能力:知识涌现、思维链、内容生成、提示工程、多模态信息处理
    • 传统单模态的测试不够

核心观点

  1. 模型评测内涵发生显著变化

    • 多项模型能力

    • 多项输入。多形式,多模态

  2. 国内外Benchmark体系相似,同大于异(76543)

  • 7大突出问题(主流测试题的不足)

    • 方法缺失:对小型生成式模型和长文本生成的评估方法缺失
    • 数据泄露:互联网爬取的数据集不能作为测试
    • 测试样本覆盖率
    • 测试样本与任务无关(过拟合,刷榜高的模型实用性差)
    • 数据集划分和表述改写
    • 随机数种子
    • 准确率与召回率权衡
  • 6大特点(主流测试题的特点)

    • 主流基准隐现

    • 新增考试题目

    • 评测数据公开

    • 评测方法隐匿

    • 总体差异不大

    • 空白领域相同

  • 均包含5类数据集(测试题库)

    • 预整理的数据集
    • 互联网爬取的评估集
    • 人工整理的评估集
    • 模糊化的数据集(用生成的方法扩充已有数据,比如图片中加雾,雨,雪)
    • 对话评估
  • 4种判别方式(结果判断)

    • 使用判别式输出评估生成式
    • 原子输出:将模式的输出拆分成更小、更具可度量性的组成部分,分别评估再加权组合
    • 基于模型的评估
    • 间接或基于分解的基于模型的评估
  • 均采用3种评测方法(问题设计)

    • 循环转换
    • 链式转换(中文提问-英文输出-翻译成中文。理解,翻译能力)
    • 受约束的输出

国内外benchmark现状分析

  • 重要性维度:3大评测基准使用最多
    • MMLU
    • GSM8K
    • C-Eval
  • 目标维度:7大类能力
  • 方法维度:4种测试方法,降低输出内容的评估成本
    • 自动化测试
    • 人工测试
    • zero/few shot
    • 大模型作为评测裁判
  • 指标维度:9类指标
  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

繁星知微

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值