baichuan2-13b-base的C-Eval得分简析

测试说明

我在自己的服务器上测试了baichuan2-13b-base在C-Eval上的Benchmark。得到的平均准确率是0.587,比官方的0.581还高一点点。
C-Eval 是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源,在 test 集上进行测试。我采用了百川工程里推荐的 Baichuan-7B 的评测方案。

在这里插入图片描述

得分分析

各个学科的准确率如下

{'高中物理': 0.3684210526315789, '注册消防工程师': 0.4838709677419355, 
'计算机网络': 0.47368421052631576, '高等数学': 0.3157894736842105, 
'逻辑学': 0.5, '初中物理': 0.47368421052631576, 
'临床医学': 0.5, '概率统计': 0.3888888888888889, 
'思想道德修养与法律基础': 0.9473684210526315, '操作系统': 0.5789473684210527,
 '初中数学': 0.21052631578947367, '中国语言文学': 0.8260869565217391, 
 '注册电气工程师': 0.43243243243243246, '工商管理': 0.6363636363636364, 
 '高中地理': 0.631578947368421, '近代史纲要': 0.782608695652174, 
 '法律职业资格': 0.43478260869565216, '初中地理': 0.8333333333333334, 
 '初中化学': 0.9, '高中生物': 0.42105263157894735, 
 '高中化学': 0.3684210526315789, '医师资格': 0.6122448979591837,
  '高中语文': 0.3157894736842105, '税务师': 0.46938775510204084, 
  '高中历史': 0.75, '毛泽东思想和中国特色社会主义理论概论': 0.75, 
  '高中数学': 0.2222222222222222, '导游资格': 0.7241379310344828, 
  '兽医学': 0.5652173913043478, '环境影响评价工程师': 0.5806451612903226, 
  '基础医学': 0.631578947368421, '教育学': 0.8620689655172413, 
  '注册城乡规划师': 0.6304347826086957, '初中生物': 0.8571428571428571,
   '植物保护': 0.6818181818181818, '初中历史': 0.9090909090909091, 
   '高中政治': 0.8421052631578947,
   '注册计量师': 0.7916666666666666, '艺术学': 0.6060606060606061,
    '大学经济学': 0.41818181818181815, '大学化学': 0.4166666666666667, 
    '法学': 0.5, '体育学': 0.7368421052631579,
     '公务员': 0.5531914893617021, '大学编程': 0.4594594594594595, 
     '初中政治': 0.8095238095238095, '教师资格': 0.7727272727272727, 
     '计算机组成': 0.5714285714285714, '大学物理': 0.42105263157894735, 
     '离散数学': 0.3125, '马克思主义基本原理': 0.7894736842105263, 
     '注册会计师': 0.4897959183673469}

得分最高top3:

  • 思想道德修养与法律基础’
  • ‘初中化学’
  • ‘初中历史’

得分最低top3:

  • ‘初中数学’
  • ‘高中数学’
  • ‘离散数学’

可以看到偏记忆、偏文的容易得高分,偏理工科(特别是数学)容易得低分,数学的得分和瞎猜差不多,四个选项随机选也能得0.25左右啊。最终平均得分0.587。

  • 13
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值