测试说明
我在自己的服务器上测试了baichuan2-13b-base在C-Eval上的Benchmark。得到的平均准确率是0.587,比官方的0.581还高一点点。
C-Eval 是一个全面的中文基础模型评测数据集,涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源,在 test 集上进行测试。我采用了百川工程里推荐的 Baichuan-7B 的评测方案。
得分分析
各个学科的准确率如下
{'高中物理': 0.3684210526315789, '注册消防工程师': 0.4838709677419355,
'计算机网络': 0.47368421052631576, '高等数学': 0.3157894736842105,
'逻辑学': 0.5, '初中物理': 0.47368421052631576,
'临床医学': 0.5, '概率统计': 0.3888888888888889,
'思想道德修养与法律基础': 0.9473684210526315, '操作系统': 0.5789473684210527,
'初中数学': 0.21052631578947367, '中国语言文学': 0.8260869565217391,
'注册电气工程师': 0.43243243243243246, '工商管理': 0.6363636363636364,
'高中地理': 0.631578947368421, '近代史纲要': 0.782608695652174,
'法律职业资格': 0.43478260869565216, '初中地理': 0.8333333333333334,
'初中化学': 0.9, '高中生物': 0.42105263157894735,
'高中化学': 0.3684210526315789, '医师资格': 0.6122448979591837,
'高中语文': 0.3157894736842105, '税务师': 0.46938775510204084,
'高中历史': 0.75, '毛泽东思想和中国特色社会主义理论概论': 0.75,
'高中数学': 0.2222222222222222, '导游资格': 0.7241379310344828,
'兽医学': 0.5652173913043478, '环境影响评价工程师': 0.5806451612903226,
'基础医学': 0.631578947368421, '教育学': 0.8620689655172413,
'注册城乡规划师': 0.6304347826086957, '初中生物': 0.8571428571428571,
'植物保护': 0.6818181818181818, '初中历史': 0.9090909090909091,
'高中政治': 0.8421052631578947,
'注册计量师': 0.7916666666666666, '艺术学': 0.6060606060606061,
'大学经济学': 0.41818181818181815, '大学化学': 0.4166666666666667,
'法学': 0.5, '体育学': 0.7368421052631579,
'公务员': 0.5531914893617021, '大学编程': 0.4594594594594595,
'初中政治': 0.8095238095238095, '教师资格': 0.7727272727272727,
'计算机组成': 0.5714285714285714, '大学物理': 0.42105263157894735,
'离散数学': 0.3125, '马克思主义基本原理': 0.7894736842105263,
'注册会计师': 0.4897959183673469}
得分最高top3:’
- 思想道德修养与法律基础’
- ‘初中化学’
- ‘初中历史’
得分最低top3:
- ‘初中数学’
- ‘高中数学’
- ‘离散数学’
可以看到偏记忆、偏文的容易得高分,偏理工科(特别是数学)容易得低分,数学的得分和瞎猜差不多,四个选项随机选也能得0.25左右啊。最终平均得分0.587。