baichuan2-13b-base的C-Eval得分简析_baichuan2-13b进行ceval推理精度测试-CSDN博客

本文链接：https://blog.csdn.net/yuanlulu/article/details/139122612

测试说明

我在自己的服务器上测试了baichuan2-13b-base在C-Eval上的Benchmark。得到的平均准确率是0.587，比官方的0.581还高一点点。
C-Eval 是一个全面的中文基础模型评测数据集，涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源，在 test 集上进行测试。我采用了百川工程里推荐的 Baichuan-7B 的评测方案。

在这里插入图片描述

得分分析

各个学科的准确率如下

{'高中物理': 0.3684210526315789, '注册消防工程师': 0.4838709677419355, 
'计算机网络': 0.47368421052631576, '高等数学': 0.3157894736842105, 
'逻辑学': 0.5, '初中物理': 0.47368421052631576, 
'临床医学': 0.5, '概率统计': 0.3888888888888889, 
'思想道德修养与法律基础': 0.9473684210526315, '操作系统': 0.5789473684210527,
 '初中数学': 0.21052631578947367, '中国语言文学': 0.8260869565217391, 
 '注册电气工程师': 0.43243243243243246, '工商管理': 0.6363636363636364, 
 '高中地理': 0.631578947368421, '近代史纲要': 0.782608695652174, 
 '法律职业资格': 0.43478260869565216, '初中地理': 0.8333333333333334, 
 '初中化学': 0.9, '高中生物': 0.42105263157894735, 
 '高中化学': 0.3684210526315789, '医师资格': 0.6122448979591837,
  '高中语文': 0.3157894736842105, '税务师': 0.46938775510204084, 
  '高中历史': 0.75, '毛泽东思想和中国特色社会主义理论概论': 0.75, 
  '高中数学': 0.2222222222222222, '导游资格': 0.7241379310344828, 
  '兽医学': 0.5652173913043478, '环境影响评价工程师': 0.5806451612903226, 
  '基础医学': 0.631578947368421, '教育学': 0.8620689655172413, 
  '注册城乡规划师': 0.6304347826086957, '初中生物': 0.8571428571428571,
   '植物保护': 0.6818181818181818, '初中历史': 0.9090909090909091, 
   '高中政治': 0.8421052631578947,
   '注册计量师': 0.7916666666666666, '艺术学': 0.6060606060606061,
    '大学经济学': 0.41818181818181815, '大学化学': 0.4166666666666667, 
    '法学': 0.5, '体育学': 0.7368421052631579,
     '公务员': 0.5531914893617021, '大学编程': 0.4594594594594595, 
     '初中政治': 0.8095238095238095, '教师资格': 0.7727272727272727, 
     '计算机组成': 0.5714285714285714, '大学物理': 0.42105263157894735, 
     '离散数学': 0.3125, '马克思主义基本原理': 0.7894736842105263, 
     '注册会计师': 0.4897959183673469}