大模型评估榜单有那些

yxx122345

已于 2024-09-06 10:31:19 修改

阅读量922

点赞数 1

文章标签：学习

于 2024-09-06 10:29:00 首次发布

本文链接：https://blog.csdn.net/yxx122345/article/details/141952201

版权

1.HuggingFace的Open LLM Leaderboard：
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

2.OpenCompass2.0评测体系：
https://rank.opencompass.org.cn/home

**3.C-Eval和CMMLU评测榜单：**这两个榜单侧重于中文大模型的评测，C-Eval尤其因为其覆盖多个学科的综合性考试评测集而受到重视。
https://cevalbenchmark.com/static/leaderboard.html
https://github.com/haonan-li/CMMLU/#%E6%8E%92%E8%A1%8C%E6%A6%9C

❗每个榜单都有其侧重点和评估标准，若关注的是中文语言模型的性能，可选C-Eval和CMMLU；若是通用语言能力和国际视野，那HuggingFace的榜单可能更为适用。

在这里插入图片描述