大模型评估榜单有那些

1.HuggingFace的Open LLM Leaderboard:
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

2.OpenCompass2.0评测体系:
https://rank.opencompass.org.cn/home

**3.C-Eval和CMMLU评测榜单:**这两个榜单侧重于中文大模型的评测,C-Eval尤其因为其覆盖多个学科的综合性考试评测集而受到重视。
https://cevalbenchmark.com/static/leaderboard.html
https://github.com/haonan-li/CMMLU/#%E6%8E%92%E8%A1%8C%E6%A6%9C

❗每个榜单都有其侧重点和评估标准,若关注的是中文语言模型的性能,可选C-Eval和CMMLU;若是通用语言能力和国际视野,那HuggingFace的榜单可能更为适用。


在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值