1.HuggingFace的Open LLM Leaderboard:
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
2.OpenCompass2.0评测体系:
https://rank.opencompass.org.cn/home
**3.C-Eval和CMMLU评测榜单:**这两个榜单侧重于中文大模型的评测,C-Eval尤其因为其覆盖多个学科的综合性考试评测集而受到重视。
https://cevalbenchmark.com/static/leaderboard.html
https://github.com/haonan-li/CMMLU/#%E6%8E%92%E8%A1%8C%E6%A6%9C
❗每个榜单都有其侧重点和评估标准,若关注的是中文语言模型的性能,可选C-Eval和CMMLU;若是通用语言能力和国际视野,那HuggingFace的榜单可能更为适用。