各大模型测评地址和说明

            <div id="content_views" class="markdown_views prism-atom-one-dark">
                <svg xmlns="http://www.w3.org/2000/svg" style="display: none;">
                    <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path>
                </svg>
                <h2><a name="t0"></a><a id="1Open_LLM_Leaderboard__LLM_0"></a>1.Open LLM Leaderboard - 开放式LLM排行榜</h2> 

测评地址:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
说明:使用Eleuther AI的语言模型评估工具,针对六个核心任务进行基准测试,包括AI2推理挑战、HellaSwag、MMLU等。

2.MTEB Leaderboard - 海量文本嵌入基准排行榜

测评地址:https://huggingface.co/spaces/mteb/leaderboard
说明:覆盖八大核心嵌入任务,横跨58个数据集及112种语言,对33种不同模型进行基准测试。

3.Big Code Models Leaderboard - 大型代码模型排行榜

测评地址:https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
说明:专注于多语言代码生成模型,特别是在HumanEval与MultiPL-E基准测试上的性能对比。

4.SEAL Leaderboards - SEAL排行榜

测评地址:https://scale.com/leaderboard
说明:采用Elo等级分制度来比较不同数据集上模型的表现,使用Bradley-Terry模型进行统计分析。

5.Berkeley Function-Calling Leaderboard - 伯克利大模型函数调用排行榜

测评地址:https://gorilla.cs.berkeley.edu/leaderboard
说明:评估大型语言模型在调用函数和实用工具方面的能力,涵盖2,000对问答对。

6.Occiglot Euro LLM 排行榜 - Occiglot Euro LLM排行榜

测评地址:https://huggingface.co/spaces/occiglot/euro-llm-leaderboard
说明:是Open LLM排行榜的补充,特别增添了翻译任务的评估维度。

7.LMSYS Chatbot Arena Leaderboard - LMSYS聊天机器人竞技场排行榜

测评地址:https://chat.lmsys.org/?leaderboard=
说明:众包平台,用于评测大型语言模型在对话交互中的表现,通过超过一百万次的人工配对比较。

8.Artificial Analysis LLM Performance Leaderboard - 人工分析LLM性能排行榜

测评地址:https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard
说明:在无服务器API端点上对大型语言模型实施基准测试,综合评价性能与质量。

9.Open Medical LLM Leaderboard - 开放医学模型排行榜

测评地址:https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard
说明:依托专业医学数据集,评估模型在解决医学相关问题的能力。

10.Hughes Hallucination Evaluation Model (HHEM) Leaderboard - 休斯幻觉评价模型排行榜

测评地址:https://huggingface.co/spaces/vectara/leaderboard
说明:衡量语言模型在生成文档摘要时出现幻觉现象的频度。

11.OpenVLM Leaderboard - OpenVLM排行榜

测评地址:https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
说明:展示针对视觉语言模型的综合评估概况,覆盖23项多模态基准测试。

12.LLM-Perf Leaderboard - LLM-Perf排行榜

测评地址:https://huggingface.co/spaces/optimum/llm-perf-leaderboard
说明:依托Optimum-Benchmark,对部署在多样化的硬件、后端及优化方案中的大型语言模型(LLM)进行了全方位的性能评测,具体涵盖延迟、吞吐量、内存占用及能耗四大关键指标。

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树首页概览 434701 人正在系统学习中
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值