leaderboards介绍

Leaderboards是机器学习工件(最常见的是生成模型,但也包括嵌入、分类器等)的排名,具体取决于它们在相关模态中给定任务中的表现。

它们通常用于为特定使用案例查找最佳模型。

例如,对于大型语言模型,Open LLM Leaderboard 允许您使用一系列针对语言理解、常识和数学的学术评估来找到最佳的英语基础预训练模型,而 Chatbot Arena Leaderboard 则根据用户对聊天功能的投票,提供最佳英语聊天模型的排名。

到目前为止,在 Hub 上,我们拥有文本、图像、视频和音频生成的排行榜,包括至少 10 种自然(人类)语言的专用排行榜,以及数学或代码等许多功能。我们还提供了排行榜,用于评估更一般的方面,例如能源性能或模型安全性。

在使用排行榜时,有一些需要注意的事项:

  1. 比较相同类型的模型 就像在体育比赛中,我们会根据体重分类来保持排名的公平性,评估模型时也需要比较相似的项。

    例如,在比较模型时,你需要确保模型具备以下特点:

    • 相同的参数数量(体重级别):较大的模型通常比较小的模型表现更好,但它们的运行和训练成本(在金钱、时间和能量方面)也更高。
    • 相同的数学精度:模型的精度越低,模型通常会更小、更快,但这可能会影响性能。
    • 相同的类别:预训练模型适合作为通用的基础,而微调后的模型通常更为专业,能在特定任务上表现更好,合并模型的得分往往高于其实际表现。
  2. 在多个任务的范围内进行比较 尽管优秀的通用机器学习模型变得越来越常见,但如果一个大模型在国际象棋上表现很好,并不意味着它在写诗时也会表现优秀。如果你想选择适合你用例的模型,你需要查看模型在不同排行榜和任务中的得分和表现,然后自己进行测试,确保它适合你的需求。

  3. 注意评估的局限性,特别是对于模型的评估 一些评估很容易被“作弊”,无论是有意还是无意的。如果一个模型已经见过用于测试的数据,它的表现可能会显得“人为地”高,这反映的是对数据的记忆,而不是对任务的实际能力。这种现象被称为污染

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值