大语言模型选型及部署

1. 看完后有什么收获?

  • 可以参考什么评测网站进行模型选型?
  • 怎么使用模型推理框架部署模型?
  • 不同参数量的模型大概占用多少GPU显存?

2. 模型评测网站

2.1 为什么需要使用模型评测网站,进行模型选型?

自从2022底ChatGPT火爆以来,以Llama等基座模型微调了很多模型,国内也出现了很多例如阿里巴巴-Qwen、智谱-GLM、零一万物-Yi等一系列大语言模型。但是,当我们在做企业知识库问答,或者尝试部署开源大语言模型试玩时,繁多的但是领域失效的榜单的开源模型,总让我们测试后感到失望。

通过了解一些模型评测网站,我们可以快速知道现在主要有哪些开源厂商的开源模型,整体效果怎么样,参数量情况,从而根据自己的硬件条件和需求,选择对应的模型选型进行测试。

2.2 有哪些评测LLM模型的网站?

  1. 智源研究院 - FlagEval
  2. 上海人工智能实验室 - OpenCompass
  3. LMSYS - LMSYS Chatbot Arena Leaderboard
  4. SuperCLUE - 琅琊榜 - 中文大模型竞技场排行榜
  5. HuggingFace - Open LLM Leaderboard

2.3 怎么选择合适的评测网站进行模型选型?

2.3.1 建议主要参考智源研究院的FlagEval和上海人工智能实验室的OpenCompass为主
2.3.2 智源研究院的FlagEval解读

2.3.2.1 FlagEval排行榜首页简述:
在这里插FlagEval排行榜首页简述入图片描述

  1. 对话模型主要指的是一些商业付费,进行API调用的模型,比如GPT-4o,DeepSeek-V2等模型
  2. 基座模型主要指的是一些开源模型,可以从Huggingface或者魔搭社区下载部署的模型,比如Qwen2,Yi等模型
  3. 代码模型主要指的是一些对代码能力增强的模型,比如DeepSeek-Coder-33B-instruct

2.3.2.2 FlagEval基础模型页面简述:
在这里插入图片描述
可以对模型参数进行选择,比如小于10B、10B-40B、40B以上等等。同时对语言类别进行选择,比如选择中文。从而让我们可以根据硬件配置,通过模型参数+语言类别,从榜单上选择对应的几个模型进行测试


2.3.3 上海人工智能实验的OpenCompass解读

2.3.3.1 OpenCompass评测榜单简述:
在这里插入图片描述
可以选择选择开源模型选项,从而只查看开源模型对应的榜单


2.3.3.2 OpenCompass评测榜单中单一模型详情页简述:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值