1. 看完后有什么收获?
- 可以参考什么评测网站进行模型选型?
- 怎么使用模型推理框架部署模型?
- 不同参数量的模型大概占用多少GPU显存?
2. 模型评测网站
2.1 为什么需要使用模型评测网站,进行模型选型?
自从2022底ChatGPT火爆以来,以Llama等基座模型微调了很多模型,国内也出现了很多例如阿里巴巴-Qwen、智谱-GLM、零一万物-Yi等一系列大语言模型。但是,当我们在做企业知识库问答,或者尝试部署开源大语言模型试玩时,繁多的但是领域失效的榜单的开源模型,总让我们测试后感到失望。
通过了解一些模型评测网站,我们可以快速知道现在主要有哪些开源厂商的开源模型,整体效果怎么样,参数量情况,从而根据自己的硬件条件和需求,选择对应的模型选型进行测试。
2.2 有哪些评测LLM模型的网站?
- 智源研究院 - FlagEval
- 上海人工智能实验室 - OpenCompass
- LMSYS - LMSYS Chatbot Arena Leaderboard
- SuperCLUE - 琅琊榜 - 中文大模型竞技场排行榜
- HuggingFace - Open LLM Leaderboard
2.3 怎么选择合适的评测网站进行模型选型?
2.3.1 建议主要参考智源研究院的FlagEval和上海人工智能实验室的OpenCompass为主
2.3.2 智源研究院的FlagEval解读
2.3.2.1 FlagEval排行榜首页简述:
- 对话模型主要指的是一些商业付费,进行API调用的模型,比如GPT-4o,DeepSeek-V2等模型
- 基座模型主要指的是一些开源模型,可以从Huggingface或者魔搭社区下载部署的模型,比如Qwen2,Yi等模型
- 代码模型主要指的是一些对代码能力增强的模型,比如DeepSeek-Coder-33B-instruct
2.3.2.2 FlagEval基础模型页面简述:
可以对模型参数进行选择,比如小于10B、10B-40B、40B以上等等。同时对语言类别进行选择,比如选择中文。从而让我们可以根据硬件配置,通过模型参数+语言类别,从榜单上选择对应的几个模型进行测试
2.3.3 上海人工智能实验的OpenCompass解读
2.3.3.1 OpenCompass评测榜单简述:
可以选择选择开源模型选项,从而只查看开源模型对应的榜单
2.3.3.2 OpenCompass评测榜单中单一模型详情页简述: