大语言模型选型及部署

是阿伦啊

已于 2024-08-19 08:18:44 修改

阅读量1.3k

点赞数 14

分类专栏：大语言模型应用文章标签：语言模型人工智能自然语言处理

于 2024-08-18 21:47:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51105279/article/details/141304938

版权

文章目录

1. 看完后有什么收获？

可以参考什么评测网站进行模型选型？
怎么使用模型推理框架部署模型？
不同参数量的模型大概占用多少GPU显存?

2. 模型评测网站

2.1 为什么需要使用模型评测网站，进行模型选型？

自从2022底ChatGPT火爆以来，以Llama等基座模型微调了很多模型，国内也出现了很多例如阿里巴巴-Qwen、智谱-GLM、零一万物-Yi等一系列大语言模型。但是，当我们在做企业知识库问答，或者尝试部署开源大语言模型试玩时，繁多的但是领域失效的榜单的开源模型，总让我们测试后感到失望。

通过了解一些模型评测网站，我们可以快速知道现在主要有哪些开源厂商的开源模型，整体效果怎么样，参数量情况，从而根据自己的硬件条件和需求，选择对应的模型选型进行测试。

2.2 有哪些评测LLM模型的网站？

2.3 怎么选择合适的评测网站进行模型选型？

2.3.1 建议主要参考智源研究院的FlagEval和上海人工智能实验室的OpenCompass为主

2.3.2 智源研究院的FlagEval解读

2.3.2.1 FlagEval排行榜首页简述：
在这里插FlagEval排行榜首页简述入图片描述

对话模型主要指的是一些商业付费，进行API调用的模型，比如GPT-4o，DeepSeek-V2等模型
基座模型主要指的是一些开源模型，可以从Huggingface或者魔搭社区下载部署的模型，比如Qwen2，Yi等模型
代码模型主要指的是一些对代码能力增强的模型，比如DeepSeek-Coder-33B-instruct

2.3.2.2 FlagEval基础模型页面简述：
在这里插入图片描述
可以对模型参数进行选择，比如小于10B、10B-40B、40B以上等等。同时对语言类别进行选择，比如选择中文。从而让我们可以根据硬件配置，通过模型参数+语言类别，从榜单上选择对应的几个模型进行测试

2.3.3 上海人工智能实验的OpenCompass解读

2.3.3.1 OpenCompass评测榜单简述：
在这里插入图片描述
可以选择选择开源模型选项，从而只查看开源模型对应的榜单

2.3.3.2 OpenCompass评测榜单中单一模型详情页简述：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。