基础篇| 大模型部署框架

在这里插入图片描述

01 背 景

上一篇《基础篇| 全网最全详解12个大模型推理框架》,我们一起学习了推理框架 , 今天我们一起学习大模型部署框架。

为什么要有大模型部署框架?

为什么有了推理框架,还要来一个什么部署框架?上节内容我们介绍了有12种大模型推理框架,虽然多,但是现在业界尚不存在各方面都远超其同类产品的推理框架,不同推理引擎在不同平台,硬件和模式下分别具有各自的优势,比如TensorRT有足够多的灵活性,在GPU执行时可以共享上下文,可以使用外部内存用于推理等,OpenVINO有高吞吐率模式,可以CPU与GPU异构设备同时推理。作为应用开发者,为了实现最优效率,如果针对不同环境都写一套代码去适配其最优推理框架,其耗费的学习成本和精力及代码量都将极其巨大。

这时候有大模型部署框架用武之地,大模型部署框架作为一种高效、灵活的部署方式,能够大大提高模型训练和部署的效率,降低模型在部署过程中的时间和成本。

02 部署框架对比

模型部署框架XinferenceLocalAIOllamaFastChat
OpenAI API 接口对齐支持支持支持支持
加速推理引擎GPTQ, GGML, vLLM, TensorRT, mlxGPTQ, GGML, vLLM, TensorRTGGUF, GGMLvLLM
接入模型类型LLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Text-to-Image, VisionLLM, Vision
Function Call支持支持支持/
更多平台支持(CPU, Metal)支持支持支持支持
异构支持支持//
集群支持支持//
操作文档链接https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/https://github.com/ollama/ollama?tab=readme-ov-file#model-libraryhttps://github.com/lm-sys/FastChat#install
可用模型支持上百种大模型,https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/#/https://ollama.com/library#/https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。

有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

推荐阅读:

基础篇| 全网最全详解12个大模型推理框架

  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿阿三

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值