一键开启 GPU 闲置模式，基于函数计算低成本部署 Google Gemma 模型服务

阿里云云栖号

于 2024-04-07 15:52:22 发布

阅读量1.2k

点赞数 25

分类专栏：云栖号技术分享文章标签：云计算 gpu算力云原生

本文链接：https://blog.csdn.net/yunqiinsight/article/details/137466718

版权

Google发布了开源模型族Gemma，阿里云函数计算利用GPU闲置计费模式提供低成本部署LLM服务的方法。本文介绍了如何使用函数计算部署Gemma模型，并详细阐述了操作步骤和费用计算。

摘要由CSDN通过智能技术生成

1. 背景信息

Google 在 2024 年 02 月 21 日正式推出了自家的首个开源模型族 Gemma ，并同时上架了四个大型语言模型，提供了 2B 和 7B 两种参数规模的版本，每种都包含了预训练版本（base 模型）和指令微调版本（chat 模型）[1]。根据 Google 的技术报告，本次开源的 Gemma 在问题回答、合理性、数学、代码等方面的性能均超越同参数量级的其他开源模型。

数据来源

函数计算作为阿里云上的 Serverless 计算服务，持续在 Serverless GPU 方面投入研发，为用户提供性价比极高的 GPU 实例。通过采用 Serverless GPU 的闲置计费模式（目前正处于公测阶段），用户得以迅速部署并上线自己的大型语言模型（ LLM ）服务。为了进一步提升用户体验，阿里云函数计算 GPU 平台摒弃了传统的运维需求，提供了多项用户友好的特性，包括但不限于实例冻结、自定义域名等，这些特性极大地简化了使用流程。它们使得用户部署的模型服务可以迅速进入就绪状态，避免了长时间的冷启动过程，确保了快速响应。这些优势有效地解决了 LLM 部署难、弹性差、资源浪费的痛点问题。

本文将介绍如何使用函数计算 GPU 实例和函数计算 GPU 首创的闲置模式低成本并快速部署 Gemma 模型服务。