Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

本文链接：https://blog.csdn.net/y226412/article/details/134164626

本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs，比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B Open Assistant Model，这是一款由开放助手计划训练的开源Chat LLM。

这个示例包括：

设置开发环境
获取全新Hugging Face LLM DLC
将开放助手12B部署到亚马逊云科技Amazon SageMaker
进行推理并与我们的模型聊天
清理环境

什么是Hugging Face LLM Inference DLC？

Hugging Face LLM DLC是一款全新的专用推理容器，可在安全的托管环境中轻松部署LLM。DLC由文本生成推理（TGI）提供支持，这是一种用于部署和服务大型语言模型（LLM）的开源、专门构建的解决方案。TGI使用张量并行和动态批处理为最受欢迎的开源LLM（包括StarCoder、BLOOM、GPT-Neox、Llama和T5）实现高性能文本生成。文本生成推理已被IBM、Grammarly等客户使用，Open-Assistant计划对所有支持的模型架构进行了优化，包括：

张量并行性和自定义cuda内核
在最受欢迎的架构上使用flash-attention优化了用于推理的变形器代码
使用bitsandbytes进行量化
连续批处理传入的请求以增加总吞吐量
使用safetensors加速重量加载（启动时间）
Logits扭曲器（温度缩放、topk、重复惩罚…）
用大型语言模型的水印添加水印
停止序列，记录概率
使用服务器发送事件（SSE）进行Token流式传输

官方支持的模型架构目前为：

BLOOM/BLOOMZ
MT0-XXL
Galactica
SantaCoder
gpt-Neox 20B（joi、pythia、lotus、rosey、chip、redPajama、open Assistant）
FLAN-T5-XXL（T5-11B）
Llama（vicuna、alpaca、koala）
Starcoder/santaCoder
Falcon 7B/Falcon 40B

借助亚马逊云科技Amazon SageMaker上推出的全新Hugging Face LLM Inference DLC，亚马逊云科技客户可以从支持高度并发、低延迟LLM体验的相同技术中受益，例如HuggingChat、OpenAssistant和Hugging Face Hub上的LLM模型推理API。

1.设置开发环境

使用SageMaker python SDK将OpenAssistant/pythia-12b-sft-v8-7k-steps部署到亚马逊云科技Amazon SageMaker。需要确保配置一个亚马逊云科技账户并安装SageMaker python SDK。

如果打算在本地环境中使用SageMaker。需要访问具有亚马逊云科技Amazon SageMaker所需权限的IAM角色。可以在这里找到更多关于它的信息。

2.获取全新Hugging Face LLM DLC

与部署常规的HuggingFace模型相比，首先需要检索容器URI并将其提供给HuggingFaceModel模型类，并使用image_uri指向该镜像。要在亚马逊云科技Amazon SageMaker中检索新的HuggingFace LLM DLC，可以使用SageMaker SDK 提供的get_huggingface_llm_image_uri方法。此方法允许根据指定的 “后端”、“会话”、“区域” 和 “版本”检索所需的Hugging Face LLM DLC 的 URI。

要将[Open Assistant Model]（openAssistant/Pythia-12b-sft-v8-7K-steps）部署到亚马逊云科技Amazon SageMaker，创建一个HuggingFaceModel模型类并定义终端节点配置，包括hf_model_id、instance_type等。使用g5.4xlarge实例类型，它有1个NVIDIA A10G GPU和64GB的GPU内存。