基于TGI的大模型推理框架适配之昇腾部署

最新推荐文章于 2025-03-30 09:54:30 发布

Zain Lau

最新推荐文章于 2025-03-30 09:54:30 发布

阅读量3.2k

点赞数 9

文章标签：人工智能深度学习 docker

本文链接：https://blog.csdn.net/weixin_44659309/article/details/134800568

版权

docker run -it -u root --ipc=host --network host --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 --device=/dev/davinci4 --device

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Zain Lau

关注关注

9
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型推理和部署框架vLLM

qq_52053775的博客

09-18

2875

操作系统中的内存分页是一种用于管理和分配计算机内存的方法，主要应用于 Windows 和 Unix 等操作系统。它的基本思想是将内存分割成多个“页面”（Page），操作系统根据程序运行的需要将页面动态地加载到物理内存中，而不常用的页面则可以暂时存放到硬盘上的交换文件（Swap File）中。这种技术可以让内存使用更加高效，避免将所有程序的数据一次性加载到物理内存中，尤其是当系统资源有限时，这种机制可以显著提升系统的性能。

LLM实践系列-昇腾910B上进行Qwen2.5推理

xx_nm98的博客

11-03

6467

异构 GPU 支持：支持异构 GPU 资源，当前支持 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种类型的 GPU/NPU多推理后端支持：支持vLLM和推理后端，兼顾生产性能需求与多平台兼容性需求多平台支持：支持 Linux、Windows 和 macOS 平台，覆盖 amd64 和 arm64 架构多模型类型支持：支持 LLM 文本模型、VLM 多模态模型、Embedding 文本嵌入模型和 Reranker 重排序模型等各种类型的模型多模型仓库支持。

参与评论您还未登录，请先登录后发表或查看评论

【大模型】text-generation-inference（TGI）项目加速推理的量化实现与使用GPTQ量化实现的对比

m0_51538830的博客

08-28

4821

text-generation-inference TGI项目加速推理的量化实现与使用GPTQ量化实现的对比

vllm-ascend：为Ascend NPU提供无缝支持的AI模型插件

gitblog_00524的博客

03-27

504

vllm-ascend：为Ascend NPU提供无缝支持的AI模型插件 vllm-ascend Community maintained hardware plugin for vLLM on Ascend 项目地址: http...

大模型实操与API调用 | 四十五、TGI模型部署

Androiddddd的博客

08-13

1822

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频，免费分享！

LLM大模型学习：LLM大模型推理加速llm推理框架 Text Generation Inference(TGI) 教程

2401_85390073的博客

09-08

969

在右下角，可以看到token树数量和延迟情况，如果你的应用需要处理大量token，随着token的增大，延迟会不断增加，可以找到图中的拐点，以确定最佳的token数量，如果token数量不够，那么可以考虑添加显卡，增多硬件。• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

大模型推理框架（三）Text generation inference (TGI)

深数研究院

01-04

1125

Text Generation Inference（TGI）是一个由Hugging Face开发的用于部署和提供大型语言模型（LLMs）的框架。它是一个生产级别的工具包，专门设计用于在本地机器上以服务的形式运行大型语言模型。TGI使用Rust和Python编写，提供了一个端点来调用模型，使得文本生成任务更加高效和灵活.

AI架构设计7：TGI

鲁班模锤

05-28

1173

vLLM适用于需要高效内存管理和并行计算的大规模语言模型推理，特别是在资源受限的环境中表现优秀。其主要优势在于高效的内存使用和灵活的并行处理能力，但需要细致的配置和优化。而TGI则专注于提升文本生成任务的推理速度，适用于需要高效文本生成的应用场景。其主要优势在于推理速度优化和模型压缩，但主要针对特定任务进行优化，量化可能会影响模型精度。选择哪一个系统取决于具体的应用需求。

推理框架深度对比：Transformers / vLLM / TGI / FastChat 部署实测 × 适配建议

最新发布

在信息的熵增中，记录结构、重建秩序。技术思想者的笔记，系统构建者的注释。

03-30

1006

从出发，全面对比当前主流大模型推理框架在国产模型中的表现，包括安装复杂度、兼容模型范围、接口标准化程度、性能数据等，帮助你。

一个基于 Python 的 LLM (大语言模型) 快速推理和服务框架，GPU利用率大幅提升

08-05

一个基于 Python 的 LLM (大语言模型) 推理和服务框架，以其轻量级设计、易于扩展和高速性能而著称。利用了众多备受推崇的开源实现的优势，包括但不限于 FasterTransformer、TGI、 VLLM 和FlashAttention - 三进程...

【推理框架】超详细！AIGC面试系列 大模型推理系列(1)

文奇的博客

04-18

4799

本期问题快览有哪些大模型推理框架了解vllm吗介绍下vllm的核心技术了解faster transformer吗介绍下faster transformer的核心技术了解Xinference吗了解llama.cpp项目吗 llama.cpp项目突出的优势是什么

Text Generation Inference（TGI）

AI工程化、开源分享、文档翻译、代码笔记

03-21

3650

Text Generation Inference 一、关于 Text Generation Inference 功能特性硬件支持二、开始使用 1、Docker 2、API 文档 3、使用个人或者 gated model 4、关于共享内存 (shm) 5、分布式跟踪 6、架构 7、本地安装三、Optimized architectures 四、本地运行 1、运行 2、量化五、开发 & 测试 1、开发 2、测试

北京昇腾人工智能计算中心率先实现基于MindSpore的Baichuan大模型训练、微调、推理和部署

Kenji_Shinji的博客

09-08

900

同时，MindFormers还具有易用性和可扩展性的特点，让用户可以快速上手，一行代码实现从单卡到大规模集群训练的无缝切换，高效地融合数据并行和模型并行策略；大模型时代，为了帮助各行业客户更好的使用大模型和大算力的能力，北京昇腾人工智能计算中心，已经将Baichuan、GLM、Llama、Bloom 、T5、BERT、GPT2、PanGuAlpha、MAE、VIT、Swin、CLIP等模型完成了训练、微调、推理和部署，未来还将逐步增加更多基础大模型，方便行业客户基于基础大模型，快速孵化专属的行业模型。

基于昇腾的大模型部署

qq_29925133的博客

06-20

2190

在昇腾的设备商需要安装驱动和对应的固件，具体安装什么版本是与一些库支持，比如打算使用mindformers1.0,那么驱动是23.0.rc3+7.0.0.5.242。如果是要重新安装torch的环境，有的软件需要重新编译后安装，一定要先卸载而不要想覆盖的方式安装python的包。在这里使用mindformers的web-chat，这里面就是纯python了，直接从predict_process.py文件中接到自己的服务中即可。本来是有hccl命令来生成的hccn.conf文件的，如果无法生成可以手动建立。

vLLM vs TGI 部署大模型以及注意点

哦豁灬

04-05

5853

LLM 高并发部署是个难题，具备高吞吐量的服务，能够让用户有更好的体验（比如模型生成文字速度提升，用户排队时间缩短）。

大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）

强化学习曾小健

04-18

3236

华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

热门推荐

MnivL的博客

02-11

1万+

本文是一份全面的华为昇腾 Atlas 800I A2 服务器集群部署 DeepSeek-R1 671B 大模型的指南。内容涵盖部署前的硬件和软件要求、模型权重处理（包括下载、格式转换）、昇腾镜像配置（获取、启动及测试）、分布式推理配置、服务化部署（环境变量配置、参数修改、拉起服务及接口测试）、高级量化方案（支持类型和量化命令示例），还提供了常见问题排查方法和丰富的资源链接，助力用户完成在华为昇腾平台上的模型部署。

【AIGC】大模型推理部署框架

LeeZhao的博客

11-21

1766

聚焦AIGC专业技术分享

大模型推理服务框架

03-23