大语言模型推理提速，TensorRT-LLM 高性能推理实践

原创

于 2024-02-21 14:38:08 发布 · 2.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #阿里云 #云计算

1.TensorRT-LLM 如何提升 LLM 模型推理效率

大型语言模型（Large language models,LLM）是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络，这些神经网络由具有 self-attention 的编码器和解码器组成。编码器和解码器从一系列文本中提取含义，并理解其中的单词和短语之间的关系。

当前 LLM 模型推理的主要瓶颈是 GPU 显存资源不足。因此，各类加速框架主要集中于降低 GPU 显存峰值和提高 GPU 使用率两大目标。

TensorRT-LLM[1]是 NVIDIA 推出的大语言模型（LLM）推理优化框架。它提供了一组 Python API 用于定义 LLMs，并且使用最新的优化技术将 LLM 模型转换为 TensorRT Engines，推理时直接使用优化后的 TensorRT Engines。

TensorRT-LLM 主要利用以下四项优化技术提升 LLM 模型推理效率。

1.1 量化

模型量化技术是通过降低原始模型的精度来减少模型推理时的 GPU 显存使用。

TensorRT 支持多种模型的多种精度，以下列举了部分主流模型支持的量化精度。

W8A8 SQ 使用了 SmoothQuant 技术[2]，在不降低模型推理准确率的前提下，将模型权重和激活层都降低为 INT8 精度，显著减少了 GPU 显存消耗。

W4A16/W8A16 是指模型权重为 INT4 或者 INT8，激活层为 FP16 精度。

W4A16 AWQ 以及 W4A16 GPTQ 分别实现了 AWQ[3]和 GPTQ[4]两篇论文中提到的量化方法。模型权重为 INT4，激活层为 FP16 精度。

1.2 In-Flight Batching

传统的 Batching 技术为 Static Batching 的，需要等 Batching 中所有序列推理完成后才能进行下一次批次。下图为一个输出最大 Token 为 8，Batch size 为 4 的推理过程，使用 Static Batching 技术。S3 序列在 T5 时刻就已经完成推理，但是需要等到 S2 序列在 T8 时刻推理完成后才会处理下一个 sequence，存在明显的资源浪费。

In-Flight Batching 又名 Continuous Batching 或 iteration-level batching，该技术可以提升推理吞吐率，降低推理时延。Continuous Batching 处理过程如下，当 S3 序列处理完成后插入一个新序列 S5 进行处理，提升资源利用率。详情可参考论文 Orca: A Distributed Serving System for Transformer-Based Generative Models[5]。

1.3 Attention

Attention 机制用于从序列中提取关键/重要信息，在情感识别、翻译、问答等任务中起着至关重要的作用。Attention 机制按照演进顺序可以分为 MHA（Multi-head Attention）、MQA（Multi-query Attention）[6]以及 GQA（Group-query Attention）[7]机制。MQA 和 GQA 都是 MHA 的变种。