大模型推理优化策略 Qunatized KV Cache MQA/GQA FlashAttention PagedAttention 算子融合延迟优化 No Padding优化动态批次处理

最新推荐文章于 2025-03-11 11:42:09 发布

EwenWanW

最新推荐文章于 2025-03-11 11:42:09 发布

阅读量1.7k

点赞数 34

分类专栏： AGI 文章标签： llama

本文链接：https://blog.csdn.net/xiaoxiaowenqiang/article/details/137786885

版权

本文探讨了大模型推理优化的各种策略，包括使用低精度数据类型、模型量化、显存复用、PagedAttention、KV Cache优化、MQA/GQA、FlashAttention、动态批次处理、异步服务、Inflight Batching、量化技术如GPTQ、AWQ、SmoothQuant和SpQR，以及模型并行的Tensor和Pipeline Parallelism。这些优化手段旨在提高模型的推理速度、降低显存占用并实现资源的有效利用，以应对大模型在实际应用中的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型推理优化策略

首先，大模型推理优化策略的目标是提高模型的推理速度，同时尽量保持模型的性能。以下是一些常见的优化策略：

使用低精度数据类型：如float16或bfloat16，可以降低计算成本，提高推理速度，同时减少内存消耗。这种方法能在保证模型性能的前提下，显著提高推理速度并减少内存消耗。
模型量化：通过降低模型权重和激活的精度来减小模型大小并加速推理。但需要注意的是，量化可能会降低模型的预测质量，因此需要在性能和精度之间找到平衡。
使用adapters进行微调：这是一种轻量级的模型微调方法，可以在不改变原始模型参数的情况下，通过添加额外的参数来提高模型在特定任务上的性能。这种方法与模型量化技术结合使用，能进一步提升模型的推理性能。

显存优化

内存复用：这是一种有效的显存管理技术，通过在同一块显存中同时存储多个数据，以提高显存利用率和计算效率。相同或相似的数据可以共享显存空间，避免重复存储。
内存分配策略：合理的内存分配策略对于显存管理和优化至关重要。尽可能地重用已经分配的显存空间，以减少内存分配和释放的开销。
显存压缩：这是一种有效利用显存空间的技术，可以将存储在显存中的数据进行压缩，以节省显存空间。无损压缩可以保持数据的完整性，而有损压缩则可以进一步减小存储开销，但可能会牺牲一定的数据精度。

PagedAttention

PagedAttention
PagedAttention是一种在人工智能领域中应用的注意力机制。与传
统的注意力机制将所有输入信息一视同仁地处理不同，PagedAttention通过分页的方式对输入的信息进行处理，使得模型能够更准确地关注到关键信息，从而提高模型的性能和效果。

具体来说，PagedAttention将序列中的KV缓存划分为块，每块包含固定数量的token的key和value张量。由于这些块在显存中不必连续，因此可以像OS的虚拟内存分页一样，以更灵活的方式管理键和值。每个序列的连续逻辑块通过block table映射到非连续物理块，物理块可在生成新token时按需分配。这种内存管理方式使得显存占用减少，吞吐量提升。

PagedAttention为大型语言模型（LLM）的实际应用带来了显著的性能提升。在深度学习领域，特别是LLM的训练中，面临着巨大的计算资源和内存消耗问题。PagedAttention算法通过构建LLM服务引擎，实现了LLM吞吐量的显著提升，为LLM的进一步发展提供了有力支持。

KV cache，其具有以下特点:1. 显存占用大，14b级别的模型，每个token需要约0.7M-1M的显存；2. 动态变化：KV 缓存的大小取决于序列长度，这是高度可变和不可预测的。因此，这对有效管理 KV cache 挑战较大。该研究发现，由于碎片化和过度保留，现有系统浪费了 60% - 80% 的显存。
为了解决这个问题，该研究引入了 PagedAttention，这是一种受操作系统中虚拟内存和分页经典思想启发的注意力算法。与传统的注意力算法不同，PagedAttention 允许在非连续的内存空间中存储连续的 key 和 value 。具体来说，PagedAttention 将每个序列的 KV cache 划分为块，每个块包含固定数量 token 的键和值。在注意力计算期间，PagedAttention 内核可以有效地识别和获取这些块。因为块在内存中不需要连续，因而可以用一种更加灵活的方式管理 key 和 value ，就像在操作系统的虚拟内存中一样：可以将块视为页面，将 token 视为字节，将序列视为进程。序列的连续逻辑块通过块表映射到非连续物理块中。物理块在生成新 token 时按需分配。在 PagedAttention 中，内存浪费只会发生在序列的最后一个块中。这使得在实践中可以实现接近最佳的内存使用，仅浪费不到 4%。
PagedAttention 还有另一个关键优势 —— 高效的内存共享。例如在并行采样中，多个输出序列是由同一个 prompt 生成的。在这种情况下，prompt 的计算和内存可以在输出序列中共享。PagedAttention 自然地通过其块表格来启动内存共享。与进程共享物理页面的方式类似，PagedAttention 中的不同序列可以通过将它们的逻辑块映射到同一个物理块的方式来共享块。为了确保安全共享，PagedAttention 会对物理块的引用计数进行跟踪，并实现写时复制（Copy-on-Write）机制。PageAttention 的内存共享大大减少了复杂采样算法的内存开销，例如并行采样和集束搜索的内存使用量降低了 55%。这可以转化为高达 2.2 倍的吞吐量提升。
continuous batching
CUDA kernel优化

Qunatized KV Cache

Quantized KV Cache是一种优化策略，其核心思想是减少KV-Cache的数量，以少量的KV-Cache对应多个query。这种策略通常用于大模型推理优化中，以降低显存占用和提高计算效率。

在深度学习和人工智能领域，大模型的推理过程往往需要消耗大量的计算资源和显存。Quantized KV Cache通过量化技术来降低KV-Cache的数据精度，从而减少其占用的显存空间。这种量化过程可以是有损的，也可能是无损的，具体取决于量化算法的精度和策略。

这种优化策略在实际应用中可以显著提高大模型的推理速度，同时降低对硬件资源的需求。然而，需要注意的是，量化可能会引入一定的误差，因此在应用Quantized KV Cache时需要权衡模型的精度和性能。

此外，Quantized KV Cache还可以与其他优化策略结合使用，如模型剪枝、权重共享等，以进一步提高模型的推理效率和性能。

MQA/GQA

核心思想是检索kv-cache的数量，以少量kv-cache对应多个query

MQA（Multi-Query Attention，多查询注意力）和GQA（Grouped-Query Attention，分组查询注意力）的核心思想并非仅仅在于减少KV-Cache的数量以对应多个query。这两种注意力机制在NLP和Transformer架构中有着重要的应用，它们的主要目的是通过不同的方式优化模型的推理效率和性能。

MQA是Google团队在2019年提出的，用于自回归解码的一种注意力机制。它的主要特点在于让所有的头之间共享同一份Key和Value矩阵，每个头只单独保留了一份Query参数。这种设计显著减少了计算量，提高了推理效率。

GQA则是在MQA的