大模型咨询培训叶梓老师：数千大模型，1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA

最新推荐文章于 2024-06-12 16:45:00 发布

人工智能培训咨询叶梓

最新推荐文章于 2024-06-12 16:45:00 发布

阅读量271

点赞数 6

分类专栏：人工智能前沿文章标签：知识图谱 GPU 微调人工智能自然语言处理培训讲师

本文链接：https://blog.csdn.net/yetzi1975/article/details/139171829

版权

人工智能前沿专栏收录该内容

146 篇文章 0 订阅

订阅专栏

在大语言模型（LLM）的部署中，通常采用“预训练-微调”范式。为了适应多样化的任务，参数高效的微调方法如低秩适应（LoRA）被广泛使用。然而，如何高效地服务这些微调变体仍然是一个未探索的问题。S-LoRA，一个为可扩展服务设计的LoRA适配器系统。S-LoRA通过统一分页、异构批处理和多GPU张量并行策略，实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。

LoRA是一种参数高效的微调方法，通过在训练阶段添加可训练的低秩矩阵来适应预训练的LLM。这种方法显著减少了可训练参数的数量和内存消耗。在推理阶段，LoRA建议将低秩矩阵与基础模型的权重合并，从而在推理期间不增加额外的开销。

S-LoRA概述

S-LoRA包含三个主要创新点：统一分页、异构批处理和多GPU张量并行策略。这些创新使得S-LoRA能够有效地管理和调度主机和GPU内存，并在多个GPU之间协调并行性。

统一分页（Unified Paging）：
- 内存池：S-LoRA引入了一个统一的内存池，用于管理动态的适配器权重和KV缓存张量。这个内存池通过分页机制来优化内存的使用，减少内存碎片，并平衡KV缓存和适配器权重的动态变化大小。
- 内存管理：由于GPU内存有限，S-LoRA将所有适配器存储在主内存中，并根据当前正在运行的查询动态地将所需的适配器加载到GPU内存中。这种管理方式允许系统在单个机器上存储和访问大量的适配器，而不受GPU内存大小的限制。
异构批处理（Heterogeneous Batching）：
- 自定义CUDA内核：S-LoRA使用高度优化的自定义CUDA内核来执行不同秩和序列长度的LoRA适配器的批处理计算。这些内核能够在非连续的内存布局上运行，从而有效地处理来自不同适配器的计算。
- 延迟最小化：为了最小化在批处理不同适配器时引入的延迟开销，S-LoRA特别设计了这些内核，以支持不同秩的适配器进行高效的批处理，从而减少了与基线模型相比的额外开销。
多GPU张量并行策略（Multi-GPU Tensor Parallelism）：
- 模型并行性：S-LoRA设计了一种新的张量并行策略，用于在多个GPU上进行批量LoRA推理，支持大型变换器模型的高效服务。
- 通信成本：这种策略通过在小的中间张量上调度通信，并与基础模型的通信融合，最小化了LoRA计算引入的通信成本。
- 内存使用：该策略在内存使用上是最优的，因为它将所有权重矩阵分割到所有设备上，没有复制的权重矩阵，从而减少了每GPU的内存使用和延迟。

这些创新点共同作用，使得S-LoRA能够有效地管理和调度主机和GPU内存，并且在多个GPU之间协调并行性，从而实现了对数千个LoRA适配器的高效服务。通过这种方式，S-LoRA不仅提高了吞吐量，还保证了服务的低延迟，这对于实时应用和服务至关重要。此外，S-LoRA的架构还允许它扩展到更多的适配器和更大的模型，而不受单一GPU内存容量的限制。

评估

S-LoRA的性能评估是通过一系列实验来完成的，这些实验旨在模拟合成和真实生产工作负载下的性能表现。在这些评估中，S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力，并且具有很低的额外开销。

实验设置：

模型和硬件：评估使用了Llama模型系列，这是流行的大语言模型之一。实验在不同的硬件配置上进行，包括单个NVIDIA A10G GPU、A100 GPU，以及多A100 GPU的设置。
基线系统：S-LoRA与现有的参数高效微调库HuggingFace PEFT和高吞吐量服务系统vLLM进行了比较。这些系统代表了当前技术水平，它们在某些方面有各自的优化，但在处理大量LoRA适配器时存在限制。

2.评估指标：

吞吐量：系统每秒可以处理的请求数量。
平均请求延迟：处理每个请求所需的平均时间。
平均首令牌延迟：模型生成其首个输出令牌所需的平均时间。
SLO（服务水平目标）达成率：在特定时间内完成请求的百分比。

3.实验结果：

S-LoRA在合成工作负载上的表现非常出色，能够以极小的开销服务多达2000个LoRA适配器。相比之下，vLLM-packed由于GPU内存限制，只能服务少于5个适配器，并且由于错过了批处理机会，其吞吐量也显著低于S-LoRA。
在与PEFT的比较中，尽管PEFT可以通过批次之间交换适配器权重来处理大量适配器，但由于缺乏高级批处理方法和内存管理，其性能显著较差。S-LoRA的吞吐量比PEFT高出30倍。
当与vLLM进行比较时，S-LoRA在服务少量适配器时的吞吐量提高了4倍，并且能够支持显著更多的适配器。

4.多GPU张量并行性：

S-LoRA还对多GPU张量并行性进行了测试，包括在不同数量的GPU上运行大型模型，如Llama-30B和Llama-70B，并调整适配器的数量。
实验结果显示，S-LoRA在多GPU设置中表现出良好的扩展性，当从2个GPU增加到4个GPU时，服务吞吐量超过了两倍的增长。这表明，随着GPU数量的增加，系统能够有效地缓解内存限制，实现超线性的扩展。

S-LoRA的性能评估结果证明了其在服务大规模LoRA适配器方面的优势。与现有的技术相比，S-LoRA不仅在吞吐量上有显著提升，而且在内存管理和批处理策略上也更加高效。这些评估结果强调了S-LoRA在实际部署中的潜力，特别是在需要定制化微调和高吞吐量服务的场景中。

原论文链接：

https://arxiv.org/pdf/2311.03285.pdf

代码链接：

https://github.com/S-LoRA/S-LoRA

人工智能培训咨询叶梓

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
大模型咨询培训叶梓老师：数千大模型，1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA

S-LoRA通过统一分页、异构批处理和多GPU张量并行策略，实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。这些创新点共同作用，使得S-LoRA能够有效地管理和调度主机和GPU内存，并且在多个GPU之间协调并行性，从而实现了对数千个LoRA适配器的高效服务。此外，S-LoRA的架构还允许它扩展到更多的适配器和更大的模型，而不受单一GPU内存容量的限制。在这些评估中，S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力，并且具有很低的额外开销。
复制链接

扫一扫