大语言模型
文章平均质量分 93
牛码当驴
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Efficient Memory Management for Large Language Model Serving with PagedAttention
高吞吐量的LLM服务需同时处理多个请求。但是现有系统非常困难,因为KV cache非常巨大并且是动态伸缩的,因为显存管理不善,导致碎片和重复,造成显存的巨大浪费,从而限制了batch的大小和吞吐量。为了解决这个问题,本文借鉴操作系统的分页内存管理方法,提出了PagedAttention。基于这个方法,实现了vLLM,它能够实现:1) 接近零的KV cache浪费;2) 同一请求内和不同请求间KV cache的灵活共享。实验证明本方法的吞吐量是SOTA系统的2-4倍。原创 2024-07-17 20:38:08 · 1447 阅读 · 0 评论 -
Transformer学习笔记
可以节省多少运算量?假设有一批输入序列,数量为b个,每个序列由N个生成的tokens和t个输入的tokens(总长度为 N+t)组成。对于这些序列的前 t+N-1 个 tokens,计算 KV 值是冗余的,也就是说,在生成步骤的第 N 步,我们可以为每个序列节省 t+N-1 次 KV 计算。如果不重新计算,那么在前 N 个生成步骤中,每个序列总共可以节省 N.t+N.(N-1)/2 次 KV 计算。通过 KV 缓存节省的运算数量与生成的 tokens 数量的平方成正比。原创 2024-07-17 20:34:10 · 1184 阅读 · 0 评论