![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM笔记
文章平均质量分 95
04290629
这个作者很懒,什么都没留下…
展开
-
从FlashAttention到FlashDecoding 原理详解
本文从Attention计算的具体过程开始,详细介绍了从safe-softmax到FlashAttention再到FlashDecoding的动机与原理,最后简述了FlashAttention和FlashDecoding在vLLM中的应用情况原创 2024-06-18 23:47:17 · 827 阅读 · 0 评论 -
LoongServe论文解读:prefill/decode分离、弹性并行、零KV Cache迁移
LoongServe论文解读。介绍了prefill、decode分离的问题背景。介绍了LoongServe如何通过使ESP实例组根据负载的变化动态地scale up或者scale down并且没有KV Cache的迁移开销。原创 2024-05-08 20:00:22 · 2739 阅读 · 0 评论 -
LLM大模型压缩——ICLR 2024 SliceGPT(原理详解)
本文深入浅出介绍大模型剪枝方法SliceGPT的原理:核心思想是将主成分分析法PCA获得的正交矩阵对样本空间进行变换,把次要的维度集中在后面并且切掉,正交变换保持了模型的计算不变性,切掉次要维度对网络的影响较小,不需要为了恢复性能再进行微调。原创 2024-04-12 17:48:53 · 1094 阅读 · 0 评论