北极甘蓝-CSDN博客

原创 LLMLingua-2：任务无关的prompt压缩

LLMLingua-2：任务无关的prompt压缩

2025-05-07 11:19:18 370

原创【Sigcomm’24】压缩KV Cache以通过网络传输

作者对连续的token进行分组，每一组的第一个token叫做anchor，之后同组内的token的KV都与anchor的KV做差（为什么不用差分？因为最后的区间越大，区间中选出来的小数占用的位数最少，所以频率高的字符要分得更大的区间。（此时如果解压缩，因为在0-0.5之间，所以第一个字符是A，因为在0-0.25之间，所以第二个字符是A，后面不再赘述解压缩过程）现在可以统计分布了，不过统计的不是张量内元素的分布了，而是量化后的Anchor KV的分布，以及差值的分布了。作者是离线统计分布的。

2025-04-29 00:36:58 955

原创如何设置huggingface镜像

在里面修改两个变量：HUGGINGFACE_CO_URL_HOME，_HF_DEFAULT_ENDPOINT，我们把他们的值设置为"https://hf-mirror.com/"或者在根目录下的.bashrc文件中输入以上这一行。比如，我用了miniforge，我的路径是。

2025-04-28 19:56:13 377

原创【ASPLOS’23】光速了解经典树形Speculative Decoding

SpecInfer:树形speculative decodng

2025-04-22 16:29:03 124

原创【论文分享】KV Cache的量化，加载和驱逐：上下文切换和管理：LLM as a System Service on Mobile Devices

LLM as a System Service on Mobile Devices

2025-04-19 20:24:39 978

原创 DeepSeekV3流水线：DuaiPipe，极致的优化

2025-04-17 12:18:26 728

原创【ACL’24】LoRAPrune:适合LoRA的结构剪枝。论文笔记

用LoRA微调LLM很常见，但用LoRA时，无法进行主流的（基于梯度判断重要性的）结构剪枝，因为模型本身参数冻结了。【ACL’24】LoRAPrune:适合LoRA的结构剪枝。低年级博士生，长期更新经典的或最新的论文笔记，欢迎关注和一起讨论！领域：结构剪枝，参数高效微调（LoRA），LLM。用LoRA模块训练时产生的梯度来估算模型的梯度。看懂本文需要了解：LoRA，结构剪枝。

2025-04-12 16:37:14 245 1