- 博客(8)
- 收藏
- 关注
原创 【Sigcomm’24】压缩KV Cache以通过网络传输
作者对连续的token进行分组,每一组的第一个token叫做anchor,之后同组内的token的KV都与anchor的KV做差(为什么不用差分?因为最后的区间越大,区间中选出来的小数占用的位数最少,所以频率高的字符要分得更大的区间。(此时如果解压缩,因为在0-0.5之间,所以第一个字符是A,因为在0-0.25之间,所以第二个字符是A,后面不再赘述解压缩过程)现在可以统计分布了,不过统计的不是张量内元素的分布了,而是量化后的Anchor KV的分布,以及差值的分布了。作者是离线统计分布的。
2025-04-29 00:36:58
955
原创 如何设置huggingface镜像
在里面修改两个变量:HUGGINGFACE_CO_URL_HOME,_HF_DEFAULT_ENDPOINT,我们把他们的值设置为"https://hf-mirror.com/"或者在根目录下的.bashrc文件中输入以上这一行。比如,我用了miniforge,我的路径是。
2025-04-28 19:56:13
377
原创 【论文分享】KV Cache的量化,加载和驱逐:上下文切换和管理:LLM as a System Service on Mobile Devices
LLM as a System Service on Mobile Devices
2025-04-19 20:24:39
978
原创 【ACL’24】LoRAPrune:适合LoRA的结构剪枝。论文笔记
用LoRA微调LLM很常见,但用LoRA时,无法进行主流的(基于梯度判断重要性的)结构剪枝,因为模型本身参数冻结了。【ACL’24】LoRAPrune:适合LoRA的结构剪枝。低年级博士生,长期更新经典的或最新的论文笔记,欢迎关注和一起讨论!领域:结构剪枝,参数高效微调(LoRA),LLM。用LoRA模块训练时产生的梯度来估算模型的梯度。看懂本文需要了解:LoRA,结构剪枝。
2025-04-12 16:37:14
245
1
原创 【ICLR’25】speculative decoding不拒绝高质量但不对齐的draft token。论文笔记:Judge Decoding: Faster Speculative Sampling
ICLR’25 speculative decoding中不拒绝高质量但不对齐的draft token
2025-04-09 14:34:58
495
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人