自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 LLMLingua-2:任务无关的prompt压缩

LLMLingua-2:任务无关的prompt压缩

2025-05-07 11:19:18 370

原创 【Sigcomm’24】压缩KV Cache以通过网络传输

作者对连续的token进行分组,每一组的第一个token叫做anchor,之后同组内的token的KV都与anchor的KV做差(为什么不用差分?因为最后的区间越大,区间中选出来的小数占用的位数最少,所以频率高的字符要分得更大的区间。(此时如果解压缩,因为在0-0.5之间,所以第一个字符是A,因为在0-0.25之间,所以第二个字符是A,后面不再赘述解压缩过程)现在可以统计分布了,不过统计的不是张量内元素的分布了,而是量化后的Anchor KV的分布,以及差值的分布了。作者是离线统计分布的。

2025-04-29 00:36:58 955

原创 如何设置huggingface镜像

在里面修改两个变量:HUGGINGFACE_CO_URL_HOME,_HF_DEFAULT_ENDPOINT,我们把他们的值设置为"https://hf-mirror.com/"或者在根目录下的.bashrc文件中输入以上这一行。比如,我用了miniforge,我的路径是。

2025-04-28 19:56:13 377

原创 【ASPLOS’23】光速了解经典树形Speculative Decoding

SpecInfer:树形speculative decodng

2025-04-22 16:29:03 124

原创 【论文分享】KV Cache的量化,加载和驱逐:上下文切换和管理:LLM as a System Service on Mobile Devices

LLM as a System Service on Mobile Devices

2025-04-19 20:24:39 978

原创 DeepSeekV3流水线:DuaiPipe,极致的优化

2025-04-17 12:18:26 728

原创 【ACL’24】LoRAPrune:适合LoRA的结构剪枝。论文笔记

用LoRA微调LLM很常见,但用LoRA时,无法进行主流的(基于梯度判断重要性的)结构剪枝,因为模型本身参数冻结了。【ACL’24】LoRAPrune:适合LoRA的结构剪枝。低年级博士生,长期更新经典的或最新的论文笔记,欢迎关注和一起讨论!领域:结构剪枝,参数高效微调(LoRA),LLM。用LoRA模块训练时产生的梯度来估算模型的梯度。看懂本文需要了解:LoRA,结构剪枝。

2025-04-12 16:37:14 245 1

原创 【ICLR’25】speculative decoding不拒绝高质量但不对齐的draft token。论文笔记:Judge Decoding: Faster Speculative Sampling

ICLR’25 speculative decoding中不拒绝高质量但不对齐的draft token

2025-04-09 14:34:58 495 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除