
量化前后性能--速度对比
之前我进行了对大模型的KV Cache方法和W4A16 量化以及使用了W4A16 量化后得到的模型再使用KV Cache三种形式的量化,发现模型的显存占用是有明显的下降的,而在降低显存的同时,一般还能带来性能的提升,因为更小精度的浮点数要比高精度的浮点数计算效率高,而整型要比浮点数高很多。我们采用W4A16后保持FP16,只对参数进行 4bit 量化,同时将已经生成序列的 KV 变成 Int8的模型作为量化后的模型,与量化前进行对比。


最近
文章
专栏
代码仓
资源
收藏
关注/订阅/互动
社区
帖子
问答
课程
视频
