量化前后性能--速度对比

最新推荐文章于 2025-03-20 09:33:59 发布

小透明==

最新推荐文章于 2025-03-20 09:33:59 发布

阅读量1.4k

点赞数 10

分类专栏： 2024软件学院创新项目实训-基于大模型的知识题库系统文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63647250/article/details/139889883

版权

2024软件学院创新项目实训-基于大模型的知识题库系统专栏收录该内容

7 篇文章

订阅专栏

之前我进行了对大模型的KV Cache方法和W4A16 量化以及使用了W4A16 量化后得到的模型再使用KV Cache三种形式的量化，发现模型的显存占用是有明显的下降的，而在降低显存的同时，一般还能带来性能的提升，因为更小精度的浮点数要比高精度的浮点数计算效率高，而整型要比浮点数高很多。

我们采用W4A16后保持FP16，只对参数进行 4bit 量化，同时将已经生成序列的 KV 变成 Int8的模型作为量化后的模型，与量化前进行对比。

模型速度的测试

首先计算量化之前的速度测试：

给定一个测试例子，进行速度测试

得到测试前速度：37.530 words/s

对量化后的速度测试：

得到量化后速度：219.033 words/s

我们发现：在进行了两种方式结合的量化后，模型速度有了很大幅度的提升。

总结：

服务部署和量化是没有直接关联的，量化的最主要目的是降低显存占用，主要包括两方面的显存：模型参数和中间过程计算结果，前者使用W4A16 量化、后者使用KV Cache量化。

量化过程我们采用最佳实践过程，如下图所示，再使用了KV Cache的基础上我们还进行了W4A16量化得到了参数量化后的新模型。

最后得到了比较满意的结果，随着量化的进行，我们模型的显存占用越来越低，显存降低的同时，也给我们模型的性能带来的较大程度的提升：对比最终版本与量化前的版本的计算速度后我们发现量化后的速度有了很大提升。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。