【第三期实战营闯关作业##LMDeploy 量化部署进阶实践】-CSDN博客

本文链接：https://blog.csdn.net/weixin_46643868/article/details/141756808

《LMDeploy 量化部署进阶实践》这节课内容有些多，因此分了两部分提交了。以下是记录复现过程及截图;
在这里插入图片描述
这是执行了下面的命令，占用显存的情况。（如截图顶部）
lmdeploy chat /root/models/internlm2_5-7b-chat --cache-max-entry-count 0.4
在这里显存41833M,41833/1024=40.8G,那(80-27)=66G,因cache为0.4，660.4=26.4G, 26.4+2*7=40.4G, 40.8G与40.4G很相近吧！
0.4G的差值是实际还有别的内存占用
在这里插入图片描述
这是对internlm2_5-7b-chat用 W4A16 量化和部署
W4：这通常表示权重量化为4位整数（int4）。这意味着模型中的权重参数将从它们原始的浮点表示（例如FP32、BF16或FP16，Internlm2.5精度为BF16）转换为4位的整数表示。这样做可以显著减少模型的大小。
A16：这表示激活（或输入/输出）仍然保持在16位浮点数（例如FP16或BF16）。激活是在神经网络中传播的数据，通常在每层运算之后产生。
因此，W4A16的量化配置意味着：

权重被量化为4位整数。
激活保持为16位浮点数。在这里插入图片描述
量化中
量化中
推理完成，便可以直接在你设置的目标文件夹看到对应的模型文件internlm2_5-7b-chat-w4a16-4bit。
那么推理后的模型和原本的模型区别最明显的两点是模型文件大小以及占据显存大小有了很大差别。
internlm2_5-7b-chat是： 15GB