参考文档
1.设置kv cache,观察显存
- 显存占用19268M
2.设置在线 kv cache int4/int8 量化,
- 显存占用19428M
3.W4A16 模型量化和部署
- 成功开始
- 量化成功
- 对比文件大小,原来15G,W4A16后4.9G
4.W4A16 量化+ KV cache+KV cache 量化
- 启动并连接API
- 占用显存13578M
参考文档
1.设置kv cache,观察显存
2.设置在线 kv cache int4/int8 量化,
3.W4A16 模型量化和部署
4.W4A16 量化+ KV cache+KV cache 量化