量化算法:bitsandbytes、hqq、eetq

最新推荐文章于 2025-04-20 23:10:34 发布

Ven%

最新推荐文章于 2025-04-20 23:10:34 发布

阅读量999

点赞数 2

分类专栏：深度学习速通系列文章标签：人工智能运维 python 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51455837/article/details/144557291

版权

深度学习速通系列专栏收录该内容

63 篇文章

订阅专栏

bitsandbytes：

bitsandbytes 是一个 PyTorch 库，专注于 8 位优化器和量化算法。它使得大于 1B 的语言模型也能在 8-bit 量化后不过多地损失性能。经过 bitsandbytes 8-bit 量化的模型能够在保持性能的情况下节省约 50% 的显存。
它支持 4-bit, 8-bit, 16-bit, 和 32-bit 浮点数类型，以及整数量化，提供了三个主要功能，可显著减少推理和训练的内存消耗。

HQQ (Half-Quadratic Quantization)：

HQQ 是由 Mobius Labs 开发的一种快速且精确的模型量化器，它不需要校准数据即可量化大型模型。HQQ 的核心优势在于其速度和兼容性，支持 8、4、3、2、1 比特量化。作为一种动态的后训练量化方法，HQQ 无需校准阶段，但能够取得与需要校准数据集的方法相当的准确度，并且有着极快的推理速度。HQQ 通过快速鲁棒优化实现了动态量化，它不需要校准数据，可用于量化任何模型。

EETQ (Easy and Efficient Quantization for Transformers)：

EETQ 是一种只对模型权重进行量化的 PTQ 方法。它具有较快的速度和简单易用的特性，能够在不牺牲精度的前提下，大幅提升 Transformer 模型的运行速度和计算效率。EETQ 支持多种设备配置和 PyTorch 框架，提供一键式量化和强大兼容性，适用于文本生成、对话系统等多种任务。这些量化算法都是为了提高模型的运行效率和降低资源消耗而设计的，它们各自有不同的特点和优势，适用于不同的应用场景和需求。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ven% 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。