量化算法:bitsandbytes、hqq、eetq

bitsandbytes:

bitsandbytes 是一个 PyTorch 库,专注于 8 位优化器和量化算法。它使得大于 1B 的语言模型也能在 8-bit 量化后不过多地损失性能。经过 bitsandbytes 8-bit 量化的模型能够在保持性能的情况下节省约 50% 的显存。
它支持 4-bit, 8-bit, 16-bit, 和 32-bit 浮点数类型,以及整数量化,提供了三个主要功能,可显著减少推理和训练的内存消耗。

HQQ (Half-Quadratic Quantization):

HQQ 是由 Mobius Labs 开发的一种快速且精确的模型量化器,它不需要校准数据即可量化大型模型。HQQ 的核心优势在于其速度和兼容性,支持 8、4、3、2、1 比特量化。作为一种动态的后训练量化方法,HQQ 无需校准阶段,但能够取得与需要校准数据集的方法相当的准确度,并且有着极快的推理速度。HQQ 通过快速鲁棒优化实现了动态量化,它不需要校准数据,可用于量化任何模型。

EETQ (Easy and Efficient Quantization for Transformers):

EETQ 是一种只对模型权重进行量化的 PTQ 方法。它具有较快的速度和简单易用的特性,能够在不牺牲精度的前提下,大幅提升 Transformer 模型的运行速度和计算效率。EETQ 支持多种设备配置和 PyTorch 框架,提供一键式量化和强大兼容性,适用于文本生成、对话系统等多种任务。这些量化算法都是为了提高模型的运行效率和降低资源消耗而设计的,它们各自有不同的特点和优势,适用于不同的应用场景和需求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ven%

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值