bitsandbytes:
bitsandbytes 是一个 PyTorch 库,专注于 8 位优化器和量化算法。它使得大于 1B 的语言模型也能在 8-bit 量化后不过多地损失性能。经过 bitsandbytes 8-bit 量化的模型能够在保持性能的情况下节省约 50% 的显存。
它支持 4-bit, 8-bit, 16-bit, 和 32-bit 浮点数类型,以及整数量化,提供了三个主要功能,可显著减少推理和训练的内存消耗。
HQQ (Half-Quadratic Quantization):
HQQ 是由 Mobius Labs 开发的一种快速且精确的模型量化器,它不需要校准数据即可量化大型模型。HQQ 的核心优势在于其速度和兼容性,支持 8、4、3、2、1 比特量化。作为一种动态的后训练量化方法,HQQ 无需校准阶段,但能够取得与需要校准数据集的方法相当的准确度,并且有着极快的推理速度。HQQ 通过快速鲁棒优化实现了动态量化,它不需要校准数据,可用于量化任何模型。
EETQ (Easy and Efficient Quantization for Transformers):
EETQ 是一种只对模型权重进行量化的 PTQ 方法。它具有较快的速度和简单易用的特性,能够在不牺牲精度的前提下,大幅提升 Transformer 模型的运行速度和计算效率。EETQ 支持多种设备配置和 PyTorch 框架,提供一键式量化和强大兼容性,适用于文本生成、对话系统等多种任务。这些量化算法都是为了提高模型的运行效率和降低资源消耗而设计的,它们各自有不同的特点和优势,适用于不同的应用场景和需求。