BitNet超小语言模型技术报告解析-CSDN博客

本文链接：https://blog.csdn.net/weixin_52582710/article/details/147296303

BitNet b1.58 2B4T 技术报告解析

1. 引言

BitNet b1.58 2B4T 是首个开源的、原生的 1 位大型语言模型（LLM），拥有 20 亿参数规模。该模型在包含 4 万亿个标记的语料库上进行了训练，并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。结果表明，BitNet b1.58 2B4T 在性能上与类似大小的领先开源、全精度 LLM 相当，同时在计算效率方面具有显著优势，包括大幅减少内存占用、能源消耗和解码延迟。为了便于进一步研究和采用，该模型权重通过 Hugging Face 发布，并提供了针对 GPU 和 CPU 架构的开源推理实现。

2. 背景知识

开源大型语言模型（LLMs）在推动先进 AI 能力的普及、促进创新和使能自然语言处理、代码生成和视觉计算等多领域研究方面发挥了关键作用。然而，部署和推理所需的大量计算资源限制了它们的更广泛应用。现有的 1 位 LLMs 要么是应用于预训练全精度模型的后训练量化（PTQ）方法，可能导致性能显著下降；要么是原生 1 位模型（从 1 位权重开始训练），但规模相对较小，尚未能匹配更大、全精度模型的能力。

3. 研究方法

3.1 架构

BitNet b1.58 2B4T 的架构基于标准的 Transformer 模型，但进行了多项修改以适应 1 位范式：

BitLinear 层：用自定义的 BitLinear 层替换标准的全精度线性层。在这些层中，模型权重在前向传递过程中被量化为 1.58 位，通过绝对平均（absmean）量化方案将权重映射到三元值 {-1, 0, +1}。激活量化为 8 位整数，采用绝对最大（absmax）量化策略。
其他技术：集成了激活函数（FFN）使用平方 ReLU（ReLU2）、旋转位置嵌入（RoPE）和去除偏差等技术。