论文浅读：GLM-130B（ AN OPEN BILINGUAL PRE-TRAINEDMODEL）

最新推荐文章于 2025-03-03 11:07:25 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2025-03-03 11:07:25 发布

阅读量1.5k

点赞数

文章标签：人工智能机器学习深度学习

原文链接：https://mp.weixin.qq.com/s/cYR0Yh0ZOv4nMfMk8eu71w

版权

这是清华团队基于GLM架构推出一款千亿级别参数量的大模型。GLM架构请见：论文浅读：GLM（General Language Model Pretraining）

摘要

GLM-130B是个双语（中文和英文）预训练语言模型，有1300亿的参数。作者尝试开源一个效果比GPT3好、千亿级别的大语言模型，并且揭示这个尺度的大模型是如何训练的。GLM-130B 在大量主流的英文领域评测集上的表现已经超过GPT3-175B,而大模型 OPT-175B 和 BLOOM-176B也没有优势。在中文领域，和ERNIE TITAN 3.0 260B（目前最大的中文语言模型）相比，GLM-130B的表现也更佳。通过利GLM-130B的缩放特性来实现int4量化，使它成为第一个千亿级别的模型。它可以在4张RTX 3090 (24G) 或者8张RTX 2080 Ti (11G) 进行推理。

GLM-130B开源地址：https://github.com/THUDM/GLM-130B

一、介绍

大语言模型（LLM）在zero-shot 和 few-shot的任务上有明显的优势，特别是模型参数量超过千亿级别（100B）的时候。像GPT3-175B千亿级别的大模型在各种评测集上的表现超过了全监督BERT-Large模型。但GPT3并未开源，所以和大家分享如何训练出如此大规模高质量的大模型是非常有价值的。

和百亿级别的模型相比，训练如此规模大小（100B）的大模型，会面临很多技术和工程上面的挑战，比如在预训练的效率、稳定性和收敛性方面。在训练 OPT-175B和BLOOM-176B 模型的时候也有这些方面的问题。

我们将从工程方面的努力、模型的设计和选择、高效稳定的训练策略和可负担推理接口的量化操作几方面来介绍GLM-130B。特别是训练时候的稳定性，这是决定训练一个千亿级别模型成功的关键。与在OPT-175B中手动调整学习率和在BLOOM-176B中使用嵌入范数来牺牲性能等做法不同，我们对各种选项进行了实验，发现嵌入梯度收缩策略可以明显提高GLM-130B训练时的稳定性。

和GPT系列的架构不同，GLM-130B使用的是GLM架构,它是利用了双向attention机制和自回归空白填充的优势。下图是GLM-130B和其他一些主流的LLM在是否开源、模型结构、训练、推理上的对比：

可以看到，GLM-130B是基于GLM的backbone，但是和原始的GLM相比，在模型结构上也做了些改进：

1）layer norm：使用 Deep-Norm 来提供模型训练的稳定性。

2）PE：使用RoPE（旋转位置编码）替换2D PE。

3）FFN：使用GeGLU 替换 GeLU 。

模型效果评估表现请见下图：

总结就是：效果好，偏见毒性少

GLM-130B使更多人可以对千亿规模的大模型进行研究原因有以下两点：

1）单个A100的卡可以对GLM-130B进行部署，而175B+的大模型（如OPT 、BLOOM）不行。

2）为了再降低GPU的要求，在对量化无感知无影响的情况下，对GLM-130B做了int4量化，而OPT 和 BLOOM只做了int8量化。GLM-130B int4压缩版在LAMBADA 评测集上效果只降低了0.74%，在MMLU上升至提高了+0.05% ，即使这样，它的效果仍然超过无压缩的GPT3。

二、GLM-130B的设计选择

1.模型架构

1）GLM作为Backbone：GLM输入是双向attention机制，输出是单向attention机制。通过不同的mask策略来使模型具有自编码和自回归的能力。具体GLM原理请参考：论文浅读：GLM（General Language Model Pretraining）。

2）Layer Normalization：选用的是DeepNorm（一种Post LN方法）来提升模型训练时候的稳定性。