华为NEZHA-NLP预训练模型

最新推荐文章于 2024-09-10 07:00:00 发布

AI强仔

最新推荐文章于 2024-09-10 07:00:00 发布

阅读量2.9k

点赞数 2

分类专栏： NLP 人工智能

原文链接：https://blog.csdn.net/ljp1919/article/details/103646770?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161788368316780264017354%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=161788368316780264017354&biz_id=0&utm_medium

版权

人工智能同时被 2 个专栏收录

150 篇文章 21 订阅

订阅专栏

NLP

51 篇文章 5 订阅

订阅专栏

NEZHA(NEural contextualiZed representation for CHinese lAnguage understanding，面向中文理解的神经语境表征模型，哪吒)。NEZHA相较于BERT有如下改进，前两者是模型改进，后两者是训练优化。：
(1)函数式相对位置编码：NEZHA中的函数式相对位置编码，通过使用相对位置的正弦函数计算输出和attention的得分。该想法源于Transformer中使用的函数式绝对位置编码。

(2)全词覆盖：在初始的BERT中，每个token或者每个汉字都是随机覆盖的。而 NEZHA 预训练模型，则采用了全词覆盖（WWM）策略，当一个汉字被覆盖时，属于同一个汉字的其他汉字都被一起覆盖。

(3)混合精度训练：该技术可以使训练速度提高2-3倍。传统的深度神经网络训练使用 FP32 （即单精度浮点格式）来表示训练中涉及的所有变量（包括模型参数和梯度）；而混合精度训练在训练中采用了多精度。具体来说，它重点维持模型中权重的单精度副本（称为主权重），即在每次训练迭代中，将主权重舍入为FP16（即半精度浮点格式），并使用 FP16 格式存储的权重、激活和梯度执行向前和向后传递；最后将梯度转换为FP32格式，并使用FP32梯度更新主权重。

(4)训练过程中使用 LAMB 优化器
LAMB 优化器是专为深度神经元网络大batch size同时分布式训练而设计。尽管使用大的batch size训练可以有效地加快 DNN 训练速度，但是如果不仔细调整学习率，当batch size处理的大小超过某个阈值时，模型的性能可能会受到很大影响。LAMB 优化器则不需要手动调整学习率，而是采用了一种通用的自适应策略。优化器通过使用非常大的batch size(实验中高达 30k 以上)来加速BERT的训练，而不会导致性能损失，甚至在许多任务中获得最先进的性能。值得注意的是，BERT的训练时间最终从3天显著缩短到 76 分钟。

————————————————
版权声明：本文为CSDN博主「JasonLiu1919」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/ljp1919/article/details/103646770