目录
简介
为了加速计算,以及克服hidden size 、hidden layer等超参数值增大,导致模型退化的问题,ALBERT(A Lite BERT)提出来两种参数优化的技术——“embedding layer分解、跨层参数共享”, 并增加SOP(Sentence Order Prediction)任务替换NSP(Next Sentence Prediction)任务。
ALBERT三大改进
ALBERT的结构与BERT十分类似,只是在以下三个方面做了优化:
embedding层参数分解,对于BERT等预训练模型,由于transformer encoder中使用了残差连接,因此进行了embedding层的size与hidden layer词向量的size相同的限制。在论文中提出,embedding 向量是上下文无关的词向量表示,而hidden layer中的词向量表示是上下文相关的,其应该包含更丰富的信息,需要更大的维度来存储更多信息,因此不论从理论还是实践角度,通过将V*H -> V*E + E*H and E << H
,其中V表示词表大小,H与E分别表示hidden size与embedding size。
跨层参数共享:默认采取的是共享层的所有参数的策略(包括全连接层与注意力层),更加试验结果发现,跨层参数共享具有正则化、模型参数更加稳定的效果。
SOP:论文中指出NSP任务失效的一个主要原因是NSP任务太简单了,因为其包含了“主题”与“一致性”两个因素,而不同的“主题”,对于模型是较容易识别的。因此论文剔除了“主题”这个因素的影响,只保留“一致性”影响因素。数据处理上,正样本就是同一section中的前后两句话,负样本就是同一section中颠倒顺序的两句话。