【论文学习】ALBERT

简介

为了加速计算,以及克服hidden size 、hidden layer等超参数值增大,导致模型退化的问题,ALBERT(A Lite BERT)提出来两种参数优化的技术——“embedding layer分解、跨层参数共享”, 并增加SOP(Sentence Order Prediction)任务替换NSP(Next Sentence Prediction)任务。

ALBERT三大改进

ALBERT的结构与BERT十分类似,只是在以下三个方面做了优化:
embedding层参数分解,对于BERT等预训练模型,由于transformer encoder中使用了残差连接,因此进行了embedding层的size与hidden layer词向量的size相同的限制。在论文中提出,embedding 向量是上下文无关的词向量表示,而hidden layer中的词向量表示是上下文相关的,其应该包含更丰富的信息,需要更大的维度来存储更多信息,因此不论从理论还是实践角度,通过将V*H -> V*E + E*H and E << H,其中V表示词表大小,H与E分别表示hidden size与embedding size。
在这里插入图片描述

跨层参数共享:默认采取的是共享层的所有参数的策略(包括全连接层与注意力层),更加试验结果发现,跨层参数共享具有正则化、模型参数更加稳定的效果。
在这里插入图片描述
SOP:论文中指出NSP任务失效的一个主要原因是NSP任务太简单了,因为其包含了“主题”与“一致性”两个因素,而不同的“主题”,对于模型是较容易识别的。因此论文剔除了“主题”这个因素的影响,只保留“一致性”影响因素。数据处理上,正样本就是同一section中的前后两句话,负样本就是同一section中颠倒顺序的两句话。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值