【论文学习】ALBERT

最新推荐文章于 2022-11-12 19:48:01 发布

凯子要面包

最新推荐文章于 2022-11-12 19:48:01 发布

阅读量225

点赞数

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/weixin_44815943/article/details/119733796

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

简介

为了加速计算，以及克服hidden size 、hidden layer等超参数值增大，导致模型退化的问题，ALBERT（A Lite BERT）提出来两种参数优化的技术——“embedding layer分解、跨层参数共享”，并增加SOP（Sentence Order Prediction）任务替换NSP（Next Sentence Prediction）任务。

ALBERT三大改进

ALBERT的结构与BERT十分类似，只是在以下三个方面做了优化：
embedding层参数分解，对于BERT等预训练模型，由于transformer encoder中使用了残差连接，因此进行了embedding层的size与hidden layer词向量的size相同的限制。在论文中提出，embedding 向量是上下文无关的词向量表示，而hidden layer中的词向量表示是上下文相关的，其应该包含更丰富的信息，需要更大的维度来存储更多信息，因此不论从理论还是实践角度，通过将V*H -> V*E + E*H and E << H，其中V表示词表大小，H与E分别表示hidden size与embedding size。
在这里插入图片描述

跨层参数共享：默认采取的是共享层的所有参数的策略（包括全连接层与注意力层），更加试验结果发现，跨层参数共享具有正则化、模型参数更加稳定的效果。
在这里插入图片描述
SOP：论文中指出NSP任务失效的一个主要原因是NSP任务太简单了，因为其包含了“主题”与“一致性”两个因素，而不同的“主题”，对于模型是较容易识别的。因此论文剔除了“主题”这个因素的影响，只保留“一致性”影响因素。数据处理上，正样本就是同一section中的前后两句话，负样本就是同一section中颠倒顺序的两句话。
在这里插入图片描述

凯子要面包

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文学习】ALBERT

目录简介ALBERT三大改进简介为了加速计算，以及克服hidden size 、hidden layer等超参数值增大，导致模型退化的问题，ALBERT（A Lite BERT）提出来两种参数优化的技术——“embedding layer分解、跨层参数共享”，并增加SOP（Sentence Order Prediction）任务替换NSP（Next Sentence Prediction）任务。ALBERT三大改进ALBERT的结构与BERT十分类似，只是在以下三个方面做了优化：embeddin
复制链接

扫一扫