1 相关工作
语言模型主要是基于RNN和Transformer两种。在Transformer提出以前,RNN及其相关变体如LSTM等,一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构,在处理文本这类序列数据时要比循环结构的RNN高效。
2 解决问题
但是随着NLP的发展,模型容量越来越大,层越来越深,参数越来越多,要训练一个优良的模型需要大量的计算资源和存储空间,比如BERT和GPT。这两个模型都是Transformer在语言建模中的重要应用,但是这两个模型过于庞大,参数都达到亿级,且所需大量的训练数据。
针对此问题,即训练一个优良的模型需要大量的计算资源、存储空间以及训练数据,基于现存的预训练的模型,此文通过修改微调原始模型,取得了号称state of the art的成果。但是有个问题,如何修改原始模型?此文提出CAS(Coordinate Architecture Search)搜索算法来解决这个问题。
3 原理
此文是分别修改BERT和GPT两个模型,所做的修改有三:其一,添加线性层,其二,添加LSTM层,