问题研究
对预训练的语言模型进行微调后就可以在众多下游任务中获取 SOTA 的结果,但这个过程的机制并没有得到很好的理解。
尤其是在低数据情况下,为什么可以使用 vanilla gradient descent 方法在只有数百或数千个标记样本的数据集上调整具有数亿个参数的模型
概念
本征维度 (intrinsic dimension)
对一个高维优化问题,获取对应目标的满意解所需的最小参数维度
具体公式请参加论文
实验
根据 GLUE 指标在 MRPC 和 QQP 两个微调数据集上利用 DID 和 SAID 方法计算了 BERT 和 RoBERTa 模型的本征维度
结论是:只需要非常低的维度就可以获得一个较好的参数方案。例如,使用 RoBERTa-Large 模型,只需要大约 200 和 800 个参数就可以在 MRPC 和 QQP 任务上达到完整微调方案 90% 的准确率。
另外一个发现是:具有更多参数的 RoBERTa 在各种子空间维度 d 上始终优于 BERT
认为本征维度向量的一种解释是,它根据原始预训练好的表示对手头的任务进行编码。因此,可以将 d 解释为,在预训练表示规定的框架内,对下游任务的最小描述长度 (Hinton & Zemel,1993)。基于这种解释,假设预训练过程隐式地降低了 NLP 任务的内在维度,因此压缩了这些相同任务的最小描述长度。下图验证了这一点。
对十几种不同的预训练模型进行了研究。下图表明参数的数量与本征维度的大小呈负相关关系。这在一定程度上证明了大规模模型的有效性从何而来
鉴于此前的结果已经看到预训练最小化了本征维度,作者假设模型泛化性能会随着本征维度的减少而提高。
为了验证这一点,作者利用图 2 中 RoBERTa 实验的各种检查点,对d90和验证集性能之间的联系进行了实证实验。如下图所示:
以上结果表明,较低的本征维度再次与较小的相对泛化边界密切相关
结论
常见的预训练模型具有非常低的本征维度;换句话说,存在与完整参数空间一样有效的低维重新参数化。实验表明,预训练过程隐式地最小化了本征维度,且在固定数量的预训练更新后,较大规模的模型往往具有较低的本征维度。最后,作者将本征维度与泛化边界联系起来,从实验和理论两个角度验证了本征维度与相对泛化边界的正相关关系
reference