Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

最新推荐文章于 2024-01-12 07:09:46 发布

还卿一钵无情泪

最新推荐文章于 2024-01-12 07:09:46 发布

阅读量840

点赞数 1

分类专栏： Paper 文章标签： paper NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48185819/article/details/124398857

版权

Paper 专栏收录该内容

11 篇文章 3 订阅

订阅专栏

问题研究

对预训练的语言模型进行微调后就可以在众多下游任务中获取 SOTA 的结果，但这个过程的机制并没有得到很好的理解。

尤其是在低数据情况下，为什么可以使用 vanilla gradient descent 方法在只有数百或数千个标记样本的数据集上调整具有数亿个参数的模型

概念

本征维度 (intrinsic dimension)

对一个高维优化问题，获取对应目标的满意解所需的最小参数维度

具体公式请参加论文

实验

根据 GLUE 指标在 MRPC 和 QQP 两个微调数据集上利用 DID 和 SAID 方法计算了 BERT 和 RoBERTa 模型的本征维度

结论是：只需要非常低的维度就可以获得一个较好的参数方案。例如，使用 RoBERTa-Large 模型，只需要大约 200 和 800 个参数就可以在 MRPC 和 QQP 任务上达到完整微调方案 90% 的准确率。

另外一个发现是：具有更多参数的 RoBERTa 在各种子空间维度 d 上始终优于 BERT

认为本征维度向量的一种解释是，它根据原始预训练好的表示对手头的任务进行编码。因此，可以将 d 解释为，在预训练表示规定的框架内，对下游任务的最小描述长度 (Hinton & Zemel，1993)。基于这种解释，假设预训练过程隐式地降低了 NLP 任务的内在维度，因此压缩了这些相同任务的最小描述长度。下图验证了这一点。

对十几种不同的预训练模型进行了研究。下图表明参数的数量与本征维度的大小呈负相关关系。这在一定程度上证明了大规模模型的有效性从何而来

鉴于此前的结果已经看到预训练最小化了本征维度，作者假设模型泛化性能会随着本征维度的减少而提高。

为了验证这一点，作者利用图 2 中 RoBERTa 实验的各种检查点，对d90和验证集性能之间的联系进行了实证实验。如下图所示：

以上结果表明，较低的本征维度再次与较小的相对泛化边界密切相关

结论

常见的预训练模型具有非常低的本征维度；换句话说，存在与完整参数空间一样有效的低维重新参数化。实验表明，预训练过程隐式地最小化了本征维度，且在固定数量的预训练更新后，较大规模的模型往往具有较低的本征维度。最后，作者将本征维度与泛化边界联系起来，从实验和理论两个角度验证了本征维度与相对泛化边界的正相关关系

reference

https://zhuanlan.zhihu.com/p/409426163

还卿一钵无情泪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

问题研究对预训练的语言模型进行微调后就可以在众多下游任务中获取 SOTA 的结果，但这个过程的机制并没有得到很好的理解。尤其是在低数据情况下，为什么可以使用 vanilla gradient descent 方法在只有数百或数千个标记样本的数据集上调整具有数亿个参数的模型概念本征维度 (intrinsic dimension)对一个高维优化问题，获取对应目标的满意解所需的最小参数维度具体公式请参加论文实验根据 GLUE 指标在 MRPC 和 QQP 两个微调数据.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。