论文阅读：预训练模型:过去，现在和未来 Pre-Trained Models: Past, Present and Future（上）

本文链接：https://blog.csdn.net/woshuaizuishuai/article/details/124611301

文章目录

摘要：
一、简介
二、Background
- 2.1 Transfer Learning and Supervised Pre-Training
- 2.2 Self-Supervised Learning and Self-Supervised Pre-Training
三、Transformer and Representative PTMs
4 Designing Effective Architecture

摘要：

BERT和GPT等大规模预训练模型（PTMs）最近取得了巨大的成功，成为人工智能领域的一个里程碑。由于训练前目标复杂，模型参数巨大，大规模ptm能够有效地从大量标记和未标记数据中获取知识。通过将知识存储到巨大的参数中，并对具体的任务进行微调，将丰富的知识隐式编码到巨大的参数中，可以使下游的各种任务受益，这一点已经通过实验验证和实证分析得到了广泛的证明。现在人工智能社区的共识是采用ptm作为下游任务的骨干，而不是从头开始学习模型。在本文中，我们深入研究了前训练的历史，特别是它与迁移学习和自我监督学习的特殊关系，以揭示前训练在人工智能发展光谱中的关键地位。此外，我们全面回顾了PTMs的最新突破。这些突破是由计算能力的激增和数据可用性的增加所驱动的，面向四个重要方向:设计有效的架构，利用丰富的上下文，提高计算效率，以及进行解释和理论分析。最后，讨论了PTMs的一系列开放性问题和研究方向，希望本文的观点能对今后的经颅磁刺激研究起到启发和推动作用。

一、简介

前面的都是彩虹屁，不用怎么看。

“罗马不是一天建成的”——PTMs在取得最新的成功之前也经历了很长时间的发展。为此，我们试图追溯PTMs的发展历史，绘制其在人工智能光谱中的位置，从而清晰地理解PTMs的核心研究问题。然后，我们介绍各种最新的ptm的细节，以下是目前正在推进的四项重要内容，包括设计有效的架构，利用丰富的上下文，提高计算效率，以及进行解释和理论分析。通过将PTMs的当前发展与历史背景相结合，我们讨论了几个有待解决的问题，并总结了PTMs未来的发展方向。希望本文的工作能够对PTMs的进一步发展起到一定的推动作用。在下面,我们将介绍预训练的背景在第二节和第三节，在第四节讲下PTMs模型架构，在第五节的用多源异构数据使用PTMs，在第六节计算效率优化的PTMs，在第七节进行理论分析。最后，我们将简要讨论一系列开放的问题和未来更好的PTMs的有希望的方向。