LLM的发展历程
定义:
大语言模型(Large Language Model)的定义:
个人理解:(How to create it ?)大规模的数据训练+(What it can do? )可以理解、生成人类语言的(What it is)人工智能模型。
这里大规模中的“大”怎么理解呢?
指的是模型参数规模的大和数据量规模,计算算力的大,通常情况下,这会带来“扩展法则”,即下游任务的的模型性能提升,但也不是绝对性的,即大语言模型不一定比小型预训练语言模型具有更强的任务效果,而且某些大语言模型中也可能不具有某种涌现能力。
那有大型,必然是先有的小型预训练语言模型,其实在大型语言模型是在小型的基础上发展的,很多学者对小型预训练语言模型进行性能极限的探究,比如,175B 参数的 GPT-3 和 540B 参数的 PaLM,这些大规模的预训练语言模型在解决复杂任务时表现出 了与小型预训练语言模型(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为。
例如,GPT-3 可以通过“上下文学习”(In-Context Learning, ICL)的方 式来利用少样本数据解决下游任务,而 GPT-2 则不具备这一能力。这种大模型有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。
提到LLM我们不得不想到OpenAI公司推出的基于Transformer模型的GPT系列,在起初,GPT-1能够通过“通用文本训练--特定任务微调”的范式解决下游任务.
发展:
解决下游任务的统一方式:
1.预训练
2.微调
3.迁移学习
4.集成与封装
5.持续优化与监控