大模型的发展经历了几个关键阶段,每个阶段都有其特定的目标和成果。
1.预训练阶段:在这个阶段,大模型使用大量语料进行预训练,这个过程是不受控制的,因此生成的知识也是不可控的。这一阶段的主要目的是为模型提供广泛的基础知识,使其能够理解和生成语言。
2.微调阶段:在微调阶段,模型使用少量人为编写的语料进行有监督的微调。这个过程是受控制的,旨在让模型根据特定的任务或需求进行优化。通过这个过程,模型能够生成可控的知识。
3. 奖励模型阶段:基于有监督微调模型,通过对同一提示多次调用模型产生不同的输出,并请人对这些输出进行评分。基于这些评分数据,训练出奖励模型,使得模型能够生成与人类价值观对齐的内容。
4.强化学习阶段:综合预训练和奖励模型阶段的结果,通过强化学习对模型进行调优,形成最终的模型。这个阶段的目的是让模型基于奖励模型生成与人类价值观对齐的可控知识。
大模型的发展不仅涉及技术的进步,还包括了如何将这些技术应用于实际问题的解决中。从“上新品”到“强应用”阶段的转变,标志着大模型已经开始深入到各行各业中,赋能城市管理、科学研究以及百姓生活的各个方面