【人工智能时代】- 大模型各阶段

‌大模型的发展经历了几个关键阶段,每个阶段都有其特定的目标和成果。‌

 ‌1.预训练阶段‌:在这个阶段,大模型使用大量语料进行预训练,这个过程是不受控制的,因此生成的知识也是不可控的。这一阶段的主要目的是为模型提供广泛的基础知识,使其能够理解和生成语言。
 ‌2.微调阶段‌:在微调阶段,模型使用少量人为编写的语料进行有监督的微调。这个过程是受控制的,旨在让模型根据特定的任务或需求进行优化。通过这个过程,模型能够生成可控的知识。
3. ‌奖励模型阶段‌:基于有监督微调模型,通过对同一提示多次调用模型产生不同的输出,并请人对这些输出进行评分。基于这些评分数据,训练出奖励模型,使得模型能够生成与人类价值观对齐的内容。
 ‌4.强化学习阶段‌:综合预训练和奖励模型阶段的结果,通过强化学习对模型进行调优,形成最终的模型。这个阶段的目的是让模型基于奖励模型生成与人类价值观对齐的可控知识。
大模型的发展不仅涉及技术的进步,还包括了如何将这些技术应用于实际问题的解决中。从“上新品”到“强应用”阶段的转变,标志着大模型已经开始深入到各行各业中,赋能城市管理、科学研究以及百姓生活的各个方面‌

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiaoli8748_软件开发

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值