【视野提升】ChatGPT的系统是如何工作的?

本文详细解释了类似ChatGPT的系统工作原理,包括预训练阶段的语法预测和微调阶段的问答模型构建,以及内容审核和强化学习在生成准确回答中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

类似ChatGPT的系统是如何工作的?

我们试图在下图中解释它是如何工作的。这个过程可以分为两个部分。

训练

要训练一个ChatGPT模型,有两个阶段:

预训练

在这个阶段,我们在大量互联网数据上训练一个GPT模型(仅解码器转换器)。

目标是训练一个模型,该模型可以根据给定的句子预测未来的单词,使其语法正确且语义有意义,类似于互联网数据。

在预训练阶段之后,模型可以完成给定的句子,但它不能回答问题。

微调:

这个阶段是一个三步过程,将预训练的模型转变为一个问答ChatGPT模型:

  • 1). 收集训练数据(问题和答案),并根据这些数据对预训练的模型进行微调。模型将问题作为输入,并学习生成与训练数据相似的答案

  • 2). 收集更多数据(问题、多个答案),并训练一个奖励模型,将这些答案从最相关到最不相关进行排名。

  • 3). 使用强化学习(PPO优化)对模型进行微调,使模型的答案更准确。

回答提示

🔹步骤1:用户输入完整的问题,“解释分类算法是如何工作的”。

🔹步骤2:问题被发送到一个内容审核组件。这个组件确保问题不违反安全准则,并过滤不适当的问题。

🔹步骤3-4:如果输入通过内容审核,它被发送到ChatGPT模型。如果输入未通过内容审核,它会直接进入模板响应生成

🔹步骤5-6:一旦模型生成响应,它再次被发送到内容审核组件。这确保生成的响应是安全的、无害的、无偏见的等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TrustZone_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值