大模型训练过程

哈利路路路亚

已于 2024-07-02 19:02:19 修改

阅读量219

点赞数 3

文章标签：机器学习深度学习人工智能

于 2024-06-30 00:19:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_64095788/article/details/140071338

版权

先看大模型的训练流程图：

接下来，一步一步的来看：

Pre-Taining(预训练

预训练得到的是base模型，它只是预测下一个词的模型。（是不是和迁移学习类似？

Instruction-Tuning（指令微调

对齐

没有对齐的话，模型的回复可能和我们的问题没有关系。对齐的目的是让模型理解我们的问题，并且根据我们的问题来回答我们的问题。那么如何对齐呢？

强化学习RLHF

让模型输出2句话，人类选择哪一种更好。

Supervised Fine- Tuning（SFT监督微调

概念：

这个有点像迁移学习，要求目标函数和源数据集类似，然后只需要修改源模型的输出层。

步骤：

预训练：在一个大规模的数据集上训练一个深度学习模型。

微调：使用目标任务的训练集对预训练模型进行微调。

评估：使用目标任务的测试集对微调后的模型进行评估。

特点：

监督微调能够利用预训练模型的参数和结构，避免从头开始训练模型。从而加速模型的训练过程，并且能够提高模型在目标任务上的表现。缺点：需要大量的标注数据用于目标任务的微调，如果标注数据不足，可能导致微调后的模型表现不佳，（那么这个数据量大概是多少呢？）其次，由于预训练模型的参数对微调后的模型性能影响很大，所以选择合适的预训练模型很重要。

RLHF（基于人类反馈的强化学习

RLHF是强化学习的微调，比如ChatGPT3.5是在GPT3.5的预训练模型上引入“人工标注数据+强化学习”来不断Fine-tune预训练语言模型，主要目的是让LLM模型学会理解人类的命令指令的含义。

这里，我们会需要来讲一为什么需要微调。

预训练模型够输出下一个词是什么，那么微调的好处：

能够得到更一致的输出。

减少幻觉。防止模型胡编乱造。

哈利路路路亚

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
大模型训练过程

先看大模型的训练流程图：接下来，一步一步的来看：预训练得到的是base模型，它只是预测下一个词的模型。（是不是和迁移学习类似？对齐没有对齐的话，模型的回复可能和我们的问题没有关系。对齐的目的是让模型理解我们的问题，并且根据我们的问题来回答我们的问题。那么如何对齐呢？让模型输出2句话，人类选择哪一种更好。这个有点像迁移学习，要求目标函数和源数据集类似，然后只需要修改源模型的输出层。预训练：在一个大规模的数据集上训练一个深度学习模型。微调：使用目标任务的训练集对预训练模型进行微调。评估：使用目标任务的测试集对微
复制链接

扫一扫

哈利路路路亚 CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

117万+: 周排名

7万+: 总排名

9072: 访问

: 等级

335: 积分

153: 粉丝

179: 获赞

1: 评论

192: 收藏

私信

关注

热门文章

最新评论

大模型训练过程
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。