指令微调的训练策略

    在训练方式上,指令微调与预训练较为相似,很多设置包括数据组织形式都可以预训练阶段所采用的技术。

优化设置

    指令微调中的优化器设置(AdamW 或 Adafactor)、稳定训练技巧(权重衰减和梯度裁剪)和训练技术(3D 并行、ZeRO 和混合精度训练)都与预训练保持阶段一致,可以完全沿用。下面主要介绍一些指令微调与预训练的不同之处。

  • 目标函数. 预训练阶段通常采用语言建模损失,优化模型在每一个词元上的损失。而指令微调可以被视为一个有监督的训练过程,通常采用的目标函数为序列到序列损失,仅在输出部分计算损失,而不计算输入部分的损失。
  • 批次大小和学习率. 考虑到预训练阶段已经学习到了能够展现较好性能的模型参数,指令微调阶段通常只需要使用较小的批次大小和学习率对模型进行小幅度的调整。例如 InstructGPT (175B) 微调的批次大小为 8,学习率恒定为 5.03×10−6;Alpaca (7B) 微调的批次大小为 128,学习率预热到 2 × 10−5,然后采用余弦衰减策略。
  • 多轮对话数据的高效训练. 对于一个多轮对话数据,通常的训练算法是将其拆分成多个不同的对话数据进行单独训练。为了提升训练效率,可以采用特殊的掩码机制来实现多轮对话数据的高效训练。在因果解码器架构中,由于输入输出没有明显的分界
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值