大模型微调经验关键参数总结

WhyteHighmore

已于 2024-12-04 14:44:50 修改

阅读量1.4k

点赞数 15

分类专栏：大模型文章标签：机器学习深度学习人工智能

于 2024-10-21 17:43:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45320238/article/details/143118301

版权

batch_size、accumulation_steps、warmup_ratio、learning_rate与epoch对大模型的性能影响及参数间关系

batch_size是训练过程中一次输入到模型中的样本数量，直接决定了每次迭代中处理的样本数量。适当调整batch_size可以显著提高模型的准确率和训练速度。

accumulation_steps是指在更新模型参数之前，梯度被累加的步数，决定了在更新权重之前需要累积多少次梯度。

warmup_ratio是指学习率在训练初期逐渐增加的比例，其在训练初期逐渐增加可以避免训练损失波动，促进模型快速收敛。是一种在训练初期逐渐增加学习率的技术，目的是在训练开始时稳定模型的行为，避免由于过大的学习率导致的模型不稳定。 warmup_ratio通常和学习率调度策略（如线性Warmup、余弦退火等）一起使用。warmup_ratio过大会导致训练效率降低、模型性能下降、过拟合风险。

learning_rate：是模型参数更新的步长。较大的learning_rate可能导致训练不稳定，而较小的learning_rate则可能使训练过程过于缓慢。

epoch影响：epoch是指整个训练数据集被模型遍历一次的次数。过多的epoch可能导致过拟合，而过少的epoch则可能导致模型未充分学习数据特征。和表明，适当调整epoch数量可以提高模型的准确率和泛化能力。

<

	batch_size	accumulation_steps	warmup_ratio	learning_rate	epoch
batch_size

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。