大模型微调经验关键参数总结

batch_size、accumulation_steps、warmup_ratio、learning_rate与epoch对大模型的性能影响及参数间关系

batch_size是训练过程中一次输入到模型中的样本数量,直接决定了每次迭代中处理的样本数量。适当调整batch_size可以显著提高模型的准确率和训练速度。

accumulation_steps是指在更新模型参数之前,梯度被累加的步数,决定了在更新权重之前需要累积多少次梯度

warmup_ratio是指学习率在训练初期逐渐增加的比例,其在训练初期逐渐增加可以避免训练损失波动,促进模型快速收敛。是一种在训练初期逐渐增加学习率的技术,目的是在训练开始时稳定模型的行为,避免由于过大的学习率导致的模型不稳定。 warmup_ratio通常和学习率调度策略(如线性Warmup、余弦退火等)一起使用 。warmup_ratio过大会导致训练效率降低、模型性能下降、过拟合风险。

learning_rate:是模型参数更新的步长。较大的learning_rate可能导致训练不稳定,而较小的learning_rate则可能使训练过程过于缓慢。

epoch影响:epoch是指整个训练数据集被模型遍历一次的次数。过多的epoch可能导致过拟合,而过少的epoch则可能导致模型未充分学习数据特征。和表明,适当调整epoch数量可以提高模型的准确率和泛化能力。

<
batch_size accumulation_steps warmup_ratio learning_rate epoch
batch_size
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值