前言
通过前面两次微调训练欺诈文本分类微调(六):Lora单卡和欺诈文本分类微调(七)—— lora单卡二次调优,我们已经初步理解了微调的整个过程,里面涉及到不少的参数配置,这篇文章就对前面用到过的参数作一个基本的梳理和总结。
批次大小
per_device_train_batch_size
解读:每个设备训练时的小批量大小。大batch_size和小batch_size的区别在于:较小的batch_size可能会带来训练时梯度的较大波动,而较大的batch_size则可能使训练过程更加平滑。
此参数设置受显卡内存、模型大小、输入数据长短影响,需要根据自己的情况来尝试。如果设置的batch_size过大,可能会导致显存溢出(OOM),这时需要减小batch_size。
一般的策略是:从较小的batch_size=4开始尝试,并逐渐增大