这里主要记录我碰到的原因 model.eval() 当一个大的模型model中内含bert等大模型时,大模型使用model.eval()时,Bert也同时使用bert.eval() 学习率太小 val loss一直再下降,但下降很慢,有可能时学习率太小了的原因。