在使用Google开源的中文BERT模型过程中,由于GPU资源受限(只有一块GPU),整个模型精调会导致溢出。
为解决以上困难,设计了如下的逐层精调模式,针对BERT的表达层,逐层放开是否参与训练,和下游目标模块一起针对性训练,并进行多轮迭代:
bert_model = load_trained_model_from_checkpoint(config_path, checkpoint_path, seq_len=None)
for l in bert_model.layers:
if "Encoder-12" in l.name:
l.trainable = False
x1_in = Input(shape=(None,))
x2_in = Input(shape=(None,

在GPU资源紧张的环境中,面对BERT模型训练时的溢出问题,采用了一种逐层精调策略。该方法允许BERT的表达层逐步参与训练,并与下游任务模块结合,通过多轮迭代,成功在有限的GPU资源中实现模型优化,显著提高了精确率和召回率。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



