最重要的参数
max_seq_len 400 (对数据集进行统计,平均长度和90%分位数的长度作为先验)
其他参数
学习率 预训练模型 1e-5 - 5e-5 做掩膜任务 才把学习率调大
batchsize 一般是32 64/16也可以尝试
dropout不要太大 0.05,0.1,0.15,0.2
labelsmoothing 一般0.1
最重要的参数
max_seq_len 400 (对数据集进行统计,平均长度和90%分位数的长度作为先验)
其他参数
学习率 预训练模型 1e-5 - 5e-5 做掩膜任务 才把学习率调大
batchsize 一般是32 64/16也可以尝试
dropout不要太大 0.05,0.1,0.15,0.2
labelsmoothing 一般0.1