在使用Bert做UNILM的摘要任务时,出现了一个非常奇怪的问题,之前用小数据集跑出来效果还不错,于是修改了一些训练参数(学习率,warmup等),换了一个大数据集来跑,效果很差,所以又把所有参数回滚了,并且重新换上小数据集,这时候却发现效果同样变得非常差。
尝试过重写解码部分、用modeling_bert.py中的模型链接重新下载一个模型,并在微调时使用这个新的模型训练、删除所有保存过的权重,都不行,最后怀疑bert是否存在这种缓存问题,上谷歌一查,还真有人跟我遇到相同问题,于是删除了位于**~/.cache/torch/transformers**下的所有文件,重新训练,问题(莫名其妙地)解决。