在运行代码时,原本Epoch为120时,Epoch跑到103就停止,报错RuntimeError:can’t start new thread,具体错误如下图截图。
找了半天错误,后来发现是tensorboard引起的线程问题,主要参考这篇文章:Python 3.5 RuntimeError: can't start new thread。这篇文章指出报错的原因大概率是,测试的时候线程开得太多了,导致软件开始,不再能够被处理,卡死。果不其然,我找到自己在每个epoch内都实例化SummaryWriter对象,即
tb_writer = SummaryWriter(log_dir='./output/attention/market1501-train/tensorboard/')。