问题描述:该代码实现了Temporal-Ensembling-for-Semi-Supervised-Learning论文,但是在用该代码跑一遍之后,val acc最高精度只有64%远小于paper上的精度(window下 train num=1000, val num=200, svhn)。
猜测:
- 最开始觉得模型容量不够(该paper所用的模型比较简单,层比较少),但是论文实验精度很高,不应该是这个原因。
- 然后觉得是数据的问题,为什么会这么想,因为另一个代码在跑svhn数据集的时候,每个epoch的时间远大于这个代码的epoch时间。然后考察了一下,发现大家常用的全监督训练方式是train num除以batch size得到每个epoch中迭代的次数,这样每个epoch都把整个数据集都训练一遍,但是本代码中,并不是如此,因为存在unlabel example,代码中每个epoch中迭代的次数还是train num除以batch size,所以unlabel example只用到了iterate_num×ul_batch_size(代码中ul_batch_size:unlabel example是一个人为设定的,这里为1:1),这远小于unlabel example,这也是为什么每个epoch跑这么快的原因。这也同样解释了为什么实验中前10几个epoch acc几乎不怎么变的原因——数据集根本还没有训练一遍。两种方法都应该是ok的。
- 由于上面一个原因所以可以看出初始epoch