现阶段对于伪造检测的任务,大多数先前工作者提出的模型已经在训练集上达到了很好的性能,但是在未知伪造方法合成的数据集(不包含在训练的集上的数据样本)性能明显下降很多。
为了能够提高模型的泛化能力,我们能做的就是提高样本的多样性,学习伪造方法合成数据集的共性,对于这个问题:
第一种方法就是使用数据增强的方法增加样本的多样性。
第二种方法是混入一定比例的未知数据集的样本。
我观察到,现阶段常用的一些数据增强的方法虽然能够小幅度提升性能,但是跟预期结果还差很多。另外,很多论文中并没有明确表明自己是混入了一定比例的未知数据集的样例,以此来提高自己在泛化能力测试上的性能。
我自己还试过使用随机擦除的方法,一篇比较优秀的论文中提出的方法,但是在我的模型中表现能力并不是很好……
很多论文中,提升模型的泛化能力本质上就是增加样本的多样性……
刺客……