博主整理了近几年混合样本数据增强(Mixed Sample Data Augmentation)相关论文和代码,并分享在github上,地址如下,
https://github.com/JasonZhang156/awesome-mixed-sample-data-augmentation
如果大家对混合样本数据增强算法有兴趣,可以star或者fork到自己的仓库。
博主会对内容持续更新!
一、相关理论
Mixup是MIT和FAIR在ICLR 2018上发表的文章中提到的一种数据增强算法。在介绍mixup之前,我们首先简单了解两个概念:经验风险最小化(Empirical risk minimization,ERM)和邻域风险最小化(Vicinal Risk Minimization,VRM)。
“经验风险最小化”是目前大多数网络优化都遵循的一个原则,即使用已知的经验数据(训练样本)训练得到的学习器的误差或风险,也叫作“经验误差”或“训练误差”。相对的,在新样本(未知样本)上的误差称为“泛化误差”,显然,我们希望学习器的“泛化误差”越小越好。然而,通常我们事先并不知道新样本是什么样的,实际能做的是努力使经验误差越小越好。但是,过分的减小经验误差,通常会在未知样本上产生很差的结果,也就是我们常说的“过拟合”。
关于“泛化性”,通常可以通过使用大规模训练数据来提高,但