如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?
deep learning is a data hungry problem
数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。而且如果样本太少模型还非常容易过拟合,表现出极差的泛化特性。
不过这个问题的破解方案是如果数据没有小到极端,那么我们可以通过迁移学习进行精调也能使用深度学习模型;
或者可以通过合适的数据增强(data augmentation)的方法进行数据的扩增,即在原数据的基础上进行数据形式的变换或者信息的增加删减;
以图像数据为例的数据增强方案包含:
几何变换类即对图像进行几何变换,包括翻转,旋转,裁剪,变形,缩放等各类操作,下面展示其中的若干个操作。
上面的几何变换类操作,没有改变图像本身的内容,它可能是选择了图像的一部分或者对像素进行了重分布。如果要改变图像本身的内容&