过拟合问题:机器学习模型或者是深度学习模型在训练样本表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。也就是泛华误差比较大,泛华能力差。
过拟合问题的判断:在模型训练数据集和测试集随着样本数量的增加,他们之间的差值变化。若训练集和测试集的准确率都很低。就表名模型出现了欠拟合的问题。若训练集的准确率随着模型的训练,可以的达到百分之九十几,但是测试集和训练集的差距很大,一般训练数据集的正确率和测试数据集的正确相差%15左右,该模型就基本存在过拟合问题。
导致过拟合问题的原因:
1、数据集规模过小。当模型训练模型的时候如果数据集太小,则只能表示小部分数据的特征,若测试集的数据正好在特征之外,那么就可能出现过拟合的现象发生。
2、数据集不规范。在训练模型的时候,需要将数据按照三七划分为测试集和训练集。如果训练集的特征是识别水果分类,当模型训练好后是用来识别水果类别,但是测试集里面却全是蔬菜的图片,也会造成训练集的效果很好,但是测试集的效果很差。从而导致过拟合的问题。如果数据集中不光有水果的图片而且还有风景的图片,那么这时模型也可能出现过拟合问题,所以我们在训练模型的时候,一定需要先对数据集进行检查。
3、模型过于复杂。当训练一个模型的时候,设计的网络过于复杂,但是却将这个模型用于学习简单的数据特征,这时也可能出现过拟合问题。
4、训练模型的时候,训练的次数过多。但是模型在学习特征的时候,将数据集中的特征也学习到,降低模型预测或分类效果,从而导致过拟合问题。
避免过拟合的措施:尽量选择官方数据集;在搭建模型的时候要根据实际需求设计网络;