拟合
实际就是数学模型
一:过拟合
训练集表现好,但是测试集表现不佳,即泛化性能差(泛化误差)
原因:
1.样本单一
2.正负样本比例不协调
3.异常点太多
4.模型越来越复杂
解决方式:
1.如果是样本单一,可以增加训练的数据集
2.如果是正负样本不协调,可以通过配比权重解决
如何防止过拟合:
1.最根本的可以通过扩大数据量
2.nlp拆解语句组成新的数据集
3.控制模型复杂度
3.1 随机森林可以控制树的复杂度
3.2 正则化/集成学习
3.3 减少训练次数,早点结束训练
二:欠拟合
训练集和测试集都表现不佳,即模型学习能力不佳(训练误差)
原因:
模型太烂
解决方法:
好好训练,增加特征或者数据量进行重新训练
三:方差和偏差的较量
从数学的角度,过拟合和欠拟合是方差和偏差的较量
偏差大 | 偏差小 | |
---|---|---|
方差大 | 模型不适合这个数据集 换模型 | 过拟合 模型很复杂 对训练数据集预测很准 对测试数据集预测很糟糕 |
方差小 | 欠拟合 模型相对较简单 预测不稳定,且对所有的数据集预测都不太准确 | 泛化和误差小,属于理想的模型 |