模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
1 分类模型评估
-
准确率:预测正确的数占样本总数的比例 https://blog.csdn.net/weixin_48135624/article/details/114887146
-
精准率:正确预测为正占全部预测为正的比例
-
召回率:正确预测为正占全部正校本的比例
-
F1-score:主要用于评估模型的稳健性
-
AUC指标:主要用于评估样本不均衡的情况
2 回归模型评估
均方根误差(Root Mean Squared Error,RMSE)也称标准误差
-
RMSE是一个衡量回归模型误差率的常用公式。 不过,它仅能比较误差是相同单位的模型。
-
预测值-真实值减去预测值的差,求平方,再求所有的和,除以对应得样本数,再开根号,就是均方根误差。
-
求和符号,n是10的话。1+2+3+...+10。
举例:
假设上面的房价预测,只有五个样本,对应的
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410
那么使用均方根误差求解得:
相对平方误差(Relative Squared Error,RSE):与RMSE不同,RSE可以比较误差是不同单位得模型。
平均绝对误差(Mean Absolute Error,MAE):MAE与原始数据单位相同,它仅能比较误差是相同单位的模型,量级近似与RMSE,但是误差值相对小一些。
- 2的绝对值是2,-2的绝对值是2
相对绝对误差(Relative Absolute Error,RAE):与RSE不同,RAE可以比较误差是不同单位的类型
决定系数 (Coefficient of Determination)
R2描述了回归模型所解释的因变量方差在总方差中的比例。R2很大,即自变量和因变量之间存在线性关系,如果回归模型是“完美的”,SSE为零,则R2为1。R2小,则自变量和因变量之间存在线性关系的证据不令人信服。如果回归模型完全失败,SSE等于SST,没有方差可被回归解释,则R2为零。
3 拟合
模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
在训练过程中,你可能会遇到如下问题:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?
当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。
3.1 欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合(under-fitting):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
3.2 过拟合
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
- 欠拟合
- 学习到的东西太少
- 模型学习的太过粗糙
- 过拟合
- 学习到的东西太多
- 学习到的特征多,不好泛化