常用回归问题评估方法

好好学习Py

于 2024-07-16 22:00:47 发布

阅读量204

点赞数 8

分类专栏：机器学习文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_74254879/article/details/140476360

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

回归问题中的测评函数	公式（ $y$ 为实际值； $\bar{y}$ 为实际值的平均值； $\hat{y}$ 为预测值；n为样本数量；k 为模型中的自变量数，不包括常数项）	Sklearn的API
$MAE$ （平均绝对误差）	$\frac{1}{n}\sum_{i=1}^{n}\left \| y_{i}-\hat{y}_{i} \right \|$	`from sklearn.metrics import mean_absolute_error mean_absolute_error(y_test,y_predict)`
$MSE$ （均方误差）	$\frac{1}{n}\sum_{i=1}^{n}\left ( y_{i} -\hat{y}_{i}\right )^2$	`from sklearn.metrics import mean_squared_error mean_squared_error(y_test,y_predict)`
$RMSE$ （均方根误差）	$\sqrt{\frac{1}{n}\sum_{i=1}^{n}\left ( y_{i} -\hat{y}_{i}\right )^2}$	RMSE 是 MSE 的平方根
$R^{2}$ （绝定系数）	$1-\frac{\sum (y_{i}-\hat{y}_{i})^2}{\sum(y_{i}-\bar{y}_{i})^2}$	`from sklearn.metrics import r2_score r2_score(y_test,y_predict)`
$AdjustedR^{2}$	$1-\frac{(1-R^{2})(n-1)}{n-k-1}$	调整后的 $R^{2}$

一般使用MAE和RMSE这两个指标

MAE（平均绝对误差）：
- 直接反映平均误差：MAE 提供了预测值和真实值之间的平均误差大小，易于解释。
- 鲁棒性：对大误差的敏感度较低，较少受极端值（outliers）的影响。
- 不区分误差大小：MAE 对所有误差一视同仁，无法强调较大误差，可能掩盖了模型在特定情况下的不足。
- 敏感性低：对于需要突出大误差影响的应用场景，MAE 的敏感性不足。
RMSE（均方根误差）：
- 强调大误差：通过平方项，RMSE 放大了较大误差的影响，有助于识别预测中误差较大的情况。
- 平滑性：通常在数学和统计模型评估中广泛使用，因为它更符合正态分布假设下的误差处理。
- 对极端值敏感：由于平方项的存在，RMSE 对异常值（outliers）极其敏感，可能导致对模型整体性能的误导性评估。
- 复杂性：相比 MAE，RMSE 的平方和开方操作使得解释复杂度增加，尤其在非技术背景下难以直观理解。
$\mathbf{R^{2}}$ 评价标准：
- $R^{2}<0.5$ ：模型拟合较弱，说明模型解释变量变异的能力较差。
- $0.5 \leq R^{2}\leq 0.8$ ：模型拟合中等，模型有一定的解释变量变异的能力，但还可以进一步改进。
- $R^{2}> 0.8$ ：模型拟合较强，模型较好地解释了变量变异。
Adjusted $\mathbf{R^{2}}$ 在考虑解释变量数量的同时，对模型进行调整。增加不相关的变量会导致 Adjusted $\mathbf{R^{2}}$ 降低，防止过拟合