误差的一阶和二阶——MSE/MAE

zcg1942

已于 2024-10-08 19:57:52 修改

阅读量1.2k

点赞数 25

文章标签：机器学习人工智能

于 2024-04-24 01:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcg1942/article/details/137651746

版权

1.variance和bias

MSE之前，先看两个更为朴素的指标：variance和bias。

在打靶中，有的人所有的子弹都离靶心很远，偏差显然过高，但是很稳定地维持在某一点附近；有的人平均环数更高，但是分布太过分散。我们当然希望又准确又稳定，如何衡量二者呢？

2.MSE(Mean squared error)

可以发现，MSE正好是偏差和方差构成的：

方差公式：

V(X) = E[(X - E(X))²]
= E[X² - 2 X E(X) + E(X)²]
= E(X²) - 2 E(X) E(X) + [E(X)]²
= E[(X )²] - [E(X)]²

V(θhat -θ) = E[(θhat - θ)²] - [E(θhat - θ)]²，方差平移不变，所以：

V(θhat) = E[(θhat - θ)²] - [E(θhat) - E(θ)]²，等式变换：

E[(θhat - θ)²] = [E(θhat) - θ]² + V(θhat)=[Bias]² + V(θhat) = Bias² + Variance=MSE

对于网络模型的训练，由模型简单到复杂的过程中，欠拟合逐渐变为过拟合。因为随着模型变大，网络学习能力变强，偏差变小，但是受噪声影响变大，方差变大：

2.1MSE和L2正则的关系？

在之前的文章中，我们看到L2正则和先验概率有一些联系，那么MSE怎么从贝叶斯的角度理解呢？

正则的本质是依据于先验概率，对参数进行约束，相当于参数有一个初始分布，最终估计出的不应该偏离这个值太远。

MSE衡量的是预测值与真实值之间的关系，那么关于预测值的似然函数可以写成关于GT的函数，如果这个函数是高斯分布，根据最大似然估计就可以得到MSE。所以MSE是先验为高斯分布下的最大似然估计。

MSE最小化就是我们熟知的最小二乘法。

机器学习常用损失函数小结 - 知乎

2.2从收敛速度看MSE

MSE形状是开口向上的二次曲线，光滑连续、可导，便于使用梯度下降算法，是比较常用的一种损失函数。而且，MSE 随着误差的减小，梯度也在减小，即使固定学习因子，函数也能较快取得最小值。

因为是二次函数，当误差大于1时会被放大，小于1时会被减小。所以MSE会惩罚误差更大的点。

2.3分类可以使用MSE吗

1. 直观地来说，分类中的label只是一个标签，和绝对数值大小没关系，所以强行拟合可能会有问题；

2. 刚才提到，MSE的先验是高斯分布，而分类和高斯分布关系不大，更像是伯努利分布；交叉熵则是以数据分布服从多项式分布为前提，所以分类更多使用交叉熵；

3.从梯度更新上看，MSE中的预测值是sigmoid后的输出，会得到一个复合函数：

那么求导时就会出现sigmoid的导数，而sigmoid的导数在两侧很小，会导致梯度下降不了。比如真实值是1，不管预测值是0还是1附近，梯度都很小，无法知道预测的情况到底是接近真实值还是远离真实值。

MSE在这里变成了非凸优化，当落在最右侧或者最左侧时，都很难进行梯度更新：

那么交叉熵就没有这个问题吗？还真没有，因为在求梯度过程中能消掉。可以看下面的回答：

交叉熵损失(Cross-Entropy)和平方损失(MSE)究竟有何区别？ - 陆壹爵爷的文章 - 知乎
https://zhuanlan.zhihu.com/p/423179343

2.4回归一定使用MSE吗

在第一篇使用CNN做超分的SRCNN中，确实使用的还是MSE。但是正如前面提到的，MSE过分关注离群点，和人眼不太符合；同时MSE可能会损失高频细节，这和它高斯分布的假设也有关系。

所以超分，去噪更多使用L1，SSIM等，尤其后面又有GAN loss等的出现，MSE使用得更少了。

分类问题中为什么用交叉熵而不用MSE KL散度和交叉熵的关系_分类为什么用交叉熵不用mse-CSDN博客

交叉熵损失(Cross-Entropy)和平方损失(MSE)究竟有何区别？ - 陆壹爵爷的文章 - 知乎
https://zhuanlan.zhihu.com/p/423179343

那么，交叉熵可以用于回归问题吗？有些情况下，还真可以：分类必然交叉熵，回归无脑MSE？未必 - 知乎

https://www.cnblogs.com/USTC-ZCC/p/13219281.html AI 面试高频问题: 为什么二分类不用 MSE 损失函数？ - mathinside的个人空间 - OSCHINA - 中文开源技术交流社区

3.RMSE (Root Mean Square Error）

均方根误差RMSE就是对MSE开方之后的结果

4.MAE(mean absolute error)

对外点更鲁棒：

5.MAPE (Mean absolute percentage error）

MAPE和MAE最大的区别就是进行了归一化。相当于在绝对误差的基础上又考虑了相对误差。

6. Symmetric mean absolute percentage error (SMAPE）

进一步在归一化的时候同时考虑了真实值和预测值。为什么同时考虑，是为了解决MAPE没有上限的问题：如果除以一个很小的值，结果会很大。

对于分母，为了避免真实值和预测值之和为负数，所以各自取了绝对值再求和。

有的公式分母会再除以2，这样SMAPE最大值就会达到200%.

我们可以看到虽然0-200的范围不太常见，但它是更接近MAPE的：

也可以看到两种sMAPE都不是对称的，0-200的甚至在左边大于MAPE，在右边小于MAPE。

没有达到”对称“的效果：

Over-forecasting: At = 100 and Ft = 110 give SMAPE = 4.76%
Under-forecasting: At = 100 and Ft = 90 give SMAPE = 5.26%.

反而是MSE和MAE有对称效果。

Reference：

实验结果评估准则 - 知乎

通俗易懂方差（Variance）和偏差（Bias）_偏差和方差-CSDN博客深度学习常用损失MSE、RMSE、MAE和MAPE-CSDN博客

https://medium.com/@davide.sarra/how-to-interpret-smape-just-like-mape-bf799ba03bdc

关注

25
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

zcg1942 CSDN认证博客专家 CSDN认证企业博客

码龄7年

103: 原创

6万+: 周排名

1万+: 总排名

27万+: 访问

: 等级

3673: 积分

412: 粉丝

574: 获赞

53: 评论

1185: 收藏

私信

关注

热门文章

分类专栏

树 1篇
PPT 1篇
读书笔记 32篇
知乎 4篇
图像处理 55篇
身边的科技 2篇
算法 46篇
编程 17篇
CNN 18篇

最新评论

SVM原理与实战
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录。
定点化和模型量化（三）
迟暮 .: 楼主是怎样把量化之后的模型转为dlc的，是pth-->onnx-->dlc吗，dsp在加载这个量化模型前还需要执行snpe量化吗
卷积的意义及其派生（一）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
颜色的表示和还原（一）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
深度学习中的信息论——交叉熵
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。