深度学习-常用损失函数详细介绍

最新推荐文章于 2025-03-27 16:45:39 发布

AI研习图书馆

最新推荐文章于 2025-03-27 16:45:39 发布

阅读量8.8k

点赞数 12

分类专栏：深度学习文章标签：损失函数 softmax 深度学习

本文链接：https://blog.csdn.net/weixin_44222014/article/details/103271192

版权

深度学习专栏收录该内容

18 篇文章

订阅专栏

个人微信公众号：AI研习图书馆，欢迎关注~

深度学习知识及资源分享，学习交流，共同进步~

1. 引言

损失函数是机器学习与深度学习里面的重要概念。从名字上就可以看出，损失函数(Loss Function)反应的是模型对数据的拟合程度。一般来说，损失函数越小，说明模型对数据的拟合也越好。同时我们还希望当损失函数比较大的时候，对应的梯度也会比较大，这样梯度下降的时候更新也会快一些。

损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负值函数，通常用L(Y,f(x))来表示，损失函数越小，模型的鲁棒性越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：
在这里插入图片描述
其中，前面的均值函数表示的是经验风险损失函数，L表示的是损失函数，后面的是正则化项。

本文主要收集和整理了深度学习常用的损失函数，给出函数表达形式，以及使用介绍和应用场景。

2. 常用损失函数

2.1 MSE损失函数

线性回归中，最常用的就是最小平方误差(MSE)了。MSE也相当简单:
在这里插入图片描述

MSE的意义相当明确：如果预测值与真实值的欧式距离越大，损失函数越大。欧式距离越小，损失函数越小。同时，求导也是相当容易：

其中，θ是模型中待训练的参数。

一般来说，MSE是个很中庸的选择。用了MSE，一般不会有什么大毛病，但同时也不要指望他有特别优秀的表现。

注： Sigmoid一般不与MSE配合使用。在深度学习里，Sigmoid函数是常见的激活函数。特别注意的是，当使用Sigmoid做激活函数的时候，损失函数不能选择MSE。

因为Sigmoid的导数为f(x)(1−f(x))。假设当预测值为f(x)=1而真实值为0的时候，此时虽然(yi−y˜)很大，但是f(x)(1−f(x))太小接近0，收敛速度同样很慢。

2.2 CrossEntropy

交叉熵是从KL散度中引出，用于衡量两个分布之间差异的大小，其值总是大于等于0，两个分布越相似其值越接近于0。训练时的标签可以当成一种分布，实际输出堪称另一种分布，常与softmax层结合用于分类模型。
在这里插入图片描述
上面说到KL散度（KL divergence）用于衡量两个分布之间的大小的差异，这和MSE的度量方法是不一样的。下面讲到的log损失函数也是 divergence 的一种。