网络中的损失函数其实就这样_编译网络损失函数数学公式-CSDN博客

本文链接：https://blog.csdn.net/weixin_46668520/article/details/134457229

在机器学习和深度学习中，损失函数是用来衡量模型预测结果与真实值之间差异的函数。它在训练过程中起着关键的作用，通过最小化损失函数来优化模型的参数。以下是一些常见的损失函数，pytorch已经内置了相关损失函数，可以直接调用即可。

from torch immport nn
#定义均方误差
criterion = nn.MSELoss()
#定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()
#定义对数损失函数
criterion = nn.BCEWithLogitsLoss()
#定义Hinge损失函数
criterion = nn.HingeEmbeddingLoss()
#定义KL散度损失函数
criterion =  nn.KLDivLoss()
#定义负对数似然函数
criterion = nn.NLLLoss()

均方误差

均方误差（Mean Squared Error，MSE）：MSE是回归问题中最常见的损失函数之一。它计算预测值与真实值之间的平方差，并求取平均值。MSE对异常值敏感，因为它对误差的平方进行了求和，因此较大的误差会对损失函数产生更大的影响。
具体而言，对于一个样本的预测值 $\hat{y}$ 和真实值 $y$ ，均方误差损失函数的计算公式如下：
$\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$
其中， $n$ 表示样本数量， $\hat{y}_i$ 表示第 $i$ 个样本的预测值， $y_i$ 表示第 $i$ 个样本的真实值。
均方误差损失函数的特点之一是对误差的平方进行了求和，因此较大的误差会对损失函数产生更大的影响。这也意味着均方误差对异常值敏感，因为异常值的误差通常较大。
在模型训练过程中，优化算法通常使用梯度下降等方法来最小化均方误差损失函数。通过反向传播算法，模型的参数将根据损失函数的梯度进行更新，以使预测结果逐渐接近真实值。
总之，均方误差损失函数是衡量模型在回归问题中的预测性能的一种常见指标。通过最小化均方误差，模型可以在训练过程中尽量减小预测值与真实值之间的差异

交叉熵损失

交叉熵损失（Cross-Entropy Loss）：交叉熵损失常用于分类问题中。它基于真实标签和预测概率之间的交叉熵来衡量模型的误差。交叉熵损失在多类别分类和二分类问题中都有应用。对于二分类问题，通常使用二元交叉熵损失；而对于多类别分类问题，使用多元交叉熵损失。
交叉熵损失函数（Cross-Entropy Loss）是机器学习和深度学习中常见的损失函数之一，特别适用于分类问题。它衡量了模型预测结果与真实标签之间的差异性。
交叉熵损失函数的计算方式基于真实标签的概率分布和模型预测结果之间的交叉熵。对于一个样本的预测结果向量 $\mathbf{y}$ 和真实标签的概率分布向量 $\mathbf{t}$ ，交叉熵损失函数的计算公式如下：
$-\sum_{i} t_i \log(y_i)$
其中， $i$ 表示类别的索引， $t_i$ 表示真实标签的概率分布中第 $i$ 个类别的概率， $y_i$ 表示模型的预测结果中第 $i$ 个类别的概率。
交叉熵损失函数的特点之一是能够量化模型预测结果与真实标签之间的差异。当模型的预测概率分布与真实标签的概率分布接近时，交叉熵损失函数的值较小；而当它们之间的差异较大时，交叉熵损失函数的值较大。
交叉熵损失函数在多类别分类问题中广泛使用，通常与softmax函数一起配合使用。softmax函数将模型的原始输出转换为概率分布，使得预测结果符合概率的定义。然后，交叉熵损失函数可以衡量模型预测的概率分布与真实标签之间的差异。
在模型训练过程中，常采用梯度下降等优化算法来最小化交叉熵损失函数。通过反向传播算法，模型的参数将根据损失函数的梯度进行更新，以逐步优化模型的预测性能。
总之，交叉熵损失函数是一种常见的用于分类问题的损失函数。通过最小化交叉熵损失，模型可以尽可能减小预测结果与真实标签之间的差异，从而提高分类模型的性能。

对数损失

对数损失（Log Loss）：对数损失是二分类问题中常见的损失函数，特别适用于概率性输出。它通过比较真实标签的概率和预测概率的对数来衡量模型的性能。对数损失对于分类不确定性的惩罚较大，因此鼓励模型给出较为确定且准确的预测。
对数损失函数（Logarithmic Loss），也称为逻辑损失函数（Logistic Loss）或对数似然损失函数（Log Loss），是用于二分类或多分类问题的常见损失函数之一。它在逻辑回归和概率模型中经常使用。
对数损失函数基于模型的预测概率和真实标签之间的对数差异来衡量模型的性能。对于一个样本的预测概率分布向量 $\mathbf{y}$ 和真实标签的标量 $t$ ，对数损失函数的计算公式如下：
$-\sum_{i} t_i \log(y_i)$
对于二分类问题，真实标签 $t$ 可以取值为0或1，预测概率 $y$ 则表示模型预测为正类的概率。对于多分类问题，真实标签 $t$ 是一个独热编码（one-hot encoding）向量，预测概率 $y$ 表示模型对每个类别的预测概率。
对数损失函数的特点之一是能够量化模型预测结果与真实标签之间的差异，并且对错误分类的惩罚较大。当模型的预测概率与真实标签接近时，对数损失函数的值较小；而当它们之间的差异较大时，对数损失函数的值较大。
对数损失函数在逻辑回归中常用于模型的训练和评估。它可以通过最大似然估计来推导出逻辑回归模型的参数。此外，对数损失函数在其他概率模型、协同过滤和推荐系统等领域也有广泛的应用。
在模型训练过程中，通常使用梯度下降等优化算法来最小化对数损失函数。通过反向传播算法，模型的参数将根据损失函数的梯度进行更新，以逐步提高模型的预测性能。
总之，对数损失函数是一种常见的用于二分类和多分类问题的损失函数。通过最小化对数损失，模型可以尽可能减小预测结果与真实标签之间的差异，从而提高分类模型的性能。

Hinge损失

Hinge损失：Hinge损失通常用于支持向量机（SVM）中的分类问题。它基于真实标签和模型预测结果之间的差异来度量模型的性能。Hinge损失对于分类错误的样本有较大的惩罚，同时也具有一定的鲁棒性，能够处理离群点。
Hinge损失函数是一种常用于支持向量机（Support Vector Machine，SVM）和最大间隔分类器的损失函数。它在二分类和多分类问题中都有应用。
Hinge损失函数基于模型的预测结果与真实标签之间的差异来衡量模型的性能。对于一个样本的预测结果向量 $\mathbf{y}$ 和真实标签的标量 $t$ ，Hinge损失函数的计算公式如下：
$\max(0, 1 - t \cdot y)$
其中， $t$ 表示真实标签， $y$ 表示模型的预测结果。Hinge损失函数通过计算 $\cdot y$ 来评估预测结果与真实标签之间的差异。如果预测结果与真实标签之间的乘积小于1，则损失函数大于0，表示存在误分类。如果乘积大于等于1，则损失函数等于0，表示正确分类。
Hinge损失函数的特点之一是它是一个逐渐递增的函数。当样本被正确分类时，损失函数的值为0，不会对模型的参数进行更新。而当样本被错误分类时，损失函数的值大于0，并且随着预测结果与真实标签之间的差异增大而递增。
Hinge损失函数在支持向量机中被广泛使用，特别适用于线性可分的二分类问题。通过最小化Hinge损失函数，支持向量机可以找到一个最大间隔的超平面，将样本正确分割为不同的类别。
在多分类问题中，Hinge损失函数可以与一对多（One-vs-Rest）策略结合使用。对于每个类别，将其作为正类，其余类别作为负类，计算对应的Hinge损失函数，然后将所有类别的损失函数求和作为最终的损失函数。
总之，Hinge损失函数是一种常见的用于支持向量机和最大间隔分类器的损失函数。通过最小化Hinge损失，模型可以寻找一个最大间隔的超平面或决策边界，从而实现有效的分类。

KL散度

KL散度（Kullback-Leibler Divergence）：KL散度是一种衡量两个概率分布之间差异性的指标。在训练神经网络中，KL散度常用于生成模型中的损失函数，如变分自编码器（Variational Autoencoder，VAE）。通过最小化KL散度，模型可以更好地学习生成与真实分布相近的样本。
KL散度（Kullback-Leibler Divergence），也称为相对熵（Relative Entropy），是一种用于衡量两个概率分布之间差异的指标。KL散度常用于信息论、统计学和机器学习中。
对于两个离散概率分布 $P$ 和 $Q$ ，KL散度的计算公式为：
$\parallel Q) = \sum_{i} P(i) \log \left(\frac{P(i)}{Q(i)}\right)$
其中， $P (i)$ 和 $Q (i)$ 分别表示两个概率分布在事件 $i$ 上的概率。KL散度衡量了在给定真实分布 $P$ 的情况下，使用概率分布 $Q$ 来近似真实分布的代价。KL散度不是对称的，即 $\parallel Q)$ 不等于 $\parallel P)$ 。
KL散度的性质如下：
非负性：KL散度始终大于等于零，即 $\parallel Q) \geq 0$ ，当且仅当 $P$ 和 $Q$ 是相同的分布时，KL散度等于零。
不对称性：KL散度不满足对称性，即 $\parallel Q) \neq KL(Q \parallel P)$ 。
非度量性：KL散度不满足三角不等式，即对于三个概率分布 $P$ 、 $Q$ 和 $R$ ， $\parallel Q) + KL(Q \parallel R)$ 不一定大于等于 $\parallel R)$ 。
KL散度在机器学习中具有多种应用，包括但不限于以下几个方面：
生成模型评估：KL散度可用于衡量生成模型生成的样本分布与真实数据分布之间的差异。通过最小化KL散度，可以使模型的生成样本更接近真实数据的分布。
变分推断：KL散度在变分推断中被用作衡量近似后验分布与真实后验分布之间的差异。通过最小化KL散度，可以使近似后验分布更接近真实后验分布。
强化学习：KL散度可用于衡量两个策略之间的差异。在策略迭代算法中，可以最小化KL散度来更新策略，使其逐渐接近最优策略。
总之，KL散度是一种用于衡量两个概率分布之间差异的指标。它在信息论、统计学和机器学习中有广泛的应用，可用于生成模型评估、变分推断和强化学习等领域。

负对数似然损失

负对数似然损失（Negative Log-Likelihood Loss）：负对数似然损失常用于概率模型中的最大似然估计。它基于真实标签的概率分布和模型预测结果的负对数概率来衡量模型的性能。
这只是一些常见的损失函数，实际应用中还有很多其他类型的损失函数，根据任务和模型的特点选择合适的损失函数非常重要。

负对数似然损失函数（Negative Log-Likelihood Loss），也称为交叉熵损失函数（Cross-Entropy Loss），是一种常用于分类问题的损失函数。它基于模型的预测概率与真实标签之间的对数差异来衡量模型的性能。
对于一个样本的预测概率分布向量 $\mathbf{y}$ 和真实标签的独热编码（one-hot encoding）向量 $\mathbf{t}$ ，负对数似然损失函数的计算公式如下：
$-\sum_{i} t_i \log(y_i)$
其中， $t_i$ 表示真实标签的第 $i$ 个元素， $y_i$ 表示模型对第 $i$ 个类别的预测概率。
负对数似然损失函数的特点之一是能够量化模型预测结果与真实标签之间的差异，并且对错误分类的惩罚较大。当模型的预测概率与真实标签接近时，负对数似然损失函数的值较小；而当它们之间的差异较大时，负对数似然损失函数的值较大。
负对数似然损失函数在训练分类模型时广泛使用，特别是在多分类问题中。通过最小化负对数似然损失，模型可以尽可能减小预测结果与真实标签之间的差异，从而提高分类模型的性能。
在深度学习中，负对数似然损失函数常与softmax函数结合使用。softmax函数将模型的原始输出转换为概率分布，使得预测概率满足概率的性质（非负性和和为1）。然后，将softmax函数的输出作为负对数似然损失函数的输入，进行模型的训练和优化。
总之，负对数似然损失函数是一种常见的用于分类问题的损失函数。通过最小化负对数似然损失，模型可以尽可能减小预测结果与真实标签之间的差异，从而提高分类模型的性能。