深度学习六 —— 手撕MSE Loss& CE Loss

L☆★

已于 2022-10-02 16:11:07 修改

阅读量5.3k

点赞数 3

分类专栏： # 深度学习基础文章标签：深度学习机器学习 python

于 2022-06-14 20:44:48 首次发布

本文链接：https://blog.csdn.net/weixin_43662553/article/details/125285892

版权

深度学习基础专栏收录该内容

9 篇文章

订阅专栏

本文详细介绍了交叉熵损失（CELoss）和均方误差（MSELoss）在分类和回归任务中的应用。针对二分类和多分类问题，解释了交叉熵的数学公式和直觉理解，同时对比了与MSE的差异。CELoss适用于分类，尤其关注正确分类的概率，而MSE在回归问题中更常见，关注所有预测值的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

交叉熵损失（CE Loss）

含义

用来描述两个分布之间的距离

公式

$E=-\sum_{i}y_ilog(p_i)$

其中，

$y$ ——真值，one-hot向量标签

$p_i$ ——softmax的结果， $\sum_{i}p_i=1$

二分类交叉熵

公式

$E=\frac{1}{N}\sum_{i}L_i= -\frac{1}{N}\sum_{i}-[y_i \cdot \log(p_i)+(1-y_i)\cdot \log(1-p_i)]$

其中，

$y_i$ ——表示样本 $i$ 的真值，正样本为1，负样本为0，

$p_i$ ——表示样本 $i$ 预测为正类的概率。

手撕BCE Loss

def softmax(x):
    exps = np.exp(x - np.max(x))
    return exps / np.sum(exps)
 
 
def cross_entropy_error(p, y):
    """
 
    :param p: 预测结果
    :param y: 真值的 one-hot 编码
    :return:
    """
    delta = 1e-7  # 添加一个微小值，防止负无穷(np.log(0))的情况出现
    p = softmax(p)
    return -np.sum(y * np.log(p + delta))

多分类交叉熵

公式

多分类情况就是对二分类情况的扩展，公式如下：

$E=\frac{1}{N}\sum_{i}L_i= -\frac{1}{N}\sum_{i}\sum_{c=1}^{M}y_{ic}log(p_{ic})$

其中，

$l o g$ ——以 $e$ 为底的自然对数（ $log_e$ ），

$M$ ——类别数量，

$y_{ic}$ ——符号函数（0或1），如果样本 $i$ 的真值等于c取1，否则取0

$p_{ic}$ ——观测样本i属于类别c的预测概率

手撕CE Loss

def sigmoid(x):
    return 1 / (1 + np.exp(x))
 
 
def cross_entropy_error(p, y):
    """
 
    :param p: 预测结果
    :param y: 真值的 one-hot 编码
    :return:
    """
    delta = 1e-7  # 添加一个微小值，防止负无穷(np.log(0))的情况出现
    p = sigmoid(p)
    return -np.sum(y * np.log(p + delta) + (1 - y) * np.log(1 - p + delta))

MSE Loss（均方误差损失、L2 Loss）

公式

$E=\frac{1}{2}\sum_{i=1}^{n}(y_i-t_i)^2$

其中，

$y_i$ ——网络输出

$t_i$ ——真值

$n$ ——数据维度。

手撕MSE Loss

def mean_squared_error(y, t):
    """
 
    :param y: numpy array
    :param t: numpy array
    :return:
    """
    return 0.5 * np.sum(y, t)

MSE & CE部分理解分析

回归问题为什么不使用交叉熵？

1. 直观理解

回归问题通常对每一个输出结果都十分关注，比如MSE Loss，但是交叉熵损失只对正常分类的结果看重。

例如：对于一个多分类模型，其模型输出为 $(a, b, c)$ ，而实际的真值结果为 $(1, 0, 0)$ 。则根据两种损失函数的定义，他们的损失函数可以分别描述为：

$L_{MSE}=(a-1)^2+(b-0)^2+(c-1)^2=(a-1)^2+b^2+c^2$

$L_{CE}=-1\times loga - 0 \times logb - 0 \times logc = -loga$

由上述结果可以看出，交叉熵损失函数只与正确的预测结果有关，而平方误差损失则还与错误的分类有关，该损失除了让正确的结果尽可能变大，还会让错误的结果尽可能变得平均。但是实际在CE Loss中，后面两个调整都失效了，但是对于回归问题，这个调整就很重要，因此回归问题中交叉熵并不适用。

2. 理论分析

平方函数损失函数假设服从高斯分布，而高斯分布实际上是一个连续的变量，并不是一个离散的变量。如果假设结果变量服从均值为 $\mu$ ，方差为 $\sigma$ ，那么利用最大似然估计的方法，就可以优化它的负对数似然，公式最终变为了：

$L_{CE}=max\sum_i^{N}[-\frac{1}{2}(2\pi\sigma^2)-\frac{(t_i-y)}{2\sigma^2} ]$

除去与 $y$ 无关的项目，最后剩下的就是平方损失函数的形式。

MSE和CE的优缺点（相同点和不同点）

相同点：当输出值与真值接近的话， CE和MSE的值都会接近0
CE具有MSE不具有的优点：避免学习率降低的情况。
- 均方误差对参数的偏导的结果都 乘了sigmoid的导数 $\sigma'(z)x$ ，而sigmoid的导数在其变量值很大或很小的情况下，趋近于0，所以导致偏导数很有可能接近0.
- 由参数更新公式： $参数=参数-学习率\times损失函数对参数的偏导$
- 可知，偏导很小时，参数的更新速度就会变得很慢，当偏导接近0时，参数几乎就不更新了。
- 反观交叉熵对参数的偏导就没有sigmoid导数，所以不存在这个问题。 这就是分类问题选择交叉熵而不选择均方差的原因