交叉熵与 Softmax 在多分类问题中的应用

迷路爸爸180

于 2024-08-18 14:35:16 发布

阅读量520

点赞数 14

文章标签：分类数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_51524504/article/details/141299398

版权

交叉熵与 Softmax 在多分类问题中的应用

文章目录

交叉熵与 Softmax 在多分类问题中的应用

在机器学习和深度学习中，Softmax 函数和交叉熵损失函数是解决多分类问题的关键组成部分。本文将详细介绍这两个概念，并通过一个实际案例来说明它们的应用。

Softmax 函数

Softmax 函数是一个常用的激活函数，用于将一组数值转换为概率分布。假设我们有一个向量 $z$ ，Softmax 函数定义如下：

$\text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$

这里：

$z_i$ 是输入向量中的第 $i$ 个元素，
$K$ 是向量的长度，
$e$ 是自然对数的底数。

Softmax 函数的主要作用是将每个原始值 $z_i$ 转换为一个介于 0 和 1 之间的值，并且所有这些转换后的值之和为 1，这使得它可以被解释为概率分布。

交叉熵损失函数

交叉熵是一个度量两个概率分布之间差异的方法。在机器学习中，我们通常有一个真实的概率分布 $y$ （通常是独热编码形式的一组标签）和模型预测的概率分布 $\hat{y}$ 。对于多分类问题，交叉熵损失函数定义如下：

$\text{CE}(\hat{y}, y) = -\sum_{i=1}^{K} y_i \log(\hat{y}_i)$

这里：

$y_i$ 是真实标签向量中的第 $i$ 个元素，
$\hat{y}_i$ 是预测标签向量中的第 $i$ 个元素，
$K$ 是类别数量。

实际案例

为了更好地理解这些概念，让我们来看一个实际的多分类问题案例：图像分类。

假设我们正在训练一个卷积神经网络 (CNN) 来识别动物图片中的三种动物：猫、狗和鸟。每张图片都将被分类为这三个类别之一。

数据准备

我们有以下训练数据集：

样本1：猫的图片，标签为 $[1, 0, 0]$ 。
样本2：狗的图片，标签为 $[0, 1, 0]$ 。
样本3：鸟的图片，标签为 $[0, 0, 1]$ 。

模型结构

我们的 CNN 模型结构如下：

输入层：接收图像像素值。
卷积层和池化层：提取特征。
全连接层：最后的全连接层输出一个长度为 3 的向量，表示每个类别的得分或“证据”（logits）。
Softmax 层：将 logits 转换为概率分布。

训练过程

前向传播：对于每个样本，模型产生一个 logits 向量 $z$ 。
Softmax 函数：将 logits 向量 $z$ 转换为概率分布 $\hat{y}$ 。
交叉熵损失：使用 $\hat{y}$ 和真实的标签 $y$ 来计算交叉熵损失。

示例计算

假设模型对于样本1（猫的图片）产生了以下 logits 向量 $z$ ：

$z = [1.0, 2.0, 0.5]$

使用 Softmax 函数得到预测概率分布 $\hat{y}$ ：

$\hat{y} = \left[\frac{e^{1.0}}{e^{1.0} + e^{2.0} + e^{0.5}}, \frac{e^{2.0}}{e^{1.0} + e^{2.0} + e^{0.5}}, \frac{e^{0.5}}{e^{1.0} + e^{2.0} + e^{0.5}}\right] \approx [0.245, 0.665, 0.090]$

对于这个样本，真实的标签 $y$ 是 $[1, 0, 0]$ 。因此，交叉熵损失函数计算如下：

$\text{CE}(\hat{y}, y) = -\left(1 \cdot \log(0.245) + 0 \cdot \log(0.665) + 0 \cdot \log(0.090)\right) \approx 1.38$

平均交叉熵损失

在深度学习中，我们通常使用平均交叉熵损失来计算整个批次的数据损失。对于一个包含 $N$ 个样本的批次，平均交叉熵损失定义为：

$\text{Average CE} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{K} y_j^{(i)} \log(\hat{y}_j^{(i)})$

这里 $N$ 是批次中样本的数量， $K$ 是类别数量。

不使用平均交叉熵的影响

如果我们不使用平均交叉熵，而是直接使用交叉熵损失，那么会有以下几个影响：

不可比较性：每个批次的损失值将取决于批次中样本的数量，使得不同批次之间的损失值不可直接比较。
不稳定的学习：如果不进行平均，那么每个批次的损失值可能会因为样本数量的变化而波动较大，这可能导致训练过程不稳定。
难以设置超参数：优化器的学习率等超参数通常需要根据损失函数的规模来调整。如果不使用平均交叉熵，损失函数的规模会随着批次大小的变化而变化，这使得设置合适的超参数变得更加困难。

推荐的做法是在深度学习训练过程中使用平均交叉熵损失，这样可以确保训练过程更加稳定，并且使得不同批次之间的损失值更具可比性。大多数深度学习框架（如 TensorFlow 和 PyTorch）都默认使用平均交叉熵损失。

实例分析

假设我们有一个批次包含 3 个样本的图像分类任务，每个样本都有 3 个可能的类别（猫、狗、鸟）。每个样本的真实标签和预测概率分布如下：

样本1：猫的图片，真实标签 $[1, 0, 0]$ ，预测概率 $[0.2, 0.5, 0.3]$ 。
样本2：狗的图片，真实标签 $[0, 1, 0]$ ，预测概率 $[0.1, 0.8, 0.1]$ 。
样本3：鸟的图片，真实标签 $[0, 0, 1]$ ，预测概率 $[0.1, 0.1, 0.8]$ 。

对于每个样本，我们可以计算交叉熵损失：

对于样本1，交叉熵损失为 $-\log(0.2) \approx 1.609$
对于样本2，交叉熵损失为 $-\log(0.8) \approx 0.097$
对于样本3，交叉熵损失为 $-\log(0.8) \approx 0.097$

接着，我们计算平均交叉熵损失：

$\text{Average CE} = \frac{1}{3} (1.609 + 0.097 + 0.097) \approx 0.601$

关注真实类别的预测概率

在计算交叉熵损失时，我们只关注模型对于每个样本真实类别的预测概率。例如，当真实标签为“猫”时，我们只关注模型对于“猫”的预测概率 $\hat{y}_1$ ，而其他类别的预测概率对损失函数没有贡献。

小结

通过结合 Softmax 函数和交叉熵损失函数，我们可以构建出强大的多分类模型，用于解决各种分类任务。平均交叉熵损失函数可以帮助我们更稳定地评估模型的表现，并指导模型学习正确的分类决策。

迷路爸爸180

关注

14
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
交叉熵与 Softmax 在多分类问题中的应用

交叉熵与 Softmax 在多分类问题中的应用文章目录交叉熵与 Softmax 在多分类问题中的应用Softmax 函数交叉熵损失函数实际案例数据准备模型结构训练过程示例计算平均交叉熵损失不使用平均交叉熵的影响实例分析关注真实类别的预测概率小结在机器学习和深度学习中，Softmax 函数和交叉熵损失函数是解决多分类问题的关键组成部分。本文将详细介绍这两个概念，并通过一个实际案例来说明它们的应用。Softmax 函数Softmax 函数是一个常用的激活函数，用于将一组数值转换为概率分布。假设我们
复制链接

扫一扫