深度学习中的温度参数（Temperature Parameter）是什么？

最新推荐文章于 2025-03-21 18:14:43 发布

鱼儿也有烦恼

最新推荐文章于 2025-03-21 18:14:43 发布

阅读量5.5k

点赞数 41

分类专栏：深度学习文章标签：深度学习人工智能 Temperature

本文链接：https://blog.csdn.net/weixin_48958956/article/details/136784666

版权

深度学习专栏收录该内容

20 篇文章

订阅专栏

文章目录

Temperature Parameter

Temperature Parameter

1.背景知识

标准的深度学习模型具有一堆卷积、池化、全连接层，然后是最终的全连接层。最后的全连接层输出一个与类数大小相同的向量。因此如果有 3 个类，最终的全连接层将输出一个 3 维向量。

一般来说，该向量可以包含任意实数，例如 $[- 1, 3, 2]$ 。由此，需要计算损失。最常用的方法是使用softmax_with_cross_entropy层（本质是一个Softmax层，后面跟着一个交叉熵损失准则）。

Softmax 层对给定向量的每个元素应用以下操作：
$b_i=\frac{\exp(a_i)}{\sum_i\exp(a_i)}$
$a_i$ 代表输入向量， $b_i$ 代表输出向量。故通过 Softmax 层后的每个元素为：
$\begin{aligned}b_1&=\frac{\exp(a_1)}{\exp(a_1)+\exp(a_2)+\exp(a_3)}=0.01\\\\b_2&=\frac{\exp(a_2)}{\exp(a_1)+\exp(a_2)+\exp(a_3)}=0.72\\\\b_3&=\frac{\exp(a_3)}{\exp(a_1)+\exp(a_2)+\exp(a_3)}=0.27\end{aligned}$
上面实际做的是对每个值 $a_i$ 求幂，然后将每个结果除以所有结果的总和。因为求幂给出的是一个非负数，然后将结果除以总和，得到的数字都是正数，而且总和为1。这就是各个类别的概率分布。
$b_1,b_2,b_3>0\text{ and }b_1+b_2+b_3=1.$
现在，交叉熵损失主要看真实类别的负概率。也就是说，如果真实类别为 3 ，那么损失将为 $-\log0.27$ 。当我们最小化损失时，就是将真实类别的概率推向 1。

2.引入Temperature Parameter

在知道了上述背景后，就可以很容易的看出温度系数是如何引入的。
$b_i=\frac{\exp(ka_i)}{\sum_i\exp(ka_i)}$
在指数函数中加入一个因子， $b_1,b_2,b_3>0\text{ and }b_1+b_2+b_3=1$ 依旧是正确的，成立的。这是因为乘幂的结果任然是正数，而且分母确保它们的总和任然为 1，所以这任然是一个有效的概率分布。如果我们将 $k = 2$ ，那么 $b = [0.003, 0.880, 0.119]$ ，如果将 $k = 0.5$ ，那么 $b = [0.08, 0.57, 0.35]$ ，这两个都是有效的分布。