交叉熵_交叉熵算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_45562000/article/details/105059688

交叉熵是一种常用的损失函数，常用于分类问题。本文通过实例详细解释了交叉熵的概念，包括不同形式的交叉熵计算，如softmax和sparse交叉熵，并展示了如何计算loss值。实验表明，对于非one-hot编码的标签，交叉熵的结果与one-hot编码时有所不同，但不影响计算loss。

摘要由CSDN通过智能技术生成

文章目录

https://www.zhihu.com/question/65288314/answer/244557337
有多元高斯的KL散度，不过高维一般可以使用Wasserstein distance。

https://www.cnblogs.com/noahzhixiao/p/10170087.html

交叉熵

交叉熵（crossentropy）也是loss算法的一种，一般用在分类问题上，表达的意识为预测输入样本属于某一类的概率。其表达式如下，其中y代表真实值分类（0或1），a代表预测值。

交叉熵也是值越小，代表预测结果越准。
注意：这里用于计算的 $a$ 也是通过分布统一化处理的（或者是经过Sigmoid函数激活的），取值范围在 $0 ～ 1$ 之间。如果真实值和预测值都是1，前面一项 $y * l n (a)$ 就是 $1 * l n (1)$ 等于0，后一项 $(1 - y) l n (1 - a)$ 也就是 $0 * l n (0)$ 等于0，loss为0，反之loss函数为其他数。

损失函数的选取取决于输入标签数据的类型：如果输入的是实数、无界的值，损失函数使用平方差；如果输入标签是位矢量（分类标志），使用交叉熵会更适合。

实例：交叉熵实验

交叉熵这个比较生僻的术语，在深度学习领域中却是最常见的。由于其常用性，在TensorFlow中会被封装成多个版本，有的公式里直接带了交叉熵，有的需要自己单独求出。
案例描述
下面一段代码，假设有一个标签 labels 和一个网络输出值 logits。
这个案例就是以这两个值来进行以下 3 次实验：
（1）两次 softmax 实验：将输出值 logits 分别进行 1 次和 2 次 softmax，观察两次的区别及意义；
（2）观察交叉熵：将步骤（1）中的两个值分别进行softmax_cross_entropy_with_logits，观察区别；
（3）自建公式实验：将做两次 softmax 的值放到自建组合的公式里得到正确的值。
代码：