版权声明:本文为博主原创文章,转载请附上博文链接! https://blog.csdn.net/huwenxing0801/article/details/82791879 </div>
<div id="content_views" class="markdown_views prism-tomorrow-night-eighties">
<!-- flowchart 箭头图标 勿删 -->
<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
<h2><a name="t0"></a><a id="_1" target="_blank"></a>前言</h2>
在处理分类问题的神经网络模型中,很多都使用交叉熵 (cross entropy) 做损失函数。
这篇文章详细地介绍了交叉熵的由来、为什么使用交叉熵,以及它解决了什么问题,最后介绍了交叉熵损失函数的应用场景。
要讲交叉熵就要从最基本的信息熵说起。
1.信息熵
信息熵是消除不确定性所需信息量的度量。(多看几遍这句话)
信息熵就是信息的不确定程度,信息熵越小,信息越确定。
信 息 熵 = ∑ n x = 1 ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信 息 熵 = ∑ x = 1 n ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信 息 熵 = ∑ x = 1 n ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信息熵=∑nx=1(信息x发生的概率×验证信息x需要的信息量)信息熵=∑x=1n(信息x发生的概率×验证信息x需要的信息量) 信息熵 = \sum_{x=1}^{n}(信息x发生的概率 × 验证信息x需要的信息量) 信息熵=∑nx=1(信息x发生的概率×验证信息x需要的信息量)信息熵=∑x=1n(信息x发生的概率×验证信息x需要的信息量)信息熵=x=1∑n(信息x发生的概率×验证信息x需要的信息量)参数=参数−学习率×损失函数