为什么用交叉熵做损失函数

				版权声明:本文为博主原创文章,转载请附上博文链接!					https://blog.csdn.net/huwenxing0801/article/details/82791879				</div>
							            <div id="content_views" class="markdown_views prism-tomorrow-night-eighties">
						<!-- flowchart 箭头图标 勿删 -->
						<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
						<h2><a name="t0"></a><a id="_1" target="_blank"></a>前言</h2>

在处理分类问题的神经网络模型中,很多都使用交叉熵 (cross entropy) 做损失函数。
这篇文章详细地介绍了交叉熵的由来、为什么使用交叉熵,以及它解决了什么问题,最后介绍了交叉熵损失函数的应用场景。


要讲交叉熵就要从最基本的信息熵说起。

1.信息熵

信息熵是消除不确定性所需信息量的度量。(多看几遍这句话)

信息熵就是信息的不确定程度,信息熵越小,信息越确定。

信 息 熵 = ∑ n x = 1 ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信 息 熵 = ∑ x = 1 n ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信 息 熵 = ∑ x = 1 n ( 信 息 x 发 生 的 概 率 × 验 证 信 息 x 需 要 的 信 息 量 ) 信息熵=∑nx=1(信息x发生的概率×验证信息x需要的信息量)信息熵=∑x=1n(信息x发生的概率×验证信息x需要的信息量) 信息熵 = \sum_{x=1}^{n}(信息x发生的概率 × 验证信息x需要的信息量) =nx=1(x×x)=x=1n(x×x)=x=1n(x×x)=×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值