学习交叉熵


前言

交叉熵的含义以及公式的推导
学习内容来源于:B站UP主:王木头学科学


损失函数

梯度下降是训练神经网络的基本方法,求解的梯度就是损失函数的梯度。
理解的损失函数是:神经网络中判断的标准和现实世界中判断标准相差多少的定量表达式(两个概率统计模型)

1.最小二乘法

在这里插入图片描述
想要比较两个概率统计模型最直接的方法就是比较xi和yi两个值的差距大小
m i n ∑ i = 1 n ∣ x i − y i ∣ , min\sum_{i = 1}^{n}\left|xi-yi\right|, mini=1nxiyi,
但因为绝对值在定义域上不是全程可导的,转换成平方的形式,虽然值会有所不同但是不会影响两者之间的关系
m i n ∑ i = 1 n ( x i − y i ) 2 , min\sum_{i = 1}^{n}(xi-yi)^{2}, mini=1n(xiyi)2,

2.极大似然估计法

理念世界指导现实世界,现实世界反推理想世界
在这里插入图片描述假设概率模型是

0.10.9

在这个概率模型下发生出现7个正3个反的概率为
P ( C 1 , C 2 , C 3 , . . . . . . , C 10 ∣ θ ) = ∏ i = 1 10 P ( C i ∣ θ ) = 0. 1 7 ∗ 0. 9 3 , P(C1,C2,C3,......,C10|\theta)=\prod \limits_{i=1}^{10}P(Ci|\theta)=0.1^{7}*0.9^{3}, P(C1,C2,C3,......,C10θ)=i=110P(Ciθ)=0.170.93,在这里插入图片描述
似然值:真实的情况已经发生,假设有很多种模型,在某种模型下,出某种情况的可能性
最大似然值:出现的最大的概率值,那可能性也是最高的,此时两个概率模型也是最接近的,但我们无法下定论两者是等价的
神经网络可以任意的逼近一种概率模型
在这里插入图片描述
请添加图片描述

3.交叉熵

f ( x ) = 信 息 量 , f(x) = 信息量, f(x)=,
熵越大 代表整个系统的不确定性越高 混乱程度越大
关于视频中讲解的自洽的含义没有理解透彻,直接给出信息量的公式
在这里插入图片描述在这里插入图片描述
使用的底数不一定非得是2 底数的数值不会影响到这个公式
举例:在这里插入图片描述
根据上面这个对系统贡献量的分析,发现等价于对这个系统求解期望
在这里插入图片描述
一个系统的信息熵就是把里面所有可能发生的事件的信息量求解出来然后与这个事件发生的概率相乘,最后把所有事件进行加和
KL散度
在这里插入图片描述
请添加图片描述
虽然两者公式的形式相同,但是具体的含义完全不同。
交叉熵就是用来计算与现实世界最接近的概率模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值