学习交叉熵

最新推荐文章于 2024-09-25 09:27:18 发布

小小小方

最新推荐文章于 2024-09-25 09:27:18 发布

阅读量563

点赞数

分类专栏：机器学习文章标签：学习机器学习神经网络

本文链接：https://blog.csdn.net/weixin_56368033/article/details/124536563

版权

机器学习专栏收录该内容

13 篇文章 9 订阅

订阅专栏

文章目录

前言
损失函数

前言

交叉熵的含义以及公式的推导
学习内容来源于：B站UP主：王木头学科学

损失函数

梯度下降是训练神经网络的基本方法，求解的梯度就是损失函数的梯度。
理解的损失函数是：神经网络中判断的标准和现实世界中判断标准相差多少的定量表达式（两个概率统计模型）

1.最小二乘法

在这里插入图片描述
想要比较两个概率统计模型最直接的方法就是比较xi和yi两个值的差距大小
$min\sum_{i = 1}^{n}\left|xi-yi\right|,$
但因为绝对值在定义域上不是全程可导的，转换成平方的形式，虽然值会有所不同但是不会影响两者之间的关系
$min\sum_{i = 1}^{n}(xi-yi)^{2},$

2.极大似然估计法

理念世界指导现实世界，现实世界反推理想世界
在这里插入图片描述假设概率模型是

正	反
0.1	0.9

在这个概率模型下发生出现7个正3个反的概率为
$P(C1,C2,C3,......,C10|\theta)=\prod \limits_{i=1}^{10}P(Ci|\theta)=0.1^{7}*0.9^{3},$ 在这里插入图片描述
似然值：真实的情况已经发生，假设有很多种模型，在某种模型下，出某种情况的可能性
最大似然值：出现的最大的概率值，那可能性也是最高的,此时两个概率模型也是最接近的，但我们无法下定论两者是等价的
神经网络可以任意的逼近一种概率模型
在这里插入图片描述
请添加图片描述

3.交叉熵

$f (x) = 信息量,$
熵越大代表整个系统的不确定性越高混乱程度越大
关于视频中讲解的自洽的含义没有理解透彻，直接给出信息量的公式
在这里插入图片描述
使用的底数不一定非得是2 底数的数值不会影响到这个公式
举例：
根据上面这个对系统贡献量的分析，发现等价于对这个系统求解期望

一个系统的信息熵就是把里面所有可能发生的事件的信息量求解出来然后与这个事件发生的概率相乘，最后把所有事件进行加和
KL散度
在这里插入图片描述
请添加图片描述
虽然两者公式的形式相同，但是具体的含义完全不同。
交叉熵就是用来计算与现实世界最接近的概率模型