关于误差和梯度下降 反向传播

本文探讨了神经网络学习中的误差计算和优化方法,重点讲解了交叉熵作为损失函数在深度学习中的应用。从信息论的角度出发,解释了信息量、熵和相对熵(KL散度),并详细阐述了交叉熵如何衡量预测与真实标签的差异,以及在单分类和多分类问题中的计算方式。
摘要由CSDN通过智能技术生成

用一种以上的方法认识一个事物,才是真正理解它。–马文 明斯杰

首先复习之前学过的

python中的向量就是排成一排的数字集合,可以理解为一维数组
矩阵就是二维形状的数字集合
tensor张量就是把矩阵和向量扩展到N维的数据集合,标量,向量,矩阵其实都是张量。可以理解为知道了一种推到高维的方式,向下是一维,之后向右扩展成了二维,之后向上扩展变成三维度。

这里插入一个题外话,如果是更高维度的张量该如何想象。
如果考虑一个向量有三个基向量和三个component vector Ax,Ay,Az 这就是一阶张量
而当我们有九个component vectorsAxx,Axy…和9个两两基向量组合而成的集合 这就是二阶张量
如果有27个component vectorsAxxx,Axyx,Axzx…这就是三阶张量
剩下就可以以此类推了。
其实有一些偏了,把几阶张量看成几维数组就可以了,在处理的时候

损失函数

为了知道学习得如何 引入了损失函数
正确标签和神经网络得预测结果之间的误差通过标量计算出来,得到的就是损失。
计算神经网络的损失要使用损失函数,进行多类别分类的神经网络通常使用交叉熵误差作为损失函数。

交叉熵
交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 ——百度百科
交叉熵在深度学习中的使用
交叉熵在深度学习中作为目标识别分类常用的概念之一,主要用作loss函数,来对目标和预测之间的差异进行度量。
简单来说ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值