卷积的平移不变性公式,卷积减少参数的方法

最新推荐文章于 2024-04-26 23:16:24 发布

小浣熊的技术

最新推荐文章于 2024-04-26 23:16:24 发布

阅读量624

点赞数

文章标签：深度学习机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ynca67269/article/details/126449238

版权

本文详细探讨了深度学习中卷积神经网络（CNN）的损失函数正则化方法，强调了在使用sigmoid激活函数时交叉熵损失函数的优势。同时，解释了训练好的CNN模型损失函数的理想状态，并对比了前馈神经网络、BP神经网络和CNN之间的区别。此外，介绍了如何用Python构建CNN模型，以及如何应对梯度消失问题，推荐使用ReLU激活函数。

摘要由CSDN通过智能技术生成

卷积神经损失函数怎么加入正则化

用一个卷积核滑动图片来提取某种特征（比如某个方向的边），然后激活函数用ReLU来压制梯度弥散。

对得到的结果用另一个卷积核继续提取+reLU，然后池化（保留区域最大或者用区域平均来替换整个局部区域的值，保证平移不变性和一定程度上对过拟合的压制）之后“深度”的话，就会需要对池化后的结果继续用不同的卷积核进行“卷积+relu”再池化的工作。

最后得到的实质是一个图片的深度特征，然后实际分类需要另外加一层，一般是softmax。

（也就是说如果对一个现成的已经训练完毕的卷积神经网络模型，只保留除了最后一层之外的部分，然后输入训练图片，把网络的输出重新送入一个多类的SVM再训练，最后也能得到差不多的结果，取决于svm的参数。）

谷歌人工智能写作项目：小发猫

深度学习之损失函数与激活函数的选择

深度学习之损失函数与激活函数的选择在深度神经网络（DNN）反向传播算法(BP)中，我们对DNN的前向反向传播算法的使用做了总结rbsci。其中使用的损失函数是均方差，而激活函数是Sigmoid。

实际上DNN可以使用的损失函数和激活函数不少。这些损失函数和激活函数如何选择呢？以下是本文的内容。MSE损失+Sigmoid激活函数的问题先来看看均方差+Sigmoid的组合有什么问题。

回顾下Sigmoid激活函数的表达式为：函数图像如下：从图上可以看出，对于Sigmoid，当z的取值越来越大后，函数曲线变得越来越平缓，意味着此时的导数σ′(z)也越来越小。

同样的，当z的取值越来越小时，也有这个问题。仅仅在z取值为0附近时，导数σ′(z)的取值较大。在均方差+Sigmoid的反向传播算法中，每一层向前递推都要乘以σ′(z),得到梯度变化值。

Sigmoid的这个曲线意味着在大多数时候，我们的梯度变化值很小，导致我们的W,b更新到极值的速度较慢，也就是我们的算法收敛速度较慢。那么有什么什么办法可以改进呢？

交叉熵损失+Sigmoid改进收敛速度Sigmoid的函数特性导致反向传播算法收敛速度慢的问题，那么如何改进呢？换掉Sigmoid？这当然是一种选择。

另一种常见的选择是用交叉熵损失函数来代替均方差损失函数。每个样本的交叉熵损失函数的形式：其中，?为向量内积。

这个形式其实很熟悉，在逻辑回归原理小结中其实我们就用到了类似的形式，只是当时我们是用最大似然估计推导出来的，而这个损失函数的学名叫交叉熵。

使用了交叉熵损失函数，就能解决Sigmoid函数导数变化大多数时候反向传播算法慢的问题吗？我们来看看当使用交叉熵时，我们输出层δL的梯度情况。

对比一下均方差损失函数时在δL梯度使用交叉熵，得到的的δl梯度表达式没有了σ′(z)，梯度为预测值和真实值的差距，这样求得的Wl,bl的梯度也不包含σ′(z)，因此避免了反向传播收敛速度慢的问题。

通常情况下，如果我们使用了sigmoid激活函数，交叉熵损失函数肯定比均方差损失函数好用。

对数似然损失+softmax进行分类输出在前面我们都假设输出是连续可导的值，但是如果是分类问题，那么输出是一个个的类别，那我们怎么用DNN来解决这个问题呢？

DNN分类模型要求是输出层神经元输出的值在0到1之间，同时所有输出值之和为1。很明显，现有的普通DNN是无法满足这个要求的。但是我们只需要对现有的全连接DNN稍作改良，即可用于解决分类问题。

在现有的DNN模型中，我们可以将输出层第i个神经元的激活函数定义为如下形式：这个方法很简洁漂亮，仅仅只需要将输出层的激活函数从Sigmoid之类的函数转变为上式的激活函数即可。

上式这个激活函数就是我们的softmax激活函数。它在分类问题中有广泛的应用。将DNN用于分类问题，在输出层用softmax激活函数也是最常见的了。

对于用于分类的softmax激活函数，对应的损失函数一般都是用对数似然函数，即：其中yk的取值为0或者1，如果某一训练样本的输出为第i类。则yi=1,其余的j≠i都有yj=0。

由于每个样本只属于一个类别，所以这个对数似然函数可以简化为：可见损失函数只和真实类别对应的输出有关，这样假设真实类别是第i类，则其他不属于第i类序号对应的神经元的梯度导数直接为0。

对于真实类别第i类，它的WiL对应的梯度计算为：可见，梯度计算也很简洁，也没有第一节说的训练速度慢的问题。

当softmax输出层的反向传播计算完以后，后面的普通DNN层的反向传播计算和之前讲的普通DNN没有区别。梯度爆炸or消失与ReLU学习DNN，大家一定听说过梯度爆炸和梯度消失两个词。

尤其是梯度消失，是限制DNN与深度学习的一个关键障碍，目前也没有完全攻克。什么是

最低0.47元/天解锁文章

小浣熊的技术

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
卷积的平移不变性公式,卷积减少参数的方法

上世纪60年代，Hubel等人通过对猫视觉皮层细胞的研究，提出了感受野这个概念，到80年代，Fukushima在感受野概念的基础之上提出了神经认知机的概念，可以看作是卷积神经网络的第一个实现网络，神经认知机将一个视觉模式分解成许多子模式（特征），然后进入分层递阶式相连的特征平面进行处理，它试图将视觉系统模型化，使其能够在即使物体有位移或轻微变形的时候，也能完成识别。卷积神经网络(ConvolutionalNeuralNetworks,CNN)是多层感知机(MLP)的变种。
复制链接

扫一扫

小浣熊的技术 CSDN认证博客专家 CSDN认证企业博客

码龄2年

257: 原创

103万+: 周排名

231万+: 总排名

33万+: 访问

: 等级

2945: 积分

328: 粉丝

44: 获赞

14: 评论

339: 收藏

私信

关注

热门文章

最新评论

神经网络算法入门书籍,bp神经网络算法的优点
m0_72819507: 请问这本书叫什么呢？还有请问利用单因素试验数据在matlab训练bp神经网络之后如何得出一组最佳的仿真参数呢？感谢您
python实现简单的神经网络,python实现神经网络算法
sjq131313: 无用内容
图像识别最好的算法,图片相似度识别算法
存雪: 你的文档结构性太差，阅读起来很不方便。看完了，学到了一些东西，但就是我说的问题，希望能优化一下
图像识别最好的算法,图片相似度识别算法
m0_71020588: SOS：找朋友圈的小伙伴们请教一下，如何实现实时摄像头画面下，打开一本纸质书的任意一个页面，被某种视觉技术（模型、算法，包括但不限于，比如Python Yolo v5）进行图像识别、目标侦测，然后自动快速匹配到后端服务器的与纸质书配套的电子版的同一个页面，并且在前端屏幕上打开，满屏展示，//// 想在想有项目上实现以上功能，技术栈electron+vue3( ts 、node) , 谈好价格，可以在云队友等平台接单。亲人们，请帮我转发，谢了！————我的微信，xiaobai47007
python 全栈开发百度网盘,python全栈开发实战pdf
送你一匹马09: 人家就是骗点击的。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。