两篇论文之CNN中正交操作

最新推荐文章于 2023-12-30 16:48:54 发布

zhuiqiuk

最新推荐文章于 2023-12-30 16:48:54 发布

阅读量212

点赞数

分类专栏： deep learning-paper CNN-net-structure

deep learning-paper 同时被 2 个专栏收录

82 篇文章 2 订阅

订阅专栏

CNN-net-structure

31 篇文章 1 订阅

订阅专栏

CNN的权值正交性和特征正交性，在一定程度上是和特征表达的差异性存在一定联系的。

　　下面两篇论文，一篇是在训练中对权值添加正交正则提高训练稳定性，一篇是对特征添加正交性的损失抑制过拟合。

第一篇：Orthonormality Regularization

Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation[J]. 2017.

contributions

作者针对较深较宽网络训练困难（梯度弥散和爆炸），信号在网络传输不够稳定，提出了两点：

1.强调Conv+BN+ReLU这种module在训练中的必要性

2.提出一种权值的（Orthonormality Regularization）正交正则

另附BN层作用

BN能保证输入和输出的分布一致，从而避免出现梯度弥散和梯度爆炸的情况。

使用公式说明：

技术分享图片

当w的N次方过小或者过大时，会出现对应的梯度弥散和梯度爆炸。
而经过BN处理后，会生成均值为0，方差为1的高斯分布（假设输入是高斯分布），从而解决了w的尺度所带来的问题。

Orthonormality Regularization

　　y = WTx，如果||y|| = ||x||，则我们称这种线性变化是保范的，等价条件是W属于正交矩阵，如下式推导：

　　即可计算出正交正则，用于替代SGD中的L2 正则：

技术分享图片

experiments

采用44层的残差网络在CIFAR-10数据集上进行训练和测试。两组实验进行对比：
1. 正交初始化+正交正则
2. msra初始化+L2正则

权值非相关性变化过程:
计算网络中各同层卷积核之间的相似度的平均值，作为网络的权值相关系数

技术分享图片

技术分享图片

最终性能结果：

技术分享图片

第二篇：DeCov Loss

Cogswell M, Ahmed F, Girshick R, et al. Reducing Overfitting in Deep Networks by Decorrelating Representations[J]. Computer Science, 2015.

a conference paper at ICLR 2016

　　　作者发现特征相关性较大时，特征差异小，模型泛化较差。而常用的增强泛化的方法是，提高样本多样性和dropout。

contributions

　　提出DeCov Loss增强特征的非相关性，提高模型泛化性能

特征相关性和泛化性能关系的讨论

　　特征相关性，使用特征的协方差矩阵C的Frobenius范数作为指标。用以下指标描述第i个和第j个激活值的相关性。值越大，相关性越大。

　　泛化性能，使用训练准确率和验证准确率的差值作为指标，差值越小说明泛化越好。

技术分享图片

Decov Loss

矩阵的C的Frobenius范数：

技术分享图片

协方差：

反应两组随机变量的相关性，相关系数如下，其中，等于0即为完全非相关，等于1为完全相关。

技术分享图片

当特征完全非相关的理想情况下，协方差矩阵C是一个对角阵。便有了以下的loss：

技术分享图片

对应的梯度计算是：

　　技术分享图片

experiments

使用NIN网络，DeCov作用于avg pool层，DeCov Loss和dropout搭配使用泛化性能更好

技术分享图片

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
两篇论文之CNN中正交操作

CNN的权值正交性和特征正交性，在一定程度上是和特征表达的差异性存在一定联系的。　　下面两篇论文，一篇是在训练中对权值添加正交正则提高训练稳定性，一篇是对特征添加正交性的损失抑制过拟合。第一篇：Orthonormality RegularizationXie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring ...
复制链接

扫一扫

专栏目录

zhuiqiuk CSDN认证博客专家 CSDN认证企业博客

码龄16年

62: 原创

4万+: 周排名

53万+: 总排名

140万+: 访问

: 等级

1万+: 积分

269: 粉丝

355: 获赞

169: 评论

1455: 收藏

私信

关注

热门文章

分类专栏

最新评论

SVD(奇异值分解)算法_计算任意N*M矩阵_C语言代码
无限迭代: 这SVD咋分解的为啥和教材上的方法不一样看不懂啊
对比度受限的自适应直方图均衡化(CLAHE)（转）
CSDN-Ada助手: 非常感谢CSDN博主分享《对比度受限的自适应直方图均衡化(CLAHE)（转）》这篇博客，这篇文章很详细地介绍了CLAHE的原理和实现方法。我觉得博主可以继续写关于图像增强的技术文章，比如基于深度学习的图像增强算法，这样的技术文章对其他用户学习图像处理和深度学习都非常有帮助。相信会有更多读者期待您的下一篇技术博文。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
多目标跟踪：SORT和Deep SORT
thinwrist: half
C3D-Resnet C3D-Version 2 --论文笔记--ConvNet Architecture Search for Spatiotemporal Feature Learning
Paula___: https://readpaper.com/pdf-annotate/note?pdfId=4498414347268808705&noteId=745867688349483008 这是我找到的
GPU 显存不足怎么办？
didadifish: 有些模型不支持多卡并行训练

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。