Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记

最新推荐文章于 2024-09-09 20:21:30 发布

Tianchao龙虾

最新推荐文章于 2024-09-09 20:21:30 发布

阅读量662

点赞数 1

分类专栏：激活函数文章标签：神经网络深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/116590046

版权

激活函数专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Mish: A Self Regularized Non-Monotonic Activation Function

论文链接： https://arxiv.org/abs/1908.08681 BMVC 2020

一、 Problem Statement

对swish的一个提升。

二、 Direction

提出一个self regularized non-monotonic self gating 激活函数。

三、 Method

函数本体是:
$f(x)=x\tanh(softplus(x))=x\tanh(ln(1+e^x))$
范围在 $[\approx-0.31, \infty]$ 。

一阶导数为:

$f'(x)=\frac{e^x \omega}{\delta^2}$

其中 $\omega=4(x+1)+4e^{2x}+e^{3x}+e^{x}(4x+6)$ ， $\delta=2e^x+e^{2x}+2$

来看看其样式:

Mish保留了small amount of negative information, 消除了Dying ReLU现象。这个性质有助于更好的表达性和信息传递。Mish也避免了saturation, 这个饱和状态会使得训练变慢。所谓的saturation,就是激活函数值接近边界的时候，它们的梯度为0，也就是反向传播的时候梯度消失。

上图例：左边是Sigmoid，右边是tanh。所以为了防止saturation，必须对于权重矩阵初始化特别留意。比如，如果初始化权重过大，那么大多数神经元将会饱和，导致网络就几乎不学习了。

作者也比较了Mish的其他优点:

随着网络层增加，accuracy下降的不多。
增加高斯噪声到输入，mish相对于Swish和ReLU，loss较小。
初始化对精度影响较Swish小。

四、 Conclusion

一个新型的激活函数，提升了网络的性能。在YOLOv4等检测器上都使用了。

五、 Reference

https://zhuanlan.zhihu.com/p/67054518
https://www.zhihu.com/question/48010350/answer/109446932

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mish: A Self Regularized Non-Monotonic Activation Function 论文笔记

Mish: A Self Regularized Non-Monotonic Activation Function论文链接： https://arxiv.org/abs/1908.08681 BMVC 2020一、 Problem Statement对swish的一个提升。二、 Direction提出一个self regularized non-monotonic self gating 激活函数。三、 Method函数本体是:f(x)=xtanh⁡(softplus(x))=xtanh⁡
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。