p范数门控《Faster Training of Very Deep Networks Via p-Norm Gates》读后总结

p范数门控《Faster Training of Very Deep Networks Via p-Norm Gates》读后总结

前言
这是一些对于论文《Faster Training of Very Deep Networks Via p-Norm Gates》的简单的读后总结,首先先奉上该文章的下载超链接:p范数门控

这篇文章是由Deakin University, Geelong Australia的Center for Pattern Recognition and Data Analytics部门的人员合作完成的,作者分别是Trang Pham、Truyen Tran、Dinh Phung和Svetha Venkatesh。其提出了p范数门控的思想,通过将普通门控(gates)改为p范数门控,使得网络能更快收敛且结果更好。

文章主要内容与贡献

该文章的贡献为:

  1. 提出了p范数门控。

提出了p范数门控

文中指出,带有门控的优秀网络——Highway Networks和GRU共同使用的一个约束就是:
在这里插入图片描述
以此为引,作者尝试将该约束改为:
在这里插入图片描述
这样,固定 α 1 = 0.9 \alpha_1=0.9 α1=0.9,当 p = 1 p=1 p=1时, α 2 = 0.1 \alpha_2=0.1 α2=0.1;当 p = 2 p=2 p=2时, α 2 = 0.4359 \alpha_2=0.4359 α2=0.4359;当 p = 5 p=5 p=5时, α 2 = 0.865 \alpha_2=0.865 α2=0.865;当 p → ∞ p\rightarrow\infty p时, α 2 → 1 \alpha_2\rightarrow1 α21。即p越大,门控允许流过的信息就越多。

接下来简单的看一下实验:
在这里插入图片描述
上述实验是用换成p范数门控的Highway Networks来在两个大型UCI数据集:图(a)MiniBooNE粒子识别(MiniBooNE particle identification,MiniBoo)和图(b)无传感器驱动诊断(Sensorless Drive Diagnosis,Sensorless)上来做的实验。由上可知p在等于3时收敛最快计算结果最好,p在小于1时效果差。

下述实验室带p范数门控的GRU:

在这里插入图片描述
数据集是 UCI 路透社的数据集,其中包含 50 位作者的文章写作版画。图(a)是训练集上的学习曲线;图(b)是每字符位测量验证集的结果。可以看见由上可知p在等于3时收敛最快计算结果最好,p在小于1时效果差。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值