Highway Networks网络详解

最新推荐文章于 2025-02-20 12:31:24 发布

will-wil

最新推荐文章于 2025-02-20 12:31:24 发布

阅读量6.4k

点赞数 5

分类专栏： nlp学习笔记文章标签：网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/121119622

版权

nlp学习笔记专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一种基于门机制的神经网络结构——Highway Network。该网络解决了传统神经网络随深度增加而难以训练的问题，通过引入transform gate和carry gate，允许部分输入直接传递，简化优化过程并加速深层网络的收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

神经网络的深度对模型效果有很大的作用，可是传统的神经网络随着深度的增加，训练越来越困难，这篇paper基于门机制提出了Highway Network，使用简单的SGD就可以训练很深的网络，而且optimization更简单，甚至收敛更快。

1.传统的神经网络

传统的神经网络对输入使用一个非线性变换 H 来得到输出output，公式如下：

其中x表示网络输入，WH表示网络权重。

2.Highway Network

Highway Network基于门机制引入了transform gate T 和carry gate C ，输出output是由tranform input和carry input组成。

简单理解，可以把C设置为1-T，式子中各向量维度相同，公式变为：

特别的，原式子可变换成以下形式：

雅可比变换得到

可以看到Highway Network其实就是对输入一部分进行处理（和传统神经网络相同），一部分直接通过。

其中T函数可设置为 $T(x)=\sigma (W_{T}^{T}x+b_{T})$ ，一般设置 $b_{T}$ 为负值（例如-1，-3），使得网络初始的时候更偏向carry behavior. 还有一个比较有意思的是 , 公式（4）永远都不会是True，这就使得highway network的behavior介于transform和carry之间。

在实验中还发现将 $b_{T}$ 设置成负值，即是网络层数很深，用各种各样的方法初始化用不同的激活函数都可以让网络高效的学习。

论文对比了不同网络深度Highway Networks与普通神经网络的区别。

可以看到，随着网络深度的逐渐增加，Highway Networks能够更好的optimize，收敛也更快了，整体来看高速网络最大的意义在于：跳过没有用的层，加快信息传递，而这种没有用的层在深度网络和简单任务中是非常常见的。

原论文地址：https://arxiv.org/pdf/1505.00387.pdf

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。