深度学习(十)之序列建模:循环和递归网络②

本文继续简述上一篇的内容:

深度学习(十)之序列建模:循环和递归网络①

10.6 递归神经网络

递归神经网络代表循环网络的另一个扩展,它被构造为深的树状结构而不是RNN的链状结构,因此是不同类型的计算图。递归网络的典型计算图如下图所示。

0?wx_fmt=png

递归网络已成功地应用于输入是数据结构的神经网络,如自然语言处理和计算机视觉。

递归网络的一个明显优势是,对于具有相同程度τ的序列,深度可以急剧地从τ减少为σ(log τ),这可能有助于解决长期依赖。一个悬而未决的问题是如何以最佳的方式构造树。一种选择是使用不依赖于数据的树结构,如平衡树。

10.7 长期依赖的挑战

学习循环网络长期依赖的数学挑战。根本问题是,经过许多阶段传播后的梯度倾向于消失(大部分情况)或爆炸(很少,但对优化过程影响很大)。即使我们假设循环网络是参数稳定的(可存储记忆,且梯度不爆炸),但长期依赖的可能来自比短期相互作用指数小的权重。

10.8 回声状态网络

0?wx_fmt=png 到 0?wx_fmt=png 的的权重映射以及从0?wx_fmt=png 到 0?wx_fmt=png 的输入权重映射是循环网络中最难学习的参数。

为了避免这种困难的方法时设定循环隐藏单眼,使其能很好地捕捉过去输入历史,并且值学习了输出权重。回声状态网络或ESN,以及流体状态机分别独立地提出了这种想法。

ESN和流体状态机都被称为储层计算,因为隐藏单元形成了可能捕获输入历史不同方面的临时特征池。储层计算循环网络类似于核机器,这是思考它们的一种方式:它们将任意长度的序列(到时刻t的输入历史)映射为一个长度给定的向量,之后可以施加一个线性预测算子(通常是一个线性回归)以解决感兴趣的问题。训练准则就可以很容易地设计为输出权重的凸函数。

10.9 渗漏单元和其他多时间尺度的策略

处理长期依赖的一种方法时设计工作在多个时间尺度的模型,使模型的某些部分粒度时间尺度上操作并能处理小细节,而其他部分在粗时间尺度上操作并能把遥远过去的信息更有效地传递过来。存在多种同时构建粗细时间尺度的策略。这些策略包括在时间轴增加跳跃连接,“渗漏单元”使用不同时间常数整合信号,并去除一些用于建模细粒度时间尺度的连接。

10.9.1 时间维度的跳跃连接

增加从遥远过去的变量到目前变量的直接连接是得到粗时间尺度的一种方法。在普通的循环网络中,循环从时刻t的单元连接到时刻t+1单元。构造较长的延迟循环网络是可能的。

10.9.2 渗漏单元和一系列不同时间尺度

我们对某些v值应用更新0?wx_fmt=png 积累一个滑动平均值0?wx_fmt=png ,其中α是一个从0?wx_fmt=png0?wx_fmt=png 线性自连接的例子。当α接近1时,滑动平均值能记住过去很长一段时间的信息,而当α接近0时,关于过去的信息被迅速丢弃。线性自连接的隐藏单元可以模拟滑动平均的行为。这种隐藏单元称为渗漏单元。

我们可以通过两种基本策略设置渗漏单元使用的时间常数。一直策略是手动将其固定为参数,例如在初始化时从某些分布采样他们的值。另一种策略是使时间常数为自由变量,并学习出来。在不同时间尺度使用这样的渗漏单元似乎能帮助学习长期依赖。

10.9.删除链接

处理长期依赖另一种方法时再多个时间尺度组织尺度组织RNN状态的想法,信息在较慢的时间尺度上更容易长距离流动。

这个想法与值几钱讨论的时间维度上的跳跃连接不同,因为它涉及主动删除长度为1的理解并用更长的连接替换他们。以这种方式修改的单元被迫在长时间尺度上运作。

10.10 长短期记忆和其他门控RNN

实际应用中,最有效的序列模型称为门控RNN。包括基于长短期记忆和基于门控循环单元的网络。

像渗漏单元单元应用,门控RNN想法也是基于生成通过时间的路径,其中导数既不消失也不发生爆炸。渗漏单元通过手动选择常量的连接权重或参数化的连接权重来达到这一目的。门控RNN将其推广为在每个时间步都可能改变的连接权重。

10.10.1 LSTM

引入自喜欢的巧妙构思,以产生梯度长时间持续流动的路径是初始长短期记忆(LSTM)。其中一个关键扩展是使自喜欢的权重重视上下文而定,若不是固定的。门控此自循环的权重,累积的时间尺度可以动态地改变。在这种情况下,即使是给定参数的LSTM,累积的时间尺度也可以因输入序列而改变,因为时间参数是模型本身的输出。

10.10.2 其他门控RNN

门控RNN其单元也被称为门控循环单元或GRU。与LSTM的主要区别是,单个门控单元同时控制遗忘因子和更新状态单元的决定。

10.11 外显记忆

智能需要知识并且可以通过消息获取知识,这已促使大型深度架构的发展。然而,知识是不同的并且种类繁多。有些知识是隐含的、潜意识的并且难以用语言表达——比如怎样行走或狗与猫的样子有什么不同。其他知识可以是明确的、可陈述的以及可以相对简单地使用词语表达——每天常识性的知识,如“猫是一种动物”。

神经网络擅长存储隐性知识,但是他们很难记住事实。被存储在神经网络参数中之前,随机梯度下降需要多次提供系统的输入,即使如此,该输入也不会被特别地存储。为了解决这一难题,Weston引入了记忆网络,其中包括一组可以通过寻址机制来访问的记忆单元。记忆网络原本需要监督信号指示他们如何使用自己的记忆单元。Graves引入的神经网络图灵机,不需要明确的监督指示采取哪种行动而能学习从记忆单元读写任意内容,并通过使用基于内容的软注意机制,允许端到端的训练。这种软寻址机制已成为其他允许基于梯度优化的模拟算法机制的相关架构的标准。

0?wx_fmt=png

外显记忆的方法如上图说明,其中我们可以看到与存储器耦接的“任务神经网络”。虽然这一任务神经网络可以是前馈或循环的,但整个系统是一个循环网络。

循环神经网络提供了将深度学习扩展到序列的一种方法。它们是我们的深度学习工具箱中最后一个主要工具。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值