循环神经网络 – Recurrent Neural Network | RNN

本文深入探讨循环神经网络(RNN)的原理和价值,特别是其在处理序列数据上的优势。RNN通过将前一时刻的输出作为当前时刻的输入,形成时间上的依赖关系。然而,标准RNN在长距离依赖问题上表现不佳,为了解决这个问题,文章介绍了LSTM(长短时记忆网络),LSTM通过门控机制有效管理信息流,能更好地处理长期依赖性。此外,RNN在音乐、视频和文本生成等领域有广泛应用。
摘要由CSDN通过智能技术生成

卷积神经网络CNN已经足够强大,为什么还需要RNN?

RNN的独特价值

卷积神经网络 – CNN 和普通的算法大部分都是输入和输出的一一对应,也就是一个输入得到一个输出。不同的输入之间是没有联系的。

比如下图中的X1和X2互换一下位置,对结果是没有任何影响的。
在这里插入图片描述

可是还存在这样场景,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。如白雪和雪白就是两种不同的意思。

基于序列的模型可以用在很多领域中。

在音乐中,一首曲子的下一个音符肯定取决于前面的音符,而在视频领域,电影中的下一帧肯定与先前的帧有关。
此外,在某些情况下,视频的当前帧、单词、字符或音符不仅仅取决于过去的信号,而且还取决于未来的信号。

例如,如果你想写一个文档,单词的顺序很重要,当前的单词肯定取决于以前的单词。如果把注意力放在文字写作上…一个单词中的下一个字符取决于之前的字符(例如,The quick brown f…,下一个字母是 o 的概率很高),如下图所示。关键思想是在给定上下文的情况下产生下一个字符的分布,然后从分布中取样产生下一个候选字符:
关于the quick brown fox的句子预测示例

  • 关于“The quick brown fox”句子的预测示例

一个简单的变体是存储多个预测值,并创建一个预测扩展树,如下图所示:
在这里插入图片描述
这种需要处理 序列数据 (一串相互依赖的数据流) 的场景就需要使用 RNN 来解决了。

RNN的原理

回顾一下传统神经网络的结构,如下图,比较简单地分为:输入层 – 隐藏层 – 输出层。
在这里插入图片描述

RNN 跟传统神经网络最大的区别在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。如下图所示:

在这里插入图片描述

把上图按照时间线展开就得到( X t X_t Xt代表t时刻的X值,U是输入层到隐藏层的权重矩阵,o也是一个向量,它表示输出层的值;V是隐藏层到输出层的权重矩阵。):
在这里插入图片描述
也许第一次看到会有点难以理解,网络在t时刻接收到输入 X t X_t Xt 之后,隐藏层的值是 S t S_t St ,输出值是

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值