卷积神经网络CNN已经足够强大,为什么还需要RNN?
RNN的独特价值
卷积神经网络 – CNN 和普通的算法大部分都是输入和输出的一一对应,也就是一个输入得到一个输出。不同的输入之间是没有联系的。
比如下图中的X1和X2互换一下位置,对结果是没有任何影响的。
可是还存在这样场景,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。如白雪和雪白就是两种不同的意思。
基于序列的模型可以用在很多领域中。
在音乐中,一首曲子的下一个音符肯定取决于前面的音符,而在视频领域,电影中的下一帧肯定与先前的帧有关。
此外,在某些情况下,视频的当前帧、单词、字符或音符不仅仅取决于过去的信号,而且还取决于未来的信号。
例如,如果你想写一个文档,单词的顺序很重要,当前的单词肯定取决于以前的单词。如果把注意力放在文字写作上…一个单词中的下一个字符取决于之前的字符(例如,The quick brown f…,下一个字母是 o 的概率很高),如下图所示。关键思想是在给定上下文的情况下产生下一个字符的分布,然后从分布中取样产生下一个候选字符:
- 关于“The quick brown fox”句子的预测示例
一个简单的变体是存储多个预测值,并创建一个预测扩展树,如下图所示:
这种需要处理 序列数据 (一串相互依赖的数据流) 的场景就需要使用 RNN 来解决了。
RNN的原理
回顾一下传统神经网络的结构,如下图,比较简单地分为:输入层 – 隐藏层 – 输出层。
RNN 跟传统神经网络最大的区别在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。如下图所示:
把上图按照时间线展开就得到( X t X_t Xt代表t时刻的X值,U是输入层到隐藏层的权重矩阵,o也是一个向量,它表示输出层的值;V是隐藏层到输出层的权重矩阵。):
也许第一次看到会有点难以理解,网络在t时刻接收到输入 X t X_t Xt 之后,隐藏层的值是 S t S_t St ,输出值是