论文链接:http://www.jiqizhixin.com/wp-content/uploads/2015/11/5.-LSTM_-A-Search-Space-Odyssey-.pdf
摘要
本文首次对语音识别、手写识别和复调音乐建模这三个具有代表性的任务中的八个LSTM变体进行了大规模分析。使用随机搜索对每个任务的所有LSTM变体的超参数分别进行优化,并使用FANOVA框架评估其重要性。我们总结了5400次实验运行(约15年的CPU时间)的结果。
我们的结果表明,没有一种变体能够显著改善标准LSTM架构,并证明遗忘门和输出激活功能是其最关键的组成部分。我们进一步观察到,所研究的超参数实际上是独立的,并为它们的有效调整提供了指导。
Vanilla LSTM
它具有三个门(输入、忘记和输出)、块输入、单个单元(恒定误差旋转木马)、输出激活功能和窥视孔连接。块的输出反复连接到块输入和所有的门。下面给出香草LSTM层向前通道的矢量公式。
这里xt是t时刻的输入向量,W是矩形输入权重矩阵,R是平方递归权重矩阵,p是窥视孔权重向量,b是偏移向量。函数σ、g和h是点态非线性函数:logistic-sigmoid用作门的激活函数,双曲正切通常用作块的输入和输出激活函数。两个向量的逐点乘