一、RNN网络结构
与时间有关的反向传播(每次不同)
损失函数
实验其实不容易跑,因为他的损失函数曲线幅度很大
画出来差不多是这个样子。突然一下升高是因为从右到左碰到陡峭的地方梯度一下变大了,所以弹回去了。
原作者在训练时加上了小技巧——clipping:设置一个峰值,若超过则等于该峰值。
梯度大的原因:
- 当W>1时,微小的变化会引起很大的变化;
- 当w<1时,较大的变化带来的变化也很小。
RNN一些有用的变形
LSTM以及简化为双门的GRU
Clockwise RNN && SCRN
多对一
多长对多短
这里是最后删去重复的字符
改加上null符号后,可以实现一些叠词
CTC方法
多对多(无限制)
加上一个断的符号,可以及时终止
可以用在机器学习上
语法分析
自动编码器
可以提高传输效率和节约成本
可用于文本、音频
可以通过音频做一些相似性搜索
训练过程
向量可视化
实例:Chat-bot
基于注意力的模型
增加了能够存储的能力
拥有阅读理解能力/问答能力
视觉问答
语音问答
模型架构
RNN vs Structured Learning
结合使用
与GAN做对比
以后会开一门新课,专门讲结构化学习