1. 循环神经网络的基本结构
维护一个状态作为下一步的额外输入
每一步使用同样的激活函数
2. 为什么需要循环神经网络——序列式问题
1对多:图片生成描述
多对1: 文本分类(文本情感分析)
实时多对多:视频解说
多对多: encoding-decoding,机器翻译
3. 循环神经网络
(1)字符语言模型:
预测下一个字符
词典:[j, e, p]
样本:jeep
进一步地:Test time,上一步输出作为下一步输入
(2)循环神经网络的传播
Tanh输出在-1和1之间
梯度消失
较远的步骤梯度贡献很小
切换其它激活函数后,可能也会导致爆炸
改进1:
4. 多层网络与双向网络
(1)多层网络
(2)双向网络
另一路以未来状态为输入
两个状态拼接后进入输出层
进一步提高表达能力
无法实时输出结果
5. 长短期记忆网络(LSTM)
(1) 为什么需要LSTM
(2)LSTM 模型结构
6. 文本分类
(1) LSTM文本分类
(2) 双向LSTM文本分类器
(3) HAN文本分类
(4) CNN 文本分类
(5) R-CNN文本分类
双向RNN提取特征
CNN进一步抽取
Max-pooling
全连接层
(6) Embedding 压缩
Embedding层数参数过大:无法实用,过拟合