word embedding sequence representation
RNN
权值共享 weight sharing
用梯度下降更新权值
RNN layer的使用
nn.RNN(input_size,hidden_size,num_layers)
out, ht = forward(x, h0)
nn.RNNCell 更加灵活,手动喂多次
梯度弥散梯度爆炸
梯度爆炸 p.graf.norm() 查看梯度的模
解决方法gradient clipping: torch.nn.utils.clip_grad_norm_ ()
梯度弥散 LSTM解决 grandient visualization
LSTM 能够增加记忆长度
forget gate / input gate /output gate
求偏导的时候计算梯度是四项累加而不是累乘,梯度弥散/爆炸的可能性很小
nn.LSTM
nn.LSTMCell