自己实现LSTM—报错思考—小记
解决方法(任选一个)implemented using pytorch模型继承Module,每次输入LSTM一个词向量,生成的state信息用list存储,结果取最后[-1],缺点是效率较低,需要存储过多无用信息(即不覆盖之前生成的hidden和cell)模型继承Function,定义一个层,把LSTM看作一个函数,forward中累计保存对w和x等变量的梯度,可以避免存储无用的信息,backward中直接返回相应的梯度(直接实现函数Function,手动求导,可以无视是否覆盖已生成的变量)
复制链接