第二张图是错的, 文字可以参考 b t , t ′ b^{t,t'} bt,t′ 也可以通过其它映射方式计算, 比如用 tanh 函数. 这里的 a t a^t at 应该指的是 RNN 的输出, 而不是状态值或其他的.