背景:与北邮同学交流之后
收获:
目前RL成功的是用在玩游戏下象棋上,每一步是一个action,比如走一步棋。
而RL用在对话上时,整体架构还是LSTM,LSTM-decoder每一步输出的是一个单词,当输出完毕连起来才是一句完整的agent回复,然后具体来说算loss的时候是每个句子整体+1-1.所以象棋里的一步应该对应decoder整体的一句话。
新的脑洞:
先直接生成未知句子的embedding,然后通过embedding生成回复的语句。至于语句的reward还需要细化。
反馈:
之前看论文确实太不细致;
回看李纪为论文
查找机器翻译的loss是什么样的,