主要讲两类聊天机器人
1、闲聊机器人
(1)基于seq2seq模型的对话系统:根据前一句来生成后一句的回复,对话的回答局限性大,缺少对整个对话的评估,且容易陷入死循环。
(2)基于DRL的对话系统:利用强化学习对当前生成的各种回复评估,选择reward值最高的句子。评估方式根据应用场景不同,可以设计不同的评估函数。
(3)GAN和RL结合的对话系统:生成器生成对话,判别器评估每种结果的reward,其中各种可能的结果是采用MCTS或者策略梯度的方式。
2、面向任务的聊天机器人
(1)基于DQN的对话系统:DM模块采用DQN模型可能结果的reward值。