解决问题:
新的slot作为数据库搜索参数;领域迁移难、学习更快
背景:
-
置信状态
bg是置信对话状态中与语义槽无关的部分,bi是置信状态中与第 i 个语义槽相关的部分。 -
可能的动作集合为A
Ag是可能的对话动作中与语义槽无关的动作的集合,Ai是可能的动作中与第 i 个语义槽相关的对话动作的结合。 -
DSTC数据集:
每个分为label和log;
label:直接是json形式:
槽已经处理好了。
创新点:
-
多智能体对话策略
本文根据是否和语义槽相关的置信状态和动作状态,提出了类似原理的多agent训练。
有一个agent是和状态无关的,其他的都相关。然后 agent之间共享参数,我觉得像是增加了参数。