对于paper不能掉以轻心的态度,还是要好好阅读。
现在的文章各种方法都很多,一定要善于总结。
A Modular Task-oriented Dialogue System Using a Neural Mixture-of-Experts
gating network:
h是所有专家算出来的state和y概率分布的coXncat,经过全连接得到 u l u_l ul, β l \beta^l βl是第 l l l个专家占的比重, u b T u_b^{T} ubT感觉有问题不太明白没看代码。总的来说是专家意见的加权。
loss包含了各个专家的训练loss(chair的单独训练loss也包括)、chair和experts训练loss。加权。
对比模型,只有attnS2S。主要分析各成分的贡献。
metrics:
Inform:The fraction of responses that provide a correct/appropriate entity out of all responses.(就是说是否给出实体,而下面要求实体还符合用户需求)
Success