对话系统论文集(4)-liubing-end-to-end

需要了解POMDP

问题:
(b)end-to-end比 (a)不同成分分开训练 的结果好。
a的时候上游组件的问题可能传递到下游的开始; Moreover, each component in the pipeline is ideally re-trained as preceding components are updated, so that we have inputs similar to the training examples at run-time. 不明白。
背景:

  • KB知识图谱主要用在语义理解,语音槽的确定
    论文(End-to-End Reinforcement Learning of Dialogue Agents for Information Access学习)说明知识图谱的作用:系统将slot的值放到数据库,1)搜索相关的元素确定slot中value的值,2)捕捉相关信息,增强对话的信息量,

  • 置信度:答案和问题匹配程度
    slot中的value可能有多个候选项,然后每个候选项有一个置信度,取最高值?

创新点:
首次,先使用SL再使用RL,提升 task成功率和对话长度。
状态追踪的优化在RL中完成。
在KB中搜索结果时: we use symbolic query and leave the selection of KB entities to external services (e.g. a recommender system), as entity ranking in real world systems can be made with much richer feature sets (e.g. user profiles, location and time context, etc.).不明白

  • SL模型框架:
    在这里插入图片描述在这里插入图片描述
    PolicyNet是MLP网络,加上softmax函数。
    可以看出PolicyNet的输入参数有: 对话状态(说的话),最可能的槽值对表示,KB查询结果。

  • RL框架:

  • 使用softmax-policy,在

  • softmax-policy:

和Gauissan policy的区别
在这里插入图片描述
实验结果:
成功率,对话长度
人工评判

附:
https://blog.csdn.net/bbbeoy/article/category/7401593强化学习的优秀笔记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值