对话系统论文集（4）-liubing-end-to-end

最新推荐文章于 2023-06-16 22:33:46 发布

zixufang

最新推荐文章于 2023-06-16 22:33:46 发布

阅读量185

点赞数

分类专栏：对话系统&强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yagreenhand/article/details/87901116

版权

对话系统&强化学习专栏收录该内容

32 篇文章 3 订阅

订阅专栏

需要了解POMDP

问题：
（b）end-to-end比（a）不同成分分开训练的结果好。
a的时候上游组件的问题可能传递到下游的开始； Moreover, each component in the pipeline is ideally re-trained as preceding components are updated, so that we have inputs similar to the training examples at run-time. 不明白。
背景：

KB知识图谱主要用在语义理解，语音槽的确定
论文（End-to-End Reinforcement Learning of Dialogue Agents for Information Access学习）说明知识图谱的作用：系统将slot的值放到数据库，1）搜索相关的元素确定slot中value的值，2）捕捉相关信息，增强对话的信息量，
置信度：答案和问题匹配程度
~~slot中的value可能有多个候选项，然后每个候选项有一个置信度，取最高值？~~

创新点：
首次，先使用SL再使用RL，提升 task成功率和对话长度。
状态追踪的优化在RL中完成。
在KB中搜索结果时： we use symbolic query and leave the selection of KB entities to external services (e.g. a recommender system), as entity ranking in real world systems can be made with much richer feature sets (e.g. user profiles, location and time context, etc.).不明白

SL模型框架：

PolicyNet是MLP网络，加上softmax函数。
可以看出PolicyNet的输入参数有: 对话状态（说的话），最可能的槽值对表示，KB查询结果。
RL框架：
使用softmax-policy，在
softmax-policy:

和Gauissan policy的区别
在这里插入图片描述
实验结果：
成功率，对话长度
人工评判

附：
https://blog.csdn.net/bbbeoy/article/category/7401593强化学习的优秀笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。