需要了解POMDP
问题:
(b)end-to-end比 (a)不同成分分开训练 的结果好。
a的时候上游组件的问题可能传递到下游的开始; Moreover, each component in the pipeline is ideally re-trained as preceding components are updated, so that we have inputs similar to the training examples at run-time. 不明白。
背景:
-
KB知识图谱主要用在语义理解,语音槽的确定
论文(End-to-End Reinforcement Learning of Dialogue Agents for Information Access学习)说明知识图谱的作用:系统将slot的值放到数据库,1)搜索相关的元素确定slot中value的值,2)捕捉相关信息,增强对话的信息量, -
置信度:答案和问题匹配程度
slot中的value可能有多个候选项,然后每个候选项有一个置信度,取最高值?
创新点:
首次,先使用SL再使用RL,提升 task成功率和对话长度。
状态追踪的优化在RL中完成。
在KB中搜索结果时: we use symbolic query and leave the selection of KB entities to external services (e.g. a recommender system), as entity ranking in real world systems can be made with much richer feature sets (e.g. user profiles, location and time context, etc.).不明白
-
SL模型框架:
PolicyNet是MLP网络,加上softmax函数。
可以看出PolicyNet的输入参数有: 对话状态(说的话),最可能的槽值对表示,KB查询结果。 -
RL框架:
-
使用softmax-policy,在
-
softmax-policy:
和Gauissan policy的区别
实验结果:
成功率,对话长度
人工评判
附:
https://blog.csdn.net/bbbeoy/article/category/7401593强化学习的优秀笔记