DDQ升级版

最新推荐文章于 2024-06-12 10:01:29 发布

zixufang

最新推荐文章于 2024-06-12 10:01:29 发布

阅读量320

点赞数

分类专栏：对话系统&强化学习（2）

本文链接：https://blog.csdn.net/yagreenhand/article/details/100864222

版权

本文介绍了Switch-based Active Deep Dyna-Q (DDQ) 方法，这是一种为任务完成对话策略学习实现高效自适应规划的技术。世界模型和策略模型都从人类交互中学习，世界模型作为模拟器，捕捉用户行为模式，以帮助策略模型针对其弱点生成训练样本。DDQ利用Q-learning，并通过高斯分布进行主动采样，根据模型在验证集上的误差率和样本数量调整采集策略。当模拟器得分低于阈值时，会触发策略更新。该方法改进了DDQ，不仅适时插入模拟器训练，还规定了模拟器训练时间并采用高斯分布采样来进化数据。

摘要由CSDN通过智能技术生成

Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning

？world model和policy model都是从human那里学习，为什么一个是imitation一个是supervised -> 只是起名不同
？world model通过real experience在进行学习，学到什么？ policy特别不会的地方，从而针对policy model生成针对弱点的句子？-> world model就是simulator，学习user的模式吧。

步骤.4.使用q-learning，The function Q(·) is parameterized by a Multi-Layer Perceptron (MLP) parameterized by $\thet$