Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning
?world model和policy model都是从human那里学习,为什么一个是imitation一个是supervised -> 只是起名不同
?world model通过real experience在进行学习,学到什么? policy特别不会的地方,从而针对policy model生成针对弱点的句子?-> world model就是simulator,学习user的模式吧。
步骤.4.使用q-learning,The function Q(·) is parameterized by a Multi-Layer Perceptron (MLP) parameterized by
θ Q \thet
DDQ升级版
最新推荐文章于 2024-06-12 10:01:29 发布
本文介绍了Switch-based Active Deep Dyna-Q (DDQ) 方法,这是一种为任务完成对话策略学习实现高效自适应规划的技术。世界模型和策略模型都从人类交互中学习,世界模型作为模拟器,捕捉用户行为模式,以帮助策略模型针对其弱点生成训练样本。DDQ利用Q-learning,并通过高斯分布进行主动采样,根据模型在验证集上的误差率和样本数量调整采集策略。当模拟器得分低于阈值时,会触发策略更新。该方法改进了DDQ,不仅适时插入模拟器训练,还规定了模拟器训练时间并采用高斯分布采样来进化数据。
摘要由CSDN通过智能技术生成