DDQ升级版

本文介绍了Switch-based Active Deep Dyna-Q (DDQ) 方法,这是一种为任务完成对话策略学习实现高效自适应规划的技术。世界模型和策略模型都从人类交互中学习,世界模型作为模拟器,捕捉用户行为模式,以帮助策略模型针对其弱点生成训练样本。DDQ利用Q-learning,并通过高斯分布进行主动采样,根据模型在验证集上的误差率和样本数量调整采集策略。当模拟器得分低于阈值时,会触发策略更新。该方法改进了DDQ,不仅适时插入模拟器训练,还规定了模拟器训练时间并采用高斯分布采样来进化数据。
摘要由CSDN通过智能技术生成

Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning

?world model和policy model都是从human那里学习,为什么一个是imitation一个是supervised -> 只是起名不同
?world model通过real experience在进行学习,学到什么? policy特别不会的地方,从而针对policy model生成针对弱点的句子?-> world model就是simulator,学习user的模式吧。

步骤.4.使用q-learning,The function Q(·) is parameterized by a Multi-Layer Perceptron (MLP) parameterized by θ Q \thet

% 建立模型 syms q1 q2 dq1 dq2 ddq1 ddq2 L1 L2 m1 m2 g real % 定义质心位置 p1 = [L1/2*cos(q1); L1/2*sin(q1)]; p2 = [L1*cos(q1) + L2/2*cos(q1+q2); L1*sin(q1) + L2/2*sin(q1+q2)]; % 定义动能和势能 T = 1/2 * m1 * (dq1^2 + dq2^2) + 1/2 * m2 * (dq1^2 + dq2^2 + 2*dq1*dq2*cos(q2)) + 1/2 * I2 * dq2^2; U = m1 * g * p1(2) + m2 * g * p2(2); % 求解拉格朗日方程 L = T - U; eq1 = diff(diff(L,dq1),t) - diff(L,q1) == ddq1; eq2 = diff(diff(L,dq2),t) - diff(L,q2) == ddq2; % 将方程化简为控制方程 f1 = simplify(solve(eq1, ddq1)); f2 = simplify(solve(eq2, ddq2)); % 定义参数 L1 = 1; L2 = 0.5; m1 = 1; m2 = 0.5; g = 9.8; % 初始化神经网络 net = fitnet([10 5]); % 生成训练数据 q1 = linspace(-pi/2, pi/2, 100); q2 = linspace(-pi/2, pi/2, 100); dq1 = linspace(-pi, pi, 100); dq2 = linspace(-pi, pi, 100); ddq1 = zeros(1, 100); ddq2 = zeros(1, 100); u = zeros(1, 100); for i = 1:100 ddq1(i) = eval(subs(f1)); ddq2(i) = eval(subs(f2)); u(i) = m2 * L1 * dq1(i)^2 * sin(q2(i)) + m2 * L2 * dq2(i)^2 * sin(q2(i)) + m2 * g * L1 * cos(q1(i)) * sin(q2(i)) + m2 * g * L2 * cos(q1(i) + q2(i)) * sin(q2(i)); end % 训练神经网络 input = [q1; q2; dq1; dq2]; target = u; net = train(net, input, target); % 使用神经网络进行控制 q1 = pi/4; q2 = pi/6; dq1 = 0; dq2 = 0; t = 0; dt = 0.01; for i = 1:1000 ddq1 = eval(subs(f1)); ddq2 = eval(subs(f2)); u = sim(net, [q1; q2; dq1; dq2]); dq1 = dq1 + ddq1 * dt; dq2 = dq2 + ddq2 * dt; q1 = q1 + dq1 * dt; q2 = q2 + dq2 * dt; t = t + dt; end % 绘制结果 figure plot(q1, q2) xlabel('q1') ylabel('q2') title('Robot Trajectory')
06-13
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值