训练一个DDPG强化学习模型作为机械臂加工等受外力情况下减少机械臂路径误差的控制器遇到的问题

训练一个DDPG强化学习模型作为机械臂加工等受外力情况下减少机械臂路径误差的控制器遇到的问题

我在Simulink中训练强化学习模型来做机械臂的端到端控制,机械臂的控制目标是在TCP 受外力情况下,尽可能降低TCP的路径误差。我的强化学习模型action输出值为关节力矩, 观察值是机械臂的关节角度,角速度,action的输入关节力矩,奖励函数是基于TCP和位置误差,isdone函数是基于TCP位置误差和TCP的速度。训练的采样时间是0.02s,整个仿真时间是20s。问题在于当开始训练时,每一个episode运行1,2个step, 也就是跑1-2个采样时间就结束了,然后就进入到下一个episode中。 机械臂无法充分被训练。想问一下这个原因是什么谢谢

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值