训练一个DDPG强化学习模型作为机械臂加工等受外力情况下减少机械臂路径误差的控制器遇到的问题
我在Simulink中训练强化学习模型来做机械臂的端到端控制,机械臂的控制目标是在TCP 受外力情况下,尽可能降低TCP的路径误差。我的强化学习模型action输出值为关节力矩, 观察值是机械臂的关节角度,角速度,action的输入关节力矩,奖励函数是基于TCP和位置误差,isdone函数是基于TCP位置误差和TCP的速度。训练的采样时间是0.02s,整个仿真时间是20s。问题在于当开始训练时,每一个episode运行1,2个step, 也就是跑1-2个采样时间就结束了,然后就进入到下一个episode中。 机械臂无法充分被训练。想问一下这个原因是什么谢谢