趁暑假有空,在实验室机械臂上复现OpenAI Fetch中的一项任务:FetchPickAndPlace-v0
根据原论文的提示,在原DDPG算法的基础上引入HER机制,解决了在探索环境(step>40)中奖励稀疏,难以收敛的问题,但是原任务默认是以初始几步抓中小方块为开始
在此基础上引入先验经验,即将任务完整:先抓随机小方块,再到随机终点处
因此,结合DDPG+HER+模仿学习(行为克隆,BC)成功在xarm6机械臂上完成整个任务
理论全过程,可参考论文:https://arxiv.org/pdf/1509.02971.pdf
估计也没人看,就留个实验结果的视频吧:复现 DDPG+HER+模仿学习(行为克隆,BC)
下一个实验要么复现VPG,要么引入避障试试(´・_・`),有错的大家可以指出来