本实验的硬件设备为intel i5 11代CPU,RTX3060显卡,数字孪生系统搭建平台为unity2021版,强化学习训练平台为Anaconda。本实验选取的机械臂模型为工业领域常见的KUKA六轴机械臂模型,如下图所示。
KUKA六轴机械臂模型图
抓取目标为一立方体。限制条件如下:
- 待抓取目标的初始位置为距机械臂原点15cm(孪生系统中虚拟环境的距离数据)处,当待抓取目标被机械臂末端触碰到之后便随机更改位置,更改位置的范围限定在以初始位置为中心的10×5的矩形范围内。
- 设置机械臂各个关节之间为可配置铰链连接,并且参照物理模型的运动规律对每个关节转动的范围进行角度限制。
- 设置强化学习的初始参数为
表1 强化学习主要参数配置表
参数名称 | 参数值 |
batch_size | 1024 |
buffer_size | 20480 |
learning_rate | 0.0003 |
beta | 0.001 |
epsilon | 0.2 |
图5 本实验训练过程图
训练过程如下图所示:
可以看到在训练过程中机械臂在空间中随机运动,目标物体在被触碰之后会变更位置。
经过一小时的训练,训练效果如图所示:
初步实现了强化学习在机械臂上的应用。 可以通过多个机械臂共同训练来提高训练效率。
项目的demo链接https://download.csdn.net/download/wobuheniwanla/85437580