论文精读
文章平均质量分 87
论文精读
笑傲江湖2023
这个作者很懒,什么都没留下…
展开
-
论文精读(2)—基于稀疏奖励强化学习的机械臂运动规划算法设计与实现(内含实现机器人控制的方法)
而DDPG算法利用Actor 网络去拟合某状态下选择某动作时能获得的Q值,找到该状态下最大 Q 值对应的动作,输出的是确定性动作,因此能够用来处理连续控制性问题。DQN算法的动作空间为有限个动作构成,依靠计算每一个动作的Q值选择最大Q值对应的动作,其网络输出是离散的动作价值分布,无法处理连续控制性问题。:引入运动学奖励(计算当前机械臂关节角相对于最终期望角度的差距,此处是因为作者认为单纯的距离无法完全涵盖探索过程),以及常用的稀疏奖励 、距离奖励、单步奖励(描述相邻两步探索相对目标的距离变化情况 )原创 2023-09-24 17:23:27 · 493 阅读 · 0 评论 -
论文精读(1)《轮式移动采摘机器人控制与故障检测研究》
基于SE_ResGNet34 网络和 DarkNet53 网络,对火龙果分类,在此基础上,研究 SE_ResGNet34 体系下增加的 SE_ResNet模块对分类结果的影响,进一步和其他算法对比,包括SSD、RetinaNet、Efficientdet-D0、YOLOv4、Faster R-CNN等。对于导航任务,强化学习在不需要先验知识的基础上就可以建立精确的数学模型,但面对外部环境的状态和动作空间连续或过多时,会导致强化学习的训练时间变长、收敛速度变慢。原创 2023-09-23 21:50:01 · 127 阅读 · 0 评论